发布时间:2026/6/17 11:52:50
Agent思维模式 | 评估
Agent思维模式ReAct、Plan and Execute、ReflectionAgent 处理任务时的不同推理与执行策略概念全称特点ReActReasoningAndAct边规划、边执行Plan and Execute-先规划、后执行Reflection-反思机制ReActReasoning and ActReAct 是Reasoning and Act的缩写本质上是一种**边规划边执行**的混合模式交替进行推理Reasoning与行动Acting交替执行即时调整根据当前执行结果动态调整后续计划适合复杂任务能够处理需要综合分析和多步骤执行的问题处理流程用户输入 → LLM分析问题 ↓ 推理 (Reasoning) → 行动 (Act) → 推理 → 行动 → ... ↓ 返回结果Plan and Execute先规划后执行与 ReAct 不同Plan and Execute 采用**两阶段分离**的策略阶段一先完整规划整个任务流程阶段二再按计划顺序执行更适合任务边界清晰、步骤可预见的场景用户输入 → 完整规划 (Plan) ↓ 按顺序执行 (Execute) ↓ 返回结果Reflection反思Reflection 即反思是 Agent 的一种自我修正机制对执行结果进行评估识别错误或不足调整策略后重新执行维度ReActPlan and ExecuteReflection执行顺序边想边做先想后做做完后想灵活性高中需要其他模式配合计算成本中低视情况而定适用场景动态、复杂任务明确、线性任务错误修正、自我优化Agent EvaluationEvaluation-评估是对Agent进行系统性评价的过程由于Agent基于LLM生成答案其评估标准并非放之四海而皆准而是需要根据不同的应用场景和落地方向进行针对性设计。为什么要评估评估的目的不仅仅是区分能用和不能用这通常是暂时性判断更核心的目的是通过评估进行调优。具体来说发现问题所在指导进一步优化方向建立更细致、更深入的评估流程这一思维方式适用于所有软件工程类和科研类项目。例如一个可运行的游戏虽然功能正常但仍可优化代码降低CPU/内存占用、减少网络流量消耗。评估的两种类型端对端评估从用户视角出发评估Agent从输入到输出是否合格。这是基础层面的判断如果连基本匹配都做不到Agent本身就不可用。非端对端评估步骤级评估针对工作流中的具体步骤进行分析和调优。典型工作流包括阶段描述分析LLM分析用户输入理解用户目的/企图Planner规划执行步骤1、2、3、4、5…执行逐个执行每个步骤如RAG查询、搜索网页、调用工具、写本地文件等注如果是ReAct等推理模式可能会有更多的循环由LLM自主决策下一步。如何做评估最简单的端对端评估可以用表格形式呈现序号InputOutputGround Truth标准答案Score评分1…………2…………3…………评估的具体方式不必拘泥重点是建立一套符合落地场景的具体标准用以判断Agent的输出是否正确。核心要点评估标准需要根据应用场景定制评估的真正目的是调优而非简单的通过/失败判断端对端评估看整体非端对端评估看细节两种评估结合使用才能全面提升Agent质量

相关新闻

Jetson Orin部署YOLOv11:推理速度提升3倍的完整指南
2026/6/14 16:54:27

Jetson Orin部署YOLOv11:推理速度提升3倍的完整指南

Jetson Orin部署YOLOv11:推理速度提升3倍的完整指南 适合人群:需要把YOLOv11部署到边缘设备的工程师 阅读时间:约14分钟 目标硬件:Jetson Orin Nano / Orin NX / Orin AGX 前言 把模型从训练机搬到Jetson上跑,很多同学第一步就卡住了——环境怎么装、模型怎么转换、速度怎…

阅读更多
AI智能体项目的开发流程
2026/6/17 3:26:27

AI智能体项目的开发流程

开发一个AI智能体(AI Agent)项目是一个系统性的工程,通常可以分为以下六个核心阶段。一、 需求分析与定义这是项目的起点,决定了智能体的核心价值和研发方向。明确应用场景:确定智能体要解决的具体问题(例如…

阅读更多
类器官培养新选择:InSphero Gri3D水凝胶微腔板如何实现标准化3D细胞培养与高通量研究?
2026/6/11 5:38:18

类器官培养新选择:InSphero Gri3D水凝胶微腔板如何实现标准化3D细胞培养与高通量研究?

摘要 随着类器官和3D细胞培养技术在药物研发、疾病模型构建及精准医学研究中的广泛应用,研究人员对于培养体系的标准化、一致性和自动化能力提出了更高要求。Gri3D水凝胶微腔板(Gri3D Hydrogel Microcavity Plate)是InSphero推出的即用型3D培…

阅读更多
操作系统页式虚拟内存实现:从原理到实践,详解缺页处理与页表管理
2026/6/17 10:58:24

操作系统页式虚拟内存实现:从原理到实践,详解缺页处理与页表管理

1. 项目概述:从“头歌”课堂到页式虚存的内核如果你正在学习操作系统,尤其是内存管理这一块,那么“页式虚存”这个概念绝对是你绕不过去的一道坎。它听起来有点抽象,像是教科书里冷冰冰的理论,但当你真正动手去实现一个…

阅读更多
Destiny 2 Solo Enabler:掌握命运2单人游戏体验的终极指南
2026/6/17 10:58:24

Destiny 2 Solo Enabler:掌握命运2单人游戏体验的终极指南

Destiny 2 Solo Enabler:掌握命运2单人游戏体验的终极指南 【免费下载链接】Destiny-2-Solo-Enabler Repo containing the C# and XAML code for the D2SE program. Included is also the dependency for the program, and image asset. 项目地址: https://gitcod…

阅读更多
一键捕获完整网页:3分钟解决长网页截图的终极方案
2026/6/17 10:58:24

一键捕获完整网页:3分钟解决长网页截图的终极方案

一键捕获完整网页:3分钟解决长网页截图的终极方案 【免费下载链接】full-page-screen-capture-chrome-extension One-click full page screen captures in Google Chrome 项目地址: https://gitcode.com/gh_mirrors/fu/full-page-screen-capture-chrome-extension…

阅读更多
终极中文文献管理指南:Jasminum插件3分钟快速上手教程
2026/6/17 10:58:24

终极中文文献管理指南:Jasminum插件3分钟快速上手教程

终极中文文献管理指南:Jasminum插件3分钟快速上手教程 【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件,用于识别中文元数据 项目地址: https://gitcode.com/gh_mirrors/ja/jasminum 还在为Zotero中…

阅读更多
ZYNQ7000 EMMC/SD硬件测试实战:从裸机读写到文件系统集成
2026/6/17 10:58:24

ZYNQ7000 EMMC/SD硬件测试实战:从裸机读写到文件系统集成

1. 硬件测试环境搭建 第一次拿到ZYNQ7000开发板时,最让人头疼的就是如何快速验证EMMC和SD卡这些存储设备是否正常工作。我清楚地记得当时为了调试一个简单的读写测试,整整折腾了两天。现在把这些经验总结出来,希望能帮你少走弯路。 首先得准…

阅读更多
2026年度前端重构与效能前瞻:主流AI工具多维测评与选型指南
2026/6/17 9:58:24

2026年度前端重构与效能前瞻:主流AI工具多维测评与选型指南

一、 2026 年度前端重构综合推荐池1. 文心快码 (Baidu Comate)作为全栈自动编程智能体领域的代表性工具,文心快码在处理长上下文逻辑解耦与代码可控性上拥有显著的工程化落地优势。权威评估与行业背书: 在权威机构 IDC 的官方评估中,文心快码…

阅读更多
别再只用BERT了!用Transformers库的AutoModel,5分钟搞定文本相似度计算(附代码对比)
2026/6/16 18:17:55

别再只用BERT了!用Transformers库的AutoModel,5分钟搞定文本相似度计算(附代码对比)

超越BERT:用Transformers库高效实现文本相似度计算的三种实战方案在自然语言处理领域,文本相似度计算是信息检索、问答系统和推荐系统等应用的核心技术。传统方法如TF-IDF或Word2Vec已逐渐被基于Transformer的预训练模型所取代。Hugging Face的Transform…

阅读更多
Prompt Engineering:重构人机协作的工程化方法论
2026/6/16 20:00:23

Prompt Engineering:重构人机协作的工程化方法论

1. 项目概述:这不是“写提示词”,而是重构人机协作的底层逻辑“Prompt Engineering”这个词,这两年被讲得太多,也太轻飘。很多人把它理解成“给AI发指令的技巧”,甚至简化为“多加几个形容词”“换种说法再试一次”。我…

阅读更多
Anthropic提示层归零:模型即协议的工程实践
2026/6/17 10:35:40

Anthropic提示层归零:模型即协议的工程实践

1. 项目概述:这不是一次普通更新,而是一次架构级“蒸发”“Anthropic Just Shipped the Layer That’s Already Going to Zero”——这个标题一出来,我正在调试一个Claude调用链的终端前停了三秒。不是因为震惊,而是因为熟悉&…

阅读更多
Alice-Tools:解密AliceSoft游戏文件的终极工具集
2026/6/17 0:58:23

Alice-Tools:解密AliceSoft游戏文件的终极工具集

Alice-Tools:解密AliceSoft游戏文件的终极工具集 【免费下载链接】alice-tools Tools for extracting/editing files from AliceSoft games. 项目地址: https://gitcode.com/gh_mirrors/al/alice-tools 对于AliceSoft游戏爱好者和开发者来说,处理…

阅读更多
基于Python的酒店预订管理系统设计与实现
2026/6/17 0:58:23

基于Python的酒店预订管理系统设计与实现

第1章 绪论1.1 课题背景由于旅游业的发展和互联网技术的不断进步,酒店预订系统已经成为现代旅游业不可或缺的部分,传统的酒店预定方式存在着流程繁琐、效率低等问题,不能满足现代消费者对个性化、便捷化越来越高的需求,因此开发…

阅读更多
生成式引擎优化GEO,原来选对服务商这么重要?
2026/6/17 0:58:23

生成式引擎优化GEO,原来选对服务商这么重要?

引言在当今数字化时代,生成式引擎优化(GEO)已经成为企业提升效率、降低成本的关键技术之一。然而,选择合适的GEO源头服务商却是一个复杂且重要的决策。本文将深入探讨为什么选对GEO服务商如此重要,并提供一些实用的选型…

阅读更多
GIT修改用户名
2026/6/16 5:55:51

GIT修改用户名

在GIT中修改用户名可按以下步骤操作: 查看当前git的用户名,使用命令git config --list或git config user.name。修改git用户名,使用命令git config --global user.name "xxx(新的用户名)",将其中…

阅读更多
Win11Debloat:让你的Windows系统重获新生的终极优化工具
2026/6/16 16:55:24

Win11Debloat:让你的Windows系统重获新生的终极优化工具

Win11Debloat:让你的Windows系统重获新生的终极优化工具 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and …

阅读更多
技术深度解析:m4s-converter实现原理与B站缓存视频转换最佳实践
2026/6/17 4:21:30

技术深度解析:m4s-converter实现原理与B站缓存视频转换最佳实践

技术深度解析:m4s-converter实现原理与B站缓存视频转换最佳实践 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter m4s-converter是一个…

阅读更多