Agent思维模式 | 评估-北京尧图网络科技有限公司

发布时间：2026/6/17 11:52:50

Agent思维模式ReAct、Plan and Execute、ReflectionAgent 处理任务时的不同推理与执行策略概念全称特点ReActReasoningAndAct边规划、边执行Plan and Execute-先规划、后执行Reflection-反思机制ReActReasoning and ActReAct 是Reasoning and Act的缩写本质上是一种**边规划边执行**的混合模式交替进行推理Reasoning与行动Acting交替执行即时调整根据当前执行结果动态调整后续计划适合复杂任务能够处理需要综合分析和多步骤执行的问题处理流程用户输入 → LLM分析问题 ↓ 推理 (Reasoning) → 行动 (Act) → 推理 → 行动 → ... ↓ 返回结果Plan and Execute先规划后执行与 ReAct 不同Plan and Execute 采用**两阶段分离**的策略阶段一先完整规划整个任务流程阶段二再按计划顺序执行更适合任务边界清晰、步骤可预见的场景用户输入 → 完整规划 (Plan) ↓ 按顺序执行 (Execute) ↓ 返回结果Reflection反思Reflection 即反思是 Agent 的一种自我修正机制对执行结果进行评估识别错误或不足调整策略后重新执行维度ReActPlan and ExecuteReflection执行顺序边想边做先想后做做完后想灵活性高中需要其他模式配合计算成本中低视情况而定适用场景动态、复杂任务明确、线性任务错误修正、自我优化Agent EvaluationEvaluation-评估是对Agent进行系统性评价的过程由于Agent基于LLM生成答案其评估标准并非放之四海而皆准而是需要根据不同的应用场景和落地方向进行针对性设计。为什么要评估评估的目的不仅仅是区分能用和不能用这通常是暂时性判断更核心的目的是通过评估进行调优。具体来说发现问题所在指导进一步优化方向建立更细致、更深入的评估流程这一思维方式适用于所有软件工程类和科研类项目。例如一个可运行的游戏虽然功能正常但仍可优化代码降低CPU/内存占用、减少网络流量消耗。评估的两种类型端对端评估从用户视角出发评估Agent从输入到输出是否合格。这是基础层面的判断如果连基本匹配都做不到Agent本身就不可用。非端对端评估步骤级评估针对工作流中的具体步骤进行分析和调优。典型工作流包括阶段描述分析LLM分析用户输入理解用户目的/企图Planner规划执行步骤1、2、3、4、5…执行逐个执行每个步骤如RAG查询、搜索网页、调用工具、写本地文件等注如果是ReAct等推理模式可能会有更多的循环由LLM自主决策下一步。如何做评估最简单的端对端评估可以用表格形式呈现序号InputOutputGround Truth标准答案Score评分1…………2…………3…………评估的具体方式不必拘泥重点是建立一套符合落地场景的具体标准用以判断Agent的输出是否正确。核心要点评估标准需要根据应用场景定制评估的真正目的是调优而非简单的通过/失败判断端对端评估看整体非端对端评估看细节两种评估结合使用才能全面提升Agent质量

相关新闻

2026/6/14 16:54:27

Jetson Orin部署YOLOv11：推理速度提升3倍的完整指南

Jetson Orin部署YOLOv11：推理速度提升3倍的完整指南适合人群：需要把YOLOv11部署到边缘设备的工程师阅读时间：约14分钟目标硬件：Jetson Orin Nano / Orin NX / Orin AGX 前言把模型从训练机搬到Jetson上跑，很多同学第一步就卡住了——环境怎么装、模型怎么转换、速度怎…

相关新闻

Jetson Orin部署YOLOv11：推理速度提升3倍的完整指南

AI智能体项目的开发流程

类器官培养新选择：InSphero Gri3D水凝胶微腔板如何实现标准化3D细胞培养与高通量研究？

操作系统页式虚拟内存实现：从原理到实践，详解缺页处理与页表管理

Destiny 2 Solo Enabler：掌握命运2单人游戏体验的终极指南

一键捕获完整网页：3分钟解决长网页截图的终极方案

终极中文文献管理指南：Jasminum插件3分钟快速上手教程

ZYNQ7000 EMMC/SD硬件测试实战：从裸机读写到文件系统集成

2026年度前端重构与效能前瞻：主流AI工具多维测评与选型指南

别再只用BERT了！用Transformers库的AutoModel，5分钟搞定文本相似度计算（附代码对比）

Prompt Engineering：重构人机协作的工程化方法论

Anthropic提示层归零：模型即协议的工程实践

Alice-Tools：解密AliceSoft游戏文件的终极工具集

基于Python的酒店预订管理系统设计与实现

生成式引擎优化GEO，原来选对服务商这么重要？

GIT修改用户名

Win11Debloat：让你的Windows系统重获新生的终极优化工具

技术深度解析：m4s-converter实现原理与B站缓存视频转换最佳实践