发布时间:2026/6/27 5:00:08
NatureBench评估AI Agent:Claude Opus 4.7部分任务超SOTA,但稳定超越能力仍有限
NatureBench评估AI Agent目前的AI Agent能在顶级学术期刊Nature论文的核心实验中超过人类研究者吗过去的评测体系要么侧重论文复现能力衡量是否能够还原已有方法要么关注Kaggle竞赛或模型后训练任务的工程优化能力但仍缺乏对一个更关键问题的系统评估AI Agent是否能够在真实科学论文设定下独立改进方法并超越原论文SOTA。跨学科基准NatureBench针对这一问题清华大学教授、上海人工智能实验室主任周伯文团队及其合作者提出了跨学科基准NatureBench用于评估AI coding Agent在Nature系列论文核心实验中的复现与改进能力。论文链接https://arxiv.org/pdf/2606.24530。结果显示即使是实验中表现最强的Claude Opus 4.7 Claude Code也只在17.8%的任务上实现Surpass - SOTA、在47.8%的任务上达到或超过论文SOTA。这些结果表明当前AI Agent已经能在部分真实科学任务中接近甚至超过原论文结果但稳定超越能力仍然有限。NatureBench的设计NatureBench包含90个真实科学任务、覆盖6大领域的基准其核心是把真实科学论文做成能运行、能评分、也能复现的容器化任务。为此研究团队设计了自动化流程NatureGym一套将Nature系列已发表论文转化为可直接运行的Agent任务的流水线。NatureGym将格式、工具链和数据模态各异的论文统一标准化为同一可复现的任务格式同时设置了一个信息防火墙information firewall对原始方法保密要求Agent自主发现解决方案而非直接复现。评估器、真实标签与SOTA目标均驻留于宿主侧评估服务中Agent无法直接访问。具体流程具体流程分为以下三步第一步是筛选论文。他们从10本Nature系列期刊中收集2022到2025年约5500篇论文去掉新闻、社论、综述等非研究文章再筛出能转成机器学习任务、评估可自动化、数据公开完整且不超过50GB的论文。第二步是获取代码和数据并划定任务起点保证Agent只能从核心算法的输入端开始不能看到中间结果或最终结果。第三步是把论文封装成标准任务包并通过36项自动化检查最后约160个任务包进入后续校准。质量校准任务包构建完成后他们进行了质量校准分两轮检查任务。Base模式用于排查任务定义、评测和环境是否有问题Reproduce模式则让Agent额外看到源论文用来验证任务包是否支持复现原方法。最终NatureBench定稿为90个任务、333个评估实例覆盖6本Nature系列期刊的多个研究方向共涉及81种主要指标。实验结果为统一比较不同任务的结果他们定义了归一化相对差距g。g ≥ 0表示达到或超过论文SOTAg 0.1则算作明确超越。每个任务给Agent留出4小时完成并允许通过评估多次提交查看反馈。任务结束后他们使用Claude Sonnet 4.6做事后检查排除伪造输出、反查答案以及利用反馈机制取巧等行为。研究团队共评测了10款Agent配置覆盖Claude Code、Codex CLI和Gemini CLI三种harness。所有Agent均禁用Web搜索以避免直接检索源论文或数据集内容。整体结果如下在10款配置中Claude Opus 4.7 Claude Code按整体Surpass - SOTA排名第一Surpass - SOTA为17.8%Match - SOTA为47.8%。在提交质量上Claude Opus的两种配置最稳定Completion Rate和Score Rate均为100%没有无效提交GPT - 5.5的Score Rate为98.9%Completion Rate为84.4%还有13次提交被事后judge判定为无效捷径。从任务分布看关系推理的Match - SOTA率最高达到60.0%蛋白质生物学和细胞组学分别为37.5%和35.5%物理建模、分子设计和生物医学建模则分别为26.9%、18.2%和17.9%。此外相比单学科任务跨学科任务的Match - SOTA率和中位g都更低。75个单学科任务的Match - SOTA率为33.1%15个跨学科任务为28.0%中位g分别为 - 0.13和 - 0.21。路径标注与具体案例研究团队还对900次运行进行了路径标注。在达到Match - SOTA的运行中监督代理预测、搜索/调参、工程流水线和预训练/扩展共计占82.7%。在未达到Match - SOTA或没有有效分数的运行中失败更多出现在方法层和执行层分别占61.1%和28.7%其中错误方法选择占45.1%预算或时间不足占24.4%。研究团队还给出了几个具体案例。例如在癌症基因识别任务中Claude Opus 4.7采用ChebNet/GNN集成方法将g值从 - 0.017提升至 0.177达到Match - SOTA水平在基因组序列预测任务中GPT - 5.5共进行了258次提交最佳g值为 - 0.141仍低于SOTA在有机反应产物预测任务中DeepSeek - V4 - Pro使用Seq2Seq反应建模方法Top - 1准确率为58.5%距离原任务90.8%的SOTA水平仍有明显差距。不足与未来方向尽管NatureBench让科学任务评测变得更可执行、更标准化但研究团队也指出这套基准也存在以下不足首先它只覆盖能够被抽象为机器学习任务且可以自动评分的核心定量问题。湿实验验证、纯理论推导、硬件或物理交互类研究以及依赖人工判断或外部服务评分的贡献NatureBench都未涉及。其次研究团队指出部分任务并非完整复现整篇论文而是抽取其中一个核心实验进行评测。这些任务仍对应论文中的关键定量问题但只覆盖部分实验实例和指标。因此NatureBench衡量的是Agent在具体任务上的表现而不是对原论文全部贡献的完整评价。此外统一的4小时墙钟预算和单卡设置也可能影响部分任务的完成度。研究团队观察到失败案例主要源于方法选择不当和执行深度不足其中一部分与计算资源或时间预算受限有关。部分失败并不完全反映Agent对任务理解不足也可能源于既定资源约束下的方法探索和执行不足。NatureBench基于公开论文和公开数据构建尽管研究团队通过禁用Web搜索、设置隐藏评测服务并使用post - hoc judge过滤投机式提交但仍然存在数据泄露方面的隐患。最后g值本身也有解释边界。当论文SOTA已经接近指标上限时普通性能差距可能被放大为较大的负值而单一主指标也可能只覆盖原论文多目标评估的一部分。因此未来需更强调Surpass - SOTA、Match - SOTA和中位数表现而不是只看平均分。当然研究团队也指出了几个可能的未来研究方向。例如扩大任务覆盖范围从单个核心实验进一步走向更完整的论文复现设计更细分的资源预算区分短时、长时、单卡和多卡设置改进评测判定方式更清楚地区分理解错误、方法选择错误、执行不足和资源受限带来的失败引入更丰富的实验实例和指标让评测结果更接近真实科研复现中的复杂度。

相关新闻

【2026】CAD Electrical 2027下载安装教程和使用教程(附安装包)电气控制设计入门到精通,收藏这一篇就够了
2026/6/27 5:00:08

【2026】CAD Electrical 2027下载安装教程和使用教程(附安装包)电气控制设计入门到精通,收藏这一篇就够了

文章目录前言CAD Electrical 2027 下载CAD Electrical 2027 安装教程CAD Electrical 2027电气符号怎么调出来?原理图设计操作教程前言 AutoCAD Electrical(CAD电气版)是Autodesk旗下专门面向电气控制设计领域的一款专业软件。它在完整保留Au…

阅读更多
福州橱柜定制怎么选?从豪宅案例看高定木作的真实差距
2026/6/27 4:00:08

福州橱柜定制怎么选?从豪宅案例看高定木作的真实差距

厨房是家里使用频率最高的空间,橱柜定制也因此成为全屋定制里最考验功力的项目。一套好的橱柜,不仅要颜值在线,更要收纳合理、五金耐用、防潮性好,能用十几年不出问题。福州作为湿度偏高的南方城市,对橱柜的工艺和安装…

阅读更多
第41期 | 项目1:AI知识库产品
2026/6/27 4:00:08

第41期 | 项目1:AI知识库产品

第41期 | 项目1:AI知识库产品 🎯 今天你将学会 从产品视角设计一个 AI 知识库产品(不只是技术实现)产品级开发的项目规划方法(需求→设计→实现→测试→部署)实现完整的 AI 知识库:文档管理 …

阅读更多
商超照明节能改造ROI怎么算?以4000㎡超市为例拆解
2026/6/27 6:00:08

商超照明节能改造ROI怎么算?以4000㎡超市为例拆解

商超照明节能改造,老板最关心一个问题:投多少钱,省多少钱,多久回本? 《2026商超照明节能降本白皮书——抓住政策红利,加速绿色升级》给出了详细测算。本文从技术角度拆解计算逻辑。 一、基准数据 以4000㎡标…

阅读更多
2026权威个人AI编程入门完整指南|零基础也能上手Vibe Coding
2026/6/27 6:00:08

2026权威个人AI编程入门完整指南|零基础也能上手Vibe Coding

作为一名从游戏行业转后端开发的从业者,我日常靠AI编程工具完成接口开发、数据脚本、SaaS功能迭代,TRAE中文需求理解准确率行业领先,基础版免费就能覆盖新手全部练习需求,刚入门时我第一个实操场景是搭建简易文件上传Node接口&…

阅读更多
2026年靠谱区块链服务商实力与用户口碑深度解析:零数科技跻身前列
2026/6/27 6:00:08

2026年靠谱区块链服务商实力与用户口碑深度解析:零数科技跻身前列

导语在数字经济与实体经济融合的“深水区”,数据孤岛与安全合规的矛盾日益凸显。政企用户在寻求区块链解决方案时,常常面临技术指标不透明、代码自主性存疑的困境。据IDC发布的《中国BaaS市场份额》报告观察,当前市场正在经历从“资源型竞争”…

阅读更多
海外网红营销怎么做?2026 品牌出海完整指南
2026/6/27 6:00:08

海外网红营销怎么做?2026 品牌出海完整指南

2026 年海外红人营销彻底告别粗放投流模式,单一头部达人投放、只看播放量的打法逐渐失效,精细化、去中心化、多平台协同成为行业主流趋势。本文梳理一套从前期规划、达人筛选、内容落地到数据复盘的完整实操体系,适配大中小各类出海品牌。一、…

阅读更多
零代码打通CRM智能体:WorkBuddy ✖️ Cordys CRM Skills,打造个人AI销售助理
2026/6/27 6:00:08

零代码打通CRM智能体:WorkBuddy ✖️ Cordys CRM Skills,打造个人AI销售助理

摘要 传统 CRM 操作繁琐,销售、管理层需要反复切换菜单筛选数据、手动录入跟进记录,效率极低。本文基于开源工具 Cordys CRM Skills,完整讲解如何在 WorkBuddy 中零代码集成 CRM 能力,依托自然语言实现线索、客户、商机、回款全流…

阅读更多
重塑品牌内容价值链:集之互动的AI全链路解法,让每一帧创意都掷地有声
2026/6/27 5:00:08

重塑品牌内容价值链:集之互动的AI全链路解法,让每一帧创意都掷地有声

在数字浪潮与消费主权觉醒的双重驱动下,品牌营销的底层逻辑正在发生剧烈位移。单纯的信息曝光已无法构筑竞争壁垒,取而代之的,是对内容质感、响应速度、个性化触达与场景适配性的全方位考验。传统营销模式——那条依赖人工策划、实景拍摄与多…

阅读更多
嵌入式语音编解码实战:G.726 ADPCM库集成与优化指南
2026/6/25 12:25:54

嵌入式语音编解码实战:G.726 ADPCM库集成与优化指南

1. 项目概述与G.726 ADPCM技术背景在嵌入式语音处理领域,带宽和存储资源往往是寸土寸金的。如果你做过对讲机、VoIP网关或者早期的数字录音设备,一定对如何在有限的比特率下保住语音可懂度这件事深有感触。我当年接手一个车载调度系统的项目,…

阅读更多
ITU656格式化器寄存器配置实战:VBI数据处理与VCR特技播放兼容性
2026/6/25 22:07:52

ITU656格式化器寄存器配置实战:VBI数据处理与VCR特技播放兼容性

1. 项目概述与核心挑战在数字视频处理领域,将原始的视频数据、同步时序以及各种辅助信息打包成一个标准、稳定的串行数据流,是确保设备间互联互通的基础。ITU-R BT.656标准(常简称为ITU656)正是为此而生的一套“交通规则”。它定义…

阅读更多
嵌入式GUI开发实战:emWin环境搭建、配置优化与性能调优指南
2026/6/25 20:03:50

嵌入式GUI开发实战:emWin环境搭建、配置优化与性能调优指南

1. 项目概述与emWin核心价值解析在嵌入式系统开发领域,人机交互(HMI)的设计正从简单的LED指示灯和按键,快速向全彩图形化界面演进。无论是智能家电上的触摸屏、工业PLC的操作面板,还是医疗设备的参数显示,一…

阅读更多
139、飞控中的气压计选型:MS5611、BMP280
2026/6/27 0:00:07

139、飞控中的气压计选型:MS5611、BMP280

飞控中的气压计选型:MS5611、BMP280 从一次炸机说起 去年夏天调试一架四轴,气压计定高模式,悬停时高度波动从0.3米慢慢变成1.5米,最后直接飘到3米开外,切回自稳才救回来。落地一看日志,气压值在起飞后20分钟开始出现周期性跳变,每5秒跳一次,幅度相当于2米高度变化。当…

阅读更多
专业级Iwara视频下载工具深度解析:3大核心特性与架构设计实战指南
2026/6/27 0:00:07

专业级Iwara视频下载工具深度解析:3大核心特性与架构设计实战指南

专业级Iwara视频下载工具深度解析:3大核心特性与架构设计实战指南 【免费下载链接】IwaraDownloadTool Iwara 下载工具 | Iwara Downloader 项目地址: https://gitcode.com/gh_mirrors/iw/IwaraDownloadTool IwaraDownloadTool是一款专为Iwara视频平台设计的…

阅读更多
Iwara视频下载工具:轻松批量下载Iwara平台视频的完整指南
2026/6/27 0:00:07

Iwara视频下载工具:轻松批量下载Iwara平台视频的完整指南

Iwara视频下载工具:轻松批量下载Iwara平台视频的完整指南 【免费下载链接】IwaraDownloadTool Iwara 下载工具 | Iwara Downloader 项目地址: https://gitcode.com/gh_mirrors/iw/IwaraDownloadTool Iwara视频下载工具是一款专为Iwara平台设计的智能下载解决…

阅读更多
GIT修改用户名
2026/6/27 5:38:22

GIT修改用户名

在GIT中修改用户名可按以下步骤操作: 查看当前git的用户名,使用命令git config --list或git config user.name。修改git用户名,使用命令git config --global user.name "xxx(新的用户名)",将其中…

阅读更多
Win11Debloat:让你的Windows系统重获新生的终极优化工具
2026/6/26 13:36:46

Win11Debloat:让你的Windows系统重获新生的终极优化工具

Win11Debloat:让你的Windows系统重获新生的终极优化工具 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and …

阅读更多
技术深度解析:m4s-converter实现原理与B站缓存视频转换最佳实践
2026/6/26 13:36:41

技术深度解析:m4s-converter实现原理与B站缓存视频转换最佳实践

技术深度解析:m4s-converter实现原理与B站缓存视频转换最佳实践 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter m4s-converter是一个…

阅读更多