发布时间:2026/6/14 1:14:45
美团 LongCat 团队推出 WBench:为 AI 视频世界模型评测带来新范式
美团 LongCat 团队推出 WBench为 AI 视频世界模型评测带来新范式AI 视频进化速度惊人是否想过走进 AI 生成的世界美团 LongCat 团队为搞清相关问题提出首个面向交互式视频世界模型的系统性多轮评测基准 WBench它像“CT 扫描仪”能精准定位世界模型问题。用 WBench 对 20 个前沿模型包括 Kling 3.0、HY - World 1.5、Genie 3 等进行“扫描”有如下核心发现不存在全能模型不同模型各有专长导航是独立技能与视频画质关系不大多轮交互是核心难点所有模型连续交互后表现变差导航能力平均分下降 33 点开源模型在特定能力上表现出色如 HY - World 1.5 导航能力突出。01 WBench 如何测出问题能得出上述结论得益于 WBench 的核心设计。一个强大的世界模型评测框架应包含世界定义、指令集、统一交互接口和评测套件四大核心要素。WBench 基于此理念构建其设计蓝图展示如下1.1 全面多样的“测试用例”WBench 包含 289 个测试案例和 1058 个交互轮次覆盖丰富的世界定义和指令集。你可让 AI 在未来感城市穿梭或置身流动油画能选择成为游戏主角以第三人称视角掌控也能化身第一人称探索世界。1.2 交互方式在舞台上设计丰富的“剧本”WBench 设计了导航、主体动作、事件编辑和视角切换四种核心交互方式可自由组合形成复杂多轮任务。比如可让角色完成特定动作、改变环境、切换视角等。通过“舞台”与“剧本”分离设计WBench 实现对视频质量、设定遵循度、交互遵循度、一致性、物理真实性五个维度的精准测量更多硬核指标实现细节可访问[项目主页](https://meituan-longcat.github.io/WBench/)。02 核心洞察用数据看清模型“短板”WBench 用数据揭示问题根源。从具体模型表现看“谁最强”答案是“看情况”若追求模型精准理解想法Kling 3.0 和 Wan 2.7 是第一梯队在设定遵循度和主体动作/事件编辑上表现突出。若想要丝滑运镜和精准导航控制专用世界模型优势明显HY - World 1.5 和 Genie 3 领先。在保持一致性上LingBot - World 表现突出。在物理真实性方面Wan 2.7 表现最佳。所有模型都面临视角切换难题平均分仅 30.7技术远未成熟。洞察一导航能力为何与其他维度“脱钩”相关性矩阵图显示导航与其他维度相关系数接近零说明当前模型学习渲染世界时没学会可控移动。原因是导航依赖独立的“空间状态表示”能力其他能力依赖通用生成先验即模型“知道”世界样子但不“理解”自身位置和方向。洞察二模型在多轮交互中如何“迷路”图展示模型连续交互中能力衰减情况导航曲线“雪崩式”下跌从第一轮到第四轮及以后分数下降 33 点证明位姿误差逐轮累积是迭代式生成范式的结构性缺陷。洞察三并非所有“世界”都生而平等分析发现不同世界设定有结构性难度差异如第一人称视角让导航容易但保持场景设定难动物主体因复杂动态性对模型挑战大。03 WBench 的价值定义下一代评测范式3.1 范式转移从“被动生成”到“主动交互”WBench 不仅是评测工具更代表研究范式演进。与同类基准对比它是唯一真正统一的评测基准覆盖开放域、双视角、四种交互类型和多轮闭环评测首次实现对不同输入范式模型的统一评测打破技术流派壁垒。3.2 可靠性验证与人类偏好高度对齐WBench 自动评分结果与 400 名人类标注者的偏好判断高度一致Spearman ρ ≥ 0.94证明其准确性和可靠性。04 总结与展望WBench 的提出是迈向“交互世界”的尝试揭示当前技术边界。它已开源欢迎所有世界模型来跑分。PaperGitHubHomePageHuggingFace

相关新闻

公交终端接入银联商务的SDK开发包(含国密SM4、8583报文与HTTPS通信支持)
2026/6/12 22:57:15

公交终端接入银联商务的SDK开发包(含国密SM4、8583报文与HTTPS通信支持)

本文还有配套的精品资源,点击获取 简介:面向车载POS、扫码盒子、NFC公交终端等嵌入式设备,提供开箱即用的银联商务公交支付接入能力。内置SSL/TLS加密库(libcrypto.a、libssl.a)和HTTP通信模块(libcurl.…

阅读更多
抖音无水印下载器实战指南:从单视频到批量归档的完整技术方案
2026/6/12 22:57:15

抖音无水印下载器实战指南:从单视频到批量归档的完整技术方案

抖音无水印下载器实战指南:从单视频到批量归档的完整技术方案 【免费下载链接】douyin-downloader A practical Douyin downloader for both single-item and profile batch downloads, with progress display, retries, SQLite deduplication, and browser fallbac…

阅读更多
Unity螺旋下落游戏完整工程:含跳跃逻辑、平台生成与摄像机跟随
2026/6/12 22:57:15

Unity螺旋下落游戏完整工程:含跳跃逻辑、平台生成与摄像机跟随

本文还有配套的精品资源,点击获取 简介:一个开箱即用的Helix Jump风格Unity项目,结构规范,包含Assets、ProjectSettings等标准目录,支持主流Unity版本直接打开编译运行。核心功能已实现:基于物理的球体跳…

阅读更多
MuleSoft驱动的企业级AI编排:LLM与业务系统深度集成实践
2026/6/14 0:57:30

MuleSoft驱动的企业级AI编排:LLM与业务系统深度集成实践

1. 项目概述:当企业级集成平台遇上大语言模型“AI Orchestration in Action: How MuleSoft and LLMs Fuel the Future of Enterprise AI”——这个标题不是一句空泛的营销口号,而是我在过去18个月里亲手搭建、上线并持续迭代的三个核心生产系统的统一命名…

阅读更多
数据反熵自动化:构建可自愈的数据一致性系统
2026/6/14 0:57:30

数据反熵自动化:构建可自愈的数据一致性系统

1. 项目概述:这不是“数据修复”,而是让系统自己学会“纠错”和“自愈”“Data Anti-Entropy Automation”——这个标题乍看像学术论文里的术语,但在我过去十年带团队做数据平台、治理中台和实时数仓的实战里,它其实对应着一个每天…

阅读更多
Anthropic提示层归零:模型即协议的工程实践
2026/6/14 0:57:30

Anthropic提示层归零:模型即协议的工程实践

1. 项目概述:这不是一次普通更新,而是一次架构级“蒸发”“Anthropic Just Shipped the Layer That’s Already Going to Zero”——这个标题一出来,我正在调试一个Claude调用链的终端前停了三秒。不是因为震惊,而是因为熟悉&…

阅读更多
Prompt Engineering:重构人机协作的工程化方法论
2026/6/14 0:57:30

Prompt Engineering:重构人机协作的工程化方法论

1. 项目概述:这不是“写提示词”,而是重构人机协作的底层逻辑“Prompt Engineering”这个词,这两年被讲得太多,也太轻飘。很多人把它理解成“给AI发指令的技巧”,甚至简化为“多加几个形容词”“换种说法再试一次”。我…

阅读更多
别再只用BERT了!用Transformers库的AutoModel,5分钟搞定文本相似度计算(附代码对比)
2026/6/14 0:57:30

别再只用BERT了!用Transformers库的AutoModel,5分钟搞定文本相似度计算(附代码对比)

超越BERT:用Transformers库高效实现文本相似度计算的三种实战方案在自然语言处理领域,文本相似度计算是信息检索、问答系统和推荐系统等应用的核心技术。传统方法如TF-IDF或Word2Vec已逐渐被基于Transformer的预训练模型所取代。Hugging Face的Transform…

阅读更多
美国政府禁 Fable/Mythos,AI 市场或生变,大语言模型未来使用成谜?
2026/6/13 23:57:30

美国政府禁 Fable/Mythos,AI 市场或生变,大语言模型未来使用成谜?

美国政府禁 Fable/Mythos,AI 市场或将生变,未来大语言模型使用成谜?本来周五我打算放松一下,一边让智能代理帮我写代码,一边和朋友们看足球赛。我最近在做有趣的 HTML 游戏,还写了篇草稿文章探讨如何借助 A…

阅读更多
别再只用BERT了!用Transformers库的AutoModel,5分钟搞定文本相似度计算(附代码对比)
2026/6/14 0:57:30

别再只用BERT了!用Transformers库的AutoModel,5分钟搞定文本相似度计算(附代码对比)

超越BERT:用Transformers库高效实现文本相似度计算的三种实战方案在自然语言处理领域,文本相似度计算是信息检索、问答系统和推荐系统等应用的核心技术。传统方法如TF-IDF或Word2Vec已逐渐被基于Transformer的预训练模型所取代。Hugging Face的Transform…

阅读更多
Prompt Engineering:重构人机协作的工程化方法论
2026/6/14 0:57:30

Prompt Engineering:重构人机协作的工程化方法论

1. 项目概述:这不是“写提示词”,而是重构人机协作的底层逻辑“Prompt Engineering”这个词,这两年被讲得太多,也太轻飘。很多人把它理解成“给AI发指令的技巧”,甚至简化为“多加几个形容词”“换种说法再试一次”。我…

阅读更多
Anthropic提示层归零:模型即协议的工程实践
2026/6/14 0:57:30

Anthropic提示层归零:模型即协议的工程实践

1. 项目概述:这不是一次普通更新,而是一次架构级“蒸发”“Anthropic Just Shipped the Layer That’s Already Going to Zero”——这个标题一出来,我正在调试一个Claude调用链的终端前停了三秒。不是因为震惊,而是因为熟悉&…

阅读更多
别再只用BERT了!用Transformers库的AutoModel,5分钟搞定文本相似度计算(附代码对比)
2026/6/14 0:57:30

别再只用BERT了!用Transformers库的AutoModel,5分钟搞定文本相似度计算(附代码对比)

超越BERT:用Transformers库高效实现文本相似度计算的三种实战方案在自然语言处理领域,文本相似度计算是信息检索、问答系统和推荐系统等应用的核心技术。传统方法如TF-IDF或Word2Vec已逐渐被基于Transformer的预训练模型所取代。Hugging Face的Transform…

阅读更多
Prompt Engineering:重构人机协作的工程化方法论
2026/6/14 0:57:30

Prompt Engineering:重构人机协作的工程化方法论

1. 项目概述:这不是“写提示词”,而是重构人机协作的底层逻辑“Prompt Engineering”这个词,这两年被讲得太多,也太轻飘。很多人把它理解成“给AI发指令的技巧”,甚至简化为“多加几个形容词”“换种说法再试一次”。我…

阅读更多
Anthropic提示层归零:模型即协议的工程实践
2026/6/14 0:57:30

Anthropic提示层归零:模型即协议的工程实践

1. 项目概述:这不是一次普通更新,而是一次架构级“蒸发”“Anthropic Just Shipped the Layer That’s Already Going to Zero”——这个标题一出来,我正在调试一个Claude调用链的终端前停了三秒。不是因为震惊,而是因为熟悉&…

阅读更多
GIT修改用户名
2026/6/13 10:50:23

GIT修改用户名

在GIT中修改用户名可按以下步骤操作: 查看当前git的用户名,使用命令git config --list或git config user.name。修改git用户名,使用命令git config --global user.name "xxx(新的用户名)",将其中…

阅读更多
Win11Debloat:让你的Windows系统重获新生的终极优化工具
2026/6/13 15:45:46

Win11Debloat:让你的Windows系统重获新生的终极优化工具

Win11Debloat:让你的Windows系统重获新生的终极优化工具 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to declutter and …

阅读更多
技术深度解析:m4s-converter实现原理与B站缓存视频转换最佳实践
2026/6/13 11:10:35

技术深度解析:m4s-converter实现原理与B站缓存视频转换最佳实践

技术深度解析:m4s-converter实现原理与B站缓存视频转换最佳实践 【免费下载链接】m4s-converter 一个跨平台小工具,将bilibili缓存的m4s格式音视频文件合并成mp4 项目地址: https://gitcode.com/gh_mirrors/m4/m4s-converter m4s-converter是一个…

阅读更多