开云·kaiyun体育「中国」官方网站 登录入口

新闻

体育游戏app平台而是一个维度丰富、结构多元的概述评测框架-开云·kaiyun体育「中国」官方网站 登录入口

发布日期:2026-06-02 10:26    点击次数:177

该使命由通用东说念主工智能照拂院 × 北京大学联手打造。第一作家郑欣悦为通用东说念主工智能照拂院照拂员,共团结算作北京大学东说念主工智能照拂院博士生林昊苇,通信作家为北京大学助理训导梁一韬和通用东说念主工智能照拂院照拂员郑子隆。

拓荒能在灵通宇宙中完成种种任务的通用智能体,是AI领域的中枢挑战。灵通宇宙强调环境的动态性及任务的非预设性,智能体必须具备确切的泛化才能才能肃肃支吾。干系词,现存评测体系多受限于任务种种化不及、任务数目有限以及环境单一等身分,难以准确忖度智能体是否确切「矫健」任务,或仅是「记取」了特定解法。

为此,咱们构建了 Minecraft Universe(MCU) ——一个面向通用智能体评测的生成式灵通宇宙平台。MCU 复古自动生成无尽种种的任务成就,覆盖丰富生态系统、复杂任务主义、天气变化等多种环境变量,旨在全面评估智能体的真实才能与泛化水平。该平台基于高效且功能全面的拓荒器具 MineStudio 构建,复古生动定制环境设定,大规模数据集处理,并内置 VPTs、STEVE-1 等主流 Minecraft 智能体模子,显耀简化评测经过,助力智能体的快速迭代与发展。

伸开剩余84%

论文地址:https://arxiv.org/pdf/2310.08367 代码开源:https://github.com/CraftJarvis/MCU 花样主页:https://craftjarvis.github.io/MCU MineStudio:https://github.com/CraftJarvis/MineStudio

🚨灵通宇宙AI,亟需理念念的评测基准!

传统测试基准包含有标准谜底的任务(如代码、推理、问答),但灵通宇宙任务 Minecraft 有着填塞不同的挑战:

主义灵通种种:任务莫得独一解,计谋不错白衣苍狗; 环境景象唠叨:景象空间近乎无尽,复原真实宇宙复杂度; 长周期任务挑战:要害任务抓续数小时,智能体需永远决议。

在这么的环境中,咱们需要的不单是一个评分系统,而是一个维度丰富、结构多元的概述评测框架。

🌌MCU:为灵通宇宙 AI 打造的「全所在试真金不怕火场」

现时已有不少 Minecraft 的测试基准,但它们大量濒临「三大瓶颈」:

任务单一:局限于如挖钻石、制造材料等少数几个场景的月盈则亏。 脱离现实:部分建模任务致使超出了平方东说念主类玩家的才能限度。 依赖东说念主工评测:效果低下,导致评测难以规模化扩充。

与之前 minecraft 测试基准对比暗示图。

针对以上痛点,MCU 达成了以下三大中枢突破:

一:3,452 个原子任务 × 无尽组合生成,构筑海量任务空间

MCU 构建了一个覆盖真实玩家行径的超大任务库:

11 大类 × 41 子类任务类型:如挖矿、合成、战役、成立等; 每个任务齐是「原子级粒度」:可零丁测试截至、决议、推理、创造等才能; 复古 LLM 动态扩张任务,比如:用钻石剑打败僵尸、雨天徒手网络木柴、

在沙漠中建一座水上屋。

🔁恣意组合这些原子任务,即可生成无尽的新任务,每一个齐对 AI 是全新挑战!

模拟种种化真实宇宙挑战。

二. 任务全自动生成 × 多模态智能评测,鼎新评估效果

GPT-4o 赋能,一句话生成复杂宇宙:

自动生成完好的任务场景(包括天气、生物群系、运转说念具等)。 智能考证任务成就的可行性,灵验幸免如「用木镐挖掘钻石」这类逻辑无理型任务。

VLM(视觉话语模子)驱动,透澈改变了传统东说念主工打分的低效模式:

基于 VLM 达成对任务进程、截至计谋、材料欺诈率、实行效果、无理检测及创造性六大维度的智能评分。 模子自动生成详备的评估文本,评分准确率高达 91.5%; 评测效果相较东说念主工进步 8.1 倍,资本仅为东说念主工评估的 1/5!

任务生成 x 多模态评测经过图。

三:高难度 × 高目田度的「试金石」任务瞎想,深度检会泛化才能

MCU 复古每个任务的多种难度版块,如:

「白昼在草原击杀羊」VS「夜晚在雨林障翳怪物并击杀羊」; 「丛林里造瀑布」VS「熔岩坑旯旮成立瀑布」。

这不仅考验 AI 是否能完成任务,更深度检会其在复杂多变环境下的泛化与顺应才能。

📉冲破「模子弘扬高超」的幻象:现存 SOTA 模子能否独霸 MCU ?

咱们将现时领域顶尖的 Minecraft 智能体引入 MCU 进行实战检会:GROOT:视频师法学习代表;STEVE-I:提醒实行型截至器;VPT(BC/RL):基于 YouTube 行径克隆进修而成的前驱。收尾发现,这些智能体在粗浅任务上弘扬尚可,但在面对组合任务和生疏成就场景时,完成率急剧下落,且无理识别与革命尝试是其短板。

SOTA 模子在 MCU 上的测试收尾。

照拂团队引入了更细粒度的任务进程评分野心(Task Progress),永别于传统 0/1 式的「任务完成率」,它能动态形容智能体在实行过程中的阶段性弘扬,哪怕任务失败,也能反馈其是否在野正确标的鼓舞。

实验发现,现时主流模子如 GROOT、STEVE-I、VPT-RL,在原子任务中尚有可圈可点的弘扬,但一朝面对更具组合性和变化性的任务,其生遵循便会骤降。致使对环境的微弱改变也会导致决策混乱。比如「在房间内休眠」这个看似粗浅的任务,只是是将床从草地搬到屋内,就让 GROOT 连接误把箱子当床点击,致使回身离开现场——这揭示了现存模子在空间矫健与泛化上的昭着短板。

更令东说念主警觉的是,智能体在成立、战役类任务中的「创造性得分」与「无理识别才能」险些全面落伍。这证实它们尚未确切具备东说念主类那种「发现问题、转换计谋」的自主见志,而这恰是通用智能迈向下一个阶段的要害。

MCU 的评测收尾初次系统性地揭示了现时灵通宇宙智能体在「泛化、顺应与创造」这三大中枢才能上存在的范围,同期也为异日的照拂指明了标的:何如让 AI 不仅能高效完成任务,更能潜入理罢职务的实践体育游戏app平台,并创造性地贬责复杂问题。

发布于:北京市