开云(中国)Kaiyun·官方网站 - 登录入口而是粗犷寥寂念念考和创新的智能体-开云(中国)Kaiyun·官方网站 - 登录入口
发布日期:2025-10-24 07:09    点击次数:85

开云(中国)Kaiyun·官方网站 - 登录入口而是粗犷寥寂念念考和创新的智能体-开云(中国)Kaiyun·官方网站 - 登录入口

来源:商场资讯开云(中国)Kaiyun·官方网站 - 登录入口

(来源:科技行者)

这项由清华大学、上海东谈主工智能实验室、上海交通大学、北京大学和香港大学讨论团队共同完成的冲突性讨论发表于2025年1月,论文题为"SimpleVLA-RL: Scaling VLA Training via Reinforcement Learning"。有兴味深入了解的读者不错通过arXiv平台探问完整论文(论文编号:arXiv:2509.09674v1)。

你有莫得想过,机器东谈主是怎样学会精确地抓取、移动和操作物体的?传统上,机器东谈主就像一个只会按照食谱作念菜的厨师,严格按照东谈主类演示的边幅引申任务。但这种格式有个大问题:当际遇食谱上莫得的情况时,机器东谈主就无法可想了。

回到现实中的机器东谈主老练,面前主流的次序叫作念"监督学习",就像淳厚手把手教化生写字同样。东谈主类操作员需要切身演示比比皆是次正确的操作,机器东谈主通过不雅察这些演示来学习。但这种次序濒临两个严峻挑战:最初,获取多数高质地的演示数据既文静又耗时,就像请寰宇顶级厨师来教你作念每整个菜同样;其次,当机器东谈主际遇演示中莫得涵盖的新情况时,它时时发达厄运,短缺举一反三的才略。

伸开剩余92%

正直讨论东谈主员为这些问题麻烦时,大言语模子规模传来了激动东谈主心的音书。像DeepSeek-R1这么的模子通过强化学习得回了惊东谈主的推理才略,它们粗犷通过试错学习,自主发现解决问题的新次序。这就像一个学生不再死记硬背圭臬谜底,而是学会了寥寂念念考和推理。这个生效案例让讨论团队产生了一个斗胆的想法:能否将这种强化学习的威力引入到机器东谈主规模?

于是,这个由清华大学李浩展、左宇新、余家乐等讨论东谈主员构成的团队滥觞了他们的探索之旅。他们要解决的中枢问题是:怎样让机器东谈主通过自主试错,而不是只是师法东谈主类演示,来掌捏复杂的操作手段?

一、从师法到探索:机器东谈主学习的新范式

传统的机器东谈主学习就像严格按照菜谱作念菜的过程。讨论东谈主员最初网罗多数的"圭臬菜谱"——也即是东谈主类演示的操作数据,然后让机器东谈主反复肃肃这些固定的手脚序列。这种次序诚然能让机器东谈主在特定场景下发达致密,但一朝环境发生变化,或者际遇老练数据中莫得的情况,机器东谈主就会变得顽劣无比。

强化学习的出现改变了这一切。如若说监督学习是"有模有样",那么强化学习即是"摸着石头过河"。机器东谈主不再只是被迫地师法东谈主类手脚,而是主动尝试各式可能的操作,通过环境的反映来判断哪些举止是好的,哪些是坏的。就像一个孩子学走路,颠仆了爬起来,冉冉找到均衡的决窍。

这种学习格式的魔力在于,机器东谈主可能会发现东谈主类从未猜测的私密解决决策。讨论团队在实验中不雅察到了一个酷好的欢喜,他们称之为"推切"(pushcut)。正本机器东谈主被老练通过"抓取-移动-放手"的传统格式来移动罐子,但在强化学习过程中,机器东谈主自主发现了一个更高效的次序:径直推进罐子到筹办位置,而不是死力地抓取和移动。这就像你发现不错用扫把推球进门,而不必弯腰捡起球再投掷同样。

不外,刚烈化学习哄骗到机器东谈主规模并非易事。与处理文本的大言语模子不同,机器东谈主需要在信得过的三维寰宇中进行操作,每一次手脚齐会影响环境景色,况且需要计划物理定律的拘谨。这就像在动态变化的复杂环境中进行多轮博弈,难度要大得多。

讨论团队需要解决的第一个要津问题是怎样让机器东谈主高效地生成各样化的操作轨迹。在文本生成中,模子不错通过调治温度参数来产生不同的输出,但机器东谈主的手脚空间要复杂得多。每个手脚齐是一个多维的欺压辅导,包括机械臂的位置、姿态、抓取器的开合景色等。讨论团队遐想了有益的轨迹采样机制,让机器东谈主粗犷探索更闲居的手脚空间。

第二个挑战是怎样遐想合适的奖励机制。在监督学习中,每个手脚齐有对应的"圭臬谜底",但在强化学习中,机器东谈主需要通过尝试来发现哪些举止能带来好的收尾。讨论团队禁受了一种精真金不怕火而灵验的次序:只宥恕任务的最终收尾。如若机器东谈主生效完成了任务(比如把物体放到了指定位置),整个操作序列就得回正向奖励;如若失败了,就得回负向奖励。这种次序幸免了复杂的中间边幅评估,让机器东谈主有更大的解放度去探索不同的解决决策。

二、SimpleVLA-RL:让机器东谈主成为自主学习者

讨论团队开发的SimpleVLA-RL框架就像为机器东谈主量身定制的"自学成才"系统。这个系统的核激情念是让机器东谈主通过多数的试错肃肃来普及手段,而不是只是依赖东谈主类的演示。

整个框架的运作过程不错比作一个学生的自主学习过程。最初,机器东谈主需要有基础的"初学学问"——通过极少的东谈主类演示得回对任务的初步衔接,就像学生在滥觞自学前需要掌捏基本见地同样。然后,机器东谈主滥觞投入"多数肃肃"阶段,在模拟环境中反复尝试各式操作次序。

在这个肃肃过程中,系统使用了一种叫作念GRPO(群体相对战略优化)的算法。这个算法的责任旨趣很私密:它让机器东谈主同期尝试多种不同的操作次序,然后比较这些次序的效果。发达好的次序会被饱读励和强化,发达差的次序会被逐步淘汰。这就像一个班级里的学生彼此比较学习得益,好的学习次序会被引申,差的次序会被更正。

为了让机器东谈主更好地探索新的解决决策,讨论团队还引入了几个穷苦的"学习技巧"。第一个技巧叫作念"动态采样",确保机器东谈主在每次肃肃中齐能际遇既有生效也有失败案例的情况,这么才气灵验地学习。就像学生作念肃肃题时,既要有会作念的题目增强信心,也要有有挑战的题目促进提高。

第二个技巧是调治"探索温度",让机器东谈主在老练时更情愿尝试一些平时不太会遴选的手脚。这就像饱读励一个保守的学生偶尔尝试一些创新的解题念念路,诚然风险大一些,但可能会发现出东谈主意想的好次序。

第三个技巧是优化"信任区间",即在保证学习安定性的同期,给机器东谈主更大的更正空间。传统次序系念机器东谈主变化太快会不安定,是以欺压得很严格,但讨论团队发现符合放宽这些欺压执行上有助于探索。

整个系统还具备刚劲的并行处理才略。讨论团队遐想了多环境并行渲染系统,就像同期开设多个肃肃阵势,让机器东谈主粗犷在多个虚构环境中同期进行肃肃。这大大提高了学习遵循,正本需要几天才气完成的老练面前几个小时就能管理。

三、惊东谈主的学习效果:数据稀缺下的高效发达

当讨论团队将SimpleVLA-RL系统哄骗到执行测试中时,收尾令东谈主防卫。他们在多个圭臬机器东谈主操作基准测试中考据了这个次序的灵验性,包括LIBERO和RoboTwin等驰名测试平台。

最令东谈主印象深刻的是系统在数据稀缺情况下的发达。在传统的监督学习中,如若每个任务唯唯一个演示样本,机器东谈主的生遵循时时相等低。以LIBERO-Long基准测试为例,使用传统次序时,机器东谈主的生遵循唯独哀怜的17.3%。但经过SimpleVLA-RL老练后,生遵循跃升到了91.7%,普及幅度高达430%。这就像一个只看过一次演示的学生,通过自主肃肃就能掌捏复杂手段,这在传统教化中竟然是不成能的。

即使在数据相对充足的情况下,强化学习仍然带来了权臣的性能普及。在各项测试中,经过强化学习老练的机器东谈主平均性能普及了8-30个百分点。更穷苦的是,这种普及在不同难度级别的任务中齐得到了体现,简约单的物体抓取到复杂的双臂相助操作。

讨论团队还发现了一个非常酷好的欢喜:机器东谈主的泛化才略得到了权臣增强。泛化才略指的是机器东谈主在面对老练时间从未见过的新情况时的应答才略。传统的监督学习时时存在"死记硬背"的问题,机器东谈主在面对新环境、新物体或新任务时发达会急剧下跌。但经过强化学习老练的机器东谈主展现出了更强的适应性。

在空间泛化测试中,当物体位置发生变化时,传统次序老练的机器东谈主生遵循会权臣下跌,而强化学习老练的机器东谈主仍能保持较高的生遵循。在物体泛化测试中,面对老练时从未见过的新物体,强化学习机器东谈主的发达也显著优于传统次序。最穷苦的是,在职务泛化测试中,机器东谈主粗犷将学到的手段移动到筹商但不同的新任务中。

这种泛化才略的普及不错用"举一反三"来形容。就像一个学会了骑自行车的东谈主粗犷更容易学会骑摩托车同样,掌捏了强化学习手段的机器东谈主粗犷更好地应答各式变化。讨论团队以为,这是因为强化学习让机器东谈主学习到了更骨子的操作旨趣,而不是浅易的手脚师法。

四、"推切"欢喜:机器东谈主的创造性念念维

在统共讨论发现中,最让东谈主振奋的可能是"推切"(pushcut)欢喜的出现。这个欢喜完好意思展示了强化学习怎样激勉机器东谈主的"创造性念念维"。

传统老练中,迎面对"将罐子移动到锅傍边"这么的任务时,统共的东谈主类演示齐罢黜归并套圭臬历程:机械臂伸向罐子,抓取罐子,将其拿起,移动到筹办位置,然后放下。这是一个典型的"抓取-移动-放手"序列,就像咱们日常生涯中移动物品的圭臬次序。

但在强化学习老练过程中,机器东谈主自主发现了一个愈加高效的替代决策。与其死力地抓取罐子,机器东谈主学会了径直推进罐子滑行到筹办位置。这种次序不仅更快速,况且更安定,因为幸免了抓取过程中可能出现的装假。

这个发现的酷好远不啻于技艺层面的更正。它标明机器东谈主依然具备了某种进程的"寥寂念念考"才略,粗犷跳出东谈主类预设的解决决策框架,找到我方的次序。讨论团队将这种欢喜与东谈主工智能规模着名的"顿悟时刻"同日而谈,就像AlphaGo在围棋比赛中下出东谈主类从未想过的"神之一手"。

访佛的创新举止在其他任务中也有出现。在"将物体A放到物体B右边"的任务中,机器东谈主正本被教导要抓取物体A并精确放手,但它自主学会了通过推进来完成任务,大大简化了操作过程。这些例子齐说明,当给机器东谈主富饶的探索解放时,它们粗犷发现比东谈主类演示更优雅的解决决策。

讨论团队分析以为,"推切"欢喜的出现是强化学习与监督学习骨子分别的体现。监督学习只可让机器东谈主师法已有的举止模式,而强化学习则饱读励探索和创新。由于系统只宥恕最终收尾(任务是否生效完成),而不寥寂于具体的引申过程,机器东谈主得回了充分的创造空间。

这种创造性的出现对改日机器东谈主发展具有潜入酷好。它预示着机器东谈主可能不再只是东谈主类的浅易师法者,而是粗犷寥寂念念考和创新的智能体。天然,这也带来了新的念念考:咱们是否准备好接受机器东谈主可能比咱们瞎想的愈加"智慧"?

五、从仿真到现实:信得过寰宇的生效考据

任何机器东谈主技艺的最终考验齐是在信得过寰宇环境中的发达。讨论团队深知这一丝,因此他们有益遐想了从仿真环境到信得过机器东谈主的移动实验,收尾诠释了SimpleVLA-RL的实用价值。

实验中使用的是AgileX Piper机械臂,这是一款在工业和讨论规模闲居哄骗的机器东谈主设备。讨论团队遴选了四个具有代表性的任务进行测试:堆叠碗具、递交物块、抓取瓶子和按响铃铛。这些任务涵盖了机器东谈主操作的中枢手段,包括精确抓取、安定移动和准确放手。

令东谈主应许的是,全齐在仿真环境中老练的机器东谈主在信得过寰宇中展现了出色的性能。在堆叠碗具任务中,经过强化学习老练的机器东谈主生遵循达到70%,比拟于传统监督学习次序的32%有了权臣普及,致使高出了有益遐想的基线次序RDT的60%。

更具挑战性的是抓取瓶子任务,这个任务条目机器东谈主具备极高的手脚精度,因为稍有偏差瓶子就会倒下或滑落。传统监督学习次序在这个任务上全齐失败,生遵循为0%,而强化学习老练的机器东谈主达到了14%的生遵循。诚然这个数字看似不高,但计划到任务的难度以及全齐莫得使用信得过寰宇数据进行老练,这个收尾依然特地令东谈主饱读励。

在递交物块和按响铃铛任务中,强化学习机器东谈主也齐骄贵出了显著的上风。平均而言,经过SimpleVLA-RL老练的机器东谈主在统共信得过寰宇任务中的生遵循比传统次序提高了21个百分点,这是一个特地可不雅的更正。

这些信得过寰宇实验的生效诠释了一个穷苦不雅点:通过大规师法真老练得回的手段如实不错灵验地移动到现实环境中。这为机器东谈主老练开辟了一条全新的谈路。传统上,机器东谈主需要在信得过环境中进行多数肃肃,这不仅资本激昂,况且存在安全风险。面前,讨论团队诠释了不错先在虚构环境中进行充分老练,然后将学到的手段哄骗到信得过寰宇。

这种次序的上风是不言而谕的。最初,仿真环境不错提供无尽的肃肃契机,机器东谈主不错7天24小时不阻隔地进行老练,况且无谓系念设备磨损或安全问题。其次,仿真环境不错节略生成各式边际情况和顶点场景,匡助机器东谈主开发更robust的手段。最穷苦的是,这种次序具有致密的可延长性,一朝在仿真中考据灵验,就不错快速部署到多数信得过机器东谈主上。

六、技艺冲突的深度瓦解

SimpleVLA-RL的生效并非随机,而是多项技艺创新共同作用的收尾。讨论团队在原有的veRL框架基础上,针对机器东谈主规模的稀罕需求进行了多数优化和更正。

最初是轨迹生成机制的立异。与处理文本序列的言语模子不同,机器东谈主需要在每个时辰步齐与环境进行交互,获取新的感知信息,然后决定下一步手脚。这种闭环交互使得轨迹生成变得极其复杂。讨论团队遐想了有益的多环境并行采样系统,粗犷同期在多个虚构环境中运行机器东谈主,大大提高了数据网罗遵循。

奖励遐想是另一个要津创新点。传统的强化学习时时依赖复杂的奖励函数,需要东谈主工遐想各式中间奖励来指引学习过程。但这种次序既繁琐又容易出现奖励偏差问题。SimpleVLA-RL禁受了极其精真金不怕火的二元奖励:生效完成任务得回1分,失败得回0分。这种遐想的妙处在于它幸免了东谈主为偏见的引入,给机器东谈主最大的探索解放。

为了应答脱落奖励带来的学习困难,讨论团队引入了三个要津的探索增强战略。动态采样确保每次老练齐包含生效和失败的案例,幸免了梯度隐匿问题。温度调节让机器东谈主在老练时更情愿尝试低概率的手脚,增多了探索的各样性。剪裁领域的调治则在保持老练安定的同期赐与了更大的战略更正空间。

算法层面,讨论团队对GRPO算法进行了穷苦更正。他们移除了传统PPO算法中的KL散度正则化项,这么作念的平正是减少了盘算支拨,同期幸免了参考战略对探索的欺压。群体相对上风盘算确保了即使在奖励脱落的情况下,算法也能提供灵验的学习信号。

系统架构方面,SimpleVLA-RL结束了老练、推理和环境渲染的一体化整合。这种遐想不仅提高了系统遵循,还简化了部署历程。讨论团队非常优化了GPU内存使用和盘算资源分派,使得整个系统粗犷在8块NVIDIA A800显卡上高效运行。

七、实验考据的全场所展示

讨论团队进行了极其全面的实验考据,涵盖了从基础功能测试到复杂哄骗场景的各个层面。实验遐想的严谨性和收尾的一致性为SimpleVLA-RL的灵验性提供了坚实的左证。

在LIBERO基准测试中,讨论团队遴选了四个不同的子测试套件,每个齐针对不同的挑战。LIBERO-Spatial测试空间推理才略,条目机器东谈主衔接"左边"、"右边"、"上头"等空间联系。LIBERO-Object测试物体泛化才略,机器东谈主需要处理老练时从未见过的新物体。LIBERO-Goal测试任务衔接才略,波及更复杂的筹办描述。LIBERO-Long测试长期筹办才略,条目机器东谈主完成包含多个子边幅的复杂任务。

在统共这些测试中,SimpleVLA-RL齐取得了权臣的性能普及。最引东谈主防卫的是在LIBERO-Long测试中的发达,生遵循从86.5%普及到98.5%,竟然达到了完好意思水平。这个收尾非常穷苦,因为长期筹办一直是机器东谈主规模的难题,需要机器东谈主不仅能引申单个手脚,还要能制定和引申包含多个边幅的复杂战略。

RoboTwin测试平台提供了愈加现实的双臂操作场景。这里的任务经常需要两只机械臂息争配合,就像东谈主类使用双手完成复杂任务同样。在RoboTwin1.0的测试中,SimpleVLA-RL将平均生遵循从39.8%普及到70.4%,普及幅度高出30个百分点。在更新的RoboTwin2.0测试中,性能普及愈加权臣,从38.3%跃升至68.8%,竟然翻了一倍。

非常值得宥恕的是不同任务复杂度下的发达分析。讨论团队将RoboTwin2.0中的12个任务按照所需边幅数目分为四个难度级别:短期任务(112-130步)、中期任务(151-223步)、长期任务(283-313步)和超长期任务(466-637步)。收尾骄贵,SimpleVLA-RL在统共难度级别上齐结束了一致的更正,诠释了次序的普适性。

数据遵循分析揭示了强化学习的另一个穷苦上风。在顶点数据稀缺的情况下(每个任务唯唯一个演示样本),传统监督学习次序竟然全齐失效,而SimpleVLA-RL仍能达到接近完整数据老练的效果。这个发现关于执行应器具有首要酷好,因为在好多现实场景中,获取多数高质地演示数据是极其困难的。

泛化才略测试进一步证据了强化学习的上风。讨论团队遐想了私密的实验,将每个任务类别中的10个任务分为9个老练任务和1个测试任务,然后不雅察机器东谈主在未见过的任务上的发达。收尾骄贵,传统监督学习时时出现严重的过拟合欢喜,在新任务上的发达急剧下跌,而强化学习老练的机器东谈主骄贵出了更好的泛化才略。

八、改日影响与念念考

SimpleVLA-RL的生效不单是是一个技艺冲突,更代表了机器东谈主学习范式的根人道更正。这种更正的潜入影响可能会重塑整个机器东谈主行业的发展轨迹。

从技艺发展角度来看,这项讨论诠释了强化学习在机器东谈主规模的高大后劲。往时,讨论者们广博以为强化学习在机器东谈主哄骗中存在样本遵循低、老练不安定等问题,但SimpleVLA-RL的生效标明这些问题并非不成克服。通过符合的算法遐想和系统优化,强化学习不错成为机器东谈主老练的主历次序。

这种更正最径直的平正是大大缩短了机器东谈主老练的资本和门槛。传统次序需要多数的东谈主工演示数据,这不仅耗时耗力,况且需要专科的操作员。而强化学习次序不错让机器东谈主自主学习,只需要提供任务筹办和基本的环境设置。这就像从"一双一私教"转向"自学成才",遵循普及是不言而谕的。

更穷苦的是,强化学习带来的创造性和适应性为机器东谈主哄骗开辟了新的可能性。"推切"欢喜的出现默示着机器东谈主可能会发现东谈主类从未猜测的解决决策,这种创新才略在复杂的现实环境中尤其认真。当机器东谈主面对前所未见的情况时,它们不再只可依赖预设的范例,而是粗犷即时适应和创新。

从哄骗出路来看,这项技艺的影响可能会最初在工业自动化规模露出。制造业中的好多任务具有调换性强、筹办明确的特色,相等适当强化学习次序。机器东谈主不错通过自主肃肃快速掌捏新的安装工艺,适应家具遐想的变化,致使优化出产历程。

办事机器东谈主规模也将获益匪浅。家庭办事机器东谈主需要应答鬼出电入的家庭环境,传统的预编程次序显著无法隐讳统共可能的情况。强化学习让机器东谈主具备了学习和适应的才略,不错根据每个家庭的具体情况调治举止模式。

天然,这种技艺跨越也带来了新的挑战和念念考。机器东谈主具备了一定进程的"创造性"后,怎样确保这种创造性朝着咱们守望的主见发展?如安在赐与机器东谈主探索解放的同期保证安全性?这些问题需要在技艺发展的同期得到充分计划。

讨论团队也坦诚地指出了现时哨法的一些欺压。强化学习的效果很猛进程上依赖于运转模子的质地,如若基础才略太弱,强化学习也难以施展作用。此外,诚然次序在仿真环境中发达优异,但现实寰宇的复杂性仍然是一个高大的挑战。

说到底,SimpleVLA-RL为咱们展示了机器东谈主学习的一个新主见。它让咱们看到,机器东谈主不仅不错成为东谈主类的给力助手,更可能成为具有一定自主性和创造性的智能伙伴。这种更正的酷好远不啻于技艺层面,它可能会改变咱们对东谈主工智能、对机器东谈主、致使对智能骨子的衔接。当机器东谈主滥觞发达出"推切"这么的创新举止时,咱们不禁要问:这还只是范例的引申,照旧依然触及了某种更深端倪的智能?

这项讨论为这些深刻问题的探索提供了新的起头。跟着技艺的不休完善和哄骗的日益闲居,咱们有根由期待看到更多令东谈主惊喜的发现和冲突。

Q&A

Q1:SimpleVLA-RL是什么?它与传统的机器东谈主老练次序有什么分别?

A:SimpleVLA-RL是清华大学等机构开发的一种新式机器东谈主老练框架,它让机器东谈主通过强化学习自主试错来掌捏手段,而不是只是师法东谈主类演示。就像从"有模有样"造成"摸着石头过河",机器东谈主不错探索和发现东谈主类从未猜测的操作次序,比如发现推进物体比抓取更高效的"推切"欢喜。

Q2:SimpleVLA-RL在数据稀缺情况下发达怎样?

A:发达极其出色。在LIBERO-Long测试中,当每个任务唯唯一个演示样本时,传统次序生遵循唯独17.3%,而SimpleVLA-RL能达到91.7%,普及幅度高达430%。这意味着机器东谈主只需要看一次东谈主类演示,就能通过自主肃肃掌捏复杂手段,大大缩短了老练资本。

Q3:SimpleVLA-RL老练的机器东谈主能在信得过寰宇中责任吗?

A:粗犷生效移动到信得过寰宇。讨论团队用AgileX Piper机械臂进行的实验骄贵,全齐在仿真环境中老练的机器东谈主在信得过寰宇任务中平均生遵循比传统次序提高了21个百分点。在堆叠碗具任务中达到70%生遵循开云(中国)Kaiyun·官方网站 - 登录入口,在条目极高精度的抓取瓶子任务中也结束了14%的生遵循。

发布于:北京市