行业资讯 你的位置:元启商务有限公司 > 行业资讯 >

让机器东说念主动作畅通丝滑如「连音」,千寻智能高阳团队建议Legato,入选RSS 2026

发布日期:2026-05-30 11:27    点击次数:110

让机器东说念主动作畅通丝滑如「连音」,千寻智能高阳团队建议Legato,入选RSS 2026

在音乐术语中,Legato(连音)意味着音符之间平滑过渡、毫无终止,演奏出畅通优好意思的旋律。钢琴家的手指在琴键上滑动,小提琴家的弓在琴弦上连贯运行 —— 这种 "连音" 手段让音乐充满生命力。一位信得过掌抓连音手段的演奏者,不需要靠后期编订来弥补断点,而是八成知说念若何让每一个音符自然地流向下一个。

机器东说念主范畴不异在追求这么的 "连音" 效果:让机器东说念主的动作像音乐一样畅通自然,莫得彷徨和停顿。然则,要让一台机器东说念主信得过作念到这少许,远比想象中贫乏。

近日,千寻智能高阳团队的商讨恶果 《Learning Native Continuation for Action Chunking Flow Policies》 被机器东说念主顶会 RSS 2026 禁受!这项使命从教师机制启程,让机器东说念主动作自然具有连气儿性,罢了了 "连音" 般的畅通履行,在五个真的寰宇操作任务上超过了现存规范,为具身智能范畴的动作生成商讨提供了新的念念路。

论文标题:Learning Native Continuation for Action Chunking Flow Policies

论文贯穿:https://arxiv.org/pdf/2602.12978

名目主页:https://lyfeng001.github.io/Legato/

掀开新闻客户端 栽植3倍畅通度

1. 机器东说念主为什么会 "彷徨"?

想象一下,你让机器东说念主倒水、叠碗或折毛巾,它却在履行经由中经常停顿、魂不守宅,以致骤然更正主意 —— 比如本来计算用左手抓取物体,履行到一半却又想换成右手,驱散两只手都没抓到,白白销耗了时间。这种 "彷徨" 不仅让动作看起来别扭,还会告成拖慢任务完成的速率,在需要精确谐和的场景下以致会导致任务失败。

这背后的根源,要从刻下主流的机器东说念主基础模子的动作建模风光提及。

1.1 动作分块:一把双刃剑

现在,主流的 Vision Language Action(VLA)模子渊博接纳一种叫作念 "动作分块"(Action Chunking)的本领:机器东说念主不是每次只筹备下一个动作,而是一语气筹备出昔日一段时间(比如接下来 1 秒)的无缺动作序列,然后程序履行。这么作念有两个显著的自制:

动作更连贯,因为模子能看到更万古期领域内的筹备;

推理遵守更高,不需要每个单独的时间步的动作都调用一次模子。

但问题也随之而来:每当一段动作序列履行完毕、下一段序列接上来的时候,两段序列之间经常存在显著的不连气儿性。就像两段灌音硬拼在一说念,接缝处总会有一个突兀的 "断点"—— 机器东说念主会在这个骤然出现停顿、抖动,以致宗旨突变。这个问题在需要高频狂放的细密操作任务中尤为显著。

更深层的原因在于,基于流匹配(Flow Matching)的 VLA 模子自己具有多模态性 —— 濒临统一个场景,模子可能筹备出多种合理的动作决议(比如用左手或右手抓取)。当两段动作序列沉寂生成时,前一段遴选了决议 A,后一段却可能遴选了决议 B,两者在接缝处发生 "模态切换",导致机器东说念主的动作出现突兀的跳变。

这种欢欣在职务半途尤为危急:机器东说念主还是伸出了左手,却不才一个动作块里骤然决定改用右手,不仅动作出丑,还可能告成碰倒宗旨物体。

1.2 RTC 的修补

为了经管这个问题,商讨者们建议了 Real-Time Chunking(RTC)规范。它的念念路是:在生成新的动作序列时,把上一段序列末尾还没履行完的部分 "借" 过来,用来领导下一个序列的生成,通过让下一个序列的前半部分和上一个序列莫得履行的部分比拟像,来保证两段序列之间的平滑过渡。

这个规范具有相配好的效果,也因此得到了世俗应用。可以把它认识为一种 "勤劳棒传递" 的机制:新的动作序列不是虚拟脱手,而是从上一段序列的后半部分 "接棒" 陆续。

然则,这个规范骨子上存在一些不成幸免的劣势:

推理阶段 RTC:连气儿性机制只在推理时临时 "打补丁",模子在教师时从未见过这种情况。教师和推理的条款不一致,就像一个学生宽泛肃肃的题型和考试题型充足不同 —— 模子在推理时濒临 "部分已知的前缀" 时,并不知说念该若何正确诓骗这些信息,容易产生 "失实的多模态切换",也等于机器东说念主在履行经由中骤然 "更正主意"。

教师阶段 RTC:自然在教师时也引入了这种拼接机制,但作念法是告成把前缀片断硬拼接到履行部分的前边,并将这部分固定、不再更新。这么一来,前缀和后续动作之间依然繁重有机关连:模子只是被见知 "前边这段是固定的,你只需要生成背面的部分"。

两种风光都莫得从根底上经管问题:连气儿性是从外部强加给模子的,而不是模子我方学会的。这就好比一个演奏者不是信得过掌抓了连音手段,而是靠后期编订把两段灌音拼在一说念 —— 听起来勉强过得去,但终究短少那种浑然自成的畅通感。

2. Legato 的经管决议

让连气儿性成为模子的 "禀赋"

Legato 的中枢念念想可以用一句话详细:与其在推理时给模子 "打补丁",不如在教师时就让模子学会若何自然地生成连气儿的动作。

这个念念路的漂泊看似简便,罢了起来却需要经管两个要津问题:

第一,如安在教师时让模子信得过 "看到" 并学会诓骗已知的前缀信息;

第二,若何确保教师时学到的举止和推理时骨子履行的举止充足一致,不出现 "双重圭臬"。

Legato 通过四个全心联想的机制,系统性地经管了这两个问题。一个直观上的类比是:咱们但愿机器东说念主就像一位造就丰富的勤劳跑洞开员:不仅知说念我方该跑哪一段,还了了地知说念上一棒跑到了那儿、速率是若干,并据此挽回我方起跑的节拍,而不是每次都从静止景色再行启程。

2.1 噪声-真的值搀杂机制

在圭臬的流匹配(Flow Matching)教师中,模子每次都是从充足立时的噪声启程,通过多步去噪,最终身成无缺的动作序列。这就好比让一个学生每次都从一张白纸脱手作答 —— 他永远不知说念 "若是还是写了一半,接下来该何如写"。旷世难逢,模子只会从零脱手筹备,一朝推理时被要求 "接着已有的动作陆续",就会昆季无措。

Legato 更正了这少许,它引入了领导向量 ω∈[0,1]^H,用来狂放每个时间步的运奇迹态,将教师时的滥觞从 "纯噪声" 变成 "噪声与真的动作的搀杂":

关于还是履行过的前缀部分(ω=1):运奇迹态告成等于真的动作,模子知说念 "这里还是发生了什么",需要在此基础上陆续筹备

关于需要解放预计的昔日部分(ω=0):运奇迹态是纯噪声,模子需要充足自主筹备

关于中间的过渡区域(0<ω<1):运奇迹态是真的动作和噪声的搀杂,领导强度从强到弱渐渐缩小,酿成平滑的过渡< span>

用公式抒发等于:

其中 A 是真的动作,日韩无码第一页ε 是噪声,⊙ 默示逐元素相乘。通过这种联想,模子在教师时就能反复肃肃 "若何从部分已知的景色启程,生成畅通的后续动作",而不是每次都从零脱手。久而久之,模子自然就学会了若何诓骗已知的前缀信息:这种材干是从教师中内化的,而不是推理时临时勉强的。

2.2 冉冉领导的去噪能源学

只是更正运奇迹态还不够。商讨团队发现了一个迫切欢欣:若是只在运行化时引入领导,跟着去噪体式的鼓励,模子会渐渐 "健忘" 已知的前缀信息。就像一个东说念主在嘈杂的环境中试图记着一段旋律,时间越长,挂牵就越疲塌,最终身成的动作仍然可能偏离预期。

商讨团队通过实验考证了这少许:单次领导(one-shot guidance)在去噪经由中确乎无法保管对前缀的拘谨,前缀区域的动作会跟着去噪体式的鼓励渐渐漂移。

为了经管这个问题,Legato 在每一步去噪前都进行搀杂,而不是只在运行化时:

这就像给模子装了一个 "挂牵锚":不论去噪进行到哪一步,模子都会被陆续教导 "前缀是什么样的",并围绕这个拘谨来筹备后续动作。这种冉冉领导的机制,使得前缀区、过渡区妥协放生成区酿成一个合伙、连贯的能源学系统,而不是三段割裂的拼接。

2.3 教师-推理一致性

问题在于:推理时,模子在每一步去噪前都会进行真的值和噪声的搀杂(即上头的冉冉领导);但教师时,圭臬流匹配的优化宗旨是针对 "从纯噪声启程的去噪经由" 联想的,并莫得推敲这种冉冉领导的存在。是以若是不针对教师宗旨进行挽回,教师的宗旨即圭臬流匹配与骨子履行的能源学骨子上是不一致的。

Legato 的经管决议:再行推导教师宗旨,使其与冉冉领导的推理能源学充足对皆。具体来说,商讨团队从冉冉领导的能源学方程启程,反推出了一个新的速率场教师宗旨:

这个公式的妙处在于:它保留了圭臬流匹配的几何宗旨(即 "朝着真的动作洞开" 的大宗旨不变),只是凭证领导强度 κ 挽回了速率的大小。换句话说,Legato 并莫得颠覆流匹配的基本框架,而是在其基础上作念了一个精确的 "校准"—— 让教师时学到的速率场,与推理时冉冉领导所产生的灵验速率场充足吻合。

这么一来,教师和推理之间的 "双重圭臬" 被澈底撤销,模子在推理时的举止充足顺应它教师时学到的限定。

2.4 立时化搀杂参数

在真的部署中,不同的硬件平台推理速率不同(高端 GPU 和边际诡计支持的蔓延可能进出数倍),不同的任务对动作畅通度的要求也不同(细密操作需要更强的连气儿性,而快速移动任务则更防卫反应速率)。若是每换一个场景就要再行教师一个模子,代价太高,也不试验。

Legato 的经管决议是:在教师时对搀杂参数 (d,r) 进行立时化,让模子在教师阶段就看法各式不同的领导向量:

d(推理蔓延):狂放前缀的长度,对应不同硬件平台的诡计速率。d 越大,说明推理蔓延越高,需要 "借用" 的前缀越长

r(过渡区长度):狂放从强领导到弱领导的过渡速率,决定动作的畅通进程。r 越大,过渡越冒昧,动作越畅通;r 越小,过渡越陡峻,模子反应越灵巧

通过在教师时让模子看法各式不同的 (d, r) 组合,统一个模子在推理时只需要挽回这两个参数,就能适配不同的硬件蔓延和畅通度需求,无需再行教师。这大大责备了 Legato 在骨子部署中的门槛。同期,由于模子在教师时还是见过各式迁移情况,推理时的举止也愈加明白鲁棒,不会因为参数的细小变化而出现大幅波动。

3. 实验驱散

商讨团队在双臂机器东说念主上进行了世俗的真的寰宇实验,涵盖五个操作任务:叠碗、倒东西、拾取扬弃、叠毛巾、开抽屉。这些任务的选取颇具代表性:它们不仅笼罩了旋转主导、平移主导等千般的洞开模式,还包含了多数需要在多个选项中作念出遴选的场景 —— 比如叠碗时遴选抓哪个碗、拾取扬弃时决定用左手照旧右手。

这类多模态遴选场景,恰是最容易触发 "失实多模态切换" 的方位,亦然考研连气儿性规范的最好试金石。

3.1 基本实验驱散

实验驱散标明,Legato 联系于 RTC 以及 Training-Time RTC 均有一定的上风:

彷徨显著减少:机器东说念主在履行经由中的停顿和 "更正主意" 欢欣大幅责备,动作轨迹愈加干净利落。从轨迹图上可以直不雅地看到,Legato 的履行弧线愈加平滑,而 RTC 的弧线则呈现出显著的锯齿状波动,这些波动恰是机器东说念主在两种动作决议之间反复横跳的萍踪

任务完成时间裁减:在五个任务上平均裁减约 10%,在倒东西等高度依赖连气儿性的任务上栽植尤为杰出,最高栽植幅度越过 20%

轨迹平滑性权贵栽植:以 NSPARC 宗旨推测,平均栽植约 10%,部分任务(如倒东西)栽植幅度越过 40%

更多的消融实验、仿真测试以及扎眼分析可参考原文。

3.2 骨子部署使用指南

商讨发现,在 d=delay, s=0.5H, r=H-d-s 的参数缔造下,模子的线路较好。其中 H 是动作序列的总长度,d 对应骨子的推理蔓延,s 是每个序列履行的步数,r 则是过渡区的长度。这个参数缔造在大多数任务和硬件平台上都能取得可以的效果,可以行为部署时的默许建树。

与此同期,该商讨保举在一个圭臬 flow matching 教师至较好的 base model 基础上进行 Legato 的 finetune,会获取更好的模子线路。

4. 转头

Legato 建议了一种让流匹配计谋自然具备连气儿性的教师规范,从根底上经管了动作分块计谋中经久存在的连气儿性问题。它的中枢孝顺在于:

原生连气儿性:让模子从教师阶段就学会若何从 "部分已知的动作" 启程生成后续动作,连气儿性是模子内化的材干,而不是推理时外部修补的驱散

教师-推理一致性:通过重塑速率场,从数学上保证教师和推理的能源学充足对皆,从根底上撤销失实多模态切换,而不是用更强的拘谨去压制它

生动可控:通过立时化搀杂参数,一个模子即可适配不同硬件蔓延和畅通度需求,大幅责备骨子部署的门槛

Legato 让机器东说念主的动作信得过像音乐中的连音一样:不是两段灌音的生硬拼接,而是演奏者发自内心、浑然自成的畅通抒发。跟着具身智能走向更世俗的真的寰宇应用,这种 "自然畅通" 的材干,将成为机器东说念主部署时畅通履行洞开不成或缺的条款。

但愿 Legato 这篇使命八成为具身智能社区带来新的启发,推动机器东说念主操作本领迈向更高的水平。



Powered by 元启商务有限公司 @2013-2022 RSS地图 HTML地图

Copyright Powered by365站群 © 2015-2026