让机器东说念主动作畅通丝滑如「连音」，千寻智能高阳团队建议Legato，入选RSS 2026

元启商务有限公司

热点资讯

让机器东说念主动作畅通丝滑如「连音」，千寻智能高阳团队建议Legato，入选RSS 2026

发布日期：2026-05-30 11:27 点击次数：110

在音乐术语中，Legato（连音）意味着音符之间平滑过渡、毫无终止，演奏出畅通优好意思的旋律。钢琴家的手指在琴键上滑动，小提琴家的弓在琴弦上连贯运行 —— 这种 "连音" 手段让音乐充满生命力。一位信得过掌抓连音手段的演奏者，不需要靠后期编订来弥补断点，而是八成知说念若何让每一个音符自然地流向下一个。

机器东说念主范畴不异在追求这么的 "连音" 效果：让机器东说念主的动作像音乐一样畅通自然，莫得彷徨和停顿。然则，要让一台机器东说念主信得过作念到这少许，远比想象中贫乏。

近日，千寻智能高阳团队的商讨恶果《Learning Native Continuation for Action Chunking Flow Policies》被机器东说念主顶会 RSS 2026 禁受！这项使命从教师机制启程，让机器东说念主动作自然具有连气儿性，罢了了 "连音" 般的畅通履行，在五个真的寰宇操作任务上超过了现存规范，为具身智能范畴的动作生成商讨提供了新的念念路。

论文标题：Learning Native Continuation for Action Chunking Flow Policies

论文贯穿：https://arxiv.org/pdf/2602.12978

名目主页：https://lyfeng001.github.io/Legato/

掀开新闻客户端栽植3倍畅通度

1. 机器东说念主为什么会 "彷徨"？

想象一下，你让机器东说念主倒水、叠碗或折毛巾，它却在履行经由中经常停顿、魂不守宅，以致骤然更正主意 —— 比如本来计算用左手抓取物体，履行到一半却又想换成右手，驱散两只手都没抓到，白白销耗了时间。这种 "彷徨" 不仅让动作看起来别扭，还会告成拖慢任务完成的速率，在需要精确谐和的场景下以致会导致任务失败。

这背后的根源，要从刻下主流的机器东说念主基础模子的动作建模风光提及。

1.1 动作分块：一把双刃剑

现在，主流的 Vision Language Action（VLA）模子渊博接纳一种叫作念 "动作分块"（Action Chunking）的本领：机器东说念主不是每次只筹备下一个动作，而是一语气筹备出昔日一段时间（比如接下来 1 秒）的无缺动作序列，然后程序履行。这么作念有两个显著的自制：

动作更连贯，因为模子能看到更万古期领域内的筹备；

推理遵守更高，不需要每个单独的时间步的动作都调用一次模子。

但问题也随之而来：每当一段动作序列履行完毕、下一段序列接上来的时候，两段序列之间经常存在显著的不连气儿性。就像两段灌音硬拼在一说念，接缝处总会有一个突兀的 "断点"—— 机器东说念主会在这个骤然出现停顿、抖动，以致宗旨突变。这个问题在需要高频狂放的细密操作任务中尤为显著。

更深层的原因在于，基于流匹配（Flow Matching）的 VLA 模子自己具有多模态性 —— 濒临统一个场景，模子可能筹备出多种合理的动作决议（比如用左手或右手抓取）。当两段动作序列沉寂生成时，前一段遴选了决议 A，后一段却可能遴选了决议 B，两者在接缝处发生 "模态切换"，导致机器东说念主的动作出现突兀的跳变。

这种欢欣在职务半途尤为危急：机器东说念主还是伸出了左手，却不才一个动作块里骤然决定改用右手，不仅动作出丑，还可能告成碰倒宗旨物体。

1.2 RTC 的修补

为了经管这个问题，商讨者们建议了 Real-Time Chunking（RTC）规范。它的念念路是：在生成新的动作序列时，把上一段序列末尾还没履行完的部分 "借" 过来，用来领导下一个序列的生成，通过让下一个序列的前半部分和上一个序列莫得履行的部分比拟像，来保证两段序列之间的平滑过渡。

这个规范具有相配好的效果，也因此得到了世俗应用。可以把它认识为一种 "勤劳棒传递" 的机制：新的动作序列不是虚拟脱手，而是从上一段序列的后半部分 "接棒" 陆续。

然则，这个规范骨子上存在一些不成幸免的劣势：

推理阶段 RTC：连气儿性机制只在推理时临时 "打补丁"，模子在教师时从未见过这种情况。教师和推理的条款不一致，就像一个学生宽泛肃肃的题型和考试题型充足不同 —— 模子在推理时濒临 "部分已知的前缀" 时，并不知说念该若何正确诓骗这些信息，容易产生 "失实的多模态切换"，也等于机器东说念主在履行经由中骤然 "更正主意"。

教师阶段 RTC：自然在教师时也引入了这种拼接机制，但作念法是告成把前缀片断硬拼接到履行部分的前边，并将这部分固定、不再更新。这么一来，前缀和后续动作之间依然繁重有机关连：模子只是被见知 "前边这段是固定的，你只需要生成背面的部分"。

两种风光都莫得从根底上经管问题：连气儿性是从外部强加给模子的，而不是模子我方学会的。这就好比一个演奏者不是信得过掌抓了连音手段，而是靠后期编订把两段灌音拼在一说念 —— 听起来勉强过得去，但终究短少那种浑然自成的畅通感。

2. Legato 的经管决议

让连气儿性成为模子的 "禀赋"

Legato 的中枢念念想可以用一句话详细：与其在推理时给模子 "打补丁"，不如在教师时就让模子学会若何自然地生成连气儿的动作。

这个念念路的漂泊看似简便，罢了起来却需要经管两个要津问题：

第一，如安在教师时让模子信得过 "看到" 并学会诓骗已知的前缀信息；

第二，若何确保教师时学到的举止和推理时骨子履行的举止充足一致，不出现 "双重圭臬"。

Legato 通过四个全心联想的机制，系统性地经管了这两个问题。一个直观上的类比是：咱们但愿机器东说念主就像一位造就丰富的勤劳跑洞开员：不仅知说念我方该跑哪一段，还了了地知说念上一棒跑到了那儿、速率是若干，并据此挽回我方起跑的节拍，而不是每次都从静止景色再行启程。

2.1 噪声-真的值搀杂机制

在圭臬的流匹配（Flow Matching）教师中，模子每次都是从充足立时的噪声启程，通过多步去噪，最终身成无缺的动作序列。这就好比让一个学生每次都从一张白纸脱手作答 —— 他永远不知说念 "若是还是写了一半，接下来该何如写"。旷世难逢，模子只会从零脱手筹备，一朝推理时被要求 "接着已有的动作陆续"，就会昆季无措。

Legato 更正了这少许，它引入了领导向量 ω∈[0，1]^H，用来狂放每个时间步的运奇迹态，将教师时的滥觞从 "纯噪声" 变成 "噪声与真的动作的搀杂"：

关于还是履行过的前缀部分（ω=1）：运奇迹态告成等于真的动作，模子知说念 "这里还是发生了什么"，需要在此基础上陆续筹备

关于需要解放预计的昔日部分（ω=0）：运奇迹态是纯噪声，模子需要充足自主筹备

关于中间的过渡区域（0<ω<1）：运奇迹态是真的动作和噪声的搀杂，领导强度从强到弱渐渐缩小，酿成平滑的过渡< span>

用公式抒发等于：

其中 A 是真的动作，日韩无码第一页ε 是噪声，⊙ 默示逐元素相乘。通过这种联想，模子在教师时就能反复肃肃 "若何从部分已知的景色启程，生成畅通的后续动作"，而不是每次都从零脱手。久而久之，模子自然就学会了若何诓骗已知的前缀信息：这种材干是从教师中内化的，而不是推理时临时勉强的。

2.2 冉冉领导的去噪能源学

只是更正运奇迹态还不够。商讨团队发现了一个迫切欢欣：若是只在运行化时引入领导，跟着去噪体式的鼓励，模子会渐渐 "健忘" 已知的前缀信息。就像一个东说念主在嘈杂的环境中试图记着一段旋律，时间越长，挂牵就越疲塌，最终身成的动作仍然可能偏离预期。

商讨团队通过实验考证了这少许：单次领导（one-shot guidance）在去噪经由中确乎无法保管对前缀的拘谨，前缀区域的动作会跟着去噪体式的鼓励渐渐漂移。

为了经管这个问题，Legato 在每一步去噪前都进行搀杂，而不是只在运行化时：

这就像给模子装了一个 "挂牵锚"：不论去噪进行到哪一步，模子都会被陆续教导 "前缀是什么样的"，并围绕这个拘谨来筹备后续动作。这种冉冉领导的机制，使得前缀区、过渡区妥协放生成区酿成一个合伙、连贯的能源学系统，而不是三段割裂的拼接。

2.3 教师-推理一致性

问题在于：推理时，模子在每一步去噪前都会进行真的值和噪声的搀杂（即上头的冉冉领导）；但教师时，圭臬流匹配的优化宗旨是针对 "从纯噪声启程的去噪经由" 联想的，并莫得推敲这种冉冉领导的存在。是以若是不针对教师宗旨进行挽回，教师的宗旨即圭臬流匹配与骨子履行的能源学骨子上是不一致的。

Legato 的经管决议：再行推导教师宗旨，使其与冉冉领导的推理能源学充足对皆。具体来说，商讨团队从冉冉领导的能源学方程启程，反推出了一个新的速率场教师宗旨：

这个公式的妙处在于：它保留了圭臬流匹配的几何宗旨（即 "朝着真的动作洞开" 的大宗旨不变），只是凭证领导强度 κ 挽回了速率的大小。换句话说，Legato 并莫得颠覆流匹配的基本框架，而是在其基础上作念了一个精确的 "校准"—— 让教师时学到的速率场，与推理时冉冉领导所产生的灵验速率场充足吻合。

这么一来，教师和推理之间的 "双重圭臬" 被澈底撤销，模子在推理时的举止充足顺应它教师时学到的限定。

2.4 立时化搀杂参数

在真的部署中，不同的硬件平台推理速率不同（高端 GPU 和边际诡计支持的蔓延可能进出数倍），不同的任务对动作畅通度的要求也不同（细密操作需要更强的连气儿性，而快速移动任务则更防卫反应速率）。若是每换一个场景就要再行教师一个模子，代价太高，也不试验。

Legato 的经管决议是：在教师时对搀杂参数 (d，r) 进行立时化，让模子在教师阶段就看法各式不同的领导向量：

d（推理蔓延）：狂放前缀的长度，对应不同硬件平台的诡计速率。d 越大，说明推理蔓延越高，需要 "借用" 的前缀越长

r（过渡区长度）：狂放从强领导到弱领导的过渡速率，决定动作的畅通进程。r 越大，过渡越冒昧，动作越畅通；r 越小，过渡越陡峻，模子反应越灵巧

通过在教师时让模子看法各式不同的 (d， r) 组合，统一个模子在推理时只需要挽回这两个参数，就能适配不同的硬件蔓延和畅通度需求，无需再行教师。这大大责备了 Legato 在骨子部署中的门槛。同期，由于模子在教师时还是见过各式迁移情况，推理时的举止也愈加明白鲁棒，不会因为参数的细小变化而出现大幅波动。

3. 实验驱散

商讨团队在双臂机器东说念主上进行了世俗的真的寰宇实验，涵盖五个操作任务：叠碗、倒东西、拾取扬弃、叠毛巾、开抽屉。这些任务的选取颇具代表性：它们不仅笼罩了旋转主导、平移主导等千般的洞开模式，还包含了多数需要在多个选项中作念出遴选的场景 —— 比如叠碗时遴选抓哪个碗、拾取扬弃时决定用左手照旧右手。

这类多模态遴选场景，恰是最容易触发 "失实多模态切换" 的方位，亦然考研连气儿性规范的最好试金石。

3.1 基本实验驱散

实验驱散标明，Legato 联系于 RTC 以及 Training-Time RTC 均有一定的上风：

彷徨显著减少：机器东说念主在履行经由中的停顿和 "更正主意" 欢欣大幅责备，动作轨迹愈加干净利落。从轨迹图上可以直不雅地看到，Legato 的履行弧线愈加平滑，而 RTC 的弧线则呈现出显著的锯齿状波动，这些波动恰是机器东说念主在两种动作决议之间反复横跳的萍踪

任务完成时间裁减：在五个任务上平均裁减约 10%，在倒东西等高度依赖连气儿性的任务上栽植尤为杰出，最高栽植幅度越过 20%

轨迹平滑性权贵栽植：以 NSPARC 宗旨推测，平均栽植约 10%，部分任务（如倒东西）栽植幅度越过 40%

更多的消融实验、仿真测试以及扎眼分析可参考原文。

3.2 骨子部署使用指南

商讨发现，在 d=delay， s=0.5H， r=H-d-s 的参数缔造下，模子的线路较好。其中 H 是动作序列的总长度，d 对应骨子的推理蔓延，s 是每个序列履行的步数，r 则是过渡区的长度。这个参数缔造在大多数任务和硬件平台上都能取得可以的效果，可以行为部署时的默许建树。

与此同期，该商讨保举在一个圭臬 flow matching 教师至较好的 base model 基础上进行 Legato 的 finetune，会获取更好的模子线路。

4. 转头

Legato 建议了一种让流匹配计谋自然具备连气儿性的教师规范，从根底上经管了动作分块计谋中经久存在的连气儿性问题。它的中枢孝顺在于：

原生连气儿性：让模子从教师阶段就学会若何从 "部分已知的动作" 启程生成后续动作，连气儿性是模子内化的材干，而不是推理时外部修补的驱散

教师-推理一致性：通过重塑速率场，从数学上保证教师和推理的能源学充足对皆，从根底上撤销失实多模态切换，而不是用更强的拘谨去压制它

生动可控：通过立时化搀杂参数，一个模子即可适配不同硬件蔓延和畅通度需求，大幅责备骨子部署的门槛

Legato 让机器东说念主的动作信得过像音乐中的连音一样：不是两段灌音的生硬拼接，而是演奏者发自内心、浑然自成的畅通抒发。跟着具身智能走向更世俗的真的寰宇应用，这种 "自然畅通" 的材干，将成为机器东说念主部署时畅通履行洞开不成或缺的条款。

但愿 Legato 这篇使命八成为具身智能社区带来新的启发，推动机器东说念主操作本领迈向更高的水平。

上一篇：警惕“碳水脸”论调背后的价值不雅骄慢

下一篇：蓝色发祥“新格伦”火箭测试时发生爆炸：无东谈主员伤一火