Manipulation

ViTac-Tracing: Visual-Tactile Imitation Learning of Deformable Object Tracing

arXiv: 2603.18784 作者: Shan Luo Team 日期: 2026-03-19

📝 详细解读

研究背景与动机

可变形物体操作（如线缆、布料处理）是机器人学中的挑战。其中，追踪（Tracing）任务旨在通过夹持器沿物体边缘滑动，将其从杂乱状态展开为伸展状态，是许多下游任务的关键前置步骤。现有方法主要分为基于模型的控制和强化学习两类。基于模型的方法需要为不同物体精确建模其状态与动力学，缺乏跨类别泛化能力。强化学习方法虽可学习统一策略，但依赖精心设计的奖励函数和精确的仿真模型，常受模拟到现实差距的困扰。模仿学习利用专家示教数据，避免了显式建模和模拟到现实的转移，为解决该问题提供了新途径。然而，在追踪任务中，仅凭视觉信息常因手指遮挡而难以感知精细的抓握接触状态，可能导致物体滑落。本文针对可变形物体追踪任务，提出了一种新颖的视觉-触觉模仿学习方法，其核心思路是：通过一个结合局部接触感知（触觉）与全局任务进度感知（视觉）的统一策略模型，同时解决一维（如绳索）和二维（如毛巾）可变形物体的追踪问题。

方法详解

本文提出的视觉-触觉模仿学习框架整体流程包括数据收集与策略学习两部分。首先，通过一个集成了多模态反馈的低成本遥操作系统收集专家示教数据。随后，使用这些数据训练一个基于动作分块Transformer（ACT）的策略网络，该网络融合视觉、触觉和本体感知信息，并引入局部中心损失和全局任务损失进行优化。

方法框架

图3：提出的追踪策略学习框架概述。输入包括从机器人侧收集的机器人运动学信息 $o_t^K$、视觉图像 $o_t^V$ 和触觉图像 $o_t^T$，真实标签是遥操作侧记录的动作序列 $a_{t:t+k}$。输入特征首先通过MLP和CNN提取，然后拼接并送入基于Transformer的策略网络。该网络通过结合三种损失函数进行训练：局部中心损失、全局任务损失和正则化损失。

1. 视觉-触觉遥操作系统：系统包含机器人侧和操作者侧。机器人侧配备俯视相机和安装在夹爪上的视觉触觉传感器（基于GelSight Wedge）。操作者侧通过屏幕实时监控视觉和触觉图像流，并在夹爪上安装振动电机，当末端执行器接近奇异位形时（通过 Yoshikawa 可操作度指数 $w(q)$ 判断，阈值 $\lambda_w=0.2$）提供触觉警报，以增强操作者对抓握状态和机器人运动约束的感知，从而提升示教数据质量。

2. 策略学习与核心模块：策略网络以当前多模态观测 $o_t = {o_t^K, o_t^V, o_t^T}$ 为输入，预测未来 $k$ 步的动作序列 $\hat{a}{t:t+k}$。网络主干采用ACT算法，其基础损失包括动作重建损失 $\mathcal{L}{reconst}$（MAE损失）和正则化损失 $\mathcal{L}_{reg}$（KL散度损失）。本文在此基础上引入了两个关键创新损失：

**局部中心损失 (Local Center Loss)**：为确保物体在追踪过程中始终稳定接触在夹爪触觉感应区域中心附近以降低滑落风险，该损失对使接触点靠近传感器中心的动作给予更高权重。首先，通过图像处理（灰度化、阈值分割、高斯滤波、轮廓提取）从触觉图像中提取接触点像素坐标 $p_t^{tac}$。计算该点到传感器中心 $c$ 的距离权重 $w_t = exp(-||p_t^{tac}-c||/c)$。局部中心损失定义为加权重建损失：$\mathcal{L}{center}=w{t:t+k} \cdot \mathrm{MAE}(\hat{a}{t:t+k}, a{t:t+k})$。
**全局任务损失 (Global Task Loss)**：为引导策略掌握任务整体进度（例如在恰当位置停止），网络增加了一个任务完成度指数预测分支。该指数 $I$ 通过计算已追踪长度（由固定点 $p_0$ 和当前接触点世界坐标 $p_t$ 计算）与物体总长度的比值得到，并归一化到[0,1]。网络同时预测完成度序列 $\hat{I}{t:t+k}$，并通过均方误差损失 $\mathcal{L}{task}=\mathrm{MSE}(\hat{I}{t:t+k}, I{t:t+k})$ 进行优化。

触觉图像示例

图4：物体与夹爪在不同接触位置下的触觉图像。(a)物体抓握在触觉感应区域中心附近；(b)靠近前边缘；(c)靠近后边缘。当抓握靠近边缘时，物体更容易滑入不可感知区域。

最终，策略的总损失函数为：$\mathcal{L}=\mathcal{L}{center}+\lambda{reg}\mathcal{L}{reg}+\lambda{task}\mathcal{L}{task}$，其中 $\lambda{reg}=100$, $\lambda_{task}=100$。

3. 创新点：与现有方法相比，本文的创新点具体体现在：1) 首次提出统一策略处理1D和2D可变形物体追踪；2) 设计了一个低成本、提供多模态反馈（视觉、触觉图像、振动）的遥操作系统以提升示教质量；3) 在模仿学习框架中引入了基于触觉的局部中心损失和基于任务进度的全局任务损失，分别从局部接触稳定性和全局任务完成度两方面优化策略。

实验与结果

实验设置：使用ABB YuMi双臂机器人。数据集收集涉及四种物体：两种1D物体（扁平鞋带、编织电缆）和两种2D物体（面巾、超细纤维布），每种物体收集25条示教轨迹。测试集包括这四种“已见”物体和两种“未见”物体（合成绳索、棉质餐巾）。训练时，视觉和触觉图像被裁剪并调整为480x480。本体感知输入比较了关节角度（14关节+2夹爪状态）和末端执行器位姿（2个位姿+2夹爪状态）两种表示。策略使用ResNet18作为视觉和触觉的编码器，在配备RTX 4090 GPU的工作站上训练。

关键实验结果：

本体感知表示对比：如表I所示，使用末端执行器（EE）位姿作为输入的模型在已见物体上的整体成功率达到80%，高于使用关节角度输入模型的70%。图7也显示EE位姿模型具有更高的平均完成率。这表明与任务空间定义对齐的更高层次抽象表示更适合追踪任务。

消融实验性能图

图7：组件消融研究的成功时间和完成率。所有测试模型的成功时间相似，但所有变体模型都表现出更低的完成率，表明任务性能下降。

组件消融研究：如表I所示，完整模型（Ours）取得了最高的成功率（80%）。移除视觉输入、触觉输入、中心损失或任务损失中的任何一项，都会导致性能下降。例如，移除触觉输入导致物体掉落率大幅上升（8/40）；移除中心损失同样导致高掉落率（9/40）；移除任务损失则导致过度追踪率较高（7/40）。这验证了多模态感知和两个提出的损失函数的必要性。
泛化能力：在未见过的1D和2D物体上测试，完整模型取得了平均65%的成功率，证明了其一定的跨物体泛化能力。作者指出，未见物体与已见物体在触觉纹理上的相似性（如图6所示）有助于泛化。

测试物体与触觉图像

图5：实验中使用的1D和2D可变形物体。(a) 已见物体；(b) 未见物体。对每个已见物体收集了25条示教数据。训练后的模型在已见和未见物体上均进行了测试。

触觉纹理图像

图6：触觉图像提供了被测1D可变形物体和2D物体卷边的高分辨率纹理信息。2D物体折叠的边缘显示出与1D物体相似的纹理。未见物体的触觉纹理也与已见物体有相似之处。

不同数据集训练结果：如表II所示，仅使用1D物体数据训练的模型在1D物体上表现良好（鞋带80%，电缆90%），但在2D物体上表现较差（毛巾60%，布料80%）。反之亦然。而使用所有四类物体混合数据训练的完整模型（表I的Ours）在各类物体上取得了均衡且较高的性能，验证了统一模型的有效性。

总结与启发

核心贡献：1) 提出了首个用于1D和2D可变形物体追踪的视觉-触觉模仿学习统一框架；2) 设计了一个集成多模态反馈的低成本遥操作系统，提升了专家示教数据的质量；3) 引入了局部中心损失和全局任务损失，分别从保持局部接触稳定性和调节全局任务进度两方面有效提升了策略性能。

局限性：论文提到的方法依赖于物体一端被固定，且需要从触觉图像中提取接触点坐标，这可能在纹理不明显的物体上失效。此外，策略的泛化能力仍受限于训练数据的多样性。

启示：本工作表明，通过精心设计的模仿学习框架，结合互补的视觉（全局）和触觉（局部）感知，可以实现对复杂可变形物体操作任务的统一学习。所提出的局部中心损失和全局任务损失为其他需要精细接触控制和明确任务进度感知的操作任务提供了可借鉴的优化思路。未来的工作可以探索更强大的触觉特征提取网络以替代手工特征，并研究如何进一步减少对特定物体形态和固定约束的依赖。

💡 一句话总结

本文针对可变形物体（如电缆、毛巾）追踪任务中泛化性差和现实世界可靠性低的问题，提出ViTac-Tracing视觉-触觉模仿学习方法。关键技术包括局部加权损失（强调触觉图像中心接触以优化调整）和全局任务损失（调控追踪进程），并集成触觉感知到低成本遥操作硬件。实验在多样1D和2D物体上验证，平均成功率达80%（已见物体）和65%（未见物体）。

查看 arXiv 原文返回列表