核心技术原理论述与范式演进
在机器人灵巧操作、环境交互与具身智能领域,触觉感知不仅是视觉感知的必要补充,更是实现闭环力控与物体物理属性(如纹理、刚度、滑动趋势)识别的基础模态。传统触觉传感器主要依托压阻式(Piezoresistive)、电容式(Capacitive)与压电式(Piezoelectric)等固态机电耦合机制。压阻式阵列虽成本低廉,但存在重复性差、温度敏感及迟滞现象严重等缺陷;电容式传感器尽管灵敏度高且功耗低,却易受寄生电容干扰,且读出电路复杂;压电材料则往往具备刚性特征,难以贴合复杂曲面,且高密度集成时面临严重的布线瓶颈与电磁串扰问题。
视触觉传感器(Vision-Based Tactile Sensors, VBTS)从底层物理机制上突破了上述瓶颈。该技术范式将微观力学形变转换为光学信号,利用内部微型摄像头阵列或单目相机捕捉弹性覆盖层受外力作用时产生的光学特征变化(例如光度阴影、反射场畸变、内部标记点位移或光子散射),进而通过计算机视觉与逆向物理渲染算法求解物理量。此技术不仅规避了密集电气布线的需求,更将触觉的空间分辨率直接等效于光学图像传感器的像素密度,从而实现了微米级别的三维几何重建、六维力场(法向力、剪切力及扭矩)估计以及高频动态滑动检测。本报告将从硬件形态学、高分子物理材料、三维形貌重建算法、接触力学解算模型、神经形态高频计算以及数字孪生仿真等维度,对该领域的最新科学进展与工业实践进行详尽剖析。
硬件拓扑结构与光学形态学设计
视触觉传感器的系统拓扑通常包含三大物理层级:直接与外界物理交互的弹性体介质(Elastomer)、内部光源或光导系统(Illumination System),以及执行光电转换的光学成像单元(Optical Imaging Unit)。根据对形变光场信息的编码与解码逻辑不同,学术界与工业界演化出多种具备鲜明形态学特征的传感器架构。
基于光度立体视觉的凝胶成像架构
以凝胶成像(Gel-based Imaging)为核心的代表性架构为 GelSight 及其衍生体系。传统 GelSight 传感器通常采用平面或微观曲面的立方体结构,其光学堆叠层通过多向发光二极管(RGB及白色 LED)提供结构化或半结构化照明,摄像机垂直于感应面放置以捕捉光度变化。GelSight 系统能够利用摄像机的全分辨率提取像素级的形貌梯度,其感知精度极高,但受限于平坦的光学平面,接触测量区域主要集中于单一端面,感知盲区较大。
为满足机械手在非结构化环境中的抓取需求,形态学优化成为核心研究方向。GelSlim 传感器通过重新设计内部光路(如引入光导介质与全反射镜面),大幅降低了传感器的物理厚度并改变了相机光轴走向,使其能够集成于平行夹爪内。然而,厚度的压缩往往与光学重建所需的朗伯光源假设相冲突。为此,GelSight Wedge 传感器通过计算光学优化,在机械指尖的楔形约束内,将光源数量从标准的四个缩减至一到两个,并通过深度神经网络或改进的梯度映射表,在维持极小体积的同时保障了高分辨率三维重建能力。
仿生标记点追踪阵列架构
区别于连续光场的采集,TacTip 传感器家族采取了离散仿生标记点追踪的硬件拓扑。其外部呈现仿生穹顶(指尖)结构,弹性半球膜内部散布或印刷有高对比度的白色标记点(Pins),背景为黑色吸光材质。摄像头位于刚性基座内侧,光源(通常为环形白光 LED)从底部照亮整个内部腔体。
TacTip 的感知机理依赖于计算机视觉对离散标记点的连通域提取与亚像素级质心追踪。尽管其空间分辨率直接受限于标记点的物理印刷密度,无法像 GelSight 一样获取连续的微观表面形貌,但这种基于位移矢量的设计在测算宏观法向力、检测高频接触震荡及判断微滑动(Micro-slip)趋势时展现出极高的计算效率与结构鲁棒性。基于此原理,TacTip 发展出了包含 127 个标记点的标准穹顶版、紧凑型 TacTip-GR2、延长型 TacTip-M2,以及配备折反射系统(Catadioptric mirror)以追踪 180 个全向标记点的圆柱形 TacCylinder。
全向立体视觉与内窥骨架架构
针对传统视触觉传感器只能在抓取闭合区域(Grasp Closure)内感知接触的局限,GelTip 提出了一种中空透明刚性指架结合全包覆弹性体的全向传感架构。该架构呈现完整的手指形态,摄像头置于透明指架的核心或底部。由于去除了平面反光板的限制,GelTip 实现了约 75 平方厘米的有效评估面积(相较于标准 GelSight 的 4 平方厘米),并能在 2.1 百万像素的分辨率下,同时感知指尖及四周侧壁的接触形变。其定位接触点的平均空间误差仅约 5 毫米,最佳情况下可低至 1 毫米以内。
在空间与光学视角的进一步拓展中,具有鱼眼镜头(Fisheye Lens)的视触觉传感器被提出,以极小的结构系数实现超广角视场(FOV)。同时,透明弹性体方案(如 VisTac 传感器)融合了视觉与触觉双模态:在触觉模式下,开启内部照明使半透明膜不透明化以感知形变;在视觉模式下,关闭内部照明,利用外部光线穿透凝胶实现接近觉(Proximity Sensing)观测。
传感器架构流派 | 典型形态特征 | 核心成像机理 | 分辨率特征与感知局限 |
GelSight 类 | 平面、立方体、楔形微型化(GelSlim/Wedge) | 多色定向照明,光度立体视觉(Photometric Stereo),利用连续阴影重建表面梯度。 | 空间分辨率极高(微米级);测区多限于单面,结构厚度压缩受限于内部反射光路设计。 |
TacTip 类 | 仿生半球穹顶、圆柱形(TacCylinder) | 底部环形光源照明,追踪嵌入于暗色弹性体内的白色离散标记点空间位移矢量。 | 计算负担低,对滑动和振动极敏感;分辨率受标记点密度制约,无法执行连续形貌重建。 |
GelTip/全向类 | 完整手指形状,透明中空刚性骨架支撑 | 轴心或基座单摄像头配合全向折射,捕捉全覆盖弹性体形变。 | 360度全视角感知,无抓取盲区;边缘存在严重光学畸变,对逆向折射校准算法要求高。 |
高分子材料力学与涂层光学工程
弹性体介质的物理化学属性直接决定了视触觉传感器的形变敏感度、动态响应频宽与光学信号的信噪比。材料科学在此领域的应用聚焦于聚合物的弹性模量调控、粘弹性迟滞抑制以及表面涂层的光度学优化。
硅胶聚合物体系与力学性能
工业级视触觉传感器广泛选用硅氧烷类弹性体,其中以聚二甲基硅氧烷(PDMS,如 Dow Corning 生产的 Sylgard 184)与铂催化超软硅胶(如 Smooth-On 公司的 EcoFlex 系列)为核心基材。
EcoFlex 系列聚合物因其极高的柔韧度而备受青睐。文献表明,该类材料在断裂前可承受高达 900% 的伸长率(Elongation at break),其肖氏硬度(Shore Hardness)可通过基剂与固化剂的配比进行精准调控。例如,研究中常用的 EcoFlex 50 其硬度标定为 00-50A,而针对极微小作用力感知的 EcoFlex GEL 硬度可低至 000-35A,部分定制传感器甚至将硬度控制在 Shore 00-20 级别,从而确保对微米级表面粗糙度的顺应性包裹。
反射涂层的朗伯特性与光度调制
对于基于光度立体视觉的传感器,弹性体外表面必须涂布兼具高延展性与特定光学反射属性的涂层。该涂层的作用在于屏蔽外部环境光的干扰,同时为内部相机提供可量化的反照率(Albedo, )基准。
核心涂层材料主要包括哑光铝粉(Matte Aluminum Powder)与微胶囊化的硅胶墨水。哑光铝粉涂层的物理意义在于构建一个理想的朗伯面(Lambertian Surface),使得入射光在接触界面的反射表现为完美的漫反射。在此状态下,反射光强仅与入射光束向量同表面法向量的夹角余弦成正比,而与观察者的视角无关,这是后续进行非线性光学反演计算的基础前提。此外,部分传感器(如某些透明凝胶设计)采用半高光(Semi-specular)或半透明涂层配合彩虹光照方案,以解决在极大曲率接触面处的法向量计算奇异性问题。
粘弹性迟滞、应力松弛与磨损重标定
聚合物材料的粘弹性(Viscoelasticity)是阻碍传感器实现绝对物理精度的一大障碍。当外部机械应力加载于硅胶层时,高分子链段的滑移与重排需要消耗时间;而当应力卸载时,形变无法瞬间完全恢复至原点,导致加载曲线与卸载曲线不重合,形成迟滞回线(Hysteresis Loop)。应力松弛实验表明,在恒定压痕深度下,接触力会随时间呈指数衰减。
迟滞效应会导致传感器在动态高频接触时出现零点漂移。针对这一物理现象,软件层面的解决方案包括引入感知迟滞的增量更新法则(Hysteresis-aware incremental update law),通过在光流场计算中加入空间增益阻尼机制,能够有效抑制回弹过冲。实验数据显示,采用该算法可实现 100% 的归原点成功率,残余平均偏差仅为 0.8039 像素。
在硬件寿命周期内,由于弹性体长期遭受摩擦与压迫,其形变响应函数不可避免地发生永久性偏移(磨损效应),这会使得预先训练的神经网络力学推断模型完全失效。为此,研究人员设计了气动标定夹具(Pneumatic calibration fixture),利用聚乳酸(PLA) 3D打印制成的气室阵列对弹性膜施加标准气压进行定期力学响应复现,从而在线校准失效单元并延续数据的有效性。
三维几何形貌的光电逆向渲染算法
将二维像素阵列的强度值还原为微米级精度的三维物理形貌,是视触觉传感器的核心计算过程。该过程涉及光度立体视觉方程的非线性映射、多介质光线追踪以及偏微分方程的频域加速求解。
多路光度立体视觉与查找表(LUT)映射矩阵
依据光度立体视觉原理,弹性膜表面任意一点
在特定光源 照射下的反射光强 可由下式近似:

其中, 为表面的反照率,
为单位表面法向量, 为光源的方向与强度向量。传感器通常配备多向(例如东南西北四个方位)且波长不同的光源(红、绿、蓝),构成RGB三通道的独立光场。
由于相机捕捉到的图像不仅受到理想漫反射的影响,还掺杂了相机非线性响应、局部自阴影(Self-shadowing)及多重光散射干扰,实际的反射率函数
与表面梯度
,
之间呈现极度复杂的非线性映射关系:

由于正向解析模型难以精确反演,最有效的工程实践是构建经验查找表(Lookup Table, LUT)来表征反函数
。标定过程如下:使用已知精确半径(例如
mm)的微型球体以不同深度压入凝胶表面。利用球体的几何方程解析算出每个接触点的理论法向量,同时记录对应的RGB光强变化值。为消除空间光照的不均匀性,实际测量采用相对光强差异
(其中 为零接触时的环境背景光强)。对于常规 8-bit 彩色相机,标定程序通常构建一个维数为
的三维映射矩阵。在实时推理阶段,任意输入的光强向量通过在矩阵空间内进行三维双线性插值,即可直接查询到对应的物理梯度
。
泊松方程的离散正弦变换(DST)高效求解
在获取密集的梯度场矩阵后,形貌重构等价于从梯度场中恢复高度场
。这构成了一个经典的二维泊松偏微分方程(Poisson Equation)边界值问题:

其中,拉普拉斯算子
作用于高度场,方程的源项 定义为测量所得梯度场的散度:

考虑到凝胶边缘处形变为零,该问题适用狄利克雷边界条件(Dirichlet boundary conditions)。为了满足实时机器人控制的要求,常规的迭代最小二乘法(IRLS)计算代价过高。现代算法普遍引入了快速泊松求解器(Fast Poisson Solver),其核心思想是对算子
执行离散正弦变换(Discrete Sine Transform, DST)。
由于正弦基函数天然满足边缘为零的边界约束,偏微分操作在傅里叶/正弦频域中被转化为简单的代数乘法。随后通过逆离散正弦变换(IDST)将结果映射回空间域,使得整体时间复杂度骤降至
,从而确保高分辨率的 320x240 深度图能够在普通 CPU 或嵌入式平台上以百赫兹级别的帧率实现闭环输出。
复杂介质折射立体光线追踪(RSRT)与畸变校正
针对曲面(如 GelTip 或带有鱼眼广角的传感器),视场内光线必须穿透多层具有不同折射率的介质(空气 、刚性亚克力外壳
、硅胶体
)。此时,简单的针孔相机模型彻底失效。
基于斯涅尔定律(Snell's Law),研究者开发了折射立体光线追踪模型(Refractive Stereo Ray Tracing, RSRT)。设空间交点为
,光线传播方向向量为
,介质界面的法向量为
。通过联立左右双目或移动单目的投影矩阵(引入旋转矩阵
及平移向量
),建立包含折射路径偏移的三维非线性方程组:

对系统的折射率集合
及结构偏移量进行参数化非线性优化。大规模定量标定实验证实,该折射标定流水线可将三维空间的欧氏距离重建误差控制在 0.35 毫米之内,同时使得无参数径向畸变(Parameter-Free Radial Distortion)校正后的重投影误差收敛至 0.45 像素左右。
基于力学解耦的接触力与扭矩估计
从纯视觉形变中解析出法向力、剪切力以及接触扭矩,是视触觉技术区别于单纯三维扫描仪的核心能力。其实质是通过连续介质力学原理,将光流场映射至应力张量空间。
散乱标记点的差分光流跟踪
为了定量表征水平位移与切向力,传感器通常在不透明反射层之下与透明凝胶之间印刷随机或规则分布的黑色网点(Markers)。
算法首先对初始帧
应用低通高斯滤波,获取去除高频标记点干扰的背景光照底图 。随后在任意接触帧
中计算差分图
。这一操作不仅消除了背景环境光,且由于形变区域法线倾斜产生强反射,使得黑色标记点在差分图中呈现极高的对比度。通过图像阈值分割并计算各连通域质心,得出接触态标记点坐标 ,从而提取全场的二维运动矢量场
。
亥姆霍兹-霍奇分解(HHD)力学映射模型
未经处理的二维位移矢量场高度耦合了法向压迫、侧滑摩擦与原位旋转的效应,直接输入神经网络存在严重的维度灾难与泛化困境。先进的算法范式引入了矢量微积分中的亥姆霍兹-霍奇分解(Helmholtz-Hodge Decomposition, HHD),将耦合的形变场正交解耦为具备明确物理意义的独立分量。
根据 HHD 定理,任何定义在连通域上的光滑向量场
(即标记点光流场),均可分解为三个部分的叠加:无散度的螺线场(Solenoidal component)、无旋度的无旋场(Irrotational component)以及边界调和场。在实际二维计算中可表示为:

无旋场成分(
,存在散度
):由标量势 的梯度构成,表现为空间中的发散(源)或汇聚(汇)。由于硅胶属于近似不可压缩流体(泊松比接近 0.5),当法向压力向下压迫接触区时,受压体积必须向四周排出,导致二维切平面上呈现出向外发散的辐射状矢量场。因此,高散度(Divergence)区域及其对应的无旋场幅值,直接表征了局部法向接触力的空间分布与强度。螺线场成分(
,存在旋度
):由矢量势 的旋度构成,表现为空间流体的漩涡、闭合环流或刚体平移。当物体在传感器表面发生宏观滑动或施加面内扭矩(Torque)时,弹性膜发生扭转剪切应变。旋度(Curl)的强度分布准确量化了旋转扭矩的作用点与大小。同时,全局均一的螺线场偏移量则对应了宏观的平移剪切力。
通过自然边界条件(nHHD)矩阵算子,系统能够快速提取出上述两场特征,并进行低阶多项式展开构成特征向量。这一降维解耦机制极大降低了对大规模力学标定数据集的依赖,使传感器在微型计算单元上即可实时解算高精度的 6D 接触力场及摩擦系数。
神经形态视觉与动态滑动检测
机器人灵巧抓取易碎物或未知刚度物体时,核心挑战在于捕捉滑动发生前的先兆(Micro-slip),并以极低的延迟实施抓力补偿。
频域振荡与统计学分布感知
基于传统帧架构(Frame-based)的传感器通过频域变换突破时延。由于凝胶材料的高粘弹性特性,在宏观刚体滑动发生前瞬间,接触表面局部会产生“抓取与弹回”(Catch and snap back)的高频微观粘滑现象。通过实时跟踪法向力分布中心的物理坐标或绝对受力幅值,并持续实施快速傅里叶变换(FFT),系统能够在频域检测到异常的高频能量突变,从而发出滑动预警。
针对 TacTip 类结构,滑动检测则依赖于标记点运动矢量的统计学分布。研究显示,当施加稳定的静态抓取时,内部标记点的运动轨迹呈随机布朗运动或小幅杂乱状态;而当滑动趋势确立时,所有受影响区域的标记点速度向量会在极短时间内收敛对齐至一致的角度分量。通过提取速度矢量幅值与角度构成的极坐标特征,并将其作为支持向量机(SVM)或基于 Voronoi 图空间拓扑分割算法的输入,能够实现高鲁棒性的滑移状态二元分类。
神经形态事件相机与脉冲计算框架
传统 CMOS 相机固有的曝光整合时间限制了滑移检测的极限响应速度。针对此问题,最前沿的传感器系统(如 SpikingTac、NeuTouch)彻底摒弃了全局快门,转而集成了类脑事件相机(Event Cameras, 例如 Prophesee)。
事件相机仅在局部像素点观测到的对数光强变化量越过特定阈值时,才会异步地发射微秒级的时间戳脉冲(Spike/Event)。在发生微动摩擦或动态碰撞时,形变引起的光场变化激发出极低冗余的稠密事件流。通过构建全局动态状态图,并耦合基于无监督去噪网络的视觉-触觉脉冲神经网络(VT-SNN),SpikingTac 系统实现了高达 1000 Hz 的触觉感知更新率。实验验证表明,当机械臂发生突发碰撞时,该神经形态传感器将控制系统响应后的过冲距离(Overshoot)限制在 6.2 毫米内,其动态闭环性能达到传统帧架构传感器的 5 倍,且几何半径测量均方根误差(RMSE)仅为 0.0452 毫米。
物理渲染仿真与 Sim-to-Real 域迁移
将深度强化学习应用于多指触觉操作时,最大的算力瓶颈在于物理实体实验的低效与设备易损耗性。建立物理一致性极高的视触觉数字孪生仿真引擎成为加速策略研发的前提。
目前主流的仿真框架主要分为两大技术路线:
基于物理基元渲染的 TACTO 架构:由 Meta AI 推出的 TACTO 利用 PyRender 开源渲染器,结合物理仿真器(如 PyBullet)。引擎首先解算目标网格与虚拟弹性体的穿透几何,应用惩罚接触模型计算形变,最后执行高分辨率表面阴影的光线追踪与渲染。该架构灵活且支持 DIGIT 等多种传感器,帧率可达数百赫兹,适用于大规模并行化强化学习。
基于样本多项式力场的 Taxim 架构:单纯的光学渲染忽视了硅胶复杂的力学挤压效应(如受压边缘的非线性隆起)。针对 GelSight 深度优化的 Taxim 引擎采用“基于实例的模拟”(Example-based Simulation)模型。通过将刚体端点力导入高阶多项式模型计算连续位移场,精确重构出标记点与胶体的受力形变,随后生成符合朗伯余弦定律的光度图像。
在这些高保真度仿真平台(如 Tactile Gym 2.0 套件)中,利用实到虚(Real-to-Sim)的生成对抗网络对图像进行域适应翻译,或者大规模引入域随机化(Domain Randomization)扰动物理参数,神经网络能够学习到抓取稳定性预测与复杂滑动控制策略。这些纯虚拟训练的感知策略已多次被证实具备极高的零样本(Zero-shot) Sim-to-Real 迁移能力,可直接部署于物理夹爪上。
工业化部署与量产趋势观察
伴随学界基础研究的成熟,视触觉传感器正跨越实验室阶段,进入工业标准件与商业化量产周期。各机构在推动该技术商业化时呈现出差异化的技术重心。
机构与代表型号 | 工程化突破方向与核心优势 | 商业与研究应用场景界定 |
GelSight Inc. (GelSight Mini/Max) | 提供极致开箱即用的高分辨率 API 与三维形貌数据库接口。标定完善,硬件模块极为稳定可靠。 | 广泛部署于航空航天部件的非破坏性表面粗糙度与缺陷检测、工业级材料科学评估。 |
Meta AI (DIGIT 系列) | 将造价成本与体积控制推至极致。传感器尺寸仅为 20x27x18 mm,可实现 320x240 @ 60fps 稳定输出。全栈硬件开源。 | 定位于打破多指机械手高分辨率触觉研究的准入门槛,赋能开源机器人生态社区系统集成。 |
Daimon Robotics (ICRA 2025 新品) | 由 MIT 研究背景团队主导,突破毫米级超薄封装极限,重点解决长期存在的运算热功耗与硅胶耐久度难题。 | 针对复杂恶劣的真实工业产线与通用人形机器人的具身智能抓取场景,具备强劲的大规模量产潜力。 |
Paxini Gen3 (对比参考) | 舍弃光学架构,采用 2 mm 超薄压阻式矩阵膜,100 Hz 输出 16x16 离散力学图谱。 | 适应任意高曲率仿生灵巧手(如 Orca Hand),在极端空间局限下的法向力粗略感知应用。 |
结语
综上所述,视触觉传感器通过融合高分子物理材料科学、光度立体几何反演计算以及矢量流场解耦(亥姆霍兹-霍奇分解)等跨学科技术原理,彻底革新了机器人触觉感知的范式。从单纯获取静态微米级三维结构(GelSight 类),到捕捉宏观滑动分布(TacTip 类),再到利用无盲区内窥骨架(GelTip 类)以及神经形态事件驱动芯片(SpikingTac 等)实现千赫兹级别的极速微纳级动态响应,硬件架构与底层算法的迭代路径呈现出极高的纵深属性。
未来,伴随着多介质光线追踪标定算法消除全向超广角畸变、气动与数字算法双重抑制迟滞效应、以及 Taxim 和 TACTO 等高保真度物理-光学联合引擎的日益精进,横亘在虚拟仿真与物理部署之间的鸿沟将被彻底抹平。随着毫米级超薄封装技术与超低功耗发热控制解决方案(如 Daimon Robotics 所展示的路径)跨越量产拐点,视触觉传感器必将成为通用具身智能机器人实现灵巧操作与复杂环境物理交互的标准核心基础设施。


