我们的研究目标是为具有挑战性的非结构化环境下的自主机器人和人工智能智能开发强大的机器视觉算法。 为此,我们围绕视觉伺服、自动驾驶、软体机器人、无人机、医疗机器人、强化学习控制、多机器人控制和大规模调度 和 机器视觉项目等课题进行探索和研究。
我们专注于非结构化环境中的视觉伺服控制。 提出了与深度无关的交互矩阵将非线性与深度解耦,并在此基础上提出了自适应律在线估计未知相机参数。 因此,可以使用未经校准的单目相机设计控制器,实现调节和跟踪性能。 所提出的视觉伺服技术已应用于各种机器人平台的控制,包括工业机器人、软体机器人、柔性机器人、移动机器人等。
![]() |
在基于视觉的机器人操作中,通常要求对象应呈现所需的形状或以特定角度观察,以方便后续操作,例如对象爬行和组件检查。为了实现这种视觉伺服任务,设计了一种基于贝塞尔曲线参数和非均匀有理B样条(NURBS)曲线的图像特征。设计了一个自适应深度无关控制器来估计未知曲线参数以及在线深度信息 (TMECH 2018)。此外,基于视觉伺服理论,我们开发了一种应用,与瓶状物体交互,可用于瓶状模具内表面的去毛刺、抛光和焊接。基于对象的几何形状,提出了一种新的广义约束,称为瓶颈(BN)约束,它确保工具通过固定的 3-D 区域并避免与区域边界发生碰撞。设计了一种新颖的动态控制器来实现BN约束下的混合视觉/力控制(ICRA 2021). |
![]() |
我们提出了一种新颖的基于图像的视觉伺服系统,用于带有手持摄像头的灵活空中加油臂。 基于奇异摄动法将柔性加油臂动力学模型分解为慢速子系统和快速子系统。 对于慢速子系统,利用图像反馈控制柔性加油臂,使接收机背面的点标记投影收敛到所需位置。 对于快速子系统,采用线性二次调节器(LQR)来稳定柔性加油臂的振动。 基于李雅普诺夫理论验证了图像误差到零的渐近收敛性。 仿真用于证明所提出方法的有效性。(TMSC 2020) |
![]() |
我们提出了新颖的基于图像的视觉伺服方案,用于具有高架固定摄像头的移动机器人的姿态稳定和位置控制问题。 引入了一种新的基于图像的运动学模型,从图像雅可比矩阵中去除了相机的内在和外在参数,并使相机参数独立的基于图像的控制器的设计成为可能。 在所提出的方案中,不需要准确或近似地了解相机的内在和外在参数,并且完全未知的相机可以以任意姿势安装在天花板上,这可以使控制器实现非常简单和灵活。 (TRO 2019, TAC 2018) |
![]() |
在实际应用中,控制移动机器人沿期望轨迹移动到期望位置是非常重要的,以在控制过程中实现避障或将移动机器人保持在摄像头视野内。 已知是任务执行成功的关键。 为此,我们提出了一种新的基于图像的免校准轨迹跟踪控制方案,用于具有真正未经校准的固定相机的非完整移动机器人。 通过开发一种新颖的与相机参数无关的运动学模型,在所提出的方案中可以避免离线和在线相机校准,并且在控制器设计中不需要任何相机知识。 所提出的轨迹跟踪控制方案可以保证图像位置和速度跟踪误差的指数收敛。 (TASE 2020) |
![]() |
在许多现有的非完整移动机器人编队控制方法中,需要测量领导者速度并将其传输给跟随者以进行控制器设计。为了使其适用于难以或不可能为机器人提供全球定位能力的环境,我们应该开发无需测量机器人全球位置信息的编队控制器。为此,我们为移动机器人开发了新的连续编队控制器,无需测量引导速度,从而不需要移动机器人之间的通信。为了解决领导者速度不可用的问题,提出了基于自适应控制技术的观测器,从跟随者的车载传感器信息中获得领导者速度的估计。在基于李雅普诺夫稳定性理论的稳定性分析中,考虑了速度估计误差对闭环稳定性的影响,结果表明,所开发的方法保证了观测器-控制器组合闭环系统的全局稳定性。(TMECH 2020, TRO 2018) |
![]() |
我们设计了人机共享视觉伺服系统,使人和机器人在视觉伺服过程中进行协调,并结合机器人的精确控制能力和人类决策能力。博弈论用于建模人类和机器人的行为。根据人机物理交互力的观测,利用径向基函数神经网络(RBFNN)自适应估计人类意图并动态调整机器人控制目标,以此实现人机协调。在此框架下,当人类不参与视觉伺服时,机器人工作在自主控制模式下,占据所有控制权;当人类参与视觉伺服时,机器人工作在共享控制模式,将部分控制权交给人类,并且,人类发出的控制指令越强,机器人失去的控制权就越多。当机器人完全失去控制时,机器人在人类遥操作模式下工作。我们利用李雅普诺夫理论证明了系统的稳定性,并通过实验验证了所提方法的有效性。 |
![]() |
在基于视觉伺服的机器人操作中,特别是目标特征和初始特征差距较大时,视觉伺服控制器不可避免地收到多种约束如视野约束、运动学约束、可见性约束、图像雅可比矩阵非奇异约束等的影响而无法完成收敛。这样的现象极大地限制了视觉伺服的应用,为了解决这一问题,设计了一种基于二次规划的局部规划器(控制器),其能够在视觉伺服过程中处理视野、关节(位置、速度/力矩)极限并缓解奇异现象的出现,结合基于采样的全局规划框架,能够以高效率处理大部分受约束视觉伺服问题(T-MECH 2024 Under Review) |
对于自动驾驶,我们的研究主要集中在通过基于学习的算法进行感知和定位。具体来说,我们的目标是开发强大的基于 AI 的同时定位和映射 (SLAM) 系统,用于基于多传感器感知的具有挑战性的环境下的自动驾驶和移动机器人。我们的工作包括基于学习的里程计、大规模映射、长期闭环和重新定位。
![]() ![]() |
由于室外场景中动态物体引起的像素噪声,因此在这种动态环境下视觉里程计会受到严重影响。我们提出了一种基于置信度的无监督视觉里程计模型,充分利用对应像素的相似性和一致性,提高对动态物体的鲁棒性( IROS 2019, TITS 2021)。针对遮挡问题,我们提出了一种基于深度和自我运动的无监督学习方法,该方法使用多重掩码来处理遮挡问题(ICRA 2019, TITS 2020)。针对大范围运动,我们提出了一种新颖的无监督深度和位姿训练框架,利用显式的三维几何进行三维分层细化和增强(T-CSVT 2022 )。对于鲁棒的视觉配准,我们将RANSAC采样一致性建模为一种强化学习过程,实现了全面的端到端学习采样一致性的鲁棒估计((ICCV 2023 )。 |
![]() ![]() |
针对基于激光雷达的里程计,我们引入了一种名为PWCLO-Net的新颖三维点云学习模型,该模型采用了分层嵌入掩码优化技术。在 KITTI 里程计数据集(CVPR 2021)的大多数序列上,它优于所有最新的基于学习的方法,也优于基于几何的方法,即带有建图优化的 LOAM。此外,我们还提出了一种新的高效三维点云学习方法,该方法专为机器人实时感知和定位的逐帧处理任务而设计。它可以将我们之前 CVPR 的深度激光雷达里程计加速到实时,同时提高精度(T-PAMI 2022)。此外,我们还设计了一个高效的激光雷达里程计框架,我们通过将点云投影到二维平面,然后将其输入具有线性复杂性的局部Transformer(AAAI 2023)。为了捕捉点云配准中大运动建模的长期依赖性,我们提出了一种 10w 级别点云的端到端高效点云配准方法(ICCV 2023 )。 |
![]() |
我们提出了一种名为Fusion-Net的在线端到端解决方案,可以自动检测和校正激光雷达与单目RGB相机之间的外部标定矩阵,无需任何特殊设计的目标或环境(ICRA 2021)。此外,我们提出了一种新颖的端到端2D-3D配准网络,名为I2PNet。I2PNet使用具有独特目标的差分模块,直接将原始3D点云与2D RGB图像进行配准。针对差分2D-3D关联,我们提出了2D-3D匹配代价模块,以建立特征提取和姿态回归之间的桥梁。结果表明,I2PNet在性能上大幅超过了现有技术。此外,为了实现跨模态定位,我们提出了一种名为LHMap-loc的单目视觉定位框架。该方法可以离线压缩点云地图,并在线进行单目姿态回归。在KITTI、Argoverse和自采集数据集上,LHMap-loc的精度和效率优于现有技术方法(ICRA 2024)。 |
![]() ![]() |
不断变化的环境对长期 SLAM 算法提出了巨大挑战,尤其是对于闭环和重定位。我们提出了一种自监督表示学习,通过引入特征一致性损失,通过多域图像翻译来提取域不变特征。此外,还引入了一种新的梯度加权相似性激活映射损失,用于高精度定位(JAS 2021, IROS 2019)。为了在没有任何人力的情况下利用高质量的虚拟地面实况,我们提出了一种新颖的多任务架构,通过 Syn-to-real 域适应(TIP 2020)将几何和语义信息融合到潜在的嵌入表示中)。对于来自 LiDAR 的大规模点云,我们提出了一种新颖的判别性和可推广的全局描述符来表示大规模室外场景,它揭示了用于位置识别和闭环的连续潜在嵌入特征空间。基于LPD-Net,实现了点云配准,实现了闭环后的6-DoF姿态回归和重定位(ICCV 2019, IROS 2019, IROS 2020)。 |
![]() |
我们与唯品会合作,提出了一种基于多传感器融合的无人系统,具有自主导航、定位、规划和控制算法,以解决物流园区的最后一英里交付问题。我们的无人系统集成了基于多传感器融合的SLAM、多模型感知、动态路径规划、避障算法和运动控制算法,实现了复杂环境下的高精度测绘、定位、感知、导航和避障。该系统已经在多个平台上进行了验证,并在具有挑战性的大规模户外环境中完成了基于视觉的精确导航、定位和固定停车任务。并已成功应用于物流配送行业领域,并在交大校园和唯品会总部完成试运营。单次投递路径超过一公里,运营效果令人满意,累计投递快递近千件。 |
在机器人感知方面,我们的研究主要集中在通过基于学习的算法实现基于视觉或点云的机器人感知。具体来说,我们致力于多传感器感知的基础上,在具有挑战性的环境下为移动机器人开发强大的基于人工智能的感知系统。我们的工作包括基于学习的光流/场景流估计、物体分割/检测/跟踪、基于NeRF的SLAM以及手部/人体姿态估计。
![]() ![]() |
对于无监督光流估计,我们引入了一种新颖的无监督学习方法,通过考虑非遮挡区域中的几何约束来估计光流(T-ITS 2022)。我们引入了一种新颖的具有双重注意力的分层神经网络,用于学习相邻帧中点特征的相关性,并通过逐层细化场景流。该网络在3D场景流估计方面达到了最先进的性能(TIP 2021)。此外,我们引入了一种新颖的场景流嵌入层,其具有全连接机制和反向验证机制。我们还研究和比较了三维场景流网络中关键组件的几种设计和选择,并实现了 SOTA 性能 (ECCV 2022)。为了结合2D和3D信息,我们提出了一种高效且高精度的大尺度点云场景流学习方法,既实现了2D方法的效率,又保持了3D方法的高精度(ICCV 2023)。为了实现鲁棒的场景流估计,我们提出了一种新颖的基于不确定性的场景流估计网络,其采用了扩散概率模型。基于扩散的迭代细化旨在增强相关性和鲁棒性,以及对动态场景、噪声输入、重复特征等挑战性情况的适应能力(CVPR 2024)。此外,我们提出了一种3D场景流的伪标签自动标注框架。在给定点云和初始边界框的情况下,对全局和局部运动参数进行迭代优化。通过随机调整这些运动参数来增强多样化的运动特征,从而为3D场景流估计模型的训练创建了一个多样且真实的运动标签集(CVPR 2024)。 |
![]() ![]() |
对于非结构化的点云分割,我们引入了球形插值卷积操作来替代传统的基于网格的3D卷积操作。它提高了网络的准确性并减少了参数的数量 (T-CYB 2021)。然后,针对点云序列的分割,我们引入了一种基于锚点的时空注意力卷积操作(ASTAConv),用于处理动态的3D点云序列。它更好地利用了局部区域内的结构化信息,并从动态的3D点云序列中学习时空嵌入特征(TIM 2021)。为了预测一般障碍物的未来状态,我们进一步提出了一种新颖的4D占据预测网络,以及一个支持对一般可移动/静态物体分割的未来工作的新基准(CVPR 2024)。对于物体检测,我们提出了一种具有投影感知的高效特征融合框架用于3D物体检测。对于物体跟踪,我们提出了在图像和点云的多尺度特征之间进行交互式特征融合。此外,我们探索了对每个单独的模态进行预训练并对基于融合的模型进行微调的有效性(T-ITS 2023)。 |
![]() |
Neural SLAM的研究工作充分展示了神经辐射场(NeRF)在SLAM中的优势:稠密性、一致性和灵活性。我们提出了一种语义SLAM系统,其利用神经隐式表示实现高质量的稠密语义建图和鲁棒跟踪。在该系统中,我们引入了分层语义表示,以实现对场景的多层次语义理解,从而进行自顶向下的结构化语义建图。此外,为了充分利用环境多个属性之间的关联性,我们通过交叉注意力实现外观、几何和语义特征的联合,以促进特征的协同作用。然后,我们设计了基于内部融合的解码器,从多层次特征中获取语义、RGB和截断符号距离场(TSDF)值,以实现准确的解码。此外,我们提出了一个特征损失函数,用于在特征级别更新场景表示。通过这些策略,改进了稠密语义SLAM的性能,并在公开的室内数据集上进行了验证(CVPR 2024)。 |
![]() ![]() |
当前,手部姿态估计面临着一些挑战,如遮挡、光照条件变化以及由于类似关节外观造成的估计偏差。此外,有效地整合2D和3D输入也带来了困难。为了解决这些问题,我们提出了一种基于联合2D/3D估计和动态循环优化的手部姿态估计算法。为了充分利用2D和3D模态的特点并最大化它们的互补性,我们的算法在2D和3D分支的特定层添加了多个双向融合连接。这些连接有效地合并了来自2D深度图和3D点云数据的语义信息。为了解决遮挡的挑战,我们的算法采用了动态循环单元。通过迭代循环,它对手部关节的邻域进行采样,并利用动态图卷积促进关节邻域内的动态信息交互。这个过程增强了关节邻域的语义差异性并不断优化手部关节的位置。我们的算法在视频流中实现了实时、高精度的手部姿态估计。对于人体姿态估计,我们引入了一种新颖的无监督学习方法,通过考虑实际/虚拟骨骼的循环约束和连续帧中的关节运动约束来进行3D人体姿态的估计(T-CSD 2022). |
![]() |
在手-物体交互过程中,理解人类行为对于各种应用至关重要,例如服务机器人操作和扩展现实环境。通过准确预测人类如何与物体交互,机器人可以更好地预测用户需求,扩展现实系统可以提供更具沉浸感和直观性的体验。为了解决这一挑战,我们最近的研究 [arXiv] 专注于使用捕捉人类视角的 egocentric 视频来预测手部轨迹和物体可及性。这种双重预测任务提供了未来手-物体交互在 2D 空间中的更全面的表示,不仅捕捉了手部的潜在运动,还捕捉了所涉及物体的感知功能可能性。此外,我们还提出了一种新的手部轨迹预测方法 [Project Page] 来克服相机自运动干扰和缺乏可及性标签来明确指导手路径点分布优化的挑战。 |
对于软体机器人,我们的研究主要聚焦硅胶软体机器人以及电响应材料驱动软体机器人的设计、建模和控制。具体来说,我们致力于研究适用于微创手术的软体机械臂和能够抓取易碎物体的软体抓手,此外还通过多运动模态的设计提升软体移动机器人在复杂环境中的探索能力。
![]() ![]() |
面向微创心脏消融手术场景,设计了拉线驱动软体机械臂系统。该系统完全使用软体材料制成,内部没有刚性结构支撑。通过在软体机械臂内部嵌入基于光纤布拉格光栅(FBG)的形状传感器网络,实现了对机械臂形状的实时感知。在机械臂末端装有4点式接近传感器,用于跟踪心脏的跳动。形状记忆聚合物(SMP)被用于解决柔顺性结构较低刚度和有限负载的问题,但热响应SMP需要额外的加热结构,难以集成在机器人当中。为了解决这一问题,在气动软体手指中使用了内嵌加热结构的SMP基底作为人工关节,通过对不同关节进行加热实现了手指的多种弯曲运动。在软体抓手的设计中,提出了一种新型气动软体驱动器设计和制造方法,能够集成气压和曲率感知功能。(ROBIO 2018, CYBER 2018) |
![]() |
由于刚性机器人和软体机器人之间的建模区别,迫切需要针对软体机器人建立其运动学、静力学和动力学的新框架。为此,我们通过结合几何学精确的Cosserat梁理论和Kelvin模型,建立了软体机器人的三维动力学模型。该模型在分段常曲率模型的基础上,考虑了软体机器人的曲率和应变。在此基础上,提出了一个考虑摩擦的水下动力学模型,并考虑传动过程中拉线摩擦力补偿驱动力损失。所提出的动力学模型可以适应多变的环境,并以此为基础设计控制器(TMECH 2018)。基于已解决的系统模型,我们还开发了基于模型的力和碰撞检测算法(ICRA 2021)。 |
![]() |
由于刚性机器人和软体机器人的建模差异,刚性机器人的控制算法不能直接应用于软体机器人。因此,我们致力于研究针对软体机器人特性的控制算法。我们提出了一系列视觉伺服控制器,如考虑特殊光学条件和环境干扰的自适应视觉伺服控制器(TIE 2019, TMECH 2019),利用形状特征解决连续体机器人特征对应问题的形状控制 (RA-L/ICRA 2021);以及仅仅依靠单目相机的容错控制,通过在动态过程中精心设计信号来触发不同性能((TIE 2020)。以及利用精心设计的形状特征解决连续体机器人无全局姿态/位置信息下的三维形状控制问题(TMECH 2022)。 |
![]() |
为了提高软体机器人在受限环境中的可控性,我们对环境交互的任务进行了一系列的研究。我们提出了一种基于形变模型的混合视觉力控制器,基于实时形变模型更新方法,实现了精确的力交互性能(TCST 2019)。为了解决安全等级较高的控制问题,以拓展在机器人辅助手术中的应用,有时应该满足末端执行器的准确定位和不与体内器官发生碰撞的双重要求。为此,我们提出了一种混合控制器,旨在实现机器人中间端同步避障和视觉伺服(TMECH 2020)。为更好利用软体固有柔顺性,弱化传统完全避障强约束,设计了一种顺应性避障算法,结合基于接触力评估的安全交互控制机制,实现了在未知受限空间内的精确定位与安全交互控制效果(TMECH 2024)。 |
![]() |
针对软体机器人在实际应用中与物体直接交互及执行特定操作任务的需求,我们提出了一种面向操作任务的作用力主动调节机制,旨在最大限度的利用软机器人的有限负载,使其能完成一定的操作作业。我们提出了一种两阶段视觉伺服控制器,实现了通过视觉控制算法将物体推到目标位置,并同时通过作用力规划来提升推动效果的双重控制目标。所提出的控制器在实际样机的物体推动任务中分别验证了它对图像误差收敛能力和作业效率提升效果。(Soft Robotics 2021) |
![]() |
尽管小型软体机器人在未知环境中具有适应性的潜力,但由于软体驱动器力学性能和机身尺寸的内在限制,它们的性能常常受到制约。为了解决这个问题,我们提出了一种由电响应材料驱动的快速移动软体机器人。这种机器人结合了介电弹性体驱动器(DEAs)和形状记忆合金(SMA)弹簧驱动器的优点,使其具有高性能的多模态运动能力。通过构建DEA和SMA的非线性力学模型,分析了机器人的运动性能,并基于模型完成了机器人设计参数的优化。在实验验证中,机器人展现了优异的奔跑速度和跳跃高度。与此同时,机器人还能够通过不同驱动器间的协调工作实现可控的转向运动以及跳跃角度调整。 |
我们的研究主要集中在基于图像的无人机控制和轨迹规划。由于GPS在室内或杂乱的城市地区可能失效,我们的目标是利用单目相机提供的视觉信息来控制无人机执行伺服或跟踪任务。另外,我们还研究了在障碍物杂乱的环境中为无人机生成安全且动态可行的轨迹。 我们的工作包括基于图像的视觉伺服、基于图像的视觉跟踪和实时轨迹生成。
![]() |
考虑到四旋翼动力学的欠驱动和非线性,我们使用所定义的图像特征来设计四旋翼无人机的 基于图像的视觉伺服(IBVS)控制器。 通过使用虚拟图像平面中的图像特征,推导出速度控制器(TMECH 2017);IBVS 最大的挑战之一是在线估计深度。 我们提出了一个非线性观察器,使用视觉反馈同时估计点特征的深度和四旋翼飞行器的速度,并进行了实验测试,还与扩展卡尔曼滤波器进行了比较,以验证观测器的有效性(TMECH 2018);可见性问题可能导致无人机的视觉伺服失败。为了保证可见性,我们定义了基于控制屏障函数的可见性约束。 控制输入经过最少的修改以满足可见性约束,从而保持目标的可见性(TMECH 2019)。 |
![]() |
四旋翼飞行器基于图像的视觉跟踪 (IBVT) 问题具有挑战性。 因为对于这样的系统,控制输入和图像特征运动之间的关系通常很复杂。我们提出了一种非线性控制器,它使用在虚拟平面中定义的特征来让四旋翼飞行器跟踪移动目标。假设目标以未知的、时变的和有界的线速度、线加速度以及偏航角速度和加速度移动。通过李雅普诺夫分析(ASCC 2017)证明了控制器一致最终有界 (UUB)。通过采用虚拟相机方法和选择图像矩,我们设计图像特征在图像空间中的轨迹来执行四旋翼基于图像的视觉控制任务。提出了一个图像特征轨迹跟踪控制器来跟踪设计的轨迹。通过 Lyapunov 定理(TIE 2018)分析和证明了所提出的跟踪控制器的稳定性。 |
![]() |
轨迹规划算法是自主导航的核心,好的算法无疑可以大大增强飞行的安全性。由于需要为未知环境中的四旋翼飞行器规划安全且动态可行的轨迹,我们提出了一种基于 B 样条和运动-动力学搜索的轨迹规划框架。该框架可用于携带有限传感器的四旋翼飞行器,并且遵循这些轨迹飞行将是安全有效的。首先,我们提出了一种基于 B 样条的非均匀运动动力学 (BNUK) 搜索算法,以有效地生成动态可行的轨迹。非均匀搜索的特性使得生成的轨迹安全且时间分配合理。然后,提出了一种基于控制点优化的轨迹优化方法。 多次户外飞行实验表明了所提出框架的有效性。 (Journal of Field Robotics 2020) |
![]() |
在没有定位系统环境中空中机械臂接触交互控制是一个具有挑战性的问题。我们提出了基于图像的无人机力跟踪阻抗控制策略(TASE 2022, TAES 2024)。为了实现视觉引导下的力跟踪,我们设计了一种自适应视觉阻抗控制方法,根据力跟踪误差和视觉特征误差调整目标刚度。通过李雅普诺夫分析证明闭环系统是渐近稳定的。此外,我们提出了一种基于线特征的空中机械手阻抗控制的视觉引导方法,目标是与未知环境进行物理交互。为此,提出了一种非线性观测器来在线估计环境的 3-D 参数。这些参数被用来估计与图像特征相关的交互矩阵。通过规划图像空间轨迹和距离,可以唯一指定所需的交互行为,而无需依赖系统的任何位置信息。(TASE 2022, TIE 2023) |
![]() |
人机物理交互(pHRI)近年来在飞行器领域受到越来越多的研究关注。在这项工作中,提出了一种用于人-空中机器人协同运输的视觉阻抗控制策略。在没有定位系统的情况下,通过使用绳子拉力和物体的视觉特征作为反馈,控制飞行器跟随人类伙伴。此外,了解人类的运动对于提高合作的效率和流畅性非常重要。在不测量飞行器和人的速度的情况下,我们建议通过基于视觉的速度观测器直接估计它们的相对速度。然后将该估计的速度集成到视觉阻抗方案中。通过李雅普诺夫分析和无源性分析,严格证明了系统的稳定性。通过人类与无人机共同搬运一个长物体验证了方法可行性。(TII 2023) |
![]() |
我们提出了一种新颖的仿生四旋翼设计,灵感来自捕捉猎物过程中鹰爪的形态。四旋翼的手臂能够垂直折叠,实现动态抓握,模仿鹰爪从打开状态到关闭状态的转变。这种转变是通过中央伺服电机的旋转和20个连杆的相关运动来实现的。由于框架的闭环多连杆结构,当臂折叠时,四旋翼机的螺旋桨保持在固定的方向,允许在任何臂旋转角度下实现系统稳定。我们分析了整个机身的几何特性,以确定连杆的关系和约束条件。为了处理抓取过程中可能发生的物理特性变化和外部干扰,我们应用了自适应滑模控制器。针对抓取任务中未知大小的物体,我们提出了一种自适应形态学的导纳滤波器。在飞行中,我们提出的变形四旋翼机能够快速或连续平稳地过渡到其范围内的任何配置。实验结果表明,四旋翼机能够在不需要额外工具的情况下以0.4m/s的速度动态抓取各种未知物体,并且具有穿越狭窄空间和栖息的多功能性。(TRO 2024) |
对于医疗机器人,在感知部分,我们研究了3D牙齿分割的优化;在控制部分,我们开发了机器人辅助手术(RAS)中软组织的自动操纵,包括变形轨迹控制、切割控制等。
![]() |
由于牙齿网格上几何特征分布的可变性和复杂性,基于几何的传统分割方法经常失败。我们改进了区域生长算法,通过多个参数联合评估区域相似度,以增强算法对实际应用场景需求的适应性。此外,我们设计了一种参数自适应方法来提高效率,并提供一种用于分割细化的多级标签优化算法(RCAR 2021)。为了提高标记的准确性和对牙齿拥挤等恶劣条件的鲁棒性,我们建立了一个大规模的 3D 牙齿网格数据集,并提出了一个名为 VFENet 的深度神经网络,用于 3D 牙齿分割和标记(TMI submission)。 |
![]() |
自动切割是机器人辅助手术(RAS)领域的一项基本任务。软组织与刀具的交互过程中会导致高维变形,且物体拓扑结构会发生改变,都增加了自动切割控制的难度。为此,我们提出了一种基于视觉和力反馈的切割控制方法,可以控制刀具沿预先设计的轨迹进行切割。通过力反馈,采用压切方式可以降低刀具的阻力(WCICA 2018)。为了实现更精确的自动切割控制以适应RAS,我们开发了一种基于图像曲面追踪的可变形物体自动切割控制算法。设计了一种基于组合特征的动力学控制器。与基于点特征的切割控制器相比,该方法可以防止因局部遮挡和不可见特征点导致的伺服任务失败(TMECH 2020)。 |
![]() |
可变形物体的自动操作是一个具有挑战性的问题。为了准确且安全的控制软组织的形变,除了控制其形变后最后的形状外,还应考虑变形的过程,即控制形变的轨迹,防止因操作不当对软组织产生不可逆转的伤害。我们提出一种无模型的形变轨迹控制的方法,可以实现在未知环境下可形变物体的视觉跟踪任务。所设计的控制器基于函数逼近技术 (FAT) 在线自适应地估计变形雅可比矩阵 (DJM),避免了对兼容对象的建模。此外,为了保证变形雅可比矩阵的伪逆存在,引入了一个斥力场使得在线估计的参数远离使得形变雅克比矩阵奇异的值,增强了系统的鲁棒性和稳定性,并用李雅普诺夫理论证明了所提控制器的稳定性。(TIE 2021) |
![]() |
自主研发的心胸外科软手术机器人系统,采用柔性材料铸造样机,进一步保证手术过程中与心肺等重要器官的安全交互。根据手术需要,集成医学影像反馈,医生可实现基于遥控杆的人机交互运动策略,实现机器人在腔内的前进、转向等运动。该样机在器官模型中验证了其操作性能,并成功进行了5次活体动物手术实验,验证了蛇形手术机器人的实际操作效果。(Surgical Endoscopy and other Interventional Techniques, 2016) |
![]() |
通过磁共振成像(MRI)的脑膜面重建工作对神经退行性疾病和手术规划具有巨大的价值和意义。然而该任务目前仍然面临着许多挑战,例如耗时,依赖于手动参数微调,自相交表面等结构误差,以及局部表面重建误差。我们提出了一种基于扩散的隐式生成方法用于脑膜面重建。以生成式方法实现MRI的隐式重建任务是一种新颖的尝试。在该工作中自相交曲面的比例为0,并且引入了轻量级的拓扑校正算法来保证球面拓扑。通过学习MRI数据和采样点的分布特征保证了重建结果具有更好的鲁棒性。此外,平滑后处理能够确保在低分辨率下也能产生足够平滑的结果。 |
![]() |
从内窥镜视频中重建可变形软组织是一项至关重要且具有挑战性的任务。通过利用深度先验,可变形隐式神经表征在此领域取得了显著进展。然而,来自预训练深度估计模型的深度先验往往粗糙,不准确的深度监督可能严重损害这些神经网络的性能。此外,现有方法忽略了输入序列中的局部相似性,这限制了它们捕捉局部细节和组织变形的有效性。在本文中,我们介绍了UW-DNeRF,一种利用神经辐射场的新颖方法,用于高质量的可变形组织重建。我们提出了一种不确定性引导的深度监督策略,以减轻不准确深度信息的影响。这种策略放宽了严格的深度约束,释放了神经隐式表征的潜力。此外,我们设计了一个基于局部窗口的信息共享方案。该方案采用局部窗口和关键帧变形网络,以构建具有局部意识的变形。通过有效利用局部相关信息,它增强了模型捕捉细节的能力。我们通过在合成、EndoNeRF 和 Hamlyn 数据集上进行广泛实验来验证我们的框架,证明了其产生高质量可变形软组织表征的能力。一系列消融研究进一步确认了我们提出的组件的有效性和必要性。 |
![]() |
妇科微创手术中,需要助手靠举宫器长时间操作调整子宫的位置,举宫操作枯燥劳动强度大,且经常不能按要求把子宫摆到理想位置,不仅影响手术进展,也可能损伤周围脏器。为此,我们提出一种由3自由度远程运动中心(RCM)机构和3自由度操作杆组成的新型举宫机器人,以代替人类助手实现长时间稳定安全的举宫操作。对于RCM机构,我们提出一种单电机双线性导向机构,保持紧凑结构的同时实现宽范围俯仰运动。器械操作杆能够提供宫内远端俯仰和滚动运动,以增强其灵活性。其尖端直径仅6毫米,可以打开成T形,几乎可以被任何患者的子宫颈容纳,同时减少子宫压力,便于固定。手术机器人在器官模型,体外于临床条件下得到了验证。(TBME 2023) |
对于强化学习技术,我们主要关注在复杂任务需求以及动态任务场景中无人系统的自主自主控制与鲁棒任务能力,重点面向多样化无人运载器自主导航问题以及具有高精度操作要求机械臂控制问题。前者旨在解决无人车辆、无人机、无人艇等海陆空无人平台对于开放式动态环境的策略自适应问题以及对于多样化任务需求的策略泛化性问题;后者旨在对于实现移动机械臂的移动-操作耦合控制能力,并提高复杂任务中的高精度操作能力。
![]() |
针对传统的基于采样共识的鲁棒估计算法无法有效利用数据特征和历史信息、不能探索局部特征、无法求微分的问题,我们设计了用于端到端鲁棒性估计的新型强化学习增强的采样共识框架—RLSAC:首先,采用图神经网络,利用数据和记忆特征来指导下一个最小集采样的探索方向,有效实现数据特征的利用;此外,针对模块耦合过程中存在的误差累积与策略退化问题,利用下游任务的反馈作为无监督训练的奖励以避免对采样过程的微分,从而实现端到端的鲁棒估计;在此基础上,进一步集成状态转换模块,对数据和记忆特征进行编码,切实提高对于动态局部区域下多样化数据特征的探索与有效利用;最终,在基础矩阵估计、2D直线拟合任务中均取得了当前最佳的性能,并能够广泛应用于各种需要在噪声场景,为自动驾驶、机器人导航等定位依赖场景提供高精度的位姿估计结果,并能够为多样化任务的鲁棒估计需求提供解决方案,有效提高整体系统的鲁棒抗干扰性能。相关代表性成果见ICCV 2023. |
![]() |
针对无人机系统任务决策的自主性与泛化性需求,我们建立基于安全强化学习技术的无人机控制框架:为避免现实无人机控制过程中,强化学习智能体在学习全周期内使用不当策略产生的高昂现实试错成本,首先引入基于深度学习与元学习的系统动力学回归技术,提高其面对动态环境与干扰的策略适应性;在此基础上,利用李雅普诺夫稳定性判定方法,数值分析无人机强化学习策略的稳定性并为其生成动作限制,进一步建立起 “系统状态”与“动作”间的安全映射;最终该方法在保障无人机行动策略面对多样任务、多样环境下的良好泛用性的前提下,确保其在现实环境中的运行安全。相关代表性成果见 IROS 2023. |
![]() |
针对智能机器人在复杂未知场景中的目标驱动的视觉导航问题,我们提出基于学习的感知导航框架:首先,为了缓解智能机器人在基于学习的导航中出现的灾难性遗忘并增强机器人对于场景的理解能力,我们引入在线更新的拓扑地图来作为环境的记忆结构,使机器人能够利用更广泛的时间和空间数据来做出更全面的决策;其次,进一步在导航框架中融合NeRF机制,通过对于渲染不确定性的估计,增强机器人在未知环境下通过主动探索收集目标线索的意识;再次,引入域适应、域随机化以及元学习等方法,增强机器人对于未知场景的泛化性以及对于现实世界的适应性;最终,通过采用模仿学习与强化学习相结合的训练策略,显著增强了机器人的场景感知以及任务理解能力,在Gibson、MP3D等多个逼真的导航数据集中取得极具竞争力的性能,并仅利用少量数据微调,实现了真实的TurtleBot机器人在复杂的室内场景中精准避障以及以图像为目标的视觉导航任务。相关代表成果见IEEE JAS2024 and IEEE TII2024. |
![]() |
针对大范围未知场景的移动机器人导航问题,提出全局信息指引的强化学习机器人导航模型:设计稠密奖励函数使强化学习模型在局部探索时摆脱全局路径的束缚,鼓励机器人既能够按照期望的全局路径运动,又能充分发挥强化学习的优势自主探索最优的局部运动协同策略,实现了小尺寸学习模型在任意大范围规模的场景下自主导航;针对动态场景中复杂交互关系影响下的机器人导航问题,建立基于图神经网络的多层关系学习网络来推理动态物体与机器人之间的潜在交互关系,设计时空聚合网络进一步强化机器人对动态场景的理解;最终实现动态场景下的交互关系理解和高效协同导航。相关代表成果见 IEEE RAL 2020, IEEE TITS 2023, among others. |
![]() |
针对多样化的海洋任务需求,基于强化学习思想提出结合船舶动力学特性的无人艇自主控制策略学习框架:针对水面无人艇具有高惯性、欠驱动以及缺乏制动行为等运动特点对动态海洋环境中欠驱动无人艇自主航行控制带来挑战,我们提出基于概率图模型的状态预测预测方法捕捉无人的当前动力学特性,为动态策略生成提供关键先验信息支持;通过引入元强化学习方法,捕捉不同航态下的无人艇航行策略共性,有效提高强化学习策略对于多样化动力学特性的泛化性与自迁移能力;在此基础上,进一步结合图神经网络构建通讯受限下的多艇信息交互方法,提出基于模式切换多艇编队协同方法,突破性地实现了异构无人艇编队的动态编队避障与复杂场景中编队自恢复能力。所提方法对于多无人设备对抗博弈任务具有参考价值,如水下声学对抗以及多体协同电磁干扰等任务。相关代表成果见 Ocean Engineering 2022 and Ocean Engineering 2023. |
![]() |
针对移动机械臂在执行连续操作任务时对末端操作准确性和全身协调性的需求和强化学习算法本身样本有效性低的问题,我们建立基于强化学习的六自由度末端轨迹跟踪事后经验重写方法:对于强化学习样本有效性差的问题,首先将轨迹跟踪任务建模为多轨迹强化学习框架,在每个回合结束后利用梯度下降方法进行任务匹配,将低奖励数据重写为高奖励区域;在此基础上,进一步利用f-散度函数作为密度比估计器进行分布偏移估计,纠正由事后重写引起的分布偏移;最终在移动机械臂平台中对不同结构的移动机械臂进行有效控制,突破了移动机械臂在无模型条件下末端高自由度精准跟踪问题,实现了对于机械臂平台的高样本有效性强化学习策略部署与应用。 |
对于多机器人系统,我们主要关注两个方面:大规模多机器人系统的高效规划,以及多机器人的鲁棒编队控制。前者旨在解决由上千台机器人组成的大规模集群的任务分配、路径规划和局部运动协调问题,同时满足存在不确定性的情况下的有效性和实时性;后者旨在实现多机器人组成编队进行协同运动,同时满足通信受限、拓扑网络时变和个体机器人故障下的鲁棒性和安全性。
![]() |
针对带有不确定性的大规模机器人集群调度问题,建立环境路网自适应-动态任务分配-实时轨迹协同的一体化融合优化框架:我们首先引入数据驱动范式,根据历史经验记忆与终身预测数据,对环境路网进行分层分区实时动态调整,以适应任务流和机器人交通流的实时变化;其次,提出大规模系统中的关键任务和关键个体分析理论,通过建立相关性映射方法,从而提取出对系统整体性能影响最大的关键子集,实现调度资源的优化分布;再次,建立任务分配与机器人路径规划一体化融合优化模型,综合计算机器人的任务代价和潜在的运动冲突代价,在规划的同时降低任务执行过程中的不确定性;最终,针对大规模优化问题的实时求解挑战,设计贪婪求解方法,最终在超2000台机器人的仓储场景中成功突破秒级动态规划能力,同时保证带有运动和通信不确定性下的绝对安全无碰;另外,在个体机器人规划层面引入随带行为,实现多任务同步执行能力。相关代表性成果见IEEE TITS 2016、IEEE TASE 2020、IEEE TASE 2021等,同时获得IIEEE RCAR 2017大会最佳论文入围奖、IEEE RCAR 2020 大会最佳论文奖、IEEE ROBIO 2023大会最佳论文奖 。 |
![]() |
在多机器人编队控制与协同方面,我们首先针对网络通信环境下的多机器人编队控制问题,将带有时延的离散采样信息转化为时变时延下的等效连续系统,通过引入交叉耦合模型构建了多机器人同步编队控制方法和全局稳定性分析理论;在此基础上,进一步针对通信耦合拓扑动态变化需求和个体机器人故障导致整体编队队形改变和运动同步性能降低等问题,建立基于递归切换拓扑的修复准则和分布式自修复算法,该方法突破了上千台机器人运动同步系统在部分节点失效下的分布式能耗最优自修复能力;通过引入车辆底层控制补偿、滑移参数估计与视觉伺服控制补偿等方法,我们成功将机器人鲁棒编队控制理论推广到工业重载无人驾驶系统的车队控制任务中,实现了从50吨级到200吨级的工业重载车辆的鲁棒编队控制和自适应队形切换能力。相关代表性成果见IEEE TCST 2016、IEEE TSMC 2020、IEEE/ASME TMECH 2022等,同时获得IIEEE RAL 2019年度最佳论文入围奖和IEEE CYBER 2022大会最佳论文奖。 |
![]() |
针对机器人仓储场景下的大规模集群调度需求,团队与多家公司合作开发了多套仓储机器人智能调度系统,同时参与国家重点研发计划《面向电商的无人化柔性仓储物流机器人系统及应用示范》,与国内领先的机器人仓储企业紧密合作。在相关应用中,对AGV、四向穿梭车和自动叉车等典型仓储场景实现了实际项目经验的全覆盖,建立了分层分散式规划系统、多层级安全响应机制和实时滚动在线优化算法,同时开发了仓储机器人数据迭代终身学习软件和仓储环境容许任务与机器人规模能力上限分析软件。本团队在实际应用项目中突破了超 2000 台仓储机器人的任务分配、路径优化与分布式运动协同技术,实现了大规模仓储场景下从小时级离线规划到秒级实时规划的跨越,在3%的运动不确定性和2%的通信丢失率下实现了千台机器人的安全无碰规划并完全避免了机器人局部拥堵和死锁问题。本团队拥有多项相关专利。 |
![]() |
面向通用抓取任务的6自由度工作空间相较平面抓取任务更加困难,因此如何避开障碍物同时根据物体种类和形状生成最稳定的灵巧手抓取姿态,并考虑力自适应性完成稳定抓取,我们基于视觉引导融合多传感器信息生成灵巧手参考抓取位姿,并根据力传感信息实现并根据抓取过程力变化自适应灵巧手稳定抓取。 |
![]() |
针对复杂的长时序双臂操作任务,我们搭建了双臂直接关节空间遥操作系统以收集示教数据,并通过生成式模仿学习算法实现从人类示教中学习到复杂双臂操作策略。我们运用同构主从六轴机械臂进行主从直接关节空间遥操作。此外,我们采用了滑轨滑块结构作为夹爪执行器,以减少摩擦阻力,从而更好地夹持物体。基于采集数据,我们采用了生成式模仿学习模型来进行人类行为克隆。生成式模型可以有效地从人类示教得到的观测-动作对中学习得到针对不同观测条件下的动作采样概率,从而有效地针对推理时可能的新观测从概率模型中采样生成合理的动作以完成任务。实验证明我们基于50段示教数据训练的模仿学习模型能够自主执行激光笔笔盒放置任务。 |