让机器东谈主精确合手起透明物体万博ManBetX下载地址,这个难题终于被料理了。
而且照旧仅靠一张图、单意见那种圭表。
效果是这么的:
这等于由地瓜机器东谈主和中科院自动化所等单元共同建议的一项新有规划——
MODEST,一个针对透明物体的单目深度猜测和语义分割的多任务框架。
MODEST 算法框架看成通用合手取模子的前置模块,即插即用,活泼高效,且无需依赖特等传感器。
何况仅靠单张 RGB 图像,便可已毕透明物体的合手取,效果上致使要优于其它双目和多视图的圭表。
不错世俗诈骗于智能工场、践诺室自动化、聪惠家居等场景,裁汰配置资本并大幅进步机器东谈主对透明物体的操作智商。
值得一提的是,这项有规划仍是入选民众机器东谈主领域顶会ICRA 2025(IEEE 机器东谈主与自动化海外会议)。
怎样作念到的?
刻下透明物体的合手取中枢在于深度信息的获取,当今不管是深度传感器照旧多视角重建的圭表皆无法获取透明物体准确竣工的深度信息。
透明物体复杂的折射和反射特色给机器东谈主感知形成了很大艰苦。在大深广 RGB 图像中的透明物体经常短缺明晰的纹理,而容易与布景混为一体。
此外,商用深度相机也难以准确捕捉这些物体的深度信息,导致深度图缺失或噪声过多,从而截止了机器东谈主在多个领域的世俗诈骗。
为了料理透明物体感知难题,传统圭表大多依赖很是传感配置或多视角图像,增多了时候和经济资本,并频频受限于诈骗场景。
MODEST 单目框架初次冲破了传统传感器处理透明物体时的截止,裁汰了配置资本和使用复杂度,提供了愈加高效、经济和绵薄的透明物体感知有规划。
△单目透明物体感知框架与其他圭表之间的对比
MODEST主要聚焦于透明物体的深度猜测,通过设想的语义和几何聚会的多任务框架,获取物体准确的深度信息,之后聚会基于点云的合手取聚集已毕透明物体的合手取。
相当于在通用合手取聚集前边增多一个针对透明物体的增强模块。
MODEST 模子的全体架构如图所示,输入为单目 RGB 图像,输出为透明物体的分割收尾和场景深度揣度。
聚集主要由编码、重组、语义几何交融和迭代解码四个模块组成。
输入图像最初过程基于 ViT 的编码模块进行处理,随后重组为对应分割和深度两个分支的多标准特征。
在交融模块中对两组特征进行夹杂和增强,终末通过屡次迭代冉冉更新特征,并得回最终揣度收尾。
△基于语义几何交融和迭代计谋的透明物体单目多任务框架
关于透明物体来说,语义分割任务不错为深度猜测提供语义和荆棘文信息,而相通深度猜测不错为分割提供范围、名义等几何信息。
为了充分挖掘两个任务间的互补信息,MODEST 算法框架构建了基于在意力机制的语义几何交融模块,旨在同期进步两个任务的性能。
△语义几何交融模块结构
当东谈主类不雅察透明物体等不权贵物体时,咱们东谈主类会倾向于先在意物体的全体抽象,然后是局部细节。受东谈主眼启发,MODEST 框架建议了一种由粗到细的特征更新计谋,进一步进步揣度精度。
践诺收尾
为了测试 MODEST 全新算法框架的检测效果,团队录取了透明物体领域两个影响力世俗的公开仿真数据集 Syn-TODD和真实数据集 ClearPose。
在其上与当今开头进的透明物体双目圭表 SimNet、多视图圭表 MVTran 以及多任务圭表 InvPT 和 TaskPrompter 进行对比践诺。
两个大限制数据集皆领有跳跃 100k 的直率标注图像数据,何况包含了严重扯后腿等顶点场景。
1、公开数据集上的定性和定量对比践诺
△仿真数据集 Syn-TODD 上的定性对比收尾
△真实数据集 ClearPose 上的定性对比收尾
通过在两个数据集上的定性对比收尾不错看出,由于透明物体会造作地折射布景,何况在 RGB 图像中短缺纹理,因此 SimNet、MVTrans 等圭表无法得回令东谈主舒服的揣度,从而导致深度图和分割掩膜的大面积缺失。
然则,通过有用的交融和迭代,在某些即使东谈主眼皆难以分析和判断的场景,团队的圭表依然约略产生竣工和明晰的揣度收尾。
△仿真数据集 Syn-TODD 上的定量对比收尾
△真实数据集 ClearPose 上的定量对比收尾
从表格中的定量对比不错看出,MODEST 算法框架在各项方针上皆要大幅跳跃其他总共圭表。
值得在意的是,尽管只使用单张 RGB 图像看成输入,MODEST 在深度猜测和语义分割方面皆要彰着优于其他双目致使多视图圭表。
何况在 Syn-TODD 数据集上,与名挨次二的圭表比较,MODEST 算法框架在 RMSE 和 REL 两项方针有着跳跃 45% 的进步,语义分割的精度也均跳跃了 90%。
2、真实平台合手取践诺
团队还将算法迁徙到真实机器东谈主平台,开展了透明物体合手取践诺。
平台主要由 UR 机械臂和深度相机组成,在借助 MODEST 圭表进行透明物体精确感知的基础之上,给与 GraspNet 进行合手取位姿的生成。
在多个透明物体上的践诺收尾标明,MODEST 圭表在真实平台上具有直率的鲁棒性和泛化性。
One More Thing
值得一提的是,除了 MODEST 以外,地瓜机器东谈主主导研发的DOSOD 敞开词汇标的检测算法,也入选了 ICRA 2025。
MODEST 是通过动态语义清爽框架进步复杂场景识别准确率,而 DOSOD 则是聚会几何建模与语义分析工夫优化透明物体操作精度。
两项工夫收尾均已在限制化买卖场景中得到有用考证。
感酷爱的小伙伴不错戳下方一语气了解确定哦 ~
MODEST 著作地址:
https://arxiv.org/pdf/2502.14616
MODEST 代码地址:
https://github.com/D-Robotics-AI-Lab/MODEST
DOSOD 著作地址:
https://arxiv.org/abs/2412.14680
DOSOD 代码地址:
https://github.com/D-Robotics-AI-Lab/DOSOD?tab=readme-ov-file
— 完 —
学术投稿请于职责日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿实质
附上论文 / 款式主页一语气,以及关系时势哦
咱们会(尽量)实时恢复你
一键热心 � � 点亮星标
科技前沿发达逐日见
一键三连「点赞」「转发」「戒备心」
迎接在评述区留住你的念念法!万博ManBetX下载地址