本文介绍了具身智能发展中机器视觉的重要性,着重讲述了中国科学院上海微系统与信息技术研究所在机器视觉领域取得的重要进展,其团队提出的全新双目立体深度估计方法有效提升了视差预测效率和精度,还介绍了该方法的优势、验证情况及应用前景等。
在当今科技飞速发展的时代,具身智能正逐渐走进我们的生活。你看,家政机器人能够精准地拿起桌面上的杯子,完成清洁后又准确无误地将其放回原位;咖啡机器人则宛如训练有素的真人服务员,把精心制作的咖啡稳稳地递到顾客手中。而在这一系列神奇操作的背后,机器视觉扮演着至关重要的角色。
近日,位于菊园新区“嘉定科创核”的中国科学院上海微系统与信息技术研究所,在机器视觉领域传来了令人振奋的好消息。该所仿生视觉系统实验室李嘉茂研究员团队成功提出了一种全新的双目立体深度估计方法,这一创新成果可有效提升视差预测的效率和精度。
机器视觉的工作原理与人类视觉有着相似之处。人类在观察物体时,会分别用左右眼去看,被观察的物体在两个视角中的相对位置会出现一定的偏移,我们的视觉系统正是根据这种偏移来判断物体的距离远近。而机器视觉则是利用图像采集机器来模拟人眼的功能,通过特定的算法判断物体的大小以及它们相互之间的距离,进而根据这些结果控制设备做出相应的动作。可以说,机器视觉技术是自主智能机器人、智能驾驶、元宇宙、工业检测、医疗自动化等众多领域的基础关键技术。
然而,以往在机器视觉进行距离判断的过程中,对采集的图像有着十分严格的精度标准。但在实际的应用环境中,图像采集往往会受到各种因素的干扰,比如碰撞、机械振动以及温度变化等。这些因素会导致图像采集设备的参数发生偏移,从而显著降低估计精度,严重时甚至会导致算法崩溃。
“双目深度估计的主流做法是在使用前进行离线标定,并且对标定与校正精度的要求也非常高。一旦在使用过程中出现问题,就需要返厂重新标定,这在很多实际应用场景中是不现实的。”李嘉茂研究员介绍道。针对这一难题,团队另辟蹊径,基于频率滤波技术,降低了对高标准图像的依赖性,提出了全新的立体匹配方法进行预估。
在自采集数据集上,团队所提出的算法显著提升了视差预测精度。频率滤波是一种常用的数字图像技术,它通过改变图像中不同频率的成分,来达到图像增强、去噪等目的。全新立体匹配方法在添加合成误差的公开数据集KITTI2015、KITTI2012、Middlebury、ETH3D和带有真实误差的自采集数据上进行了验证,均展现出了良好的性能,有效保证了视差预测精度。
据了解,中国科学院上海微系统与信息技术研究所仿生视觉系统实验室主要开展无人系统视觉感知、芯片及系统关键技术研究及应用。“目前,具身智能、低空经济等未来产业正处于快速发展阶段,双目视觉微系统具有较为广阔的应用空间。我们提出的新方法不依赖此前的预处理,能更好地保证应用的稳定性。”李嘉茂说。
值得一提的是,该研究成果已被机器人领域顶级国际学术会议2025 IEEE国际机器人与自动化会议录用。这一研究还得到了科技部科技创新2030、国家自然科学基金、上海市自然基金、中国科学院青促会、上海市优秀学术带头人等项目的支持。
中国科学院上海微系统与信息技术研究所在机器视觉领域的重要突破。团队提出的全新双目立体深度估计方法,解决了以往机器视觉在距离判断中受多种因素影响导致精度降低的问题,通过频率滤波降低对高标准图像的依赖,在多个数据集上验证了其良好性能。该成果不仅提升了视差预测精度,还能保证应用稳定性,且已获国际学术会议认可,有望在具身智能等未来产业中发挥重要作用。
原创文章,作者:Juliana,如若转载,请注明出处:https://www.yanghehb.com/6765.html