最先进设备的机器学习算法可以从照片中萃取二维物体,并在三维中心目中地呈现出它们。这种技术可以限于于增强现实的应用程序、机器人以及导航系统,因此它沦为Facebook的一个最重要研究领域。在近日于釜山举行的国际计算机视觉会议(ICCV)之前,Facebook在一篇博客文章中特别强调了其在智能内容解读方面的最新进展。据透漏,它的系统甚至可以用来检测简单的前景和背景对象,如椅子腿或重合的家具。
“我们研究的最新进展是创建在利用深度自学来预测和定位图像中的物体,以及用新的工具和架构来解读三维形状,如体素、点云和网格,”Facebook的研究人员GeorgiaGkioxari、ShubhamTulsiani和DavidNovotny在一篇博客中写到。“三维解读将在提升人工智能系统,更加切合地解读、说明和操作者现实世界的能力方面充分发挥核心作用。”其中一个亮点是MeshR-CNN,这是一种需要从杂乱和遮盖物体的图像中预测三维形状的方法。
Facebook的研究人员回应,他们在开源的MaskR-CNN的二维目标拆分系统上减少了一个网格预测分支,并用于一个包括高度优化的三维操作符的库(Torch3d),来更进一步反对该系统。MeshR-CNN有效地利用了MaskR-CNN对图像中有所不同的物体展开检测和分类,然后利用上述的预测器对三维形状展开推测。
Facebook回应,在公共能用的Pix3D语料库上展开评估后,MeshR-CNN顺利地检测到所有类别的物体,并在家具场景中估算它们的原始三维形状。在一个分开的数据集上(ShapeNet),MeshR-CNN比之前的研究有7%的比较优势。
Facebook研发的另一个系统是Canonical3DPoseNetworks,全称为C3DPO,解决问题了网格和适当图像无法用作训练的情况。创建三维关键点模型修复,利用二维关键点监控构建最先进设备的修复结果。
(这里的关键点所指的是被追踪的物体部分,它们获取了一组关于几何图形及其视角变化的线索。)C3DPO利用修复模型预测适当摄像机视点参数和三维关键点方位。辅助组件与模型一起自学,以解决问题在分解成三维视点和形状时引进的模糊性。Facebook认为,这种修复在以前是可以构建的,部分原因是内存容许。
C3DPO体系结构可以在硬件无法捕捉的情况下展开三维重建,比如对大型的对象。“(三维)计算机视觉有许多对外开放的研究问题,我们正在试验多种问题陈述、技术和监督方法,以探寻推展该领域向前发展的最佳方式,就像我们在二维解读领域所做到的那样,”Gkioxari、Tulsiani和Novotny回应。“随着数字世界适应环境并改向用于3D照片、沉浸式AR和VR体验等产品,我们必须大大推展简单的系统更加精确地解读视觉场景中的对象并与之对话。
本文来源:Betway88-www.wamat.net