当前位置:湖南科技在线 >> 科技 >> 文章正文

清华团队将Transformer应用于3D点云分割后 效果极佳 开源

发布于:2020-12-19 被浏览:2534次

肖骁来自奥菲寺

量子报告| QbitAI,微信官方账号

当Transformer遇到3D点云时,效果如何?

一个是目前最流行的模型(NLP,图像领域表现良好),另一个是自动驾驶和机器人抓取领域的关键技术。

清华大学计算机科学系的一个团队开发了一个全新的PCT网络。与目前主流的点云分割模型PointNet相比,不仅减少了参数数量,而且准确率从89.2%提高到93.2%。

而且相比主流的点云分割网络PointNet,分割边缘明显更清晰:

然而,当Transformer扩展到三维点云时,相关的研究却很少。

因此,该团队自己制作了一个变压器模型,创新了它的一些结构,并使其适应点云。

将变压器扩展到点云

点云是坐标系中点的数据集,包括坐标、颜色、强度等信息。

3D点云是一种用点云表示3D世界的方法,可以想象为3D对象的雾化和一个对象的多点表示。

三维建模之所以使用点云,是因为它不仅建模速度快,而且精度高,细节更准确。

点云生成方法也符合激光雷达数据采集的特点,目前已应用于自动驾驶技术中。

那么,为什么要用Transformer生成点云呢?

由于点云数据的不规则性和无序性,卷积神经网络不能直接用于处理点云。

如果要用深度学习来处理点云相关的任务,会很不方便。

但当研究者关注Transformer时,发现其核心注意机制其实非常适合处理点云。

对于点云处理,需要设计一个排列不变,不依赖点与点之间连接关系的算子;注意机制本身就是这样一个算子。

此外,Transformer在之前的映像任务中取得了非常好的性能。如果用来做点云,效果可能也不错。

为此,团队开发了一款名为PCT(点云变压器)的点云变压器,并成功实现了这一点。

整个网络结构分为输入嵌入、注意层和分类分割三个部分。

输入嵌入部分的目的是将点云从欧氏空间xyz映射到128维空间。嵌入方法有两点,点嵌入和邻域嵌入。点嵌入负责单点信息,邻域嵌入负责单点和邻域信息。

在注意层,作者采用了自我注意机制和偏注意机制。

其中,偏注意也是本文的创新之处。为了使变形金刚的注意力机制在点云上更好地工作,作者提出了这种注意力机制,它比自注意力机制具有更好的性能。

在分类和分割操作中,作者选择直接通过关注层后对特征进行池化(采样),然后分别进行下一步的分类和分割。

那么,这个网络结构真的有想象中那么好吗?

参数少于一半,效果更好

其实从分类和分割效果来说,图像都做的很好。

先看分类效果,在ModelNet40数据集上的分类结果表明,PCT的分类准确率可以达到93.2%,超过了目前所有点云的分类模型。

该模型在三维点云分割方面做得很好。

从注意力图的可视化(标量矩阵,查看图层的重要性)来看,模型分割的边缘和形状也很清晰。

那么,与其他网络相比,细分效果如何呢?

下图显示了PCT与其他网络相比的效果。

从16类列出的物体检测准确率来看,PCT的效果达到86.4%,超过了目前所有最新的3D点云分割模型,也达到了SOTA。

至于模型参数,最后的结果也很好。

其中参数最大的PCT也有最高的准确率93.2%。如果多注意小参数,在1.36M参数条件下,NPCT和SPCT的准确率分别可达91%和92%。

根据实际对比,三种PCT网络结构的分割效果要比PointNet(最右边的初始模型)好很多。

作者简介

六位作者来自清华大学、卡迪夫大学的胡适敏团队。

清华大学计算机系图形实验室成立于1998年3月,相关论文多次在ACM SIGGRAPH、IEEE CVPR等重要国际期刊上发表。

目前,实验室的主要研究方向是计算机图形学、计算机视觉、智能信息处理、智能机器人、系统软件等。

一个是孟浩,清华大学CS博士在读,来自胡世民的团队。

郭,2016年毕业于西安电子科技大学软件工程专业。大二获得ACM金奖,数学建模美妆大赛一等奖。曾在腾讯和商汤实习。

目前这个模型的相关代码已经开源了~

标签: 效果 注意力 模型