当前位置：湖南科技在线 >> 科技 >> 文章正文

清华团队将Transformer应用于3D点云分割后效果极佳开源

发布于：2020-12-19 被浏览：2534次

肖骁来自奥菲寺

量子报告| QbitAI，微信官方账号

当Transformer遇到3D点云时，效果如何？

一个是目前最流行的模型(NLP，图像领域表现良好)，另一个是自动驾驶和机器人抓取领域的关键技术。

清华大学计算机科学系的一个团队开发了一个全新的PCT网络。与目前主流的点云分割模型PointNet相比，不仅减少了参数数量，而且准确率从89.2%提高到93.2%。

而且相比主流的点云分割网络PointNet，分割边缘明显更清晰：

然而，当Transformer扩展到三维点云时，相关的研究却很少。

因此，该团队自己制作了一个变压器模型，创新了它的一些结构，并使其适应点云。

将变压器扩展到点云

点云是坐标系中点的数据集，包括坐标、颜色、强度等信息。

3D点云是一种用点云表示3D世界的方法，可以想象为3D对象的雾化和一个对象的多点表示。

三维建模之所以使用点云，是因为它不仅建模速度快，而且精度高，细节更准确。

点云生成方法也符合激光雷达数据采集的特点，目前已应用于自动驾驶技术中。

那么，为什么要用Transformer生成点云呢？

由于点云数据的不规则性和无序性，卷积神经网络不能直接用于处理点云。

如果要用深度学习来处理点云相关的任务，会很不方便。

但当研究者关注Transformer时，发现其核心注意机制其实非常适合处理点云。

对于点云处理，需要设计一个排列不变，不依赖点与点之间连接关系的算子；注意机制本身就是这样一个算子。

此外，Transformer在之前的映像任务中取得了非常好的性能。如果用来做点云，效果可能也不错。

为此，团队开发了一款名为PCT(点云变压器)的点云变压器，并成功实现了这一点。

整个网络结构分为输入嵌入、注意层和分类分割三个部分。

输入嵌入部分的目的是将点云从欧氏空间xyz映射到128维空间。嵌入方法有两点，点嵌入和邻域嵌入。点嵌入负责单点信息，邻域嵌入负责单点和邻域信息。

在注意层，作者采用了自我注意机制和偏注意机制。

其中，偏注意也是本文的创新之处。为了使变形金刚的注意力机制在点云上更好地工作，作者提出了这种注意力机制，它比自注意力机制具有更好的性能。

在分类和分割操作中，作者选择直接通过关注层后对特征进行池化(采样)，然后分别进行下一步的分类和分割。

那么，这个网络结构真的有想象中那么好吗？

参数少于一半，效果更好

其实从分类和分割效果来说，图像都做的很好。

先看分类效果，在ModelNet40数据集上的分类结果表明，PCT的分类准确率可以达到93.2%，超过了目前所有点云的分类模型。

该模型在三维点云分割方面做得很好。

从注意力图的可视化(标量矩阵，查看图层的重要性)来看，模型分割的边缘和形状也很清晰。

那么，与其他网络相比，细分效果如何呢？

下图显示了PCT与其他网络相比的效果。

从16类列出的物体检测准确率来看，PCT的效果达到86.4%，超过了目前所有最新的3D点云分割模型，也达到了SOTA。

至于模型参数，最后的结果也很好。

其中参数最大的PCT也有最高的准确率93.2%。如果多注意小参数，在1.36M参数条件下，NPCT和SPCT的准确率分别可达91%和92%。

根据实际对比，三种PCT网络结构的分割效果要比PointNet(最右边的初始模型)好很多。

作者简介

六位作者来自清华大学、卡迪夫大学的胡适敏团队。

清华大学计算机系图形实验室成立于1998年3月，相关论文多次在ACM SIGGRAPH、IEEE CVPR等重要国际期刊上发表。

目前，实验室的主要研究方向是计算机图形学、计算机视觉、智能信息处理、智能机器人、系统软件等。

一个是孟浩，清华大学CS博士在读，来自胡世民的团队。

郭，2016年毕业于西安电子科技大学软件工程专业。大二获得ACM金奖，数学建模美妆大赛一等奖。曾在腾讯和商汤实习。

目前这个模型的相关代码已经开源了~

标签：效果注意力模型

本类推荐

TOP 10

清华团队将Transformer应用于3D点云分割后 效果极佳 开源

清华团队将Transformer应用于3D点云分割后效果极佳开源