UNIMO:百度提出统一的模态学习方法同时解决单模和多模任务

发布于：2020-12-31 被浏览：3416次

机器柱的中心

机器之心编辑部

UNIMO首次只用一个预训练模型实现了多模任务和单模任务的同时处理，验证了AI系统可以像人类一样学习各种模态数据，从而获得更强、更统一的认知能力。

人脑可以处理各种模态信息，如文本、图像、声音等。并通过模式间的互动提升对世界的认知能力。受此启发，百度提出了统一的模态学习方法，可以同时使用大量的文本和图像的单模数据进行学习，并利用图形对的多模数据进行跨模态关联比较，通过预训练获得统一的语义表示，从而在理解和生成的各种下游任务上超越了ViLBERT、Oscar等多模预训练模型和RoBERTa、UniLM等文本预训练模型，同时达到了VQA视觉问答权威榜的榜首

论文题目：UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning

论文地址：https://github.com/weili-baidu/UNIMO

1. 统一模态学习方法

近年来，预训练技术在计算机视觉和自然语言处理领域得到了广泛关注。在视觉领域，通常对ImageNet数据进行纯视觉的单模预训练，训练ResNet、VGG等图像特征提取模型。在自然语言处理领域，自监督预训练模型，如BERT、UniLM和ERNIE，使用大规模单模文本数据来训练强大的语义表示能力。为了处理多模式场景的任务，进一步提出了各种多模式预训练模型，如ViLBERT、UNITER等。这些多模式模型在图像-文本对数据上预先训练，以支持下游多模式任务。限于只使用图形数据，多模式预训练模型只能训练小规模数据，很难在单模下行任务中使用。

事实上，在现实世界中，有很多纯文本和纯图像的单模数据，也有图像和文本对的多模数据。显然，一个强大的、通用的AI系统应该能够同时处理各种模态数据。为此，百度提出了统一的模态预训练，利用文本、图像和图形对数据进行预训练，从而学习文本和图像的统一语义表示，从而具备同时处理单模态和多模态下游任务的能力。对于大规模的单模图像数据和单模文本数据，UNIMO采用相似的掩膜预测自监控方法学习图像和文本表示。同时，为了将文本和图像的表示映射到统一的语义空间，提出了跨模态比较学习，实现了基于图形数据的图像和文本的统一表示学习。

统一模式学习面临的最大挑战是如何弥合不同模式之间的语义鸿沟，实现语义表示的统一。为了实现图像和文本的统一语义表示，百度提出了多粒度跨模态比较学习。在句子层面，UNIMO利用反向翻译和检索的方法获取大量的阳性案例和强阴性案例。在短语和词的层面上，UNIMO首先根据图的描述对结构化场景图进行分析，然后在词的层面和短语的层面上进行替换和重写，获得大量细粒度的强否定例子。通过这种方式，使用扩展的正例和各种粒度的高质量强反例，并比较与图像的语义相似度，UNIMO可以学习精确对齐的多模态语义表示。

2. 实验

实验中，UNIMO使用大规模单模和多模数据进行联合预训练，并在各种单模和多模下游任务上进行验证。在预训练数据部分，文本语料库包括维基百科、图书语料库、OpenWebText等语料库；图像数据是从互联网上抓取的30万张图像。多模式图形对数据包括可可标题、视觉基因组、概念标题和SBU标题。下游任务不仅包括视觉问答、图形描述生成、视觉推理等多模态任务，还包括文本分类、文本摘要、问题生成等各种文本任务。在模型中，12层变压器用于预培训。

在多模式任务上，本文主要比较了维尔伯特、VLP、UNITER、奥斯卡、比利亚等最新的多模式预训练模式。实验结果表明，UNIMO在视觉问答VQA、图形描述生成CoCo Caption和视觉推理任务SNLI-VE等方面稳定优于以往模型，充分证明了统一模态UNIMO模型能够有效处理各种多模态任务。

特别是，与以前的多模式预训练不同，UNIMO也可以以纯文本方式处理单模任务。之前的多模式预训练模式，在处理单一模式的文本任务时，效果急剧下降，有些任务的下降甚至超过10-20分。UNIMO在文本分类、文本推理、文本摘要和问题生成等各种文本理解和生成任务中取得了良好的效果，有些任务甚至超过了RoBERTa、UniLM等文本预训练模型。

UNIMO的巨大优势在于可以利用单模数据和多模数据进行预训练，从而利用大规模数据学习更强大的统一模态语义表示。为了验证单模数据的有效性，论文还进行了分离实验。实验结果表明，当文本单模数据不用于预训练时，UNIMO对多模任务的影响有所降低。但是在不使用多模图形数据和图像数据的情况下，UNIMO也会陷入文本理解和生成的任务中。这充分证明了单一模态数据在统一模态学习中的有效性，也说明UNIMO模型可以有效地利用不同模态数据进行跨模态联合学习。

此外，百度还刷新了基于UNIMO的视觉问答VQA权威榜单，超越微软、阿里巴巴、Facebook等知名机构，排名第一，进一步说明了统一模式预培训的引领作用。

3. 总结展望

总体来说，百度提出了一种统一的模态学习方法UNIMO，利用跨模态对比学习有效地将视觉和文本信息进行语义对齐，进而学习文本和视觉强大统一的语义表示。UNIMO首次可以使用单模和多模数据进行预训练，可以有效处理单模和多模任务。UNIMO提供了一种新的学习范式，使机器能够像人类一样使用不同模式的大规模数据，学习统一的语义表示，提高机器的认知能力。

剧终

转载，请联系本微信官方账号授权

提交或寻求报告：content@jiqizhixin.com

标签：数据多模文本

本类推荐

TOP 10

UNIMO:百度提出统一的模态学习方法 同时解决单模和多模任务

UNIMO:百度提出统一的模态学习方法同时解决单模和多模任务