当前位置：湖南科技在线 >> 科技 >> 文章正文

千篇论文如何发现和总结新的研究？这是一个流行的使用人工智能技术的开源项目

发布于：2020-12-13 被浏览：2805次

机器的核心报告

作者：魔王

Paperai使用ai技术发现和总结医学/科学论文。

在研究领域，每天都会出现大量的论文。如何找到优秀的论文，快速获取信息，是一个难题。最近有开发者打开了一个AI支持的文档发现和摘要引擎paperai，可以用于医学/科学论文。

全球电信中心地址：https://github.com/neuml/paperai

Paperai可以自动执行繁琐的文献综述工作，让研究人员不用在上面花费精力，可以专注于自己的核心工作。该工具运行查询选择符合特定标准的论文，并执行基于问答抽取技术的报告功能，从一组医学/科学论文中找出关键问题的答案。

如上图所示，paperai运行查询和报告来获得问题的答案，并将其标记在纸上。

据报道，paperai已被用于分析新冠肺炎开放研究数据集(CORD-19)，并在CORD-19 Kaggle挑战赛中获得多个奖项。

paperai 背后的 AI 技术

Paperai是用Python构建的，句子嵌入索引是用FastText BM25创建的。

详见：https://towards tasciety.com/building-a-句子-嵌入-index-with-fast text-and-bm25-f 07e 7148d 240

Paperai模型使用句子嵌入索引和SQLite数据库来处理文章。

具体来说，该模型将每篇文章解析成几个句子，并与文章元数据一起存储在SQLite数据库中，然后基于整个数据库构建FastText向量。句子嵌入索引只使用标记的文章来帮助输出最相关的结果。

用户可以通过多个入口点与模型进行交互：

Paperai.report:为一系列查询构建降价格式的报表。对于每个查询，模型显示最匹配的文章，并突出显示带有查询嵌入搜索的文章的最相关部分。

Paperai.query:在终端运行查询。

Paperai.shell:在终端上运行多个查询。

项目作者展示了paperai在CORD-19挑战赛中的应用：

如何安装和使用

GitHub项目详细介绍了paperai的安装和使用。

安装

最简单的方法是通过pip和PyPI安装：

Paperai也可以直接从GitHub安装。建议使用Python虚拟环境，支持Python 3.6:

构建模型

用户可以使用以下代码来索引SQLite数据库：

模型将存储在~/.cord19中。

构建报告文件

调用报告的示例如下：

报告支持多种格式：标记(默认格式)、CSV和注释格式(即在原始PDF文件上显示注释结果)。

运行 query

最快的方法是启动paperai shell:

将出现一个提示。该查询将直接输入控制台。

“WAVE SUMMIT 2020深度学习开发者峰会”由深度学习技术与应用国家工程实验室和百度联合主办。来自业界的人工智能专家和开发者将分享AI时代的最新技术发展和工业应用经验。很多顶尖的大学人工智能专家都会有关于AI人才培养的对话，AI开源产品和社区专家也会谈到开源趋势。

这次峰会充满了分享和讨论的干货，以及丰富多彩的展示、体验和互动，为开发者打造专属的AI Party。

标签：模型开发者论文

本类推荐

TOP 10

千篇论文 如何发现和总结新的研究？这是一个流行的使用人工智能技术的开源项目