当前位置:湖南科技在线 >> 科技 >> 文章正文

千篇论文 如何发现和总结新的研究?这是一个流行的使用人工智能技术的开源项目

发布于:2020-12-13 被浏览:2805次

机器的核心报告

作者:魔王

Paperai使用ai技术发现和总结医学/科学论文。

在研究领域,每天都会出现大量的论文。如何找到优秀的论文,快速获取信息,是一个难题。最近有开发者打开了一个AI支持的文档发现和摘要引擎paperai,可以用于医学/科学论文。

全球电信中心地址:https://github.com/neuml/paperai

Paperai可以自动执行繁琐的文献综述工作,让研究人员不用在上面花费精力,可以专注于自己的核心工作。该工具运行查询选择符合特定标准的论文,并执行基于问答抽取技术的报告功能,从一组医学/科学论文中找出关键问题的答案。

如上图所示,paperai运行查询和报告来获得问题的答案,并将其标记在纸上。

据报道,paperai已被用于分析新冠肺炎开放研究数据集(CORD-19),并在CORD-19 Kaggle挑战赛中获得多个奖项。

paperai 背后的 AI 技术

Paperai是用Python构建的,句子嵌入索引是用FastText BM25创建的。

详见:https://towards tasciety.com/building-a-句子-嵌入-index-with-fast text-and-bm25-f 07e 7148d 240

Paperai模型使用句子嵌入索引和SQLite数据库来处理文章。

具体来说,该模型将每篇文章解析成几个句子,并与文章元数据一起存储在SQLite数据库中,然后基于整个数据库构建FastText向量。句子嵌入索引只使用标记的文章来帮助输出最相关的结果。

用户可以通过多个入口点与模型进行交互:

Paperai.report:为一系列查询构建降价格式的报表。对于每个查询,模型显示最匹配的文章,并突出显示带有查询嵌入搜索的文章的最相关部分。

Paperai.query:在终端运行查询。

Paperai.shell:在终端上运行多个查询。

项目作者展示了paperai在CORD-19挑战赛中的应用:

如何安装和使用

GitHub项目详细介绍了paperai的安装和使用。

安装

最简单的方法是通过pip和PyPI安装:

Paperai也可以直接从GitHub安装。建议使用Python虚拟环境,支持Python 3.6:

构建模型

用户可以使用以下代码来索引SQLite数据库:

模型将存储在~/.cord19中。

构建报告文件

调用报告的示例如下:

报告支持多种格式:标记(默认格式)、CSV和注释格式(即在原始PDF文件上显示注释结果)。

运行 query

最快的方法是启动paperai shell:

将出现一个提示。该查询将直接输入控制台。

“WAVE SUMMIT 2020深度学习开发者峰会”由深度学习技术与应用国家工程实验室和百度联合主办。来自业界的人工智能专家和开发者将分享AI时代的最新技术发展和工业应用经验。很多顶尖的大学人工智能专家都会有关于AI人才培养的对话,AI开源产品和社区专家也会谈到开源趋势。

这次峰会充满了分享和讨论的干货,以及丰富多彩的展示、体验和互动,为开发者打造专属的AI Party。

标签: 模型 开发者 论文