千篇论文 如何发现和总结新的研究?这是一个流行的使用人工智能技术的开源项目
机器的核心报告
作者:魔王
Paperai使用ai技术发现和总结医学/科学论文。
在研究领域,每天都会出现大量的论文。如何找到优秀的论文,快速获取信息,是一个难题。最近有开发者打开了一个AI支持的文档发现和摘要引擎paperai,可以用于医学/科学论文。
全球电信中心地址:https://github.com/neuml/paperai
Paperai可以自动执行繁琐的文献综述工作,让研究人员不用在上面花费精力,可以专注于自己的核心工作。该工具运行查询选择符合特定标准的论文,并执行基于问答抽取技术的报告功能,从一组医学/科学论文中找出关键问题的答案。
如上图所示,paperai运行查询和报告来获得问题的答案,并将其标记在纸上。
据报道,paperai已被用于分析新冠肺炎开放研究数据集(CORD-19),并在CORD-19 Kaggle挑战赛中获得多个奖项。
paperai 背后的 AI 技术
Paperai是用Python构建的,句子嵌入索引是用FastText BM25创建的。
详见:https://towards tasciety.com/building-a-句子-嵌入-index-with-fast text-and-bm25-f 07e 7148d 240
Paperai模型使用句子嵌入索引和SQLite数据库来处理文章。
具体来说,该模型将每篇文章解析成几个句子,并与文章元数据一起存储在SQLite数据库中,然后基于整个数据库构建FastText向量。句子嵌入索引只使用标记的文章来帮助输出最相关的结果。
用户可以通过多个入口点与模型进行交互:
Paperai.report:为一系列查询构建降价格式的报表。对于每个查询,模型显示最匹配的文章,并突出显示带有查询嵌入搜索的文章的最相关部分。
Paperai.query:在终端运行查询。
Paperai.shell:在终端上运行多个查询。
项目作者展示了paperai在CORD-19挑战赛中的应用:
如何安装和使用
GitHub项目详细介绍了paperai的安装和使用。
安装
最简单的方法是通过pip和PyPI安装:
Paperai也可以直接从GitHub安装。建议使用Python虚拟环境,支持Python 3.6:
构建模型
用户可以使用以下代码来索引SQLite数据库:
模型将存储在~/.cord19中。
构建报告文件
调用报告的示例如下:
报告支持多种格式:标记(默认格式)、CSV和注释格式(即在原始PDF文件上显示注释结果)。
运行 query
最快的方法是启动paperai shell:
将出现一个提示。该查询将直接输入控制台。
“WAVE SUMMIT 2020深度学习开发者峰会”由深度学习技术与应用国家工程实验室和百度联合主办。来自业界的人工智能专家和开发者将分享AI时代的最新技术发展和工业应用经验。很多顶尖的大学人工智能专家都会有关于AI人才培养的对话,AI开源产品和社区专家也会谈到开源趋势。
这次峰会充满了分享和讨论的干货,以及丰富多彩的展示、体验和互动,为开发者打造专属的AI Party。
