python自动获取arxiv最新NLP

arxiv获取最新NLP领域论文#自然语言处理#科研找文献费时又费力,利用python构建一个自动爬取论文、翻译摘要并提取文章要点的工具,轻松提高科研效率。什么是arXiv

arXiv是一个线上学术论文库,主要收录物理学、数学、计算机科学与生物学等领域的研究论文,用户可以通过关键词搜索或分类浏览找到感兴趣的论文。作为一个权威的学术资源,arXiv已成为科研工作者查阅最新研究成果和交流学术观点的重要平台。

python爬取arxiv上NLP相关的论文

在开始爬取之前,我们需要进行一些准备工作。

安装依赖库

pipinstallarxivpipinstallbeautifulsoap4pipinstallrequests

确定爬取的论文关键词

利用arxiv包,以NaturalLanguageProcessing为关键词,提交时间作为排序条件,获取最近提交的NLP领域最新的20篇论文。

arxiv_search=arxiv.Search(query="NaturalLanguageProcessing",max_results=20,sort_by=arxiv.SortCriterion.SubmittedDate)

获取论文的基础信息

通过代码获取论文的ID、标题、摘要、第一作者、发布时间、更新时间等信息。

forresultinarxiv_search.results():paper_id=result.get_short_id()#文章idpaper_title=result.title#文章标题paper_url=result.entry_id#文章urlpaper_summary=result.summary.replace("\n","")#文章摘要需要剔除格式paper_first_author=result.authors[0]#文章的第一作者publish_time=result.published.date()#文章的发布时间update_time=result.updated.date()#文章的更新时间

获取论文的代码地址和github上stars

根据论文的id获取代码链接,并通过解析github链接获取代码仓库的stars数量,评估项目热度。

根据paper_id获取github代码链接

defget_paper_code_url(paper_id):base_url="


转载请注明:http://www.aierlanlan.com/rzfs/8153.html

  • 上一篇文章:
  •   
  • 下一篇文章: