arXiv是一个线上学术论文库,主要收录物理学、数学、计算机科学与生物学等领域的研究论文,用户可以通过关键词搜索或分类浏览找到感兴趣的论文。作为一个权威的学术资源,arXiv已成为科研工作者查阅最新研究成果和交流学术观点的重要平台。
python爬取arxiv上NLP相关的论文在开始爬取之前,我们需要进行一些准备工作。
安装依赖库
pipinstallarxivpipinstallbeautifulsoap4pipinstallrequests
确定爬取的论文关键词
利用arxiv包,以NaturalLanguageProcessing为关键词,提交时间作为排序条件,获取最近提交的NLP领域最新的20篇论文。
arxiv_search=arxiv.Search(query="NaturalLanguageProcessing",max_results=20,sort_by=arxiv.SortCriterion.SubmittedDate)
获取论文的基础信息
通过代码获取论文的ID、标题、摘要、第一作者、发布时间、更新时间等信息。
forresultinarxiv_search.results():paper_id=result.get_short_id()#文章idpaper_title=result.title#文章标题paper_url=result.entry_id#文章urlpaper_summary=result.summary.replace("\n","")#文章摘要需要剔除格式paper_first_author=result.authors[0]#文章的第一作者publish_time=result.published.date()#文章的发布时间update_time=result.updated.date()#文章的更新时间
获取论文的代码地址和github上stars
根据论文的id获取代码链接,并通过解析github链接获取代码仓库的stars数量,评估项目热度。
根据paper_id获取github代码链接defget_paper_code_url(paper_id):base_url="