来源:早起Python
作者:陈熹
飞花令是古时候人们经常玩一种“行酒令”的游戏,是中国古代酒令之一,属雅令。“飞花”一词则出自唐代诗人韩翃《寒食》中春城无处不飞花一句。行飞花令时选用诗和词,也可用曲,但选择的句子一般不超过7个字。
在《中国诗词大会》中改良了“飞花令”,不再仅用花字,而是增加了云、春、月、夜等诗词中的高频字,轮流背诵含有关键字的诗句,直至决出胜负。
今天,我们就利用Python定制一款“飞花令”小程序:给定一个关键字或者关键词,就能够返回许多含有这个关键字的诗句,跟朋友玩再也不怕输了!
网页分析
要利用爬虫完成这项工作需要先选择一个合适的网站,这里我们选择了
古诗文网
在右上角的方框中输入关键词,如酒,就能够返回相应的结果:
我们注意到,返回的结果是一整首诗或词,关键字所在的句子仅为其中一句。后面我们爬取信息时也需要做到过滤。
往下翻页后会发现只能获取前2页内容,到第3页会出现以下提示:
也就是说要完整获取全部诗文需要下载App,本文简化问题只爬取前2页的内容,后续有机会再分享App相关爬虫推文。在翻页的过程中我们注意一下URL的改变:
“第1页: