网络爬虫,就是一种自动获取网页内容的程序。也就是通过源码解析来获得想要的内容。下载的内容包括文字,图片,多媒体文件等。
python有多个库可实现网络爬虫,Urllib是python内置的HTTP请求库,urllib的功能就是利用程序去执行各种HTTP请求。如果要模拟浏览器,需要把请求伪装成浏览器。
Urllib是python内置的HTTP请求库用途一:批量打包下载小说
用途二:下载各种图片
用途三:批量查询快递单号
用途四:采集数据并分类保存
用途五:下载音乐或视频
用途六:检查网站性能
用途七:监控数据,及时提醒
用途八:开发聊天机器人
用途九:抢车票、机票
用途………
总之,用途很多,还待我们去探索。