所在的位置： python >> python发展 >> Python基础教程爬虫起步

Python基础教程爬虫起步

提起，Python，那是必须要提到爬虫的，虽然其他语言也能爬虫，但是Python无疑是首选，也是最优解。要说起爬虫，技术细节还是蛮多的，本文的目的是让你在最短的时间内掌握思路，许多人说起爬虫，不知道从哪里入手，不知道要怎么办，这才是要解决的重点。本文提供三套解决思路供大家参考。不要干别的，爬虫才是王道啊！一、手动处理这个方式最简单，就是使用Python自带的urllib2或requests这种网络请求库，向目标URL发一个GET请求，然后将目标网站的内容得到，然后自己通过正则表达式进行解析和提取。优势：简单，易上手劣势：对于网站内容经常变化的、网站内容是动态的，无能为力。代码几乎是一次性的。二、框架集成这个方式也有很多种，我用得最多的就是django+scrapy+BeautifulSoup，特别强调一下，这是黄金组合，也是最佳解决方案，没有之一。爬虫神器优势：功能强大，方案完善，不会遇到各种坑劣势：有点学习成本，虽然不难，但是相比自己随便写写的简单程序，还是有点工作量的懂HTML就都能搞定了三、WebDriver方式现在，还有一些网站，它的内容都是动态的，这体现在两个方面：一是内容只显示一部分，要再显示，需要手动点屏幕上的按钮，然后它再执行JS加载其他的，此时使用上述两种方式爬取到的都是不完整的，甚至爬不下来。二是一些网站会出现一些非常复杂的验证码，导致爬取中断。面对这种情况，前两种方式都会失效，必须使用WebDriver。理由是：WebDriver方式是驱动浏览器打开网页，无论网站设计得多么复杂，它必须支持鼠标的正常点击，所以，这种方式能解决各种隐藏、显示一半、点击按钮才加载、机器人验证等等之类的问题。只要网页能在浏览器上显示，我们就能爬取。优势：超级武器，从理论上讲没有爬不了的网站，只是工作量和技术复杂度的问题。劣势：山高坑深，一旦上山，千万要小心万劫不复。当然了，如果你对自己有信心，也可以在这个领域笑傲江湖，做真正的王者。爬虫界的核武器三种方式各有优缺点，今天，我先征求大家的意见，欢迎看到本文的朋友们都来评论区说说你的见解，我再根据大家的意向出一个比较细致的课程，与大家一起探讨和学习。最后让我们以一句话结束今天的聊天吧：爬虫写得好，牢饭吃得早。黑客不可为，且行且珍惜。

转载请注明：http://www.aierlanlan.com/tzrz/6557.html

上一篇文章： Python自学教程没有人比这些知识更

下一篇文章：零基础30天入门Python教程02