爬虫第一炮-福利网站:妹子图

基础环境

  • python环境:2.7.13
  • python类库:Requests[1]、beautifulsoup[2]、LXML[3]
pip install Requests
pip install beautifulsoup4
pip install LXML

流程示例图

爬虫教程第一炮之流程示意图

  • 爬虫入口:顾名思义我们需要程序从什么地方开始爬取网页
  • 存储数据:如果获取的网页有你需要的内容则取出数据保存
  • 提取页面URL:如果你你获取到的网页没有你需要的数据,但是有前往该数据页面的地址URL,则获取该地址URL,再次循环爬虫入口爬取

准备工作完了 ヽ(●-`Д´-)ノ ,我们马上开搞码代码了。

一个简单爬虫的诞生大慨需要下面几个步骤(图很简陋、将就着看看)。


第一步、获取顶级爬虫入口

好啦!现在来开始看看网站找一个爬虫入口(开始爬取的页面):http://www.mzitu.com/all/

爬虫教程第一炮之入口页面

Continue reading