系统环境:mac
python版本:3.6.2(anaconda)
库:requests、BeautifulSoup
爬取一些简单的静态网站,一般采取的策略为:选中目标,也就是需要爬取的网站url;观察结构,查看网页结构,联接结构;构思动手,选择Html下载器和解析器,最后存储数据。
今天我们爬取对象是中彩网中3D彩票中奖信息。对应的URL为:http://kaijiang.zhcw.com/zhcw/html/3d/list_1.html。
我们可以发现,其后缀list_()代表的正是第几页,比如list_3就是第三页。
我们打开开发者工具查看网页结构,可以发现每一期的彩票信息对应的源代码是一个tr节点,我们可以使用BeautifulSoup库来提取数据信息。
整体流程:爬取所有3D彩票信息248页,一共请求248次网页,使用库提取信息,使用xlrd将数据写入excel。结果如下:
代码如下:
import requests
import xlwt
import time
from bs4 import BeautifulSoup
# 获取网页内容