本案例是基于PyCharm开发的,也可以使用idea。
在项目内新建一个python文件TestCrawlers.py
TestCrawlers.py
# 导入urllib下的request模块
import urllib.request
# 导入正则匹配包
import re
# -*- encoding:utf-8 -*-
"""
@作者:小思
@文件名:TestCrawlers.py
@时间:2018/11/6 15:48
@文档说明:测试爬虫(以爬取http://www.xiaohuar.com/2014.html上的图片为例)
"""
# 步骤
# 1.确定要爬取数据的网址
# 2.获取该网址的源码