第一次爬虫体验
前言
首先感谢https://blog.csdn.net/bo_wen_/article/details/50868339,让我在详细的介绍下完成了第一次爬虫的体验,在中国天气网上爬取了郑州一周的天气预报
开始
1.首先是
# coding : UTF-8
告诉编译器这个Python程序是UTF-8编码,可以识别中文
2.程序中引用的包
import requests
import csv
import random
import time
import socket
import http.client
from bs4 import BeautifulSoup
requests:用来抓取网页的html源代码
csv:将数据写入到csv文件中
random:取随机数
time:时间相关操作
socket和http.client 在这里只用于异常处理
BeautifulSoup:用来代替正则式取源码中相应标签中的内容
3.首先是一个获取网页HTML的方法
def get_content(url , data = None):
header = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate',
'Accept-Language': 'zh-CN,zh;q=0.9&