第1关:单网页爬取
import gzip
import urllib.request
import csv
import re
#打开京东,读取并爬到内存中,解码, 并赋值给data
#将data保存到本地
# ********** Begin ********** #
from io import BytesIO
url='https://www.jd.com/'
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}
#3、获取网站相应数据
content=urllib.request.urlopen(url)
# print(data)
#3、获取网站相应数据
data=content.read().decode()
#str->bytes encode()
# print(data)
# ********** End ********** #
#使用正则提取title
#保存数据到csv文件中
# ********** Begin ********** #
er = '<title>(.*?)</title>'
title=re.findall(er,data,re.S)
# print(title[0])
with open('./step1/csv_file.csv','w',newline='',encoding='utf-8') as file:
w1=csv.writer(file)
w1.writerow(title[0])
# ********** End ********** #