1.首先要在pycharm中准备好几个库(事先下载好)
下载方法:在pycharm按照相应的顺序打开到相应的界面,点击3处的加号跳出到4出的搜索框,然后搜索需要的库,点击左下角的安装,即可安装所需的库。
2.在项目页面调用相应的库
from bs4 import BeautifulSoup
#网页解析,获取数据
import re
#正则表达式,进行文字配
import urllib.request,urllib.error
#制定URL,获取网络数据
import xlwt
#进行Excel操作
import sqlite3
#进行SQLIT数据库操作
3.注释好相应步骤的流程方便确定思路:
【主函数部分】
(1)爬取目标网页(2)逐步解析(3)保存数据
(应用到相应的函数,直接调用就可以了)
【爬取目标网页】
在爬取网页的开始,要防止网站的反爬系统,应该设置一个马甲,让网站以为你是一个浏览器。这时候应该建立一个“头”
headers = {
"User-Agent": "Mozilla / 5.0(Windows NT 10.0;"
"Win64;x64) AppleWebKit / 537.36(KHTML, likeGecko) Chrome "
"/ 78.0.3904.116Safari / 537.36"
}
头中的内容就是浏览器中F12打开:
user-agent: 中的内容(本来想上传图片,但是由于网络原因,传不上来了)
为了函数的健壮性,try:except:务必加上
try:
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8")
print(html)
except Exception as result :
print("未知错误 %s"%result)
(今天就先整理这一点,明天接着把第一部分更完)