爬虫小练习
莫烦python
学到爬虫小练习-爬取百度百科相关网页,现在做个学习总结
从网络爬虫这一页开始
先插入接下来所需要的模块
from bs4 import BeautifulSoup
from urllib.request import urlopen
import re
import random
其次,确定网址,尽量不能有中文;将/item/…的网页放在his中,使用列表格式,储存接下来爬取的网页
base_url = "https://baike.baidu.com"
his = ["/item/%E8%9C%98%E8%9B%9B/8135707"]
最后使用for循环,确定爬虫的次数,
此时:使用urlopen打开网址,用BeautifulSoup中的lxml解析网页;
用soup.find(“h1”).get_text()先查找h1后面的标题(使用文本形式,所以.get_text()
开始爬取网页:(过滤掉不需要的信息)通过正则表达式,首先找到a标签,然后选取含有target的内容,并且href 必须匹配以/item/开头的形式
在爬取中会遇到的问题:如果一个网页没有可以点击的链接,那么就要返回上一级,直到爬完10次为止。if len(sub_urls) !=0…