03
爬取页面内容
1)`import` bs4以及urllib
2)获取url 定义html
3)引入bs4 以html为基础
4)通过bs以lxml进行解析html
5)通过class即css类名以及li标签进行定义month
6)遍历month 获取文本信息.get_text()
from bs4 import BeautifulSoup
from urllib.request import urlopen
html = urlopen("https://mofanpy.com/static/scraping/list.html").read().decode('utf-8')
soup = BeautifulSoup(html,features='lxml')
month = soup.find_all('li','{"class":"month"}')
for m in month :
print(m.get_text())
print
结果如下
一月
二月
三月
四月
五月
jan = soup.find('ul',{"class":"jan"})
janDetail = jan.find_all('li')
for x in janDetail:
print(x.get_text())
print
结果如下
一月一号
一月二号
一月三号
个人总结
1)通过标签名以及类名在soup引导下进行爬取
2)多个结果进行for遍历