![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python3 爬虫学习笔记
本宝宝不开心
本宝宝不开心,造轮子和夯实基础中
展开
-
python3爬虫 BeautifulSoup库学习
BeautifulSoup库pip install bs4基本用法from bs4 import BeautifulSouphtml = """<html><head><title>The Dormouse's story</title></head><body><p class="title" name="dromouse"><b>The Dormouse's story</b>.原创 2021-01-26 17:13:31 · 61 阅读 · 0 评论 -
python3 爬虫之猫眼排行榜 XPath版
lxmlimport requestsfrom lxml import etreedef get_html_page(url): headers ={#"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.66 Safari/537.36","User-agent": "Baiduspider" } s = requ.原创 2021-01-26 14:30:08 · 100 阅读 · 0 评论 -
python3 爬虫 XPath库的使用
XPath常用规则//title[@lang='english'] 代表选择所有名称为title,属性值为english的节点from lxml import etreetext='''<div><ul><li class="item-0"><a href="link1.html">first item</a></li><li class="item-1"><a href="link2.html"&原创 2021-01-26 11:10:27 · 103 阅读 · 1 评论 -
python3 爬虫之猫眼排行榜Top100-正则版
rerequests结合先前的模块学习下用法,仅此而已猫眼现在有了防爬虫机制,so伪造成百度爬虫机器人,不会封禁import requestsimport reimport jsonimport timedef get_one_page(url): headers ={#"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.原创 2021-01-25 15:47:01 · 79 阅读 · 0 评论 -
python3 爬虫 正则表达式学习
re模块常用匹配规则#re.match方法 从字符串开头开始匹配,一旦开头不匹配,就会匹配失败import recontent="Hello 1234567 World_This is a Regex Demo"print(len(content))result = re.match('^Hello\s(\d+)\sWorld',content)print(result)print(result.group())print(result.group(1)) #提取1234567pri原创 2021-01-25 13:58:25 · 73 阅读 · 0 评论 -
python3 爬虫requests模块
requestsimport requestsr = requests.get('https://www.baidu.com')print(type(r))print(type(r.status_code))print(r.status_code) #服务器返回的状态码print(type(r.text)) print(r.text) #服务器返回的文本,str类型原创 2021-01-25 11:12:11 · 112 阅读 · 1 评论