网页抓取三种方式

最新推荐文章于 2019-03-08 10:11:00 发布

IY的数据学习笔记

最新推荐文章于 2019-03-08 10:11:00 发布

阅读量873

点赞数 1

分类专栏： python笔记

本文链接：https://blog.csdn.net/yjh1026/article/details/70241366

版权

python笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

正则表达式

范例

Import re
Import requests
url＝'http://example.webscraping.com/view/United-Kingdom239'
html=requests.get(url).content
re.findall（'＜td class＝'w2pfw'＞(.*?)</td＞'，html)[1]

Beautifulsoup

范例

Import requests
from bs4 import BeautifulSoup
url = 'http://example.webscraping.com/places/view/United-Kingdom-239'
html=requests.get(url).content
soup = BeautifulSoup(html,'lxml')#解析文档
tr = soup.find(attrs = {'id':'places_area__row'})#抓取元素
td = tr.find(attrs = {'class':'w2p_fw'})
area = td.text
print(area)

lxml

范例

import lxml.html
broken_html='<ul class=country <li>Area<li>Population</ul>'
tree=lxml.html.fromstring(broken_html)#获取文档
fixed_html=lxml.html.tostring(tree,pretty_print=True )#解析文档
print fixed_html
<ul class＝”country">
<li>Area</li>
<li>Population</li>
</ul>
tree=lxml.html.fromstring(html)
td=tree.cssselect（'tr#places_area_row>td.w2p_fw'）[O]
area=td.textcontent()
print area

比较：
速度：正则表达式最快，Bs最慢，lxml居中
难易：正则最难，Bs最简单，lxml居中

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

IY的数据学习笔记

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
网页抓取三种方式

正则表达式范例Import reImport requestsurl＝‘http://example.webscraping.com/view/United-Kingdom239’html=requests.get(url).contentre.findall（’＜td class＝”w2pfw”＞(.*?)</td＞’，html)[1]Beautifulsoup范例Import reque
复制链接

扫一扫