简单爬虫学习

入门案例:

从网页获取数据

1.打开浏览器,输入网址

from urllib.request import urlopen

r=urlopen ('http://www.baidu.com')

print(r)

#返回的r是响应,里面有很多函数如:r.read()

from urllib.request import urlopen

r=urlopen ('http://www.baidu.com')

c=r.read() #读bit

s=c.decode('utf-8') #转中文

print(s)

2.网页(<标签>,可显示内容)

#标签不会显示在网页中,只会说明格式。

#一般标签是成对出现的

#一般是,表,行,列

<table><tr><td></td></tr></table>

3.正则表达式可以提取

或常用提取模块:

from bs4 import BeautifulSoup

bsc=BeautifulSoup(c,features='lxml')

ta=bsc.find('table')#只能查到第一个表

print(t)

ta=bsc.find_all('table')#此时的t不是字符串,而是BeautifulSoup中的tag类型

t=ta.find_all('tr')

t.pop(0)

for r in t:

  n=r.find_all('td')

print(n) #find_all返回的是数组

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值