入门案例:
从网页获取数据
1.打开浏览器,输入网址
from urllib.request import urlopen
r=urlopen ('http://www.baidu.com')
print(r)
#返回的r是响应,里面有很多函数如:r.read()
from urllib.request import urlopen
r=urlopen ('http://www.baidu.com')
c=r.read() #读bit
s=c.decode('utf-8') #转中文
print(s)
2.网页(<标签>,可显示内容)
#标签不会显示在网页中,只会说明格式。
#一般标签是成对出现的
#一般是,表,行,列
<table><tr><td></td></tr></table>
3.正则表达式可以提取
或常用提取模块:
from bs4 import BeautifulSoup
bsc=BeautifulSoup(c,features='lxml')
ta=bsc.find('table')#只能查到第一个表
print(t)
ta=bsc.find_all('table')#此时的t不是字符串,而是BeautifulSoup中的tag类型
t=ta.find_all('tr')
t.pop(0)
for r in t:
n=r.find_all('td')
print(n) #find_all返回的是数组