人生苦短 python爬虫 学习周期

  • 爬虫必备包 – request
from urllib import request
  • 获取数据
 def get_data():
 	url = ' '   
 	#创建request对象url请求头
	headers = { ' user-agent' : ' ' }
	req = request.Request(url, headers=headers)
	#传user-agent
	response = request.urlopen(req)
	if response.getcode()==200: #确认是否成功
		data = response.read() #读取响应的结果
		data = str(data,encoding='utf-8') #转换为str
		#将数据写入文件中
			with open('idnex.html',mode='w',encoding='utf-8') as f:
				f.write(data)
  • 处理数据
 data parse_data():
 	with open('index.html',mode='r',encoding='utf-8') as f:
 		html = f.read()
 	bs = BeautifulSoup(html,'html.parser') #使用解析器
 	#1.find方法,获取第一个匹配的标签
 	#div = bs.find('div') #找到相应的内容
 	#print('div')  #打印相应的内容
 	#print(type((div)) #内容否认类型
	
	#2.find_all方法,或取所有匹配的标签
	#metas = bs.find_all('meta') #返回的是所有的集合
	#print(metas[0])
	#print(bs.find_all(id='hello')) #根据id 获取的数据,返回集合
	#print(bs,find_all(class_='itany')) #根据class 获取

	#3.获取select()方法,使用CSS选择器获取数据
	#print(bs.select('#hello'))
	#print(bs.select('.itany'))
	#print(bs.select('p#world span'))
	#print(bs.select('[title]'))

	#获取文本
	#print(bs.select('.div')[0].get_text())
	#print(bs.find_all('article'))
	value = bs.select('#article')[0].get_text(strip=Ture)
	#print(len(value))
	print(value)

  • main函数
    if name==‘main’:
    parse_data()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值