基础抓取元素

import requests
from bs4 import BeautifulSoup
import re

geturl = 'https://sh.lianjia.com/ershoufang/rs/'
head = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36'
headers ={'User-Agent':head};
link = requests.get(url=geturl,headers=headers)
#用浏览器头访问,否则返回403
#soup = BeautifulSoup(link.text,"lxml")
#sou = soup.find('div',class_ ='unitPrice')
pattern = r'data-price="(.*?)"'
#正则表达式原来要这么写,然后传入findall中
rs = re.findall(pattern,link.text)
for detail in rs:
    print(detail)

注意findall后面是正则的语句,第二个参数应该是字符串。
第一次用的时候将soup传入了参数中,果断报错了。后来大佬帮忙debug发现了这里不对。

结果即为第一页每平方的价格的输出

访问网页的时候必须得传入参数头,否则返回403,好像是反爬虫的机制。
一般第三个参数是可以更改ip

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值