python爬虫之爬取某东华为p50详情页评论

爬取某东的华为自营店华为p50的评论

拿到网址:
在这里插入图片描述在这里插入图片描述此时需要了解请求头里面的user-Agent
在这里插入图片描述添加headers语句:
headers语句存在的意义是模拟浏览器发出请求而不是自动程序.(处理反爬)

headers = {
         "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (HTML, like Gecko) "
                       "Chrome/96.0.4664.93 Safari/537.36 "
}
resp = requests.get(url, headers=headers)

如下图
在这里插入图片描述获取到了页面源码后,我们找到评论所在的语句. 标签为<p class="comment-con">

在这里插入图片描述

在这里插入图片描述
此时我们需要换个思路,是不是这个url不通
将评论的字段复制到搜索内
在这里插入图片描述

获得:
在这里插入图片描述copy:https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100024533316&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

在这里插入图片描述

第一页在这里插入图片描述第二页
在这里插入图片描述

我们可以得知page表示为页数.

知道了以上我们可以获取我们想要的了

在这里插入图片描述接下来就是提取我们想要的元素

流行的解析方法有很多种,re正则、BeautifulSoup、xpath、pyquery

lst = re.compile(r'","content":"(?P<name>.*?)".*?', re.S)
result = lst.finditer(resp.text)

在这里插入图片描述

源代码:

import requests
import re

url ='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100024533316&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'
headers = {
         "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (HTML, like Gecko) "
                       "Chrome/96.0.4664.93 Safari/537.36 "
}
resp = requests.get(url, headers=headers)
lst = re.compile(r'","content":"(?P<name>.*?)".*?', re.S)
result = lst.finditer(resp.text)
for it in result:
    val = (it.group("name"))
    print(val)

明天更新换页+导出数据!

此次分享就到这里,欢迎大家指导指正~ 我是爱吃肉的小白yyyloki,如果你觉得不错的话点个赞👍吧!或者你可以关注,持续更新。我们下次见~886

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用Python爬取京东华为商品信息,可以使用requests库来发送网络请求获取网页内容。首先,你需要安装requests库。可以在命令行中输入以下命令来安装: pip install requests 安装完成后,你可以在Python代码中导入requests库,并使用它的get方法发送请求。为了防止被京东网站识别为爬虫程序,你可以设置headers属性来伪装成浏览器的访问。例如: import requests headers = {'User-Agent': 'Mozilla/5.0'} url = 'https://search.jd.com/Search?keyword=华为&enc=utf-8' response = requests.get(url, headers=headers) 如果请求成功,你可以通过response对象的content属性获取到网页的原始内容。接下来,你可以使用BeautifulSoup库来解析网页内容,提取出你所需要的信息。例如,你可以使用select方法来选择特定的HTML元素,并使用get_text方法获取元素的文本内容。 from bs4 import BeautifulSoup html = response.content soup = BeautifulSoup(html, 'html.parser') price_list = soup.select('div .***你可以遍历这些元素获取到商品的名称和价格,并将它们保存到一个列表中。 goodslist = [] for i in range(len(price_list)): splitprice = price_list[i].get_text() price = re.split('\n',splitprice) name = name_list[i].em.get_text() goodslist.append([name,price]) 这样,你就可以通过goodslist列表获取到爬取到的京东华为商品的名称和价格信息了。请注意,这只是一个简单的示例,实际的爬取过程可能需要更多的处理和优化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值