python爬虫之爬取某东华为p50详情页评论+换页爬取+文件数据存储

最新推荐文章于 2024-02-04 09:52:19 发布

yyyloki

最新推荐文章于 2024-02-04 09:52:19 发布

阅读量384

点赞数 2

分类专栏：新手学python 文章标签： python 爬虫数据挖掘

本文链接：https://blog.csdn.net/weixin_43787365/article/details/122113027

版权

新手学python 专栏收录该内容

19 篇文章 4 订阅

订阅专栏

上回说到爬取某东华为p50的评论
某东华为p50详情页评论

翻页我们要怎么做咧?

第一页

url ='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100024533316&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'

第n页:自己输入第几页

total = input('输入需要爬取的页数：')

url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100024533316&score=0&sortType=5"+"&page="+total+"&pageSize=10&isShadowSku=0&rid=0&fold=1"

以文件存储

在这里插入图片描述

结果：
在这里插入图片描述

源码：

import requests
import re


total = input('输入需要爬取的页数：')
url ='https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=100024533316&score=0&sortType=5"+"&page="+total+"&pageSize=10&isShadowSku=0&rid=0&fold=1'
headers = {
         "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64)AppleWebKit/537.36 (HTML, like Gecko) "
                       "Chrome/96.0.4664.93 Safari/537.36 "
}
resp = requests.get(url, headers=headers)
lst = re.compile(r'","content":"(?P<name>.*?)".*?', re.S)
result = lst.finditer(resp.text)
for it in result:
    val = (it.group("name"))
    print(val)
    with open('D:\pythonProject3\\goods.txt', 'a', encoding='utf-8')as f:
        f.writelines(val)