Python爬取携程和同程的景点评论并实现词云

最新推荐文章于 2024-04-19 15:01:16 发布

VIP文章 Sandy_Star

最新推荐文章于 2024-04-19 15:01:16 发布

阅读量5.7k

点赞数 9

文章标签： python 爬虫词云

本文链接：https://blog.csdn.net/weixin_48931875/article/details/121800850

版权

某人为了期末作业（非计算机系的文科生）想获取数据做分析，奈何不会八爪鱼，于是乎她成了我的甲方。甲方妈妈的需求是这样的：爬取携程网和同程网的对于三亚蜈支洲岛的评论。

一、爬取携程网的评论

1.1 分析

爬取的地址：https://you.ctrip.com/sight/sanya61/3244.html#comment

评论在这里，并且有分页
但是发现点击下一页的时候地址栏并没有变化

所以这种情况打开F12控制台看看吧

发现分页和这个响应有关，并且返回的是一个json数据的格式

pageIndex是页码，所以找到关键的点了

获取到评论的地址：https://m.ctrip.com/restapi/soa2/13444/json/getCommentCollapseList?_fxpcqlniredt=09031028411306444964
请求是POST请求

1.2 代码实现

这里我只爬取了前50页

import requests
import json
import time

headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36',
}

posturl = "https://m.ctrip.com/restapi/soa2/13444/json/getCommentCollapseList?_fxpcqlniredt=09031028411306444964"

def getdata():
    j = 1
    for i in range(1, 51):
        request = {
   
            'arg': {
   'channelType': '2',
                    'collapseType': '0',
                    'commentTagId': '0',
                    'pageIndex': str(i),
                    'pageSize': '10',
                    'poiId': '10558614',
                    'sortType': '3',
                    'sourceType': '1',
                    'starType': '0'},

            'head': {
   'auth': "",
                     'cid': "09031028411306444964",
                     'ctok': "",
                     'cver': "1.0",
                     'extension': [],
                     'lang': "01",
                     'sid'

最低0.47元/天解锁文章

Sandy_Star

关注

9
点赞
踩
123

收藏

觉得还不错? 一键收藏
6
评论
Python爬取携程和同程的景点评论并实现词云

某人为了期末作业（非计算机系的文科生）想获取数据做分析，奈何不会八爪鱼，于是乎她成了我的甲方。甲方妈妈的需求是这样的：爬取携程网和同程网的对于三亚蜈支洲岛的评论。一、爬取携程网的评论1.1 分析爬取的地址：https://you.ctrip.com/sight/sanya61/3244.html#comment评论在这里，并且有分页但是发现点击下一页的时候地址栏并没有变化所以这种情况打开F12控制台看看吧发现分页和这个响应有关，并且返回的是一个json数据的格式.
复制链接

扫一扫