Python爬取携程和同程的景点评论并实现词云

某人为了期末作业(非计算机系的文科生)想获取数据做分析,奈何不会八爪鱼,于是乎她成了我的甲方。甲方妈妈的需求是这样的:爬取携程网和同程网的对于三亚蜈支洲岛的评论。

一、爬取携程网的评论

1.1 分析

爬取的地址:https://you.ctrip.com/sight/sanya61/3244.html#comment

image-20211208201742446

  • 评论在这里,并且有分页
  • 但是发现点击下一页的时候地址栏并没有变化

image-20211208201836514

  • 所以这种情况打开F12控制台看看吧

image-20211208202045901

  • 发现分页和这个响应有关,并且返回的是一个json数据的格式

image-20211208202229284

  • pageIndex是页码,所以找到关键的点了

image-20211208202331862

  • 获取到评论的地址:https://m.ctrip.com/restapi/soa2/13444/json/getCommentCollapseList?_fxpcqlniredt=09031028411306444964
  • 请求是POST请求

1.2 代码实现

  • 这里我只爬取了前50页
import requests
import json
import time

headers = {
   
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.71 Safari/537.36',
}

posturl = "https://m.ctrip.com/restapi/soa2/13444/json/getCommentCollapseList?_fxpcqlniredt=09031028411306444964"

def getdata():
    j = 1
    for i in range(1, 51):
        request = {
   
            'arg': {
   'channelType': '2',
                    'collapseType': '0',
                    'commentTagId': '0',
                    'pageIndex': str(i),
                    'pageSize': '10',
                    'poiId': '10558614',
                    'sortType': '3',
                    'sourceType': '1',
                    'starType': '0'},

            'head': {
   'auth': "",
                     'cid': "09031028411306444964",
                     'ctok': "",
                     'cver': "1.0",
                     'extension': [],
                     'lang': "01",
                     'sid'
  • 9
    点赞
  • 123
    收藏
    觉得还不错? 一键收藏
  • 6
    评论
【资源说明】 基于python实现爬取携程景点数据与评论数据源码+项目说明.zip 基于python实现爬取携程景点数据与评论数据源码+项目说明.zip 基于python实现爬取携程景点数据与评论数据源码+项目说明.zip 1、该资源内项目代码都是经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能。 爬取结果有两部分:`data/poi.csv`为**景点数据**,`data/comment/{id}.csv`为对应ID的景点的**评论数据** 评论内容的爬取有两种方法: 将`config.ini`中的`isCrawlComment`置为1,运行`poi_crawl.py`文件,在爬取 景点数据 的过程中爬取 评论数据 将`config.ini`中的`isCrawlComment`置为0,运行`poi_crawl.py`文件,在爬取 景点数据 结束后运行再运行`comment_crawl.py`文件,获取 景点数据 中的所有景点评论 每次运行前都会在同一文件夹下复制一份上一次爬取景点结果的备份,名为`back.csv` 数据中 **价格**、**最低价格**为response中的数据,暂无参考价值 后面四种人群门票价格为**预估的销量加权平均价格**,如果有不同需求可以修改 `GetTicketPrice` 函数。(返回的数据为所有的门票价格) 景点数据中的**开放时间**与**优惠政策** 数据的格式为json格式 爬取评论数据 格式为: **用户ID** **评论文本** **发送时间戳** **赞同数**
### 回答1: 同程App是一款集旅游预订、景点门票、旅游攻略等功能于一体的旅游类App。推荐同程App的PHP源码主要有以下几点优势。 首先,同程App的PHP源码具有良好的扩展性和稳定性。PHP是一种开源的服务器端脚本语言,具有跨平台性和强大的功能,可以与各种数据库进行连接,如MySQL、Oracle等。同程App的PHP源码在保障功能的基础上,可以根据用户需求进行二次开发,满足个性化的需求。同时,PHP语言本身稳定性较高,可以保证App的正常运行。 其次,同程App的PHP源码具有较高的开发效率。PHP语言简单易学,语法规则相对简单,开发人员可以迅速上手并进行开发。同时,PHP拥有丰富的开发框架和组件,可以快速构建功能完备的App。这样一来,可以大大缩短开发周期,提高工作效率。 另外,同程App的PHP源码具有较低的运维成本。PHP语言适用于各种主流的服务器操作系统,例如Windows、Linux等,可以根据公司实际情况选择适合的服务器,降低服务器运维成本。同时,PHP拥有庞大的开发社区,可以获取到大量的开发资源和解决方案,减少潜在的技术风险。 总之,推荐同程App的PHP源码是基于其扩展性、稳定性、开发效率和运维成本等方面的优势。使用PHP源码进行开发,可以快速构建功能完备、性能稳定的旅游类App,提供良好的用户体验。 ### 回答2: 同程App是一款非常流行的旅游类软件,拥有丰富的功能和用户友好的界面设计。如果您对该软件感兴趣,并且有一定的PHP编程基础,我非常推荐您学习并使用同程App的PHP源码。 首先,同程App的PHP源码是开源的,这意味着您可以自由地查看、修改和使用源码。这样的好处是您可以根据自己的需求进行定制和优化,使得软件更加适合您自己或者您的客户的需求。 其次,同程App的PHP源码使用了广泛的PHP编程技术和框架,比如MVC架构、Laravel框架等。这么一来,您可以通过学习该源码来了解和掌握这些在实际开发中非常实用的编程技术和框架。同时,您也可以通过阅读源码,学习到同程App的一些设计思路和开发方法,这对于提高自己的编程能力也是有很大的帮助的。 最后,同程App的PHP源码还包含了丰富的功能模块,比如酒店预订、景点介绍、机票预订、旅游攻略等等。这些功能模块覆盖了旅游领域的各个方面,可以帮助您更好地理解旅游行业的运作和需求。在学习和使用源码的过程中,您可以通过参考这些功能模块的实现方式,来设计和开发自己的旅游类应用程序。 综上所述,推荐同程App的PHP源码是因为它开源、使用广泛的编程技术和框架,同时具有丰富的功能模块,可以帮助您学习和提高自己的PHP编程能力,以及开发出更好的旅游类应用程序。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值