爬取TAPTAP游戏应用榜单

爬取TAPTAP游戏应用榜单

用fiddler或Charles进行抓包,电脑端设置并安装证书,手机端下载证书,连WiFi设置代理。

requests请求URL

import requests
import json
header = {
        "Host": "api.taptapdada.com",
        "Connection": "Keep-Alive",
        "Accept-Encoding": "gzip",
        "User-Agent": "okhttp/3.10.0",
    }
url = 'https://api.taptapdada.com/app-top/v1/hits?from=0&limit=10&X-UA=V%3D1%26PN%3DTapPad%26VN_CODE%3D9%26LOC%3DCN%26LANG%3Dzh_CN%26CH%3DPadEmu%26UID%3Dfe192707-bff8-4f72-8502-4a613f2a2322&type_name=android_pad_hot_cn'.format(20)   
response = requests.get(url=url, data=None)
index_response_dict = json.loads(response.text)
for item in index_response_dict['data']['list']:
            game_rank_info = {}
#             game_rank_info['排名'] = item['rank']
            game_rank_info['游戏名'] = item['title']
            game_rank_info['厂商'] = item['author']
            game_rank_info['下载量'] = item['stat']['hits_total']
            game_rank_info['分类'] = item['category']
            game_rank_info['分数'] = item['stat']['rating']['score']
            game_rank_info['关注'] = item['stat']['fans_count']
#             game_rank_info['新版本分数'] = item['stat']['rating']['latest_version_score']
            game_rank_info['评论数'] = item['stat']['review_count']
            game_rank_info['帖子数'] = item['stat']['topic_count']
            game_rank_info['评分5'] = item['stat']['vote_info']['5']
            game_rank_info['评分4'] = item['stat']['vote_info']['4']
            game_rank_info['评分3'] = item['stat']['vote_info']['3']
            game_rank_info['评分2'] = item['stat']['vote_info']['2']
            game_rank_info['评分1'] = item['stat']['vote_info']['1']
#             game_rank_info['时间'] = onTime
print(game_rank_info)
for item in index_response_dict['data']['list']:
    print(item['title'])

 

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用Python爬取Taptap论坛数据,可以按照以下步骤进行: 1. 安装必要的Python库:requests、BeautifulSoup和pandas。可以使用pip命令来安装这些库。 2. 找到需要爬取的Taptap论坛页面的URL。例如,我们可以爬取“神都夜行录”游戏的论坛页面:https://www.taptap.com/app/1369/topic。 3. 使用requests库发送HTTP请求,获取网页HTML代码。可以使用get()方法来发送GET请求,然后使用.text属性获取HTML代码。 4. 使用BeautifulSoup库解析HTML代码,提取需要的数据。可以使用find()或find_all()方法来查找HTML标签,然后使用.text属性获取标签的文本内容。 5. 将提取的数据存储到CSV文件中。可以使用pandas库创建DataFrame对象,然后使用to_csv()方法将数据保存为CSV文件。 以下是一个示例代码,可以爬取“神都夜行录”游戏的论坛页面,并将发帖人、发帖时间和帖子内容保存到CSV文件中: ```python import requests from bs4 import BeautifulSoup import pandas as pd url = 'https://www.taptap.com/app/1369/topic' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') posts = [] for post in soup.find_all('div', class_='topic-item'): author = post.find('div', class_='author-name').text.strip() time = post.find('span', class_='created-at').text.strip() content = post.find('div', class_='topic-item-body').text.strip() posts.append({'author': author, 'time': time, 'content': content}) df = pd.DataFrame(posts) df.to_csv('shendu.csv', index=False) ``` 运行以上代码后,将会在当前目录下生成一个名为“shendu.csv”的CSV文件,其中包含了论坛页面中所有帖子的发帖人、发帖时间和帖子内容。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值