python爬虫爬取B站评论

具体步骤:

1.指定url网址

在这里随便点开B站首页推送的一个视频内容

打开开发者工具,下滑页面数据让数据加载出来,随便选择一条评论复制,粘贴到开发工具中的搜索框中,找到对应的包

当前页面的评论信息在 replies中

拖过关键字确定链接

2.发送请求,访问网址

这里使用requests方法

3.获取响应数据

4.持久化存储,保存在数据库或本地

#爬取B站视频评论
import requests
import datetime
import csv

url = 'https://api.bilibili.com/x/v2/reply/wbi/main?oid=493552631&type=1&mode=3&pagination_str=%7B%22offset%22:%22%7B%5C%22type%5C%22:1,%5C%22direction%5C%22:1,%5C%22session_id%5C%22:%5C%221741908582826672%5C%22,%5C%22data%5C%22:%7B%7D%7D%22%7D&plat=1&web_location=1315875&w_rid=efb3a06c67206ab206699c14b68693b6&wts=1701082604'
if __name__ == '__main__':
    #创建保存文件以及相关配置
    f = open('data.csv',mode='a',encoding='utf-8',newline='')
    csv_writer = csv.DictWriter(f,fieldnames=[
            '昵称',
            '性别',
            '签名',
            '内容',
            '发布时间',
            '归属地',
    ])
    csv_writer.writeheader()
    headers={
        'Cookie':#浏览器中的cookie
        'Referer':'https://www.bilibili.com/video/BV16N411u76v/?spm_id_from=333.1007.top_right_bar_window_history.content.click&vd_source=1702d37bb5ca4b1f33292dd3a16bb428',
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 Edg/119.0.0.0'
    }

    response = requests.get(url=url,headers=headers)
    json_data = response.json()
    for index in json_data['data']['replies']:
        try:
        #发布时间
            date = str(datetime.datetime.fromtimestamp(index['ctime']))
            dit={
                '昵称':index['member']['uname'],
                '性别':index['member']['sex'],
                '签名':index['member']['sign'],
                '内容': index['content']['message'],
                '发布时间':date,
                '归属地':index['reply_control']['location'].replace('IP属地:',''),
            }
            csv_writer.writerow(dit)
            print(dit)
        except:
            pass

爬取当前页面的评论信息,用户昵称,性别,前面,内容,发布时间,归属地等

爬取结果保存为csv文件

爬取当前页面评论

  • 14
    点赞
  • 56
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Python爬虫是一种自动化程序,可以模拟用户在网页上的操作行为,例如打开网页、点击按钮、填写表单等,还可以提取网页上的数据进行分析和处理。下面是一个详细的Python爬虫爬取B站弹幕的过程: 第一步,导入所需的库:我们需要使用requests库来发送HTTP请求,以获取网页内容,还需要使用BeautifulSoup库来解析网页。 第二步,发送HTTP请求并获取网页内容:使用requests库的get方法发送HTTP GET请求,获取B站视频的网页内容。 第三步,解析网页内容:使用BeautifulSoup库来解析网页内容,以便于提取所需的数据。 第四步,提取弹幕数据:根据B站的网页结构,我们可以找到弹幕数据所在的HTML元素,并使用BeautifulSoup库提供的方法来提取这些数据。 第五步,保存数据:将提取到的弹幕数据保存到本地文件或数据库中,以便后续分析和处理。 以上就是用Python爬虫爬取B站弹幕的基本步骤。需要注意的是,爬取网站可能有一些反爬机制,例如验证码、IP封锁等,还需要注意爬取速度,避免给服务器带来过大的负载。另外,合法合规地使用爬虫是非常重要的,需要遵守相关的法律法规,并且尊重网站的规则和隐私权。 总之,Python爬虫是一种强大的工具,可以用来爬取各种网站的数据,包括B站的弹幕数据。通过合理的编写代码和处理数据,可以实现对弹幕数据的获取和分析。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值