Python网络爬虫
文章平均质量分 73
Python网络爬虫
敢飞就有天空
C/C++ Python Linux
展开
-
【爬虫笔记】csv文件处理
csv文件处理读取csv文件import csvwith open('douban.csv', 'r') as fp: reader = csv.reader(fp) titles = next(reader) for item in reader: print(item)['3541415', '盗梦空间', '9.3', 'https://movie.douban.com/subject/3541415/']['1292064', '楚门的世界',原创 2021-08-17 22:29:53 · 235 阅读 · 0 评论 -
【爬虫+多线程+MySQL】网抑云音乐评论爬取
提示:本文仅作学习交流使用,下面案例可供参考。文章目录前言一、爬取所有华语男歌手姓名及ID1.网页分析2.代码实现3.部分运行结果附:url详解二、爬取所有华语男歌手专辑ID1.网页分析2.代码实现3.部分运行结果三、爬取所有华语男歌手创作音乐名称及ID1.网页分析2.代码实现3.部分运行结果四、爬取华语男歌手创作音乐热门评论1.网页分析2.代码实现3.部分运行结果五、MySQL代码实现总结前言 之前在网原创 2021-08-19 21:37:47 · 994 阅读 · 0 评论 -
爬取UP主指法芬芳张大仙视频评论及回复
文章目录前言一、爬取视频的评论信息1.B站评论接口2.数据基本情况3.代码4.运行结果5.结果分析二、爬取视频的回复信息1.B站回复接口2.数据基本情况3.代码4.运行结果总结前言 在此之前,爬取了大仙投稿的全部视频的详细信息。[【B站爬虫】爬取B站UP主指法芬芳张大仙投稿视频](https://blog.csdn.net/weixin_46778443/article/details/119635283)。提取出2020年度的视频数据,通过统计原创 2021-08-15 16:27:32 · 508 阅读 · 0 评论 -
B站UP主指法芬芳张大仙评论可视化
文章目录前言一、用户评论数TOP10二、用户性别占比三、用户等级占比四、用户VIP占比五、评论内容词云六、评论点赞数TOP10前言 在此之前,爬取了大仙在B站投稿的全部视频的详细信息。提取出2020年度的视频数据,通过统计得到评论数最多的视频,并对此视频评论和回复进行爬取。本文将爬取得到的数据进行分析。一、用户评论数TOP10from pyecharts.charts import Barfrom pyecharts import optio原创 2021-08-15 18:31:41 · 442 阅读 · 0 评论 -
【爬虫笔记】json文件处理
json文件处理什么是json JSON(JavaScript Object Notation, JS 对象标记) 是一种轻量级的数据交换格式。采用完全独立于编程语言的文本格式来存储和表示数据。简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。 易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。JSON支持数据格式字典。使用花括号。列表。使用方括号。整形、浮点型、布尔类型原创 2021-08-17 22:12:50 · 180 阅读 · 0 评论 -
B站UP主指法芬芳张大仙弹幕爬取及可视化
文章目录前言一、爬取视频弹幕相关信息1.B站弹幕接口2.获取视频的cid3.获取视频弹幕信息二、弹幕数据分析1.弹幕内容分析 -- 词云图2.弹幕发送者分析 -- 水平条形图3.弹幕颜色分析 -- 饼图4.弹幕发送时间分析 -- 弹幕密度图三、整体代码前言 在此之前,爬取了大仙投稿的全部视频的详细信息。=>传送门=<提取出2020年度的视频数据,通过观察可以发现下图所示视频的弹幕数最多,本文以此视原创 2021-08-14 00:04:52 · 2606 阅读 · 4 评论 -
【爬虫+MongoDB】《星际穿越》豆瓣影评信息爬取
提示:本文仅学习交流使用,以下案例仅供参考。文章目录一、页面分析二、代码实现三、运行结果本文以面向对象的形式进行编码,利用xpath与正则表达式进行数据解析,将最终结果存入MongoDB数据库中。一、页面分析首先进入豆瓣《星际穿越》评论页面。https://movie.douban.com/subject/1889243/reviews页面最下方,获取评论的总页数。通过翻页可以找到以下规律:参数start从0开始,页数+1,start+20。页数URLstart原创 2021-08-26 12:55:19 · 458 阅读 · 1 评论 -
【Python网络爬虫】前程无忧网爬虫+可视化
文章目录前言一、页面分析二、代码实现前言本文以前程无忧网的爬虫职位为例,通过面向对象的形式进行编码,利用requests库发起请求,利用xpath与正则表达式进行数据解析,将最终结果存入Excel中,最后对数据进行统计并可视化。一、页面分析首先进入爬取的目标页面:前程无忧网爬虫职位信息城市名城市编号全国000000北京市010000上海市020000广州市030200深圳市040000武汉市180200西安市200200原创 2021-08-28 13:45:56 · 12213 阅读 · 31 评论