Z.xh-CSDN博客

原创 scrapy爬虫框架管道数据处理(补充）

（3）配置管道文件，再左侧的setting文件中,加上刚写的数据写入数据库管道类。（1）首先启动数据库，在图形化界面中建立名为douban的数据库，表和表头。要将数据写入到Excel文件中，要先创造文件，写在构造方法中。（3）配置管道文件，再左侧的setting文件中，取消管道注释。（2）在左侧管道文件中，新建一个类，将数据导入到数据库。查看文件，（最下方top250是定义的工作簿名字）2.使用管道将爬取到的数据写入Mysql数据库。（4）运行程序，数据库中查看结果。（2）管道部分完整代码。

2024-03-12 19:30:39 1459

原创 scrapy爬虫框架初实现爬取豆瓣电影top250

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。3.在对应想放置文件夹的地方再次打开命令提示符，创造新项目 scrapy startproject+项目名字。5.整个项目文件用pycharm打开，在设置中创造虚拟环境，同时再pycharm中的虚拟环境再次。终端页面中输入 scrapy crawl+爬虫项目的名字+ -o +保存文件的名字和类型。打开起始页面，也是目标页面，f12打开开发者模式，这里检查找到电影标题对应的标签。

2024-03-11 20:32:48 1765

原创在scikit-learn中实现TF-IDF算法

2.TF-IDF可以实现将文本数据转换问数值向量表示（这里text数据为已经进行过手动分词处理，如传入整端数据得先分词处理。5.修改输出，print(vectorizer.get_feature_names_out()) ，打印特征词列表。左侧数据中前三个用于描述向量的第一个位置分别对应第6个位置，第4个位置，第3个位置有向量值。4.修改输出 print(vectors.toarray())，输出每个文档的向量表示。（1）首先根据输入的多个文档，构建此表（默认去除单字词）1.首先安装配置环境。

2024-03-10 17:55:41 713 1

原创 tf-idf关键词提取

IDF的主要思想是：如果包含词条t的文档越少，也就是n越小，IDF越大，则说明词条t具有很好的类别区分能力。2.按照传统TF-IDF，往往一些生僻词的IDF(反文档频率)会比较高、因此这些生僻词常会被误认为是文档关键词。如果某个词比较少见，但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性，正是我们所需要的关键词。1.没有考虑特征词的位置因素对文本的区分度，词条出现在文档的不同位置时,对区分度的贡献大小是不一样的。tf-idf = tf(词频） + idf（逆文本频率指数）

2024-03-09 23:46:33 556

原创对弹幕文本数据进行词频统计

2. 使用jieba分词，for循环统计词频，去除单个文字的文本数据。（这里我没用到停用词）1.这里先爬取某视频历史弹幕，具体方法可见之前文章。

2024-03-09 15:53:18 646

原创 python实现分页爬取B站热门视频信息

9.点击找到对应的网页源代码部分，设置断点，再次往下刷新页面查看使w_rid数据变化的程序部分。（若出现多个数据包中包含w_rid参数，分别打上断点即可，往下浏览使得页面刷新，自动暂停的地方即参数变化所在部分）2.按住F12打开浏览器的开发者模式，点击网络，旁边左上角有搜索框，刷新页面，搜索某一个热门视频的id，找到数据包。再次往下浏览刷新页面，再次断点时候，查看f的值，变化的值为"pn = 7"，以及时间轴wts的变化。6.这里主要爬取这部分信息。当继续往下翻页时候，刷新出新的数据，找到对应的url。

2024-03-07 20:23:52 1763 5

原创基于python爬虫爬取B站热门视频信息

2.右键查看页面源代码，将第一个标题选取部分搜索，得到信息内容的来源，查看负载中的请求地址，这里作为目标url地址。6.完整代码，（爬取数据+保存数据+根据标题评论弹幕量生成柱状图。5.打开保存的文件csv中的信息，分别建立空列表保存，作为绘图数据。这里我只选取了评论数量和弹幕量的显示，生成柱状图代码。3.爬取热门视频的信息并保存到csv文件中。1.打开B站的热门视频。

2024-02-08 11:11:57 1356

原创 python实现B站评论分页爬取

变化的参数为 Jt+wt，这里的wt为固定值。并且采取了md5加密的方式，分析可得Jt的值为en中内容的综合，en内容则为负载中的固定值。2.打开开发者工具，点击网络刷新界面，下滑页面数据让数据加载出来，随便选择一条评论复制，粘贴到开发工具中的搜索框中，找到对应的包。7.这里处理w_rid参数，在源码页面中搜索，w_rid参数，查看所处位置，进行断点检测。5.实现翻页爬取时，找到变化的对应参数。

2024-02-06 11:53:54 3574 4

原创 pygame.error: Unknown WAVE format错误解决方法

解决方法2.用格式转换软件将对应音频转换成所需的mp3,或者wav文件。解决方法1，查看音频文件的原格式，我用的原格式为start.ogg。将源文件后缀改回来，运行成功。尝试改动文件后缀为，start.wav。

2024-01-27 21:36:17 1537

原创基于python的B站视频下载

4.中间【0】代表取出audio_url，和video_url字典中的第一个url链接，通常是1080p最清晰的视频链接。7.之后用ffmpeg工具合并音频和视频文件，这里ffmpeg可以参考其他的详细教程下载，并配置环境变量。3.通过正则表达式，提取网页源代码中的video，和audio文件。通过bs4二进制数据，找到网页的主页，能看到视频和音频的链接。B站的视频部分分开为音频和画面部分。详细位置，找到数据来源，以及视频标题。接收数据，提取网页源代码中的标题。1.打开开发者工具，刷新网页。

2023-12-09 09:00:00 926

原创 FFmpeg合并音频视频文件-系统找不到指定的文件-错误

当我在cmd中运行成功后，后来发现winError是系统找不到文件，也就是代码中找不到我的ffmpeg工具，代码本身没问题。于是我在前面加上bin目录下ffmpeg的详细路径。代码改动之后（这里的我自己电脑中ffmpeg的bin路径加在了代码中ffmpeg前面）搜了很久，环境变量也重新配了，ffmpeg版本也重装了，问题还是在。当用ffmpeg合并音频视频时候，始终报错显示无法找到文件。于是我想着直接用cmd运行代码，这是我原始代码。

2023-12-09 01:08:47 1323

原创 python爬取B站弹幕数据并生成词云图

6.将爬取到的内容保存到文本文档，热门视频弹幕.txt中，打开查看爬取结果（这里爬取了三天的历史弹幕，因为视频是最近的，若想要更多数据，可以选择弹幕更多的视频，并修改代码中的 range参数）：用户在观看视频时会产生丰富的行为数据，如弹幕。3.这里选取首页的热门视频，打开网页的开发者模式，点击网络刷新页面，点击查看历史弹幕。5.这里的地址作为请求数据，查看历史弹幕需要登陆，这里需要放入cookie信息。4.这里再次刷新，能看到一个数据包里面又想要的弹幕数据。7.进行词云图显示，查看热门弹幕词。

2023-12-08 01:55:04 1794

原创 python爬虫爬取百度文档

打开爬取到的图片内容为想要的文档，后续可通过图片转文字获取详情文档。1.获取文档内容，百度文库的文档大多是图片形式。这里面就有所需的所有图片内容。浏览器中搜索找到图片的来源。2.导入数据模块请求数据。3.将图片文件爬取下来。

2023-12-07 19:36:30 2405

原创 python爬取B站弹幕数据

根据要获取的弹幕天数，我这里for page in range (6,8):只为了获取，六号到七号的所有弹幕。因为历史弹幕要登陆才能查看，这里要在headers中加入自己浏览器的cookie（包含登录信息）将爬取到的数据保存为弹幕1.txt文件，打开查看内容（方式一简单但爬取到的弹幕内容较少）这里可以直接看到当前视频的弹幕地址，可以直接用正则表达式筛选出所需的弹幕内容。打开页面的开发者模式，打开网络，点击前一天的历史弹幕，能看到弹幕数据。生成结果为弹幕2.txt的文本文件，打开查看结果。

2023-12-07 13:26:34 1381 3

原创 python爬取百度搜索图片

3.解析html,获得对应的图片地址，再一次请求图片地址，保存到本地。2.确定请求的路径，根据路径获得网页源代码的html文件。构造请求头，伪装浏览器，（这里只用ua伪装的话会被挡）完整代码，不断爬取图片，可手动暂停。1.请求标头，伪装浏览器身份。找到目标图片所处的位置。

2023-12-06 12:52:44 427 1

原创 python爬虫爬取付费下载的图片

2.图片网站打开图片会转入另外一个网站，并不是目的所想要的直接图片文件，这里还需要进行一些搜索查找操作。5.设置图片文件的img_url为请求url,这里怕取得是高清图，保存到名为img的文件夹中。6.接下来就是建立文件img,将爬取到的图片放入文件夹，用正则表达式取文件标题。3.这里先获取post的信息，发现，列表中第三个元素是想要的目标url。4.打开url是转入另外的一个网站，这个网站中有目标所需爬取的图片文件。1.首先打开开发者模式刷新页面，查看请求数据所需的url。

2023-12-05 16:25:12 1951

原创 python爬取商品评论制作词云图

这里选择京东的商品页面，打开页面源代码查看评论来源打开页面的检查，点击网络，刷新一下评论，选择一条评论复制，查看所在的位置可以看到京东商品下面的评论再 comment下面的content中开始爬取评论。

2023-12-05 00:19:42 1545

原创爬取B站评论并进行词云图显示

这里爬取B站视频下面的用户昵称，性别，签名，内容，发布时间，归属地等信息。1.在首页选取一个视频，检查网页源代码，查看评论所处的位置。进行词云图显示，这里只选取评论部分，保存为txt文件。结果保存为csv文件，查看文件内容所示。

2023-12-03 23:57:29 751 3

原创 Python爬取天气数据并进行可视化呈现

通过爬虫爬取天气数据，进行数据处理，最后可视化呈现。

2023-12-03 16:15:07 1835 5

原创 python爬虫爬取B站评论

打开开发者工具，下滑页面数据让数据加载出来，随便选择一条评论复制，粘贴到开发工具中的搜索框中，找到对应的包。爬取当前页面的评论信息，用户昵称，性别，前面，内容，发布时间，归属地等。在这里随便点开B站首页推送的一个视频内容。当前页面的评论信息在 replies中。这里使用requests方法。爬取结果保存为csv文件。2.发送请求，访问网址。4.持久化存储，保存在。

2023-11-27 21:57:14 7283

原创爬虫爬取豆瓣电影top250

在这里使用parsel模块处理爬取到的数据。4.持久化存储，保存在数据库或本地。运行结果保存为csv文件。2.发送请求，访问网址。

2023-11-26 23:56:06 170 1

原创 python爬虫爬取百度翻译结果

当使用百度翻译时候，浏览器返回post请求中，返回的文件类型为json，通过爬虫爬取文件并保存在本地，显示翻译结果。程序运行后，输入要翻译的英文，本地出现json文件，打开即翻译结果。

2023-11-26 20:29:42 314 1

原创 python简易网页采集器

运行后命令行输入想要采集的搜索结果，文件保存在本地。4.持久化存储，保存在数据库或本地。2.发送请求，访问网址。

2023-11-26 16:43:26 189 1

原创 MapReduce 单词统计 WordCount

将需要统计的文件放入 input文件夹，本地运行程序。output中即可查看结果。之后即可在集群中上传需要执行的文件，集群中运行程序。1.添加MapReduce的相关jar包。用命令行参数指定输入路径和输出路径。3.实现reduce()方法。2.实现map()方法。

2023-04-16 20:33:11 153 2

原创基于python的客户端，服务端之间的通信

from socket import * #导入socket库全部导入可用的名字。分别运行两个代码，打开两个终端窗口。PORT=50000 #端口号。

2023-04-16 19:51:33 326 4

weixin_51575130的博客