自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 scrapy爬虫框架管道数据处理(补充)

(3) 配置管道文件,再左侧的setting文件中,加上刚写的数据写入数据库管道类。(1)首先启动数据库,在图形化界面中建立名为douban的数据库,表和表头。要将数据写入到Excel文件中,要先创造文件,写在构造方法中。(3)配置管道文件,再左侧的setting文件中,取消管道注释。(2)在左侧管道文件中,新建一个类,将数据导入到数据库。查看文件,(最下方top250是定义的工作簿名字)2.使用管道将爬取到的数据写入Mysql数据库。(4)运行程序,数据库中查看结果。(2)管道部分完整代码。

2024-03-12 19:30:39 1214

原创 scrapy爬虫框架初实现爬取豆瓣电影top250

Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。3.在对应想放置文件夹的地方再次打开命令提示符,创造新项目 scrapy startproject+项目名字。5.整个项目文件用pycharm打开,在设置中创造虚拟环境,同时再pycharm中的虚拟环境再次。终端页面中输入 scrapy crawl+爬虫项目的名字+ -o +保存文件的名字和类型。打开起始页面,也是目标页面,f12打开开发者模式,这里检查找到电影标题对应的标签。

2024-03-11 20:32:48 1004

原创 在scikit-learn中实现TF-IDF算法

2.TF-IDF可以实现将 文本数据转换问数值向量表示(这里text数据为已经进行过手动分词处理,如传入整端数据得先分词处理。5.修改输出,print(vectorizer.get_feature_names_out()) ,打印特征词列表。左侧数据中前三个用于描述向量的第一个位置 分别对应第6个位置,第4个位置,第3个位置有向量值。4.修改输出 print(vectors.toarray()),输出每个文档的向量表示。(1)首先根据输入的多个文档,构建此表(默认去除单字词)1.首先安装配置环境。

2024-03-10 17:55:41 438 1

原创 tf-idf关键词提取

IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。2.按照传统TF-IDF,往往一些生僻词的IDF(反文档频率)会比较高、因此这些生僻词常会被误认为是文档关键词。如果某个词比较少见,但是它在这篇文章中多次出现,那么它很可能就反映了这篇文章的特性,正是我们所需要的关键词。1.没有考虑特征词的位置因素对文本的区分度,词条出现在文档的不同位置时,对区分度的贡献大小是不一样的。tf-idf = tf(词频) + idf(逆文本频率指数)

2024-03-09 23:46:33 398

原创 对弹幕文本数据进行词频统计

2. 使用jieba分词,for循环统计词频,去除单个文字的文本数据。(这里我没用到停用词)1.这里先爬取某视频历史弹幕,具体方法可见之前文章。

2024-03-09 15:53:18 372

原创 python实现分页爬取B站热门视频信息

9.点击找到对应的网页源代码部分,设置断点,再次往下刷新页面查看使w_rid数据变化的程序部分。(若出现多个数据包中包含w_rid参数,分别打上断点即可,往下浏览使得页面刷新,自动暂停的地方即参数变化所在部分)2.按住F12打开浏览器的开发者模式,点击网络,旁边左上角有搜索框,刷新页面,搜索某一个热门视频的id,找到数据包。再次往下浏览刷新页面,再次断点时候,查看f的值,变化的值为"pn = 7",以及时间轴wts的变化。6.这里主要爬取这部分信息。当继续往下翻页时候,刷新出新的数据,找到对应的url。

2024-03-07 20:23:52 795 4

原创 基于python爬虫爬取B站热门视频信息

2.右键查看页面源代码,将第一个标题选取部分搜索,得到信息内容的来源,查看负载中的请求地址,这里作为目标url地址。6.完整代码,(爬取数据+保存数据+根据标题评论弹幕量生成柱状图。5.打开保存的文件csv中的信息,分别建立空列表保存,作为绘图数据。这里我只选取了评论数量和弹幕量的显示,生成柱状图代码。3.爬取热门视频的信息并保存到csv文件中。1.打开B站的热门视频。

2024-02-08 11:11:57 763

原创 python实现B站评论分页爬取

变化的参数为 Jt+wt,这里的wt为固定值。并且采取了md5加密的方式,分析可得Jt的值为en中内容的综合,en内容则为负载中的固定值。2.打开开发者工具,点击网络刷新界面,下滑页面数据让数据加载出来,随便选择一条评论复制,粘贴到开发工具中的搜索框中,找到对应的包。7.这里处理w_rid参数,在源码页面中搜索,w_rid参数,查看所处位置,进行断点检测。5.实现翻页爬取时,找到变化的对应参数。

2024-02-06 11:53:54 1800 3

原创 pygame.error: Unknown WAVE format错误解决方法

解决方法2.用格式转换软件将对应音频转换成所需的mp3,或者wav文件。解决方法1,查看音频文件的原格式,我用的原格式为start.ogg。将源文件后缀改回来,运行成功。尝试改动文件后缀为,start.wav。

2024-01-27 21:36:17 628

原创 基于python的B站视频下载

4.中间【0】代表取出audio_url,和video_url字典中的第一个url链接,通常是1080p最清晰的视频链接。7.之后用ffmpeg工具合并音频和视频文件,这里ffmpeg可以参考其他的详细教程下载,并配置环境变量。3.通过正则表达式,提取网页源代码中的video,和audio文件。通过bs4二进制数据,找到网页的主页,能看到视频和音频的链接。B站的视频部分分开为音频和画面部分。详细位置,找到数据来源,以及视频标题。接收数据,提取网页源代码中的标题。1.打开开发者工具,刷新网页。

2023-12-09 09:00:00 492

原创 FFmpeg合并音频视频文件-系统找不到指定的文件-错误

当我在cmd中运行成功后,后来发现winError是系统找不到文件,也就是代码中找不到我的ffmpeg工具,代码本身没问题。于是我在前面加上bin目录下ffmpeg的详细路径。代码改动之后(这里的我自己电脑中ffmpeg的bin路径加在了代码中ffmpeg前面)搜了很久,环境变量也重新配了,ffmpeg版本也重装了,问题还是在。当用ffmpeg合并音频视频时候,始终报错显示无法找到文件。于是我想着直接用cmd运行代码,这是我原始代码。

2023-12-09 01:08:47 369

原创 python爬取B站弹幕数据并生成词云图

6.将爬取到的内容保存到文本文档,热门视频弹幕.txt中,打开查看爬取结果(这里爬取了三天的历史弹幕,因为视频是最近的,若想要更多数据,可以选择弹幕更多的视频,并修改代码中的 range参数):用户在观看视频时会产生丰富的行为数据,如弹幕。3.这里选取首页的热门视频,打开网页的开发者模式,点击网络刷新页面,点击查看历史弹幕。5.这里的地址作为请求数据,查看历史弹幕需要登陆,这里需要放入cookie信息。4.这里再次刷新,能看到一个数据包里面又想要的弹幕数据。7.进行词云图显示,查看热门弹幕词。

2023-12-08 01:55:04 721

原创 python爬虫爬取百度文档

打开爬取到的图片内容为想要的文档,后续可通过图片转文字获取详情文档。1.获取文档内容,百度文库的文档大多是图片形式。这里面就有所需的所有图片内容。浏览器中搜索找到图片的来源。2.导入数据模块请求数据。3.将图片文件爬取下来。

2023-12-07 19:36:30 1495

原创 python爬取B站弹幕数据

根据要获取的弹幕天数,我这里for page in range (6,8):只为了获取 ,六号到七号的所有弹幕。因为历史弹幕要登陆才能查看,这里要在headers中加入自己浏览器的cookie(包含登录信息)将爬取到的数据保存为弹幕1.txt文件,打开查看内容 (方式一简单但爬取到的弹幕内容较少)这里可以直接看到当前视频的弹幕地址,可以直接用正则表达式筛选出所需的弹幕内容。打开页面的开发者模式,打开网络,点击前一天的历史弹幕,能看到弹幕数据。生成结果为弹幕2.txt的文本文件,打开查看结果。

2023-12-07 13:26:34 611 2

原创 python爬取百度搜索图片

3.解析html,获得对应的图片地址,再一次请求图片地址,保存到本地。2.确定请求的路径,根据路径获得网页源代码的html文件。构造请求头,伪装浏览器,(这里只用ua伪装的话会被挡)完整代码,不断爬取图片,可手动暂停。1.请求标头,伪装浏览器身份。找到目标图片所处的位置。

2023-12-06 12:52:44 206 1

原创 python爬虫爬取付费下载的图片

2.图片网站打开图片会转入另外一个网站,并不是目的所想要的直接图片文件,这里还需要进行一些搜索查找操作。5.设置图片文件的img_url为请求url,这里怕取得是高清图,保存到名为img的文件夹中。6.接下来就是建立文件img,将爬取到的图片放入文件夹,用正则表达式取文件标题。3.这里先获取post的信息,发现,列表中第三个元素是想要的目标url。4.打开url是转入另外的一个网站,这个网站中有目标所需爬取的图片文件。1.首先打开开发者模式刷新页面,查看请求数据所需的url。

2023-12-05 16:25:12 721

原创 python爬取商品评论制作词云图

这里选择京东的商品页面,打开页面源代码查看评论来源打开页面的检查,点击网络,刷新一下评论,选择一条评论复制,查看所在的位置可以看到京东商品下面的评论再 comment下面的content中开始爬取评论。

2023-12-05 00:19:42 713

原创 爬取B站评论并进行词云图显示

这里爬取B站视频下面的用户昵称,性别,签名,内容,发布时间,归属地等信息。1.在首页选取一个视频,检查网页源代码,查看评论所处的位置。进行词云图显示,这里只选取评论部分,保存为txt文件。结果保存为csv文件,查看文件内容所示。

2023-12-03 23:57:29 299 3

原创 Python爬取天气数据并进行可视化呈现

通过爬虫爬取天气数据,进行数据处理,最后可视化呈现。

2023-12-03 16:15:07 1133 4

原创 python爬虫爬取B站评论

打开开发者工具,下滑页面数据让数据加载出来,随便选择一条评论复制,粘贴到开发工具中的搜索框中,找到对应的包。爬取当前页面的评论信息,用户昵称,性别,前面,内容,发布时间,归属地等。在这里随便点开B站首页推送的一个视频内容。当前页面的评论信息在 replies中。这里使用requests方法。爬取结果保存为csv文件。2.发送请求,访问网址。4.持久化存储,保存在。

2023-11-27 21:57:14 3668

原创 爬虫爬取豆瓣电影top250

在这里使用parsel模块处理爬取到的数据。4.持久化存储,保存在数据库或本地。运行结果保存为csv文件。2.发送请求,访问网址。

2023-11-26 23:56:06 74 1

原创 python爬虫爬取百度翻译结果

当使用百度翻译时候,浏览器返回post请求中,返回的文件类型为json,通过爬虫爬取文件并保存在本地,显示翻译结果。程序运行后,输入要翻译的英文,本地出现json文件,打开即翻译结果。

2023-11-26 20:29:42 117 1

原创 python简易网页采集器

运行后命令行输入想要采集的搜索结果,文件保存在本地。4.持久化存储,保存在数据库或本地。2.发送请求,访问网址。

2023-11-26 16:43:26 63 1

原创 MapReduce 单词统计 WordCount

将需要统计的文件放入 input文件夹,本地运行程序。output中即可查看结果。之后即可在集群中上传需要执行的文件,集群中运行程序。1.添加MapReduce的相关jar包。用命令行参数指定输入路径和输出路径。3.实现reduce()方法。2.实现map()方法。

2023-04-16 20:33:11 81 1

原创 基于python的客户端,服务端之间的通信

from socket import * #导入socket库 全部导入可用的名字。分别运行两个代码,打开两个终端窗口。PORT=50000 #端口号。

2023-04-16 19:51:33 188 4

python简易坦克大战游戏

python简易坦克大战游戏 无数据库前端页面,可直接运行 img中的图片可根据需要自行更换, 图片分别对应 己方坦克四方位图片,敌方坦克四方位图片 图片后面序号对应 D(down 下)U(up上)L(left左) R(right 右) blast(0~2)为爆炸效果,逐渐放大的图片表示爆炸 bullet子弹图片 steels墙体图片 音效分别对应 fire 开火 ,hit 打击 ,start 开始背景音乐

2024-03-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除