自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 网易云音乐评论——Part 5 通过获取的Json文件,然后绕过Javacrip直接获取数据

关于加密参数,如果生成错误自己也看不出来,因为确实每次都是随机的…所以还得回去扒着函数定义找逻辑…逆向太牛了,但是每次都能把眼搞瞎,翻篇。收获:**在代码中溯源很重要,**也学会了Json文件的读取,最近还是花钱搞个Webstorm的专业版吧,Pycharm不是专业版导致我没法调试json代码,害我换了好几个IDE,折腾了很久。曾几何时,我也是通过一步一步扒函数,最后获得params和encSecKey的方式,搞了整整一天,虽然动态的params和encSecKey值返回来了,但是依旧接收不到post。

2024-05-02 19:45:48 234 2

原创 网易云音乐评论——part 4 AES和RSA加密逆向

参数a和参数i都是随机的16位数,可以自由设定。参数b和参数e即是AES加密的key,两者一致。参数c和参数f一致,是RSA加密的密钥,全部是固定的值,不随歌曲id和页数变化。参数g没有变化过,一直是 g:‘0CoJUm6Qyw8W8jud’

2024-05-02 11:58:31 1432 2

原创 网易云爬虫评论——Part 3 老老实实搞逆向js逆向(参照其他大佬学习篇)

进行逆向工程来分析网页或应用中JavaScript代码的逻辑,以便理解如何动态生成例如 params 和 encSecKey 这类加密参数,是一项技术性和细致性都很高的工作,所以我逃避…,Let’s go!

2024-05-01 19:56:20 390 1

原创 网易云爬虫评论(Selenium 方式)——Part 2 缝缝补补(又是失败但进步的一天)

接前文所述,使用selenium抓取网易云界面出现代码返回不稳定的问题,当时我以为是网络问题,换了3台电脑测试后依旧存在,则说明前述代码的数据抓取成功是小概率事件,找问题!

2024-05-01 12:31:20 888

原创 网易云爬虫评论(Selenium 方式)——part 1 前端内容获取

我想要获取的是《5:20AM》这首网易云音乐的评论,然后进行文本分析。获取的目标数据为:用户名、评论内容、评论时间。拟采用Selenium的方式采用非登录的方式进行数据获取。《5:20AM》这首歌的url为:https://music.163.com/#/song?Frame:在HTML中, 元素用于在浏览器窗口中划分多个独立的区域,每个区域都能独立地加载文档。这是HTML4的特性,现在已经较少使用。

2024-04-30 12:03:42 849 2

原创 LDA Part2: topic个数的选择(Coherence+Perplexity)

目前比较成熟的判断一个LDA模型是否合理的标准一般有两个,一个是一致性,另一个是困惑度。困惑度perplexity表示的对于一篇文章来说,我们有多不确定它是属于某个主题的。即主题的个数越多,模型的困惑度就越低,即主题的个数越多,模型的困惑度就越低,但是注意一点,当主题数很多的时候,生成的模型往往会过拟合,所以不能单纯依靠困惑度来判断一个模型的好坏。这时候我们的另一个判断标准就有作用了——!一致性评估,衡量了主题中词语之间的相关性。

2024-04-29 18:29:37 2276

原创 LDA+Topic Model

【代码】LDA+Topic Model。

2024-04-29 15:18:37 1085

原创 从LDA&Topic开始

这个矩阵用于输入到主题模型中,以发现文档集合中的潜在主题。文本划分为主题,主题切分成不同的词语,最后生成一个fake document。LDA最终计算的是一个机器生成某个组合的fake document的概率,找到最优的参数。矩阵中的元素表示该主题在特定文档中的重要性或比重。LDA模型的目的是从文档集合中发现一组主题,每个主题是词汇的分布,这些词汇在语义上是相关的。文档-词语矩阵),然后才能应用LDA模型(拟合LDA模型到文档-词语矩阵)。文本的主题分布和主题的词语分布,词频或TF-IDF矩阵,

2024-04-29 15:10:06 324

从LDA&Topic开始

从LDA&Topic开始

2024-04-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除