自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 资源 (1)
  • 收藏
  • 关注

原创 脏话词库最全整理

https://github.com/LDNOOBW/List-of-Dirty-Naughty-Obscene-and-Otherwise-Bad-Words很多种语言的脏话词库BTW:在找词库的过程中遇到GitHub打不开的问题,按照这篇文章https://www.jianshu.com/p/bf37776b4bb8暂时解决了,但是后面又出现了打不开的情况,而且换一台电脑也是如此,而且GitHub也根本不需要梯子。最后的解决办法是:不用学校的校园网用流量就行了。垃圾校园网...

2022-02-23 14:33:53 6042 1

原创 A Survey of Transformers

除了模块化的改进之外,还有一些研究对模型整体架构进行改进。作者将这些改进分为5种,轻量化改进方法、增强模块之间的连接、动态调整计算时间、分而治之的方法以及可替代的模型。在轻量化变种中,具有代表性的是2020年提出的Light Transformer模型 ,在这个研究里作者将transformer的self-attention模块替换为卷积神经网络与注意力机制的组合,卷积神经网络分支专门研究局部上下文建模,注意力机制分支专门研究长距离关系建模。这是light transformer的结构。该架构在模型大小和

2021-11-08 16:10:43 251

原创 【论文阅读】

Enhancing Recommender Systems With a Stimulus-Evoked Curiosity Mechanism*摘要:*推荐系统 (RS) 中的经典算法主要强调实现高精度,从而推荐与用户过去选择精确匹配的项目。然而,用户可能会逐渐失去兴趣并渴望一些更鼓舞人心的东西。在心理学中,好奇心是一种批判性的人性,可以有效引导探索行为,因此这种现象可以解释为刺激不足,无法引起对推荐项目的好奇心。受上述启发,这项工作提出了一个好奇心驱动推荐框架 (CdRF),它结合了高度创新的刺激诱发

2021-11-05 19:29:04 590

原创 HTML网页中中文显示为问号的解决

点击分析按钮进入分析页面时却出现了乱码,明明是把查询页面的HTML代码copy过来的,

2020-06-13 22:12:24 7174

原创 对知乎数据进行情感分析

关于编码问题:‘utf-8’ codec can’t decode byte 0xb7 in position 0: invalid start byte参见这篇博文:https://www.cnblogs.com/xiaolan-Lin/p/11653432.html代码来自于这篇博文:https://blog.csdn.net/lom9357bye/article/details/79058946?ops_request_misc=%257B%2522request%255Fid%2522%253A%

2020-05-13 22:42:22 730 2

转载 关于python读取excel的时间是浮点型

https://blog.csdn.net/halokwas/article/details/97146428这篇文章有代码解决这个问题

2020-05-12 21:59:56 549

原创 记一些错误

pandas没有DataFrame,compat等attributioncompat这是个玄学问题,与pandas无关,我试了好几次卸载安装还是解决不了,后来自己突然可以运行了。DataFrame这个看了很多资源,似乎是出现了命名冲突,后来新建了一个文件,把原代码抄了一遍过去就可以运行了。引入pyLDAvis包还要引入pyLDAvis.sklearn包...

2020-05-06 02:13:45 163

原创 python爬取微博数据

使用python爬取微博数据,使用的代理是蜻蜓代理的隧道代理,包天17元。使用的是request库。有些网页因为网络等原因打不开,总共获取到了76000+数据,没有爬取评论。评论部分的代码调试没有问题,在实际爬取的时候总是报错,可以确定的是代码没问题,可能是网页的问题,可以加一个异常处理,不想写了,评论爬下来也没有很大价值。这次爬取给我最大的感受就是不可能爬到所有信息,之前没加异常处理总是爬到一...

2020-04-13 21:01:34 2268 4

原创 运行错误的解决

这是用python获取微博评论页的总页面数时出现的问题,显示数据溢出,错误应该出在[0]这里,连[0]也会溢出说明列表是一个空列表,可是检查了一下,如果是直接获取保存下来的html文件里的相应变量的值却不会报错,可见xpath并没有写错,那么问题应该是requests这里。微博的评论只有登陆了之后才能看见,因此requests发送请求的时候应该要带上请求头,请求头里应该要设置cookie,加上...

2020-04-09 19:55:07 289

原创 python爬取热搜神器

用python爬取热搜神器上的历史微博热搜步骤是:从热搜神器上获取数据,此时数据是有很多无用信息的(比如一些超链接),对数据进行处理,导出到excel。** 获取数据**使用的是requests包,先定义对目标网站访问时发出的请求中包含的部分信息,包括url,headers等,以下省去了与本机相关的信息,这些在浏览器中可以查看。url = 'https://www.enlightent...

2020-04-09 19:49:12 2566 10

大三用过的一些包做个备份

jieba/foolnltk/gensim/jupyter

2021-01-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除