自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 深度学习模型bert中文多分类准备工作

1、得到语料之后,初步决定使用bert模型来完成文本分类。有Google和哈工大两种,Google是字粒度,哈工大是词粒度,哈工大的好像没有开源代码https://github.com/ymcui/Chinese-BERT-wwmhttps://github.com/ymcui/Chinese-BERT-wwmGitHub - renxingkai/BERT_Chinese_Classification: 本实验,是用BERT进行中文情感分类,记录了详细操作及完整程序https://github.com

2022-01-11 19:13:19 993

原创 数据预处理(中文论文PDF)

思路:1、PDF转txt,Python库包pdfminer,效果挺差的,很多字母都识别不出来;2、PDF2TXT软件,效果没那么差,字母在,但是格式很不好处理;3、PDF2doc,网站好用,转出来的doc格式几乎一致,不过感觉人工转有些费劲,Python库包PDF2docx效果不大好,会乱;4、试着解析doc,若效果好则再进行后续...

2022-01-04 11:08:08 1001

原创 配置代理池

GitHub - jhao104/proxy_pool: Python爬虫代理IP池(proxy pool)https://github.com/jhao104/proxy_pool要安装redis(19条消息) GitHub上关于ProxyPool的安装【胎教级教学】_FLIF的博客-CSDN博客_proxy_poolhttps://blog.csdn.net/weixin_48584917/article/details/121710521然后安装docker...

2021-12-24 13:53:47 718

原创 深度学习链接

(19条消息) 数据挖掘数据集汇总_机器之我心的博客-CSDN博客_数据挖掘数据集https://blog.csdn.net/weixin_42039090/article/details/80612650(19条消息) Python报错pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool解决方法_给我一点温度-CSDN博客https://blog.csdn.net/sinat_26811377/article/detail

2021-12-22 20:25:14 87

原创 幸福感做题

1、42个变量,感觉需要删掉一些1.1查看采访时间to_datetime、日期.date、年份.month1.2 绘制计数柱状图,seaborn系列的countplot()data = pd.concat([y, x], axis=1).sample(500)sns.countplot(x='survey_type', hue='happiness',data=data)1.3绘制百分比柱状图import plotly.graph_objs as gos=data[data['sur

2021-12-06 20:24:31 126

原创 2021-05-16各类关键词抽取

各类关键词抽取:tf-idf、textrank4zh(英文)RAKE(中文)import codecsimport osimport jieba.analyseimport numpy as npimport pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizer#要提取关键词的文本所在文件夹base_path = "D:\小周\论文\知乎数据\tfidf-article\\base"#分词后的文本

2021-12-02 14:33:55 165

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除