自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 爬取东方财富网股评

东方财富网白酒吧的股评爬取东方财富网股吧中白酒吧的评论和时间,下面分享两种方法。第一种方法from lxml import etree# lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML# 利用etree.HTML()将html字符串转化为element对象import requests from fake_useragent import UserAgent# 生成随机请求头,反爬import time# 延迟,设置时间延迟import csvf =

2021-05-09 15:47:54 2121 2

原创 文本挖掘(三)

文档信息向量化思考:什么是文档信息向量化呢?~就是将文本的信息数值化,便于建模分析一、词袋模型(One-hot表示方式)思考:什么是词袋?装词的袋子?怎么装词?文本相当于一个袋子,词装在文本这个袋子里将文本分为一系列的词,文本相当于一个集合,其中每个词都是独立的。有几种方式:对每个词进行编号,形成字典(1,2,3····);用0/1代表该词是否在文本中出现,将文本记录为一个特征向量(出现1次记为1,出现两次记为2,没有出现记为0);不考虑词频,减少模型复杂度(词集模型:常见于

2021-05-08 15:57:19 577

原创 文本挖掘(二)

词云展示一、词频统计1.使用pandas统计#构建词条的listimport jiebaword_list = jieba.lcut(s,cut_all=True) # 利用精确模式进行分词word_list[:10] #列出列表的前10个值# 词频统计result = df.groupby(['words']).size() # size表示分组后样本量有多大print(type(result))freqlist = result.sort_values(ascending=

2021-05-06 21:10:03 235

原创 文本挖掘(一)

初步认识一. 文本挖掘基本内容1.定义定义:从大量的文本数据中抽取隐含的、未知的、可能有用的信息。又称:自然语言处理(NLP)通俗理解:想办法对文本数据加以利用2.基本流程语料获取(网络数据抓取;文本文件读入;图片OCR转化等)原始语料的数据化(分词;信息清理与合并;文档-词条矩阵;相关字典编制;信息的转换等)内在信息挖掘与展示(词云;关键词提取;自动摘要;文档聚类;情感分析;文章推荐等)3.分析任务常见的分析任务:亚洲语言分词;自动摘要;指代消解;机器翻译;词性标注;主题

2021-05-04 19:32:16 1891

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除