Python金融数据挖掘 第7章 第2节(2)文本挖掘

兴奋、文本处理,热门,文本大数据,遇到难题,三分钟热度,再次消磨

文本挖掘:指从大量文本的集合C中发现隐含的模式p。

1、出现原因

(1)数据量大,数据网络存储、传播广、文本数据价值高,价值密度低

(2)处理有难度,数值,传统统计软件STATA难以处理

(3)复杂数据变换,数值型数据,code多,但黑箱化(后台使用神经网络,SVM,掩盖关键信息),但转换出的结果难以看懂,数据不知如何转换

(4)数据量大,数值型数据规模大(二维表形式,词、特征词——深度学习,维度、变量、字段)

(5)对机器、设备要求高

(6)大量围观者,对初学者不友好,很难运行出结果

2、我的课程目前学习

预处理!

简单、分词处理、数据值矩阵、数据挖掘阶段

英文、中文 ——增加学习量(主学中文)集华人之精华

3、基本过程

(1)获取数据:文本数据

(2)预处理:分词、过滤无用词、词性标记、特征提取(提取重要特征词)、数值型矩阵

(3)数据挖掘:聚类、分类、预测、关联分析、文本摘要

(4)可视化

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值