Python金融数据挖掘第7章第2节（2）文本挖掘

勇敢驴驴

已于 2022-05-08 17:34:20 修改

阅读量289

点赞数

文章标签：金融 python 大数据中文分词

于 2022-05-02 11:57:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xllzuibangla/article/details/124538156

版权

兴奋、文本处理，热门，文本大数据，遇到难题，三分钟热度，再次消磨

文本挖掘：指从大量文本的集合C中发现隐含的模式p。

1、出现原因

（1）数据量大，数据网络存储、传播广、文本数据价值高，价值密度低

（2）处理有难度，数值，传统统计软件STATA难以处理

（3）复杂数据变换，数值型数据，code多，但黑箱化（后台使用神经网络，SVM，掩盖关键信息），但转换出的结果难以看懂，数据不知如何转换

（4）数据量大，数值型数据规模大（二维表形式，词、特征词——深度学习，维度、变量、字段）

（5）对机器、设备要求高

（6）大量围观者，对初学者不友好，很难运行出结果

2、我的课程目前学习

预处理！

简单、分词处理、数据值矩阵、数据挖掘阶段

英文、中文 ——增加学习量（主学中文）集华人之精华

3、基本过程

（1）获取数据：文本数据

（2）预处理：分词、过滤无用词、词性标记、特征提取（提取重要特征词）、数值型矩阵

（3）数据挖掘：聚类、分类、预测、关联分析、文本摘要

（4）可视化

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python金融数据挖掘第7章第2节（2）文本挖掘

兴奋、文本处理，热门，文本大数据，遇到难题，三分钟热度，再次消磨一、文本大数据1、出现原因（1）数据量大，数据网络存储、传播广、文本数据价值高，价值密度低（2）处理有难度，数值，传统统计软件STATA难以处理（3）复杂数据变换，数值型数据，code多，但黑箱化（后台使用神经网络，SVM，掩盖关键信息），但转换出的结果难以看懂，数据不知如何转换（4）数据量大，数值型数据规模大（二维表形式，词、特征词——深度学习，维度、变量、字段）（5）对机器、设备要求高（6）大量围观者，对初学
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。