数据科学导论重点(三)

文本数据

简介

文本数据体量和市场价值
典型的文本处理与分析场景

文本分词

文本分词:中文文本特点

        英文(以及一些国家/地区语言文字)词与词之间有 空格(分隔符) 分词处理相对容易
                例如:This is a book.
        中文书面表达方式以汉字作为最小单位
                词是最小且能独立活动 的语言成分,文章以词为基本单位来形成有意义的篇章
                字与字之间、词与词之间 紧密连接,且 没有显性的界限标志
                分词是 汉语文本分析处理中首先要解决的问题

词法分析

        词法分析是将构成句子的字符序列转换为词的序列,并对每个词加上语法或语义标记

                • 分词 :对句子进行分词,完成该功能的软件称为分词器(Tokenizer)
                • 词性标注 : Part-of-Speech Tagger,(简称POS Tagger)分析某种语言的文本,然后针对每个词(Word或者Token)赋予POS标记,比如 名词(Noun)、动词(Verb)、形容词(Adjective)等

分词方法

 正向最大匹配分词

 

 

HMM模型与维特比算法

 

社区探测概念、模块度计算、Louvain算法步骤和计算

n 文本分析的任务

n 独热向量编码计算

n TF-IDF计算

大数据的4V

例举可视化图表类型

TF-IDF
寻找异常点
频繁项集计算
点度中心性、中介中心性、接近中心性计算
社区探测计算
熵值计算
叙述关联规则学习的步骤
KNN算法的内容以及优缺点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值