文本数据
简介
文本数据体量和市场价值
典型的文本处理与分析场景
文本分词
文本分词:中文文本特点
英文(以及一些国家/地区语言文字)词与词之间有
空格(分隔符)
,
分词处理相对容易
例如:This is a book.
中文书面表达方式以汉字作为最小单位
词是最小且能独立活动
的语言成分,文章以词为基本单位来形成有意义的篇章
字与字之间、词与词之间
紧密连接,且
没有显性的界限标志
分词是
汉语文本分析处理中首先要解决的问题
词法分析
词法分析是将构成句子的字符序列转换为词的序列,并对每个词加上语法或语义标记
• 分词
:对句子进行分词,完成该功能的软件称为分词器(Tokenizer)
• 词性标注
: Part-of-Speech Tagger,(简称POS Tagger)分析某种语言的文本,然后针对每个词(Word或者Token)赋予POS标记,比如
名词(Noun)、动词(Verb)、形容词(Adjective)等
分词方法
正向最大匹配分词
HMM模型与维特比算法
社区探测概念、模块度计算、Louvain算法步骤和计算
n 文本分析的任务
n 独热向量编码计算
n TF-IDF计算
大数据的4V
例举可视化图表类型
TF-IDF
寻找异常点
频繁项集计算
点度中心性、中介中心性、接近中心性计算
社区探测计算
熵值计算
叙述关联规则学习的步骤
KNN算法的内容以及优缺点