文本分析学习笔记
文本中所蕴含信息的层次
来自@文彤老师
词条是否在文本中出现——各种基于词袋的模型
即简单的判断文本中是否出现某词,以及出现的次数等。
词条的各种内在关联——各种字典
设置词典以自动连接文本中的词及其相关的词。
信息量的进一步拓展
词序信息——N-gram语言模型
文本中词出现的顺序很重要。
语法信息——待探索区域
NLP的基本思路
传统:基于字典(wordnet)
现代:基于统计模型
原始语料数据化时需要考虑的工作
基本目的:在将
分词
去除停用词
去除无意义的词、空白、标点符号等。
词根识别、
中文不存在。
同义词/近义词识别
术语识别
情感标注
词性标注
语法分析
语义分析
Python的常见IDE/集成开发环境简介
pass