(纯属为了记录自己学习的点滴过程,引用资料都附在参考列表)
1 传统方法的局限
1.1 传统方法的套路
传统方法的处理流程简单来说就是:特征提取+传统机器学习模型训练;
特征提取:
使用了特征模板、TF-IDF、词袋向量等特征提取方法;
常用的机器学习模型:
HMM、perceptron、CRF、NBM、SVM;
这些方法属于普遍规律,要解决具体的nlp问题还需要具体问题具体分析(特殊规律),nlp难就难在这个地方,你找不到稍微普适一点公式可以套用很多问题。就好比韩寒说过的一句话,懂得很多道理,但还是过不好这一生。所以学习人工智能也没有什么捷径,就是keep your hands dirty,让你的手沾满数据,不断在真实的问题中踩坑,坑踩多了就有经验了。
1.2 局限性
- 数据稀疏
统计机器学习的前提假设是随机现象是大量发生、具有某种平均特性,如果发生一次两次,就不适合概率统计框架。
首先,传统的机器学习方法不善于处理数据稀疏问题,这在自然语言处理领域显得尤为突出,语言是离散的符号系统,每个字符、单词都是离散型随机变量。我们通常使用独热向量(one-hot)来将文本转化为向量表示,指的是只有一个元素为1,其他元素全部为 0 的二进制向量。 - 特征模板
一方面特征模板同样会带来数据稀疏,另一方