深度学习与自然语言处理

本文探讨了传统自然语言处理方法的局限性,如数据稀疏和特征模板设计的挑战,以及深度学习如何通过稠密向量和多层网络自动特征提取克服这些问题。深度学习在端到端设计中的应用简化了NLP任务,减少了误差传播。未来,理论上的数学基础和实际工程经验将更加重要。
摘要由CSDN通过智能技术生成

(纯属为了记录自己学习的点滴过程,引用资料都附在参考列表)

1 传统方法的局限

1.1 传统方法的套路

传统方法的处理流程简单来说就是:特征提取+传统机器学习模型训练;
特征提取
使用了特征模板、TF-IDF、词袋向量等特征提取方法;
常用的机器学习模型
HMM、perceptron、CRF、NBM、SVM;
这些方法属于普遍规律,要解决具体的nlp问题还需要具体问题具体分析(特殊规律),nlp难就难在这个地方,你找不到稍微普适一点公式可以套用很多问题。就好比韩寒说过的一句话,懂得很多道理,但还是过不好这一生。所以学习人工智能也没有什么捷径,就是keep your hands dirty,让你的手沾满数据,不断在真实的问题中踩坑,坑踩多了就有经验了。

1.2 局限性

  • 数据稀疏
    统计机器学习的前提假设是随机现象是大量发生、具有某种平均特性,如果发生一次两次,就不适合概率统计框架。
    首先,传统的机器学习方法不善于处理数据稀疏问题,这在自然语言处理领域显得尤为突出,语言是离散的符号系统,每个字符、单词都是离散型随机变量。我们通常使用独热向量(one-hot)来将文本转化为向量表示,指的是只有一个元素为1,其他元素全部为 0 的二进制向量。
  • 特征模板
    一方面特征模板同样会带来数据稀疏,另一方
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值