机器学习之自然语言处理理解_基于机器学习的自然语言理解性能-CSDN博客

本文链接：https://blog.csdn.net/wyisfish/article/details/71247525

大数据的机会使得更容易去做自然语言处理，人工智能闭环：数据驱动机器学习，有一个系统用户产生大量数据，基于数据建立模型服务客户。自然语言处理核心想法基于机器学习，统计机器学习方法分类为：分类、匹配、翻译、结构预测、马尔可夫决策过程。
逼近人的性能，考虑实用性，技术的上界和性能的下界。看具体应用场景。
具有代表性的技术：
机器翻译。问答系统。搜索匹配排序，q&a。传统字面上的匹配，现在深度学习技术下，把问句用向量表示，实数值向量序列，应用卷积神经网络，判断两句话语义上是否相似。二维卷积神经网络推断两句话里的语义表示，模型学习大量真实训练，学好参数，用于判断两句话是否构成问答。想法不仅实现在文本。还包括图像识别上。文字与图片结合起来，一种是文态，一种是像素表达。卷积神经网络，将图片文字表达成向量，多层神经网络匹配度多高。
自然语言对话，深层次模型。聊天系统，准备大量q&a 检索到里面的问答。大量数据训练产生无穷的回复。微博爬取400w数据，训练系统，产生自然语言对话（有意思）。理论上可以回答任意问题。产生一句话的比例是96。形成一段有意义的回答是76。泛化能力，它能记住输入。它能记住很多训练数据的样本。对于未知的能自动组织新的对话。单轮对话系统，重复性工作。实用性未知。
自然语言很多问题源于翻译，中文翻译成英文。序列对序列学习，对语义的表示，使用实数值向量。分解成回复的话，编码解码。
机器翻译，并行处理，模型分割数据分割。架构强大。翻译准确率超过了传统的统计机器翻译。
未来的自然语言发展趋势：规则！长尾现象。人名地名专业术语识别不好，低频现象，罕见词做法不好。现在的学习方法普遍使用统计的，需要通过看到才能学习。方法具有局限性。特定不特定，马尔可夫决策过程。单轮堆积起来。
理解自然语言很难，五类问题，ai闭环，提高性能算法能力。机器翻译应用深度学习，序列对序列，表现的很好。
分类，选好规则进行匹配。排序。
同声翻译，局部模式匹配，不经过理解，经过大量训练，直接得出翻译内容。与深度学习端对端学习，中间处理过程不知具有类似原理。
脑细胞激活，进行学习，联想。
神经生物学。大脑对非的处理很有意思。不要想红色的苹果，不要哭了，不要难过。。。
知识库：怎么定义知识。领域知识库，解决实际问题。
指令类，客服类语音系统。
通过自然语言分析处理文本知识库，发觉规律，检验学习，发觉机遇。
《应用驱动》
（李航教授）