干货|NLP领域中文vs英文有什么异同点，中文NLP有什么独特的地方?

https://www.jianshu.com/p/d89313ac10dc

文章来源：知乎作者：刘知远、李嫣然

刘知远关于NLP的精彩回答

从实用文本分析技术而言，如果只做主题聚类、文本分类等任务的话，中英文最大差别就在于，中文需要做自动分词，相关工具包已经很多了，包括题主提到的Jieba，还有哈工大的LTP，北理工的ICTCLAS，还有我们组研制的THULAC。当然，在文本分类时，到底是选词还是Ngram作为特征，在SVM+BOW时代曾是个问题。进入到深度学习时代，就直接可以用基于字的神经网络模型了。

从NLP研究角度而言，中英文在词性标注、句法分析等任务上颇有差异。主要体现在英语有明显的屈折变化（单复数、时态等）而汉语缺少这些屈折变化，亦即有学者总结的“汉语重义合，英语重形合”。所以，英语里一个词被标为动词还是名词，没有太多争议；汉语里一个词应该被标为动词还是名词，例如“热爱学习”、“劳动光荣”中的“学习”、“劳动”如果按照英文语法规范应当标注为名词。著名语言学家沈家煊先生就曾提出“汉语动词和名词不分立”的理论。在句法分析层面汉语也有一些自己的特点，具体需要请教专业的语言学家解答了。

从更广阔的语言研究角度而言，我觉得中英由于各自承载了两种截然不同的人类群体的文化信息，所以在更深层的文化内涵会有更明显的分野，例如两种语言的词汇联想网络、隐喻风格等，可能会有更大的不同。也许在NLP技术日渐成熟之后，我们可以透过语言更加定量地分析两种不同文化的差异。在这方面我非常感兴趣，期待更多专家指点交流。

伴随着估值持续走高，Uber吸引了越来越多的投资者。Uber在从一家轿车服务公司成长为庞大的物流公司的同时，与诸多对手及监管机构进行着抗争，并旨在未来拿下无人驾驶汽车行业。它随时面对着自出租车行业甚至来自公司自己司机的种种威胁。伴随着估值持续走高，Uber吸引了越来越多的投资者。Uber在从一家轿车服务公司成长为庞大的物流公司的同时，与诸多对手及监管机构进行着抗争，并旨在未来拿下无人驾驶汽车行业。它随时面对着自出租车行业甚至来自公司自己司机的种种威胁。

李嫣然关于NLP在中文vs英文的精彩回答

说一点点个人做过的工作和觉得中文有趣以及不同的地方：

1. 中文是象形文字（logograms）——注：这句不严谨，现在大多数汉字都是形声字，一部分 component 提供语义，一部分提供发音；这句话主要是想说提供语义的那些 components 和最初甲骨文很多是象形。就像英语有一些前缀后缀词根一样，中文也有这样类似的语义相关的语素——偏旁部首。偏旁部首是两个不同的东西，可以粗略地认为，部首（radical）是最主要的偏旁（components）。比如大家都知道，三点水的字多数和河流和水有关系等等。

2. 所以很自然的一个想法就是像英文那些利用 subunits（前缀后缀词根）的研究工作一样，把中文的偏旁部首加进来提供额外的信息。

3. 更疯狂的一个想法是，像甲骨文时代一样，很多字本身的含义就是由多个偏旁的含义“组合”在一起的；而很多词的含义又是由组成的单个字的含义拼接在一起的。

由上述2和3的思想的驱动，我们过去做过一个工作：

Yanran Li, Wenjie Li, Fei Sun, and Sujian Li. Component-Enhanced Chinese Character Embeddings. Proceedings of EMNLP, 2015. [pdf] [bib]（https://link.zhihu.com/?target=http%3A//yanran.li/files/emnlp2015comp.pdf）是一个比较简单的工作，直接将 components 信息和字本身拼接在一起，作为 Word2Vec 模型的输入。这个工作后来还被改进到了很多更复杂的模型，得到了更好的一些结果[1][2]。同时，同期也有来自哈工大的研究团队发表了相似的研究成果[3]。这里值得一提的一点是，我们做的还是基于字级别的建模，并不是基于词的。虽然中文分词几乎被认为是标配，但是其实字级别的建模对于很多罕见词等等还是比较有帮助的，这个在后来和一些公司的交流中发现他们线上的一些模型也是字词结合的。但是在做这个工作的过程中，遇到了一些阻碍或者说可能未来继续的方向。一些也许也有意思的研究是：

4. 英文里，character-level 的一些相关建模和研究，比如 character-level LM[4][5] 都表现得效果不错。但是当时是觉得，英文的26个字母本身是没有任何含义的，所以如果把中文“下降”到偏旁部首这种有语义含义的级别，应该效果会很不错。然而效果只是轻微得好。这其中受限于：(1) 偏旁部首在汉字演化中改变非常大，不仅是形态，还有含义。尽管我们在做工作过程中进行了一些映射处理，但只是沧海一粟吧；(2)中文有时候也有非象形字，比如象声字，怎么识别和区分或者结合这两种字的建模也是个问题。

5. 就像刚才说的，我们希望中文多个字结合出来的词，也是有语义的。但是很多时候俩字结合出来意思就和单独俩字完全不一样了，这在英语里也比较少见。比如“美丽”，本身这俩字都是好看的意思，结合起来还是好看的意思。但是比如“东西”，这俩字明明是俩方位词，结合在一起就变成一种笼统的物体了。这种词义结合后的转变，其实应该可以用一些 NLP 的技术识别出来，并做一些有意思的研究。这个是我暂时还没进行下去但比较有兴趣的方向。

6. 在我本科的时候，学过一点点脑认知。当时有一些关于人脑到底是如何把文字和语义联系起来的研究，比如著名的格式塔理论等等。所以从最原始的出发点，我觉得现在的 NLP 技术也可以往这个方向探究一下。最近收到了一个心理测评机构的合作邀请，希望一起探究下中文字符认知的一些问题。超级开心啊！（感觉多少做了个有趣和有点意义的研究……QAQ

References:

[1] Jian Xu, Jiawei Liu, Liangang Zhang, Zhengyu Li, Huanhuan Chen. "Improve Chinese Word Embeddings by Exploiting Internal Structure". NAACL 2016.

[2] Rongchao Yin, Quan Wang, Rui Li, Peng Li, Bin Wang. "Multi-Granularity Chinese Word Embedding". EMNLP 2016.

[3] Yaming Sun, Lei Lin, Duyu Tang, Nan Yang, Zhenzhou Ji, Xiaolong Wang. "Radical-Enhanced Chinese Character Embedding". arXiv preprint 2014.

[4] Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush. "Character-Aware Neural Language Models". AAAI 2016.

[5] Xiang Zhang, Junbo Zhao, Yann LeCun. "Character-level Convolutional Networks for Text Classification". NIPS 2015.

作者：Major术业
链接：https://www.jianshu.com/p/d89313ac10dc
来源：简书
简书著作权归作者所有，任何形式的转载都请联系作者获得授权并注明出处。