NLP入门(一)词袋模型及句子相似度
通常,NLP无法处理完整的段落和句子。因此,第一步是分句或者分词。英语句子,使用NLTK中的word_tokenize函数。中文句子,jieba分词工具、LTP注:哈工大语言技术平台(Language Technology Platform, LTP)是哈尔滨工业大学社会计算与信息检索研究中心开发的一整套中文语言处理系统。LTP还提供了包括中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注等NLP技术。哈工大语言云演示平台:http://www.ltp-cloud.com/GitHub
原创
2020-10-03 17:52:16 ·
496 阅读 ·
0 评论