常见NLP任务
-
Word Segmentation 分词 – Tokenization
-
Stem extraction 词干提取 - Stemming
-
Lexical reduction 词形还原 – Lemmatization
-
Part of Speech Tagging 词性标注 – Parts of Speech
-
Named entity recognition 命名主体识别 -NER
-
Chunking 分块 -Chunking
-
语音识别:也称为语音转文本,用于将语音数据以可靠的方式转换为文本数据。 任何遵循语音命令或回答口述问题的应用都需要语音识别功能。 语音识别的挑战性在于人们的说话方式 — 语速快,含糊不清,各种重音、语调和口音,以及语法常常不正确。
-
词性标注:也称语法标注,这个过程按照用法和上下文确定特定单词或文本片段的词性。 “I can make a paper plane” 中 “make” 的词性为动词,“What make of car do you own?” 中 “make” 为名词。
-
关键词提取:
-
语块提取:
-
情绪分析,尝试从文本中提取主观特质,例如,态度、情绪、讽刺、困惑和怀疑。
-
词义消歧:用于对多义单词选择含义,通过语义分析过程确定单词在特定