文本分析学习笔记

文本中所蕴含信息的层次

来自@文彤老师

词条是否在文本中出现——各种基于词袋的模型

即简单的判断文本中是否出现某词,以及出现的次数等。

词条的各种内在关联——各种字典

设置词典以自动连接文本中的词及其相关的词。
信息量的进一步拓展

词序信息——N-gram语言模型

文本中词出现的顺序很重要。

语法信息——待探索区域

NLP的基本思路

传统:基于字典(wordnet)

现代:基于统计模型

原始语料数据化时需要考虑的工作

基本目的:在将

分词

去除停用词

去除无意义的词、空白、标点符号等。

词根识别、

中文不存在。

同义词/近义词识别

术语识别

情感标注

词性标注

语法分析

语义分析

Python的常见IDE/集成开发环境简介

pass

什么是语料库

多文档——文档-词条矩阵

单文档——

分词原理简介

基于字符串的匹配

基于统计以及机器学习的分词方式

结巴分词的基本用法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值