实战1:NLP到word2vec

本文介绍了NLP的基本流程,包括文本预处理、分词、特殊词处理、词性还原、词性标注和停用词过滤。重点讨论了特征工程中的tf-idf和Word2vec模型,阐述了Word2vec的分布式表示和共现矩阵,以及如何通过余弦相似度计算词的相似性。此外,还探讨了NLP处理方法的演变,从基于规则到基于统计机器学习的转变。
摘要由CSDN通过智能技术生成

NLP Word2Vec

1、NLP原理及基础

NLTK:

  • 自带语料库
  • 词性分类库
  • 自带分类,分词功能

1.1 文本处理流程:

  • 1、文本预处理
  • 2、分词
  • 3、make features
  • 4、machine learning

把人能够理解的文本变成机器可以学习的表达式

在这里插入图片描述

1.2 Tokensize:分词

对于英文:

tokens=nltk.word_tokensize(sentence)

对于中文:
自定义语料库,使用HMM/CRF等方法

import jieba
#jieba返回的是列表
seg_list=jieba.cut("我来到北京清华大学",cut_all=False)
#返回所有的可能的分词结果,适用于搜索引擎
seg_list1=jieba.cur_for_search("sentence")

1.3 特殊词处理

使用正则表达式对于非字母字符进行过滤

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值