自然语言处理
炼丹的蜗牛@/"
这个作者很懒,什么都没留下…
展开
-
使用SpaCy分词
一、安装SpaCy pip install spacy 二、英文分词 1. 安装en python -m spacy download en 2. 分词 import spacy spacy_en = spacy.load("en_core_web_sm") def tokenize_en(text): return [tok.text for tok in spacy_en.tokenizer(text)] print(tokenize_en("Hello, my name is t原创 2021-05-23 11:51:05 · 3873 阅读 · 1 评论 -
One-hot编码:sklearn.preprocessing.OneHotEncoder
官方文档:sklearn.preprocessing.OneHotEncoder 官方示例: 更多参数,查阅官方文档。 完。原创 2021-05-10 17:33:23 · 162 阅读 · 0 评论 -
英文分词工具NLTK、SpaCy、StanfordCoreNLP的安装和分词语句(Python)
目录一、NLTK1. 安装2.分词语句二、SpaCy1. 安装2.分词语句三、StanfordCoreNLP1. 安装2.分词语句 一、NLTK 1. 安装 pip install nltk 2.分词语句 from nltk.tokenize import word_tokenize with open("English.txt", "r", encoding="UTF-8") as f: en_text = f.readline() print(en_text) word_list原创 2021-04-01 00:38:05 · 1409 阅读 · 0 评论 -
中文分词工具Jieba、SnowNLP、THULAC、NLPIR、StanfordCoreNLP的安装和分词语句(Python)
目录一、Jieba1. 安装2. 分词语句二、SnowNLP1. 安装2. 分词语句三、THULAC1. 安装2. 分词语句四、NLPIR1. 安装2. 分词语句五、StanfordCoreNLP1. 安装2. 分词语句 一、Jieba 1. 安装 pip install jieba 2. 分词语句 Jieba支持三种分词模式: ①精确模式:试图将句子最精确地切开,适合文本分析 ②全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义 ③搜索引擎模式:在精确模式的基础上,对长词再次原创 2021-04-01 00:34:04 · 834 阅读 · 0 评论