文本数据如何转换成计算机能够计算的数据

最新推荐文章于 2023-10-15 23:27:43 发布

不知道叫啥的喵

最新推荐文章于 2023-10-15 23:27:43 发布

阅读量911

点赞数 1

分类专栏： # NLP学习机器学习、深度学习

本文链接：https://blog.csdn.net/weixin_43570155/article/details/118774471

版权

机器学习、深度学习同时被 2 个专栏收录

21 篇文章 2 订阅

订阅专栏

NLP学习

12 篇文章 1 订阅

订阅专栏

文本数据如何转换成计算机能够计算的数据
在这里插入图片描述
首先我们把语料读进来，然后要把作为文本信息的语料，转换为可以进行数学计算的数字形式。我们首先要统计语料中的所有词语（如果是中文的话还要先进行分词处理），然后建立一个字典，让每一个词语都唯一对应一个数字ID，最后再把每一句话都变成跟词语一一对应的一串数字ID，这个过程叫做tokenization，一般翻译成“标记化”或者“令牌化”。

词袋模型（Bag of Words Model）

把文本（段落或者文档）看作无序的集合，忽略语法和单词的顺序，计算每个单词出现的次数

实战步骤：

例如有三句话语料

["机器学习带动人工智能飞速的发展。",

           "深度学习带动人工智能飞速的发展。",

           "机器学习和深度学习带动人工智能飞速的发展。"

          ]

1.引入 jieba 分词器、语料和停用词集合

2.对语料进行分词操作，用到 lcut() 方法：

3.去掉停用词和标点符号

4.把所有的分词放到一个袋子（List）里面，取并集，去重，得到特征词结果

['飞速', '的', '深度', '人工智能', '发展', '和', '机器', '学习', '带动']

5.最后得到三句话的词袋向量

[[1, 1, 0, 1, 1, 0, 1, 1, 1], [1, 1, 1, 1, 1, 0, 0, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1]]

词向量（Word Embedding）

One-Hot Encoder

向量的长度为整个语料库的大小，每个单词的向量在它自己对应位置上的数值为1，其他位置上为0

这样的词向量看不出词语之间可能存在的关联关系

形成的矩阵过于稀疏，会造成维度灾难。

Word2Vec

是 Google 团队2013年推出的，被广泛应用在自然语言处理任务中

主要包含两种模型：Skip-Gram 和 CBOW

可以将 One-Hot Encoder 转化为低维稠密向量

相似单词之间的距离比较近

目前我们一般不会直接用自己的语料训练词向量，而是使用别人在超大量语料库上训好的词向量，直接用这些现成的词向量进行下游任务。

常用的中文语料库可以从这里找：
https://github.com/brightmart/nlp_chinese_corpus
搜狗实验室的搜狗新闻语料库，数据链接 http://www.sogou.com/labs/resource/cs.php
或者知乎上的评论：https://www.zhihu.com/question/21177095

不知道叫啥的喵

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文本数据如何转换成计算机能够计算的数据

文本数据如何转换成计算机能够计算的数据图片发自简书App词袋模型（Bag of Words Model）把文本（段落或者文档）看作无序的集合，忽略语法和单词的顺序，计算每个单词出现的次数实战步骤：例如有三句话语料["机器学习带动人工智能飞速的发展。", "深度学习带动人工智能飞速的发展。", "机器学习和深度学习带动人工智能飞速的发展。" ] 1.引入 jieba 分词器、语料和停用词集合2.对语料进行分词操作，用
复制链接

扫一扫