文本数据如何转换成计算机能够计算的数据

文本数据如何转换成计算机能够计算的数据
在这里插入图片描述
首先我们把语料读进来,然后要把作为文本信息的语料,转换为可以进行数学计算的数字形式。我们首先要统计语料中的所有词语(如果是中文的话还要先进行分词处理),然后建立一个字典,让每一个词语都唯一对应一个数字ID,最后再把每一句话都变成跟词语一一对应的一串数字ID,这个过程叫做tokenization,一般翻译成“标记化”或者“令牌化”。


  1. 词袋模型(Bag of Words Model)

把文本(段落或者文档)看作无序的集合,忽略语法和单词的顺序,计算每个单词出现的次数

实战步骤:

例如有三句话语料

["机器学习带动人工智能飞速的发展。",

           "深度学习带动人工智能飞速的发展。",

           "机器学习和深度学习带动人工智能飞速的发展。"

          ] 

1.引入 jieba 分词器、语料和停用词集合

2.对语料进行分词操作,用到 lcut() 方法:

3.去掉停用词和标点符号

4.把所有的分词放到一个袋子(List)里面,取并集,去重,得到特征词结果

['飞速', '的', '深度', '人工智能', '发展', '和', '机器', '学习', '带动'] 

5.最后得到三句话的词袋向量

[[1, 1, 0, 1, 1, 0, 1, 1, 1], [1, 1, 1, 1, 1, 0, 0, 1, 1], [1, 1, 1, 1, 1, 1, 1, 1, 1]] 
  1. 词向量 (Word Embedding)

One-Hot Encoder

向量的长度为整个语料库的大小,每个单词的向量在它自己对应位置上的数值为1,其他位置上为0

这样的词向量看不出词语之间可能存在的关联关系

形成的矩阵过于稀疏,会造成维度灾难。

Word2Vec

是 Google 团队2013年推出的,被广泛应用在自然语言处理任务中

主要包含两种模型:Skip-Gram 和 CBOW

可以将 One-Hot Encoder 转化为低维稠密向量

相似单词之间的距离比较近

目前我们一般不会直接用自己的语料训练词向量,而是使用别人在超大量语料库上训好的词向量,直接用这些现成的词向量进行下游任务。

常用的中文语料库可以从这里找:
https://github.com/brightmart/nlp_chinese_corpus
搜狗实验室的搜狗新闻语料库,数据链接 http://www.sogou.com/labs/resource/cs.php
或者知乎上的评论:https://www.zhihu.com/question/21177095

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 数据密集型计算机是指一种计算机系统,其主要任务是处理大量数据计算和分析。这种计算机通常具有高速的数据存储和处理能力,能够快速地处理大量数据,并且能够有效地利用多核处理器和分布式计算技术,以提高计算效率。数据密集型计算机广泛应用于数据挖掘、机器学习、人工智能、科学计算、金融分析等领域。 ### 回答2: 数据密集型计算机是一种用于处理大规模数据集的计算机系统。随着信息时代的到来,海量的数据需要存储、处理和分析。传统的计算机架构不再满足这种需求,而数据密集型计算机则应运而生。 数据密集型计算机具有以下几个特点: 首先,数据密集型计算机有很高的存储容量和处理能力。它能够快速存储和检索大量的数据,并能够并行处理这些数据。这使得它能够高效地处理大规模数据集。 其次,数据密集型计算机通常采用分布式计算架构。它可以通过使用多个计算节点和存储节点,将任务分解并并行执行。这种分布式架构可以提高计算和存储的效率,同时也增加了系统的可靠性和容错性。 此外,数据密集型计算机还需要具备高度可扩展性。它需要能够根据需求扩展计算和存储资源,以应对不断增加的数据量和计算任务。 数据密集型计算机主要应用于大数据分析、机器学习、人工智能等领域。例如,在金融行业,数据密集型计算机可以用于风险评估、投资策略优化等。在医疗领域,它可以用于基因分析、疾病诊断等。在互联网领域,数据密集型计算机可以用于用户行为分析、个性化推荐等。 总的来说,数据密集型计算机是为了满足大规模数据处理需求而设计的计算机系统,具有高存储容量、并行处理能力、分布式计算架构和高可扩展性。它在大数据分析和人工智能等领域有着广泛的应用前景。 ### 回答3: 数据密集型计算机是一种专门用于处理大量数据并进行复杂计算计算机系统。数据密集型计算机在处理大规模数据时具有高效、并行和可扩展性的特点。 首先,数据密集型计算机主要用于处理大量数据。这些数据可以是结构化的(如关系型数据库中的表格数据)或非结构化的(如图像、视频、文本等),并且通常以海量数据的形式存在。数据密集型计算机能够通过一系列的算法和计算模型对这些数据进行分析、挖掘和处理。 其次,数据密集型计算机具有高效性。它能够通过并行计算和分布式计算的方式,同时利用多个处理单元或计算节点,并且能够充分发挥硬件资源,提高计算效率和速度。这对于处理大规模数据来说尤为重要,能够大幅缩短计算时间。 另外,数据密集型计算机也具有可扩展性。随着数据量的增长,计算需求也会相应增加。数据密集型计算机能够通过增加计算节点或者扩展存储容量来满足不断增长的计算需求。这种可扩展性使得计算机系统能够适应未来的发展需求,保持高效性和稳定性。 总的来说,数据密集型计算机是一种针对大规模数据处理和复杂计算任务设计的计算机系统。它能够高效地处理大量数据,具有高并行性和可扩展性的特点。随着数据量的增长,数据密集型计算机将在各个领域发挥越来越重要的作用,并推动科学研究、商业决策等方面取得更大的突破。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值