TensorFlow导入公开中文词向量

 

中文词向量下载 https://github.com/Embedding/Chinese-Word-Vectors

用的是 "People's Daily News 人民日报  300d"

 

readline() 方法:

fileObject.readline()

用于从文件读取整行,包括 "\n" 字符。如果指定了一个非负数的参数,则返回指定大小的字节数,包括 "\n" 字符

fo = open("runoob.txt", "r+")

line = fo.readline()

 

split() 方法:

str.split(str="", num=string.count(str))

  • str -- 分隔符,默认为所有的空字符,包括空格、换行(\n)、制表符(\t)等。
  • num -- 分割次数。默认为 -1, 即分隔所有。

注:分割次数num可以设置很大,但是超过最大分割数量,也只会按照最大分割数量计算。

例如最大分割为5,num=10000,也只会分割5次

 

strip() 方法:

strip() 方法用于移除字符串头尾指定的字符(默认为空格或换行符)或字符序列

注意:该方法只能删除开头或是结尾的字符,不能删除中间部分的字符。

str = "00000003210Runoob01230000000"; print str.strip( '0' );   # 去除首尾字符 0

结果:3210Runoob0123

 

numpy.asarray()函数

np.asarray(a, dtype=None, order=None)

参数a:可以是,列表, 列表的元组, 元组, 元组的元组, 元组的列表,多维数组
参数dtype=None, order=None这两个都是可选参数
dtype:数据类型,默认的是自己从输入的数据自动获得。
order:有"C"和"F"两个选项,分别代表,行优先和列优先,在计算机内存中的存储元素的顺序。

将列表转换为数组

>>> a = [1,2]
>>> numpy.asarray(a)
 array([1,2])

将数据类型转换为float和int

>>> a= [1,2]
>>> numpy.asarray(a,'f')
array([ 1.,  2.], dtype=float32)

>>> numpy.asarray(a,'i')  #'i'表示为dtype类型为int
array([1, 2], dtype=int32)

 

x = tf.Variable(0)

y = tf.assign(x, 1)

x = tf.Variable(12)

y = x.assign(34)

 

 

下载词向量的数据大,需要26G内存打开,截取一部分作为示例

3,300   其中词的个数,3个词,每个词300维

3 300
这 -0.225854 0.107560 0.197237 -0.163468 0.090813 0.040628 0.176729 -0.011261 -0.053033 0.037572 -0.155545 0.053847 0.131007 0.250081 -0.071398 -0.089812 -0.034247 0.078562 0.023870 0.159746 0.100427 0.021786 0.266321 0.004339 0.105988 -0.002758 0.119828 0.004190 -0.154152 0.087963 0.179135 0.041696 -0.150765 0.112602 -0.003246 -0.115960 0.042190 0.108845 0.138592 -0.270801 0.276069 -0.377507 -0.133841 0.225290 -0.

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值