TensorFlow导入公开中文词向量

最新推荐文章于 2022-03-01 20:49:01 发布

还卿一钵无情泪

最新推荐文章于 2022-03-01 20:49:01 发布

阅读量528

点赞数

分类专栏： TensorFlow

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48185819/article/details/108070221

版权

中文词向量下载 https://github.com/Embedding/Chinese-Word-Vectors

用的是 "People's Daily News 人民日报 300d"

readline() 方法:

fileObject.readline()

用于从文件读取整行，包括 "\n" 字符。如果指定了一个非负数的参数，则返回指定大小的字节数，包括 "\n" 字符

fo = open("runoob.txt", "r+")

line = fo.readline()

split() 方法：

str.split(str="", num=string.count(str))

str -- 分隔符，默认为所有的空字符，包括空格、换行(\n)、制表符(\t)等。
num -- 分割次数。默认为 -1, 即分隔所有。

注：分割次数num可以设置很大，但是超过最大分割数量，也只会按照最大分割数量计算。

例如最大分割为5，num=10000，也只会分割5次

strip() 方法：

strip() 方法用于移除字符串头尾指定的字符（默认为空格或换行符）或字符序列

注意：该方法只能删除开头或是结尾的字符，不能删除中间部分的字符。

str = "00000003210Runoob01230000000"; print str.strip( '0' ); # 去除首尾字符 0

结果：3210Runoob0123

numpy.asarray()函数

np.asarray(a, dtype=None, order=None)

参数a:可以是，列表, 列表的元组, 元组, 元组的元组, 元组的列表，多维数组
参数dtype=None, order=None这两个都是可选参数
dtype：数据类型，默认的是自己从输入的数据自动获得。
order：有"C"和"F"两个选项,分别代表，行优先和列优先，在计算机内存中的存储元素的顺序。

将列表转换为数组

>>> a = [1,2]
>>> numpy.asarray(a)
array([1,2])

将数据类型转换为float和int

>>> a= [1,2]
>>> numpy.asarray(a,'f')
array([ 1., 2.], dtype=float32)

>>> numpy.asarray(a,'i') #'i'表示为dtype类型为int
array([1, 2], dtype=int32)

x = tf.Variable(0)

y = tf.assign(x, 1)

或

x = tf.Variable(12)

y = x.assign(34)

下载词向量的数据大，需要26G内存打开，截取一部分作为示例

3,300 其中词的个数，3个词，每个词300维

3 300
这 -0.225854 0.107560 0.197237 -0.163468 0.090813 0.040628 0.176729 -0.011261 -0.053033 0.037572 -0.155545 0.053847 0.131007 0.250081 -0.071398 -0.089812 -0.034247 0.078562 0.023870 0.159746 0.100427 0.021786 0.266321 0.004339 0.105988 -0.002758 0.119828 0.004190 -0.154152 0.087963 0.179135 0.041696 -0.150765 0.112602 -0.003246 -0.115960 0.042190 0.108845 0.138592 -0.270801 0.276069 -0.377507 -0.133841 0.225290 -0.

最低0.47元/天解锁文章

还卿一钵无情泪

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
TensorFlow导入公开中文词向量

中文词向量下载 https://github.com/Embedding/Chinese-Word-Vectorsreadline() 方法:fileObject.readline()用于从文件读取整行，包括 "\n" 字符。如果指定了一个非负数的参数，则返回指定大小的字节数，包括 "\n" 字符fo = open("runoob.txt", "r+")line = fo.readline()split() 方法：str.split(str="", num=st...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。