paddle word2vec skipgram模型处理原始样本

最新推荐文章于 2023-03-27 18:37:14 发布

xiaoxiaoqian0519

最新推荐文章于 2023-03-27 18:37:14 发布

阅读量331

点赞数

文章标签：自然语言处理

本文链接：https://blog.csdn.net/xiaoxiaoqian0519/article/details/112845809

版权

输入数据类型

导入的txt文件，需要根据标点符号进行句子切割，利用re.split进行处理。
利用f.read().splitlines()可以从txt文件中直接进行读取，而没有"\n"。

处理

f = open('2.txt',"r",encoding="utf-8")
file = f.read().splitlines()
pattern = r'\，|\.|/|;|\'|`|\[|\]|<|>|\?|:|"|\{|\}|\~|!|@|#|\$|%|\^|&|\(|\)|-|=|\_|\+|。|、|；|‘|’|【|】|·|！| |…|（|）'
raw_data = []
for data in file:
    result_list = re.split(pattern, data)
    raw_data+=result_list
while '' in raw_data:
    raw_data.remove("")

max_seq_len = 60

module = hub.Module(name="word2vec_skipgram", version='1.1.0')
inputs, outputs, program = module.context(trainable=False, max_seq_len=max_seq_len)

word_ids = inputs["text"]
embedding = output

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

xiaoxiaoqian0519

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
paddle word2vec skipgram模型处理原始样本

输入数据类型导入的txt文件，需要根据标点符号进行句子切割，利用re.split进行处理。利用f.read().splitlines()可以从txt文件中直接进行读取，而没有"\n"。处理f = open('2.txt',"r",encoding="utf-8")file = f.read().splitlines()pattern = r'\，|\.|/|;|\'|`|\[|\]|<|>|\?|:|"|\{|\}|\~|!|@|#|\$|%|\^|&|$|$|-|=
复制链接

扫一扫