输入数据类型
- 导入的txt文件,需要根据标点符号进行句子切割,利用
re.split
进行处理。
- 利用
f.read().splitlines()
可以从txt文件中直接进行读取,而没有"\n"
。
处理
f = open('2.txt',"r",encoding="utf-8")
file = f.read().splitlines()
pattern = r'\,|\.|/|;|\'|`|\[|\]|<|>|\?|:|"|\{|\}|\~|!|@|#|\$|%|\^|&|\(|\)|-|=|\_|\+|。|、|;|‘|’|【|】|·|!| |…|(|)'
raw_data = []
for data in file:
result_list = re.split(pattern, data)
raw_data+=result_list
while '' in raw_data:
raw_data.remove("")
max_seq_len = 60
module = hub.Module(name="word2vec_skipgram", version='1.1.0')
inputs, outputs, program = module.context(trainable=False, max_seq_len=max_seq_len)
word_ids = inputs["text"]
embedding = output