json格式对应的文件链接(名字为sarcasm.json)
对应的其中一组数据如下:
import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='3'
import json
with open(r'D:\pythonproject\tmp\sarcasm.json', 'r') as f:
datastore = json.load(f)
#里面为对应的放置文件的位置,操作完之后将获得一个列表datastore
#里面包含三种数据类型的列表:标题,URL和is_sarcastic标签
sentences = []
labels = []
urls = []
for item in datastore:
sentences.append(item['headline'])
labels.append(item['is_sarcastic'])
urls.append(item['article_link'])
#获得相应标题下面的内容,放到对应的list列表里面
#labels以及urls中的对应内容本文之中用不到
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
tokenizer = Tokenizer(oov_token="<OOV>")
tokenizer.fit_on_texts(sentences)
word_index = tokenizer.word_index
#如果遇到了很大的数据,它将在文中执行word_index = tokenizer.word_index
#以排序此过程
print(len(word_index))
print(word_index)
#显示里面单词对应的索引值
sequences = tokenizer.texts_to_sequences(sentences)
padded = pad_sequences(sequences, padding='post')
#根据文本创建序列以及填充它们
print(sentences[0])
#输出对应的句子
print(padded[0])
#将第一个标题在数据集中显示其输出,输出的是填充矩阵的大小
#填充矩阵使句子最多40个单词,这是最长单词的长度
print(padded.shape)