nlp~tensorflow解析json格式文件

最新推荐文章于 2022-07-13 17:35:49 发布

唐僧爱吃唐僧肉

最新推荐文章于 2022-07-13 17:35:49 发布

阅读量1.1k

点赞数 1

分类专栏： nlp学习笔记

本文链接：https://blog.csdn.net/znevegiveup1/article/details/108104857

版权

nlp学习笔记专栏收录该内容

12 篇文章 0 订阅

订阅专栏

json格式对应的文件链接(名字为sarcasm.json)
对应的其中一组数据如下：
对应的一组数据

import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='3'
import json

with open(r'D:\pythonproject\tmp\sarcasm.json', 'r') as f:
    datastore = json.load(f)
#里面为对应的放置文件的位置，操作完之后将获得一个列表datastore
#里面包含三种数据类型的列表：标题，URL和is_sarcastic标签

sentences = [] 
labels = []
urls = []
for item in datastore:
    sentences.append(item['headline'])
    labels.append(item['is_sarcastic'])
    urls.append(item['article_link'])
#获得相应标题下面的内容，放到对应的list列表里面
#labels以及urls中的对应内容本文之中用不到
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
tokenizer = Tokenizer(oov_token="<OOV>")
tokenizer.fit_on_texts(sentences)

word_index = tokenizer.word_index
#如果遇到了很大的数据，它将在文中执行word_index = tokenizer.word_index
#以排序此过程
print(len(word_index))
print(word_index)
#显示里面单词对应的索引值
sequences = tokenizer.texts_to_sequences(sentences)
padded = pad_sequences(sequences, padding='post')
#根据文本创建序列以及填充它们
print(sentences[0])
#输出对应的句子
print(padded[0])
#将第一个标题在数据集中显示其输出，输出的是填充矩阵的大小
#填充矩阵使句子最多40个单词，这是最长单词的长度
print(padded.shape)

唐僧爱吃唐僧肉

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
nlp~tensorflow解析json格式文件

json格式对应的文件链接(名字为sarcasm.json)对应的其中一组数据如下：import osos.environ['TF_CPP_MIN_LOG_LEVEL']='3'import jsonwith open(r'D:\pythonproject\tmp\sarcasm.json', 'r') as f: datastore = json.load(f)#里面为对应的放置文件的位置，操作完之后将获得一个列表datastore#里面包含三种数据类型的列表：标题，URL和is
复制链接

扫一扫