nlp~tensorflow解析json格式文件

json格式对应的文件链接(名字为sarcasm.json)
对应的其中一组数据如下:
对应的一组数据

import os
os.environ['TF_CPP_MIN_LOG_LEVEL']='3'
import json

with open(r'D:\pythonproject\tmp\sarcasm.json', 'r') as f:
    datastore = json.load(f)
#里面为对应的放置文件的位置,操作完之后将获得一个列表datastore
#里面包含三种数据类型的列表:标题,URL和is_sarcastic标签

sentences = [] 
labels = []
urls = []
for item in datastore:
    sentences.append(item['headline'])
    labels.append(item['is_sarcastic'])
    urls.append(item['article_link'])
#获得相应标题下面的内容,放到对应的list列表里面
#labels以及urls中的对应内容本文之中用不到
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
tokenizer = Tokenizer(oov_token="<OOV>")
tokenizer.fit_on_texts(sentences)

word_index = tokenizer.word_index
#如果遇到了很大的数据,它将在文中执行word_index = tokenizer.word_index
#以排序此过程
print(len(word_index))
print(word_index)
#显示里面单词对应的索引值
sequences = tokenizer.texts_to_sequences(sentences)
padded = pad_sequences(sequences, padding='post')
#根据文本创建序列以及填充它们
print(sentences[0])
#输出对应的句子
print(padded[0])
#将第一个标题在数据集中显示其输出,输出的是填充矩阵的大小
#填充矩阵使句子最多40个单词,这是最长单词的长度
print(padded.shape)
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
要使用自然语言处理(NLP)技术来解析文本,您可以采取以下步骤: 1. 分词(Tokenization):将文本划分为单个单词或标记的序列。这是NLP处理的第一步,可以使用现有的NLP库或工具来实现分词。 2. 词性标注(Part-of-Speech Tagging):标注每个词的词性,例如名词、动词、形容词等。这有助于理解文本中不同词语的含义和作用。 3. 命名实体识别(Named Entity Recognition):识别文本中的命名实体,如人名、地名、组织机构等。这对于从文本中提取特定信息非常有用。 4. 依存句法分析(Dependency Parsing):分析句子中单词之间的依存关系,例如主谓关系、修饰关系等。这有助于理解句子的结构和语义。 5. 关键词提取(Keyword Extraction):从文本中提取出最重要的关键词或短语。这可以帮助您理解文本的主题或重点。 6. 情感分析(Sentiment Analysis):确定文本中的情感倾向,如积极、消极或中性。这有助于了解文本的情感色彩。 7. 文本分类(Text Classification):将文本归类到预定义的类别中。这可以用于文本过滤、主题分类等任务。 8. 实体关系抽取(Entity Relationship Extraction):从文本中识别并提取出实体之间的关系。这有助于发现文本中的关联信息。 以上仅是NLP技术中的一些常见任务,您可以根据具体需求和情况选择适合的技术和工具。有许多开源的NLP库和工具可供使用,如NLTK、spaCy、Stanford CoreNLP等,您可以根据自己的喜好和需求进行选择和实现。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值