代码数据集-20181208

一、数据集:新闻文档
1.数据集
清华NLP组提供的THUCNews新闻文本分类数据集的一个子集(原始的数据集大约74万篇文档,训练起来需要花较长的时间)。

 Train(Test)\
     类别1\
         1.txt
         2.txt
         3.txt
         ...
         n.txt
     类别2\
         ...
     ...
     类别n\
         ...

2.代码讲解(收藏):CNN字符级中文文本分类-基于TensorFlow实现-讲解

3.github源码:https://github.com/gaussic/text-classification-cnn-rnn
4.过程

  • Q1:数据集
    原数据集(文档名-文件夹名)可以跑,但处理数据是一个文档(content-label)—小白不会转换
    转换过程各种数据格式报错。—请教打印与打基础—放弃
    二、参考代码
    1.数据集 — step1 数据替换
    数据集是搜狗新闻数据集,get到的时候已经是经过预处理的了
    A1:数据格式
    一个文档(类别-长文本),格式是吾所求;但即使更换数据,由于编码、数据量和文本长短,走了不少冤枉路。
体育	一场失利练和球队亏。(小林)
体育	专家预测最后9战6胜异军突起的公牛已经成为了夺冠第一热门,罗斯将带领他的球队走上芝加哥复兴之路,而热火和湖人依然是他们最强劲的竞争者。至于年纪稍大的凯尔特人、马刺。(肥仔)
体育	东部冲刺观察:大骂支球队起码拥有2个胜场的优势,在剩余场次只有8-10场的情况下,胜场差比赛程更重要。(木瓜丁)
体育	两记钉板大帽!次刻易建联不能呆在场上,差点坐看奇才痛失好局。(春水方生)
体育	勒布朗准备重返克除此之外,骑士还能有啥期待呢?(XWT185)
体育	数据揭秘得了23次“生死时刻”,其中19次都以失败告终,(新浪体育 黎双富 发自迈阿密)
#举例大量删除文本,每一条是一则文章

2.github源码:https://github.com/Edward1Chou/Textclassification
3.结果:惨不忍睹

  • 数据:超短文本;
  • 类别:界限不分明;
  • 模型:直接调用不懂参数

4.模型代码:学习改进 .lstm的调用?

  • Q2 模型原理公式已优-适用调参即可

  • ----参数与结果输出可视化

三、参考流程-未试码
1.项目整个流程

https://blog.csdn.net/cloud_xiaobai/article/details/80855905

2.数据分析.可视化
3.结果对比.可视化
4.代码

https://github.com/pengjiapeng/hackathon

四、参考流程.步步
手把手教你在Python中实现文本分类(附代码、数据集)
1.教学指导.每步多方法

译文:https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/80345390?utm_source=blogxgwz1
原文链接:https://www.analyticsvidhya.com/blog/2018/04/a-comprehensive-guide-to-understand-and-implement-text-classification-in-python/

1208Get:
1.打印 / 百度常见错误
2.读取数据、遍历数据 .py
3.csdn、github

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值