代码数据集-20181208

最新推荐文章于 2024-07-18 15:53:18 发布

齐思

最新推荐文章于 2024-07-18 15:53:18 发布

阅读量828

点赞数

分类专栏： Python

Python 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

一、数据集：新闻文档
1.数据集
清华NLP组提供的THUCNews新闻文本分类数据集的一个子集（原始的数据集大约74万篇文档，训练起来需要花较长的时间）。

 Train(Test)\
     类别1\
         1.txt
         2.txt
         3.txt
         ...
         n.txt
     类别2\
         ...
     ...
     类别n\
         ...

2.代码讲解（收藏）：CNN字符级中文文本分类-基于TensorFlow实现-讲解

3.github源码：https://github.com/gaussic/text-classification-cnn-rnn
4.过程

Q1：数据集
原数据集（文档名-文件夹名）可以跑，但处理数据是一个文档（content-label）—小白不会转换
转换过程各种数据格式报错。—请教打印与打基础—放弃
二、参考代码
1.数据集 — step1 数据替换
数据集是搜狗新闻数据集，get到的时候已经是经过预处理的了
A1：数据格式
一个文档（类别-长文本），格式是吾所求；但即使更换数据，由于编码、数据量和文本长短，走了不少冤枉路。

体育	一场失利练和球队亏。(小林)
体育	专家预测最后9战6胜异军突起的公牛已经成为了夺冠第一热门，罗斯将带领他的球队走上芝加哥复兴之路，而热火和湖人依然是他们最强劲的竞争者。至于年纪稍大的凯尔特人、马刺。(肥仔)
体育	东部冲刺观察：大骂支球队起码拥有2个胜场的优势，在剩余场次只有8-10场的情况下，胜场差比赛程更重要。(木瓜丁)
体育	两记钉板大帽！次刻易建联不能呆在场上，差点坐看奇才痛失好局。(春水方生)
体育	勒布朗准备重返克除此之外，骑士还能有啥期待呢？(XWT185)
体育	数据揭秘得了23次“生死时刻”，其中19次都以失败告终，(新浪体育 黎双富 发自迈阿密)
#举例大量删除文本，每一条是一则文章

2.github源码：https://github.com/Edward1Chou/Textclassification
3.结果：惨不忍睹

数据：超短文本；
类别：界限不分明；
模型：直接调用不懂参数

4.模型代码：学习改进 .lstm的调用？

Q2 模型原理公式已优-适用调参即可
----参数与结果输出可视化

三、参考流程-未试码
1.项目整个流程

https://blog.csdn.net/cloud_xiaobai/article/details/80855905

2.数据分析.可视化
3.结果对比.可视化
4.代码

https://github.com/pengjiapeng/hackathon

四、参考流程.步步
手把手教你在Python中实现文本分类（附代码、数据集）
1.教学指导.每步多方法

译文：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/80345390?utm_source=blogxgwz1
原文链接：https://www.analyticsvidhya.com/blog/2018/04/a-comprehensive-guide-to-understand-and-implement-text-classification-in-python/

1208Get：
1.打印 / 百度常见错误
2.读取数据、遍历数据 .py
3.csdn、github