![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
kaggle
文章平均质量分 58
南楚巫妖
且试新茶
展开
-
word2vec和常见CNN+RNN网格结构组成的文本分类模型
作者为了应付毕业,所以在补充深度学习相关知识,这是我尝试把word2vec和深度学习相互结合的一次记录。数据集来源 数据集预处理 生成word2vec模型 搭建网络并且训练数据集来源本文的数据集源自kaggle比赛中的NLP入门比赛,灾难新闻预报警。数据集预处理数据导入:import numpy as npimport pandas as pdtrain_df = pd.read_csv("data/train.csv")test_df = pd.read_csv(.原创 2020-09-21 16:22:04 · 3163 阅读 · 1 评论 -
NLP问题的日常碎碎念
NLP问题本3质其实就是数据为文本,预处理方式不同的机器学习问题。所以就我复现kaggle比赛的一些经验我可以这么写一点经验。1.预处理这个真的是重要中的重要,如果数据集不好,用什么方法效率都很低相对于英文的预处理,有着非常复杂的去数据的过程。中文感觉只需要一个jieba.stopword和corpus就行。在这里其实可以用pandas读取数据后,再积累一些堆积的方法,然后一次性给它割的干干净净,这样十分光滑,减少痛苦。2.模型搭建。我见过两种模型1.使用pipeLine将特原创 2020-05-31 12:16:26 · 344 阅读 · 0 评论 -
日常碎碎念 kaggle中NLP比赛的小经验
搞Kaggle比赛也有几个月了,虽然前前后后拖拖但是也是复现过不少比赛的。感觉思路可以总结一下。1.数据读取。一般数据格式都是以CSV格式的,但是也不排除TXT,JSON格式。所以熟悉pandas和numpy库就极为重要,最后得到预测结果也需要pandas库。2.数据处理。(1)使用pandas库等等对数据进行合理的预处理,增删改查属性,对于文本特征可以用sklearn.featuretion.text去创造。(2)同时使用sklearn库的preprocessing包进行处理3.建模原创 2020-05-20 16:06:01 · 419 阅读 · 0 评论 -
文本分类的10种算法代码实现
这是文本分类的常见10种机器学习算法的实现:这是常见的代码:https://github.com/yingdajun/-12-原创 2020-04-11 19:11:32 · 1824 阅读 · 0 评论 -
替换python默认安装源
默认pip安装源下载国外文件实在是贼慢,我想下载个kaggle数据集都特别困难。所以我写了这个程序。选择对应的cell文件运行,就可以将pip默认源修改成阿里云/清华/中科大等国内镜像数据源。https://github.com/yingdajun/-pip-例如豆瓣的国内镜像是:import osini = """[global]index-url = https://...原创 2020-02-25 19:24:08 · 963 阅读 · 0 评论 -
kaggle数字识别比赛
这是入门的三个比赛的最后一次比赛,站在巨人的肩膀上,感觉自己的能力在提升。。。这是自己复现的源码https://github.com/yingdajun/digit_recongition原创 2020-02-07 17:45:58 · 367 阅读 · 1 评论 -
kaggle房价预测比赛
这是第二次练习的比赛,通过看前辈的博客去复现的房价预测。下方是源码。。。https://github.com/yingdajun/github-战斗力提高+100,自信值+20原创 2020-02-07 09:18:31 · 382 阅读 · 0 评论 -
第一次打kaggle比赛
我打的第一次kaggle比赛,泰坦尼克存活率预测。虽然是用别人的代码去运转一波,但超越源自于模仿,我也算给自己开了一个好头。哈哈哈哈哈哈哈哈哈哈。这里是老夫的github地址:https://github.com/yingdajun/-kaggle-...原创 2020-02-06 21:07:00 · 621 阅读 · 0 评论