巫王勇者的升阶之路
南楚巫妖
且试新茶
展开
-
日常碎碎念 kaggle中NLP比赛的小经验
搞Kaggle比赛也有几个月了,虽然前前后后拖拖但是也是复现过不少比赛的。感觉思路可以总结一下。 1.数据读取。一般数据格式都是以CSV格式的,但是也不排除TXT,JSON格式。所以熟悉pandas和numpy库就极为重要,最后得到预测结果也需要pandas库。 2.数据处理。 (1)使用pandas库等等对数据进行合理的预处理,增删改查属性,对于文本特征可以用sklearn.featuretion.text去创造。 (2)同时使用sklearn库的preprocessing包进行处理 3.建模原创 2020-05-20 16:06:01 · 430 阅读 · 0 评论 -
混合编程的经验
1.一定要加入os,sys第三方库,否则肯定会报错 2.报错绝大多数问题是第三方包没法子导入。 这里一般都是pyinstaller打包的第三方库里面的相关函数需要的文件,比如jieba分词需要IDF、DICT等等文件。 snownlp需要stopword等等文件。也有pyinstaller自身的问题,建议卸载,使用一下pyinstaller 3.6.0版本。 3.在进行编程前,可以先设定初...原创 2020-03-04 17:21:05 · 310 阅读 · 0 评论 -
混合编程NLP桌面项目
我自己写了一个基于NLP的混合编程项目。 以C#为界面,python为脚本。 本来打算加上关键词提取的,但因为pyintsaller对jieba的anaylse包不友好,所以就不能装了。啊好痛苦。 下面是源码和功能。 这里是github源码: 功能一共分四个: (1)中文分词: 输入文本:中文分词是文本处理的第一步。 记得选择分词模式 然后得到分词结果。 (2...原创 2020-02-29 21:54:07 · 391 阅读 · 0 评论 -
替换python默认安装源
默认pip安装源下载国外文件实在是贼慢,我想下载个kaggle数据集都特别困难。所以我写了这个程序。 选择对应的cell文件运行,就可以将pip默认源修改成阿里云/清华/中科大等国内镜像数据源。 https://github.com/yingdajun/-pip- 例如豆瓣的国内镜像是: import os ini = """ [global] index-url = https://...原创 2020-02-25 19:24:08 · 972 阅读 · 0 评论 -
自己写的一键生成小楼房的插件。
这是可以通过设置楼板、窗、门类型,然后识别闭合模型线,自动生成小别墅的插件。 Github源码如下: https://github.com/yingdajun/JuMangDemo 下图是功能: ...原创 2020-02-24 19:02:38 · 693 阅读 · 0 评论 -
kaggle数字识别比赛
这是入门的三个比赛的最后一次比赛,站在巨人的肩膀上,感觉自己的能力在提升。。。 这是自己复现的源码 https://github.com/yingdajun/digit_recongition原创 2020-02-07 17:45:58 · 377 阅读 · 1 评论 -
kaggle房价预测比赛
这是第二次练习的比赛,通过看前辈的博客去复现的房价预测。 下方是源码。。。 https://github.com/yingdajun/github- 战斗力提高+100,自信值+20原创 2020-02-07 09:18:31 · 393 阅读 · 0 评论 -
第一次打kaggle比赛
我打的第一次kaggle比赛,泰坦尼克存活率预测。虽然是用别人的代码去运转一波,但超越源自于模仿,我也算给自己开了一个好头。哈哈哈哈哈哈哈哈哈哈。 这里是老夫的github地址: https://github.com/yingdajun/-kaggle- ...原创 2020-02-06 21:07:00 · 631 阅读 · 0 评论