自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Mango的博客

统计学,python初学者,励志成为数据分析师到数据挖掘师!

  • 博客(15)
  • 收藏
  • 关注

原创 Lending Club贷款违约预测

目录项目简介及目标数据概览2.1数据来源2.2数据结构图2.3数据变量表2.4离散型数据分布2.5连续型数据分布数据处理及特征选择3.1目标值量化3.2删除字段3.3缺失值处理3.4同值化处理3.5数据格式转换3.6标签编码3.7异常值处理3.8特征选取模型建立4.1数据划分4.2样本不平衡处理4.3参数最优4.4建立模型模型评估5.1ROC曲线AU...

2019-09-01 17:26:51 7008 2

原创 python学习心得2

今天写作业的时候有很多语法需要记录一下np.unique()去重函数,返回一个list,比如我想知道在一个dataframe里某一列中有多少个分类,通过这个分类计算每一类的个数,如果用set函数返回的是一个元祖,是不可分的,这样画图的时候就不能直接当x,如果用list转换成列表,又会打破原来的顺序,所以直接用np.unique函数非常方便str.split(’,’,expand=True)...

2019-08-18 17:27:41 267

原创 MYSQL之DCL语言

最近在学习sql语句,学习的教材有些落后了XD,现用mysql8.0,有很多语法已经废了或者更新了,特用这篇文章记录一下~以下命令均在Command line client窗口进行查询用户及密码:password字段改成authentication_stringselect user,host,authentication_string,plugin from mysql.user;...

2019-08-17 17:19:00 382

原创 海报人脸个数与豆瓣电影评分的相关分析【python爬虫+人脸识别】

学习python有一段时间了,刚好有空自己搞一个案例练练手,于是诞生了这篇记录博。案例目的是研究电影海报上的人脸个数与这部电影豆瓣评分有没有一定的关系,当然这个分析结果不会有太大的商业效果,因为豆瓣评分不可控因素比较大,而且在人脸识别过程中还是有一定的偏差,这篇博文主要是记录在爬取电影海报中遇到的一些问题及解决方法,并且做法可能不是最简便的。如有不对,欢迎指正。下面进入正题。step1:se...

2019-08-11 17:32:18 2203

原创 opencc解决简体中文与繁体中文转换问题【python】

1.Opencc-python今天学习文本分析中偶然想到繁体中文要如何分割的问题,于是联想到将繁体中文先转换为简体中文,查过网上的资料后发现比较好用的是opencc-python,以及下载zh_wiki.py 和 langconv.py,将这两个文件放到python代码所在目录即可。先来说说后者遇到的问题因为我只安装了anaconda,没有另外装python,所以没有办法跟着网上的教程进行配...

2019-08-07 17:43:21 2623

原创 jupyter notebook的magic commands

学了半个月的python了,现在才知道jupyter notebook以%开头的都是magic commands,顿时觉得自己学的真是冰山一角。以初学者的角度,有几个magic commands是必须掌握的,也是最实用的。1.%time,%timeit和%% time如果你想知道你的整体代码运行的时间,推荐大家用%%time如果你想知道你的某一句代码的运行时间,可以选择%time额%time...

2019-07-31 17:46:49 285

原创 kaggle注册的问题

因数据需要,注册个kaggle账号来玩玩,结果验证那一步一直卡着,后来尝试翻/墙,用360浏览器收到验证邮件,我没有点击Activate按键,而是点击下面的连接,从而跳转到人机检验,就成功了我还下载了谷歌浏览器准备尝试百度的方法,下载插件之类的,在这之前就收到验证了,原来也不用插件这一步,只要墙出去就可以了~...

2019-07-23 14:55:41 8402 2

原创 学习心得flatten函数

在天池下载了豆瓣电影评分的数据集,打算看看电影类型分布情况,思路是将所有的类分成一张表,然后遍历每一条记录,如果出现某一类型的文字,例如出现“爱情”类型,就在爱情字段对应的位置将0变成1,最后按字段求和得到每种类型的数量。在这个过程中遇到几个问题,在这里记录一下flatten函数由于数据集保存电影类型的格式整理后是list[[],[],…],所以我要遍历list里面每一个[],来获得所有的类...

2019-07-23 13:33:58 1459

原创 python中numpy数组运算

python中的广播原则:如果两个数组的后缘维度(即从末尾开始算起的维度)的轴长度相符或其中一方的长度为1,则认为他们是广播兼容的。广播会在缺失和(或)长度为1的维度上进行。按照我的理解,当一个数组的形状和另一个数组是“相似”的时候,运算可以进行。我把相似这么理解:指的是保持形状不变的情况下,两个数组的同边相等,例如一个2维的43的数组和一个1维的13是可以进行运算的: t1 = np.ar...

2019-07-20 16:12:44 887

原创 解决matplotlib不能显示中文或现实中文乱码的问题【Windows】

Windows下在pycharm中输入一下代码,每次显示中文时都要输入下面的代码,有点麻烦:from matplotlib import pyplot as pltplt.rcParams['font.sans-serif']=['SimHei'] # 用来正常显示中文标签plt.rcParams['axes.unicode_minus']=False # 用来正常显示负号...

2019-07-18 17:30:45 2075 1

原创 python学习心得

这几天都在学习python基础,我起初使用的是pycharm作为IDE去调试我的代码,搭配原有的python3.7,一切都是那么安逸,直到matplotlib的出现。第一个坑出现了from matplotlib import pyplot as plt这个代码在jupyter notebook上运行是一点问题都没有,然鹅在pycharm中却报错了,原因:cannot import name...

2019-07-18 16:09:02 413

原创 python新手常见错误

总结在学习python时自己会犯的错误:1.拼写错误(手误)NameError:name ‘pirnt’ is not defined由于python是解释型语言,也就是解释一行执行一行,所以有错误时,只会影响出现错误的那一行代码2.一行输入多个语句SyntaxError:invalid syntaxinvalid表示无效的,python解释器在解释时认为语法无效,因为我们的阅读代码习...

2019-07-08 00:33:34 297

原创 R语言中的统计图形

饼图在统计学家看来饼状图是表达信息效果很差的一种图,因为在饼状图中很难对不同扇区的大小进行比较,或对不同饼状图之间的数据进行比较。以至于在R中对于饼状图的操作相比起别的统计图形要少很多。在R中饼状图的代码如下:pie(x,labels=,main=" ",col=rainbow( ))#labels表示注释,col采用rainbow调色,main表示标题还可以在R中绘制3D的饼状图,借助...

2019-07-05 12:44:17 2070

原创 概率统计相关函数

在R中,d表示分布,得到相应的密度函数;加上前缀“p”,得到相应的分布函数;加上前缀“q”,则得到相应的分位数函数;加上前缀“r”,则得到相应的随机数产生函数。以下是例子。离散分布分布函数二项分布dbinom(x,size=10,p=0.5)负二项分布dnbinom(x,size=10,prob=0.75)几何分布dgeom(x,prob=0.2)泊...

2019-07-04 13:31:48 955

原创 记录学习R与Python的点滴

版本:R3.5.1(64bit)python3.7平时用R界面和Python命令窗口写东西,偶尔用jupyter notebook学习呢要有学习目标,我给自己定了几个(实时更新补充):1.养成良好的编码习惯,做到符号统一,有注释,函数名有意义2.定期总结,即使是零碎的边边角角的点3.独立解决问题,利用R编写函数、进行数据分析和数据挖掘4.每天都爱数据分析多一点hi.world=fun...

2019-06-29 14:20:09 118

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除