数据分析
weixin_44730016
这个作者很懒,什么都没留下…
展开
-
python实现返回第几大的数据
python实现返回第几大的数据这里拿复杂的存在并列分数的情况为例子:import pandas as pddf=pd.DataFrame({'col':['a','a','a','a','a','a','a','b','b','c','c','d']})df['value']=[30,80,80,60,70,50,60,90,80,70,60,90]dfdef f(x,c): ...原创 2020-04-18 01:21:29 · 386 阅读 · 0 评论 -
超级详细的特征哑变量处理
这里全程以df这个为例来讲解import pandas as pddf=pd.DataFrame({'性别':['男','女','男','女'],'age':[2,3,4,3]})dfget_dummies处理pd.get_dummies(df,columns=['性别','age'])get_dummies可以对多列(字符型和数值型)直接进行哑变量编码缺点:如果在测试集中出...原创 2020-04-14 23:56:17 · 2611 阅读 · 0 评论 -
python假设检验的实现
python假设检验的实现#这里以熟悉的鸢尾花数据集举例from sklearn.datasets import load_irisdata=load_iris()df=pd.DataFrame(data['data'][:100])df['target']=data.target[:100]df[0].mean()#z检验import statsmodels.stats.we...原创 2020-04-09 21:37:26 · 218 阅读 · 0 评论 -
python连接数据库的几种方法
#方法1import pandas as pdimport pymysqlimport pymysql.cursors#设置连接参数config={'host':'127.0.0.1',#连接的ip,本地的话默认是127.0.0.1'port':3306, #端口号'user':'root',#本地登陆的话有root权限,'password':'*******',#mysql中自设...原创 2020-04-09 17:12:17 · 164 阅读 · 0 评论 -
模型调参
调参方法1、网格搜索调参缺点:当参数的取值范围很多,且有多个参数时候,运行速度特别慢,容易造成维度灾难,且对于非凸函数,容易取到局部最优。2、随机搜索调参好处:运行速度快是在限制的迭代次数下对设定的参数的范围内的取值进行随机选取。缺点:并不能保证选取的参数的取值一定是最优的,且最优参数可能存在变化。3、贪心调参每次进入模型的固定参数是上一轮进行遍历,交叉验证后的最佳参数,逐渐增加进...原创 2020-03-28 00:35:59 · 240 阅读 · 0 评论 -
数据处理和特征选择
数据处理和特征选择数据处理特征选择原创 2020-03-24 23:17:42 · 111 阅读 · 0 评论