![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
技术
weixin_43581124
这个作者很懒,什么都没留下…
展开
-
percentile_approx函数
percentile(col, p):percentile要求输入的字段必须是int类型的percentile_approx(col, p):percentile_approx则是数值类似型的都可以 ;percentile_approx(abs(col), array(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9)) 输出多位分位数。...原创 2022-04-19 15:56:52 · 2586 阅读 · 0 评论 -
jupyter装包的两种方法
1、! pip install scikit-learn==0.24.1 -i https://pypi.tuna.tsinghua.edu.cn/simple2、!pip install mlxtend原创 2021-05-19 13:48:57 · 3342 阅读 · 1 评论 -
如何解释sklearn决策树tree_中的children_left属性
https://stackoverflow.com/questions/42075630/how-to-interpret-the-children-left-attributes-in-sklearn-decision-tree-tree转载 2020-09-26 17:09:12 · 1040 阅读 · 0 评论 -
高效循环读取excel中有多个sheet的两种方法
下面展示一些 内联代码片。# 河南分行数据处理import pandas as pdimport numpy as npimport xlrdimport matplotlib.pyplot as pltimport iodef read_excel1(path): data_xlsx = pd.ExcelFile(path) print(data_xlsx.sheet_names) data=pd.DataFrame() for name in data_原创 2020-08-14 23:16:27 · 6280 阅读 · 1 评论 -
series/dataframe的某一列使用for if else语句
要点:①创建一个空列表装生成的字段predict_proba_range②必须把series转化成list,使用.tolist()。③使用appenddf_train=pd.DataFrame(x_train)df_test=pd.DataFrame(x_test)df_train['y_train']=y_traindf_test['y_test']=y_testdf_train['y_train_pred']=y_train_preddf_test['y_test_pred']=y_te原创 2020-07-08 12:55:59 · 852 阅读 · 0 评论 -
shape的应用
1、reshape(1,-1)将array转化成1行:2、reshape(-1,1)将array转化成1列:3、shape函数:// An highlighted blocktrain_data.loc[train_data['Promotion'] == 'Yes',:].shape结果:(42364, 10)train_data.loc[train_data['Promotion'] == 'Yes',:].shape[0]结果:42364train_data.loc[train_da原创 2020-07-03 16:34:00 · 152 阅读 · 0 评论 -
看跑数时间
看跑数时间// An highlighted blockimport datetimeimport timefrom datetime import datetimestart = datetime.now() data_notnull["data_key"]=data_notnull["客户号"].apply(lambda x:str(x))+data_notnull["名单批次号"].apply(lambda x:str(x))end = datetime.now() print (en原创 2020-06-11 14:43:58 · 129 阅读 · 0 评论 -
str_time=》dt_datetime ,dt_date ,str_date
str_time=》dt_datetime ,dt_date ,str_dateimport datetimefrom datetime import datetime#输入:str_timestr_time='2999-12-31 23:59:59'#输出:dt_date str_date#获取当前日期# dt_datetime = datetime.now() # 格式为 datetime.datetimedt_datetime = datetime.strptime(str_ti原创 2020-06-11 09:43:55 · 248 阅读 · 0 评论 -
pandas: groupby()分组求平均值
转载自:https://blog.csdn.net/u012608701/article/details/80874798data.groupby('Pclass')['Fare'].mean()data.groupby('Pclass').mean()['Fare']转载 2020-06-10 08:52:52 · 2674 阅读 · 0 评论 -
python join for 处理多列字符串拼接
for i in range(len(data_notnull)): #下面这一步不可省略,因为i是连续的,但index_i却是真实的索引,该索引不一定连续 index_i=data_notnull.index[i] print(repr(data_notnull.loc[index_i,'客户号'])) print(repr(data_notnull.loc[index_i,'名单批次号'])) print(''.join([repr(data_notnull.loc[i原创 2020-06-09 17:24:56 · 892 阅读 · 0 评论 -
print(array)时array中间是省略号没有输出全部的解决方法
如果你的数据格式不是array,请先用df.values转成array格式,然后再使用以下语句。import numpy as npnp.set_printoptions(threshold=np.inf)print(data_notnull.head().values)原创 2020-06-09 16:15:21 · 397 阅读 · 0 评论 -
python isnull的使用
#用于查看data中呼出时间字段(也可不加呼出时间字段,则是所有字段都是False才成立)data_notnull=data[data.呼出时间.isnull()==False] data.isnull().sum() #用于查看data各列中各有多少缺失值原创 2020-06-08 11:06:21 · 3706 阅读 · 0 评论 -
决策树算法剪枝的一些理解
1、剪枝的目的是避免过拟合,避免过拟合的方式是在损失函数中加入附加项α|T|。2、损失函数定义如下,参考https://blog.csdn.net/ritchiewang/article/details/502540093、假设不剪枝的损失函数为C前(T前)=C(T前)+α|T前|,剪枝后仅保留根节点的损失函数为C后(T后)=C(T后)+α|T后|,因为仅剩下根节点,所以|T后|=1,另两者相等,则我们得到α值。一般情况下,若α>=[C(T后)-C(T前)]/[|T前|-1],则需要进行剪枝,原创 2020-05-26 09:41:00 · 615 阅读 · 0 评论 -
20200518-onehot编码之get_dummies方法
# 临界VIP15天用户画像import pandas as pd#import xlrddata = pd.read_excel('D:/工作内容/XX工作/外呼/VIP临界15天.xls') type(data)data.head(2)#处理外呼时间为外呼日期import datetimeimport timeimport pandas as pdfrom datetime import datetime#col=list(data.外呼时间)#print(col)new_外呼原创 2020-05-18 08:48:47 · 203 阅读 · 0 评论 -
(转)如何将Sklearn数据集Bunch格式转换为Pandas数据集DataFrame?
转载链接:[https://vimsky.com/article/4362.html]from sklearn.datasets import load_irisimport pandas as pddata = load_iris()print(type(data)) #输出:<class 'sklearn.utils.Bunch'>data1 = pd. # I...转载 2020-04-30 16:49:43 · 3658 阅读 · 3 评论 -
python学习记录
20200430-差错记录–## ‘numpy.ndarray’ object has no attribute ‘head’import pandas as pdimport matplotlib.pyplot as pltimport numpy as npdf = pd.read_csv(‘http://archive.ics.uci.edu/ml/machine-learning-...原创 2020-04-30 14:04:26 · 3478 阅读 · 0 评论 -
梯度提升模型
http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html官方文档里带了一个很好的例子,以500个弱学习器,最小平方误差的梯度提升模型,做波士顿房价预测,代码和结果如下:import numpy as npimport matplotlib.pyplot as...转载 2020-05-18 08:49:59 · 286 阅读 · 0 评论 -
pandas:apply和transform方法的性能比较(转)
原文链接:https://www.cnblogs.com/wkang/p/9794678.htmlapply与transform首先讲一下apply() 与transform()的相同点与不同点相同点:都能针对dataframe完成特征的计算,并且常常与groupby()方法一起使用。不同点:apply()里面可以跟自定义的函数,包括简单的求和函数以及复杂的特征间的差值函数等(注:...转载 2019-08-08 17:28:53 · 202 阅读 · 0 评论