weixin_43581124-CSDN博客

原创 hive函数大全

select struct(array(1,3,5),map(‘name’,‘张三’,‘age’,18)) {“col1”:[1,3,5],“col2”:{“name”:“张三”,“age”:“18”}}– select str_to_map(‘name:李四,age:18’,‘,’,‘:’) {“name”:“李四”,“age”:“18”}– select map(‘name’,‘张三’,‘age’,18) {“name”:“张三”,“age”:“18”}内置函数内置聚合函数。

2023-08-01 18:26:00 418

原创 hyperopt对xgboost和lightgbm进行调参

额

2023-01-30 20:47:32 266

原创 git bush自学命令

linux自学

2022-09-07 14:03:20 178

原创安装xgboost和lightgbm

pipinstall-ihttps//pypi.tuna.tsinghua.edu.cn/simplexgboostpipinstall-ihttps//pypi.tuna.tsinghua.edu.cn/simplelightgbm。

2022-07-29 06:32:41 425

原创 percentile_approx函数

percentile(col, p)：percentile要求输入的字段必须是int类型的percentile_approx(col, p)：percentile_approx则是数值类似型的都可以；percentile_approx(abs(col), array(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9)) 输出多位分位数。...

2022-04-19 15:56:52 2669

原创 predict&predict_poba怎么输出索引

predict_poba方法一般输出的都是array格式，想输出索引，可以先将array变成dataframe，在这步的时候，设置index。然后如果想加入其它列，可以将这些列后面加.values。下次再补充示例。

2021-08-23 14:58:10 196

原创 jupyter装包的两种方法

1、! pip install scikit-learn==0.24.1 -i https://pypi.tuna.tsinghua.edu.cn/simple2、!pip install mlxtend

2021-05-19 13:48:57 3415 1

原创 pd.qcut函数

pd.qcut函数，按照数据出现频率百分比划分，比如要把数据分为四份，则四段分别是数据的0-25%，25%-50%，50%-75%，75%-100%，每个间隔段里的元素个数都是相同的。pd.qcut(x, q, labels=None, retbins=False, precision=3, duplicates=‘raise’) #最后一个参数 duplicates='drop’表示若有重复区间则删除...

2021-04-16 16:15:37 5421

转载如何解释sklearn决策树tree_中的children_left属性

https://stackoverflow.com/questions/42075630/how-to-interpret-the-children-left-attributes-in-sklearn-decision-tree-tree

2020-09-26 17:09:12 1086

原创 series下datetime转date

a[“datetime”]=[d.date() for d in a[“datetime”]

2020-08-20 22:43:12 955

原创高效循环读取excel中有多个sheet的两种方法

下面展示一些内联代码片。# 河南分行数据处理import pandas as pdimport numpy as npimport xlrdimport matplotlib.pyplot as pltimport iodef read_excel1(path): data_xlsx = pd.ExcelFile(path) print(data_xlsx.sheet_names) data=pd.DataFrame() for name in data_

2020-08-14 23:16:27 6405 1

原创 series/dataframe的某一列使用for if else语句

要点：①创建一个空列表装生成的字段predict_proba_range②必须把series转化成list，使用.tolist()。③使用appenddf_train=pd.DataFrame(x_train)df_test=pd.DataFrame(x_test)df_train['y_train']=y_traindf_test['y_test']=y_testdf_train['y_train_pred']=y_train_preddf_test['y_test_pred']=y_te

2020-07-08 12:55:59 866

原创 shape的应用

1、reshape(1,-1)将array转化成1行：2、reshape(-1,1)将array转化成1列：3、shape函数:// An highlighted blocktrain_data.loc[train_data['Promotion'] == 'Yes',:].shape结果：(42364, 10)train_data.loc[train_data['Promotion'] == 'Yes',:].shape[0]结果：42364train_data.loc[train_da

2020-07-03 16:34:00 168

原创看跑数时间

看跑数时间// An highlighted blockimport datetimeimport timefrom datetime import datetimestart = datetime.now() data_notnull["data_key"]=data_notnull["客户号"].apply(lambda x:str(x))+data_notnull["名单批次号"].apply(lambda x:str(x))end = datetime.now() print (en

2020-06-11 14:43:58 159

原创 str_time=》dt_datetime ，dt_date ，str_date

str_time=》dt_datetime ，dt_date ，str_dateimport datetimefrom datetime import datetime#输入：str_timestr_time='2999-12-31 23:59:59'#输出：dt_date str_date#获取当前日期# dt_datetime = datetime.now() # 格式为 datetime.datetimedt_datetime = datetime.strptime(str_ti

2020-06-11 09:43:55 349

转载 pandas: groupby()分组求平均值

转载自：https://blog.csdn.net/u012608701/article/details/80874798data.groupby('Pclass')['Fare'].mean()data.groupby('Pclass').mean()['Fare']

2020-06-10 08:52:52 2703

原创 python join for 处理多列字符串拼接

for i in range(len(data_notnull)): #下面这一步不可省略，因为i是连续的，但index_i却是真实的索引，该索引不一定连续 index_i=data_notnull.index[i] print(repr(data_notnull.loc[index_i,'客户号'])) print(repr(data_notnull.loc[index_i,'名单批次号'])) print(''.join([repr(data_notnull.loc[i

2020-06-09 17:24:56 930

原创 print(array)时array中间是省略号没有输出全部的解决方法

如果你的数据格式不是array，请先用df.values转成array格式，然后再使用以下语句。import numpy as npnp.set_printoptions(threshold=np.inf)print(data_notnull.head().values)

2020-06-09 16:15:21 427

原创 python isnull的使用

#用于查看data中呼出时间字段（也可不加呼出时间字段，则是所有字段都是False才成立）data_notnull=data[data.呼出时间.isnull()==False] data.isnull().sum() #用于查看data各列中各有多少缺失值

2020-06-08 11:06:21 3728

原创决策树算法剪枝的一些理解

1、剪枝的目的是避免过拟合，避免过拟合的方式是在损失函数中加入附加项α|T|。2、损失函数定义如下，参考https://blog.csdn.net/ritchiewang/article/details/502540093、假设不剪枝的损失函数为C前(T前)=C(T前)+α|T前|，剪枝后仅保留根节点的损失函数为C后(T后)=C(T后)+α|T后|，因为仅剩下根节点，所以|T后|=1，另两者相等，则我们得到α值。一般情况下，若α>=[C(T后)-C(T前)]/[|T前|-1]，则需要进行剪枝，

2020-05-26 09:41:00 625

转载梯度提升模型

http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html官方文档里带了一个很好的例子，以500个弱学习器，最小平方误差的梯度提升模型，做波士顿房价预测，代码和结果如下：import numpy as npimport matplotlib.pyplot as...

2020-05-18 08:49:59 333

原创 20200518-onehot编码之get_dummies方法

# 临界VIP15天用户画像import pandas as pd#import xlrddata = pd.read_excel('D:/工作内容/XX工作/外呼/VIP临界15天.xls') type(data)data.head(2)#处理外呼时间为外呼日期import datetimeimport timeimport pandas as pdfrom datetime import datetime#col=list(data.外呼时间)#print(col)new_外呼

2020-05-18 08:48:47 230

转载 (转)如何将Sklearn数据集Bunch格式转换为Pandas数据集DataFrame？

转载链接：[https://vimsky.com/article/4362.html]from sklearn.datasets import load_irisimport pandas as pddata = load_iris()print(type(data)) #输出：<class 'sklearn.utils.Bunch'>data1 = pd. # I...

2020-04-30 16:49:43 3770 3

原创 python学习记录

20200430-差错记录–## ‘numpy.ndarray’ object has no attribute ‘head’import pandas as pdimport matplotlib.pyplot as pltimport numpy as npdf = pd.read_csv(‘http://archive.ics.uci.edu/ml/machine-learning-...

2020-04-30 14:04:26 3635

转载 pandas：apply和transform方法的性能比较(转)

原文链接：https://www.cnblogs.com/wkang/p/9794678.htmlapply与transform首先讲一下apply() 与transform()的相同点与不同点相同点：都能针对dataframe完成特征的计算，并且常常与groupby()方法一起使用。不同点：apply()里面可以跟自定义的函数，包括简单的求和函数以及复杂的特征间的差值函数等（注：...

2019-08-08 17:28:53 215

weixin_43581124的博客