- 博客(25)
- 收藏
- 关注
原创 hive函数大全
select struct(array(1,3,5),map(‘name’,‘张三’,‘age’,18)) {“col1”:[1,3,5],“col2”:{“name”:“张三”,“age”:“18”}}– select str_to_map(‘name:李四,age:18’,‘,’,‘:’) {“name”:“李四”,“age”:“18”}– select map(‘name’,‘张三’,‘age’,18) {“name”:“张三”,“age”:“18”}内置函数内置聚合函数。
2023-08-01 18:26:00 418
原创 安装xgboost和lightgbm
pipinstall-ihttps//pypi.tuna.tsinghua.edu.cn/simplexgboostpipinstall-ihttps//pypi.tuna.tsinghua.edu.cn/simplelightgbm。
2022-07-29 06:32:41 425
原创 percentile_approx函数
percentile(col, p):percentile要求输入的字段必须是int类型的percentile_approx(col, p):percentile_approx则是数值类似型的都可以 ;percentile_approx(abs(col), array(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9)) 输出多位分位数。...
2022-04-19 15:56:52 2669
原创 predict&predict_poba怎么 输出 索引
predict_poba方法一般输出的都是array格式,想输出索引,可以先将array变成dataframe,在这步的时候,设置index。然后如果想加入其它列,可以将这些列后面加.values。下次再补充示例。
2021-08-23 14:58:10 196
原创 jupyter装包的两种方法
1、! pip install scikit-learn==0.24.1 -i https://pypi.tuna.tsinghua.edu.cn/simple2、!pip install mlxtend
2021-05-19 13:48:57 3415 1
原创 pd.qcut函数
pd.qcut函数,按照数据出现频率百分比划分,比如要把数据分为四份,则四段分别是数据的0-25%,25%-50%,50%-75%,75%-100%,每个间隔段里的元素个数都是相同的。pd.qcut(x, q, labels=None, retbins=False, precision=3, duplicates=‘raise’) #最后一个参数 duplicates='drop’表示若有重复区间则删除...
2021-04-16 16:15:37 5421
转载 如何解释sklearn决策树tree_中的children_left属性
https://stackoverflow.com/questions/42075630/how-to-interpret-the-children-left-attributes-in-sklearn-decision-tree-tree
2020-09-26 17:09:12 1086
原创 高效循环读取excel中有多个sheet的两种方法
下面展示一些 内联代码片。# 河南分行数据处理import pandas as pdimport numpy as npimport xlrdimport matplotlib.pyplot as pltimport iodef read_excel1(path): data_xlsx = pd.ExcelFile(path) print(data_xlsx.sheet_names) data=pd.DataFrame() for name in data_
2020-08-14 23:16:27 6405 1
原创 series/dataframe的某一列使用for if else语句
要点:①创建一个空列表装生成的字段predict_proba_range②必须把series转化成list,使用.tolist()。③使用appenddf_train=pd.DataFrame(x_train)df_test=pd.DataFrame(x_test)df_train['y_train']=y_traindf_test['y_test']=y_testdf_train['y_train_pred']=y_train_preddf_test['y_test_pred']=y_te
2020-07-08 12:55:59 866
原创 shape的应用
1、reshape(1,-1)将array转化成1行:2、reshape(-1,1)将array转化成1列:3、shape函数:// An highlighted blocktrain_data.loc[train_data['Promotion'] == 'Yes',:].shape结果:(42364, 10)train_data.loc[train_data['Promotion'] == 'Yes',:].shape[0]结果:42364train_data.loc[train_da
2020-07-03 16:34:00 168
原创 看跑数时间
看跑数时间// An highlighted blockimport datetimeimport timefrom datetime import datetimestart = datetime.now() data_notnull["data_key"]=data_notnull["客户号"].apply(lambda x:str(x))+data_notnull["名单批次号"].apply(lambda x:str(x))end = datetime.now() print (en
2020-06-11 14:43:58 159
原创 str_time=》dt_datetime ,dt_date ,str_date
str_time=》dt_datetime ,dt_date ,str_dateimport datetimefrom datetime import datetime#输入:str_timestr_time='2999-12-31 23:59:59'#输出:dt_date str_date#获取当前日期# dt_datetime = datetime.now() # 格式为 datetime.datetimedt_datetime = datetime.strptime(str_ti
2020-06-11 09:43:55 349
转载 pandas: groupby()分组求平均值
转载自:https://blog.csdn.net/u012608701/article/details/80874798data.groupby('Pclass')['Fare'].mean()data.groupby('Pclass').mean()['Fare']
2020-06-10 08:52:52 2703
原创 python join for 处理多列字符串拼接
for i in range(len(data_notnull)): #下面这一步不可省略,因为i是连续的,但index_i却是真实的索引,该索引不一定连续 index_i=data_notnull.index[i] print(repr(data_notnull.loc[index_i,'客户号'])) print(repr(data_notnull.loc[index_i,'名单批次号'])) print(''.join([repr(data_notnull.loc[i
2020-06-09 17:24:56 930
原创 print(array)时array中间是省略号没有输出全部的解决方法
如果你的数据格式不是array,请先用df.values转成array格式,然后再使用以下语句。import numpy as npnp.set_printoptions(threshold=np.inf)print(data_notnull.head().values)
2020-06-09 16:15:21 427
原创 python isnull的使用
#用于查看data中呼出时间字段(也可不加呼出时间字段,则是所有字段都是False才成立)data_notnull=data[data.呼出时间.isnull()==False] data.isnull().sum() #用于查看data各列中各有多少缺失值
2020-06-08 11:06:21 3728
原创 决策树算法剪枝的一些理解
1、剪枝的目的是避免过拟合,避免过拟合的方式是在损失函数中加入附加项α|T|。2、损失函数定义如下,参考https://blog.csdn.net/ritchiewang/article/details/502540093、假设不剪枝的损失函数为C前(T前)=C(T前)+α|T前|,剪枝后仅保留根节点的损失函数为C后(T后)=C(T后)+α|T后|,因为仅剩下根节点,所以|T后|=1,另两者相等,则我们得到α值。一般情况下,若α>=[C(T后)-C(T前)]/[|T前|-1],则需要进行剪枝,
2020-05-26 09:41:00 625
转载 梯度提升模型
http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html官方文档里带了一个很好的例子,以500个弱学习器,最小平方误差的梯度提升模型,做波士顿房价预测,代码和结果如下:import numpy as npimport matplotlib.pyplot as...
2020-05-18 08:49:59 333
原创 20200518-onehot编码之get_dummies方法
# 临界VIP15天用户画像import pandas as pd#import xlrddata = pd.read_excel('D:/工作内容/XX工作/外呼/VIP临界15天.xls') type(data)data.head(2)#处理外呼时间为外呼日期import datetimeimport timeimport pandas as pdfrom datetime import datetime#col=list(data.外呼时间)#print(col)new_外呼
2020-05-18 08:48:47 230
转载 (转)如何将Sklearn数据集Bunch格式转换为Pandas数据集DataFrame?
转载链接:[https://vimsky.com/article/4362.html]from sklearn.datasets import load_irisimport pandas as pddata = load_iris()print(type(data)) #输出:<class 'sklearn.utils.Bunch'>data1 = pd. # I...
2020-04-30 16:49:43 3770 3
原创 python学习记录
20200430-差错记录–## ‘numpy.ndarray’ object has no attribute ‘head’import pandas as pdimport matplotlib.pyplot as pltimport numpy as npdf = pd.read_csv(‘http://archive.ics.uci.edu/ml/machine-learning-...
2020-04-30 14:04:26 3635
转载 pandas:apply和transform方法的性能比较(转)
原文链接:https://www.cnblogs.com/wkang/p/9794678.htmlapply与transform首先讲一下apply() 与transform()的相同点与不同点相同点:都能针对dataframe完成特征的计算,并且常常与groupby()方法一起使用。不同点:apply()里面可以跟自定义的函数,包括简单的求和函数以及复杂的特征间的差值函数等(注:...
2019-08-08 17:28:53 215
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人