自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 hive函数大全

select struct(array(1,3,5),map(‘name’,‘张三’,‘age’,18)) {“col1”:[1,3,5],“col2”:{“name”:“张三”,“age”:“18”}}– select str_to_map(‘name:李四,age:18’,‘,’,‘:’) {“name”:“李四”,“age”:“18”}– select map(‘name’,‘张三’,‘age’,18) {“name”:“张三”,“age”:“18”}内置函数内置聚合函数。

2023-08-01 18:26:00 343

原创 hyperopt对xgboost和lightgbm进行调参

2023-01-30 20:47:32 217

原创 git bush自学命令

linux自学

2022-09-07 14:03:20 139

原创 安装xgboost和lightgbm

pipinstall-ihttps//pypi.tuna.tsinghua.edu.cn/simplexgboostpipinstall-ihttps//pypi.tuna.tsinghua.edu.cn/simplelightgbm。

2022-07-29 06:32:41 400

原创 percentile_approx函数

percentile(col, p):percentile要求输入的字段必须是int类型的percentile_approx(col, p):percentile_approx则是数值类似型的都可以 ;percentile_approx(abs(col), array(0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9)) 输出多位分位数。...

2022-04-19 15:56:52 2502

原创 predict&predict_poba怎么 输出 索引

predict_poba方法一般输出的都是array格式,想输出索引,可以先将array变成dataframe,在这步的时候,设置index。然后如果想加入其它列,可以将这些列后面加.values。下次再补充示例。

2021-08-23 14:58:10 159

原创 jupyter装包的两种方法

1、! pip install scikit-learn==0.24.1 -i https://pypi.tuna.tsinghua.edu.cn/simple2、!pip install mlxtend

2021-05-19 13:48:57 3279 1

原创 pd.qcut函数

pd.qcut函数,按照数据出现频率百分比划分,比如要把数据分为四份,则四段分别是数据的0-25%,25%-50%,50%-75%,75%-100%,每个间隔段里的元素个数都是相同的。pd.qcut(x, q, labels=None, retbins=False, precision=3, duplicates=‘raise’) #最后一个参数 duplicates='drop’表示若有重复区间则删除...

2021-04-16 16:15:37 5357

转载 如何解释sklearn决策树tree_中的children_left属性

https://stackoverflow.com/questions/42075630/how-to-interpret-the-children-left-attributes-in-sklearn-decision-tree-tree

2020-09-26 17:09:12 1023

原创 series下datetime转date

a[“datetime”]=[d.date() for d in a[“datetime”]

2020-08-20 22:43:12 937

原创 高效循环读取excel中有多个sheet的两种方法

下面展示一些 内联代码片。# 河南分行数据处理import pandas as pdimport numpy as npimport xlrdimport matplotlib.pyplot as pltimport iodef read_excel1(path): data_xlsx = pd.ExcelFile(path) print(data_xlsx.sheet_names) data=pd.DataFrame() for name in data_

2020-08-14 23:16:27 6191 1

原创 series/dataframe的某一列使用for if else语句

要点:①创建一个空列表装生成的字段predict_proba_range②必须把series转化成list,使用.tolist()。③使用appenddf_train=pd.DataFrame(x_train)df_test=pd.DataFrame(x_test)df_train['y_train']=y_traindf_test['y_test']=y_testdf_train['y_train_pred']=y_train_preddf_test['y_test_pred']=y_te

2020-07-08 12:55:59 842

原创 shape的应用

1、reshape(1,-1)将array转化成1行:2、reshape(-1,1)将array转化成1列:3、shape函数:// An highlighted blocktrain_data.loc[train_data['Promotion'] == 'Yes',:].shape结果:(42364, 10)train_data.loc[train_data['Promotion'] == 'Yes',:].shape[0]结果:42364train_data.loc[train_da

2020-07-03 16:34:00 147

原创 看跑数时间

看跑数时间// An highlighted blockimport datetimeimport timefrom datetime import datetimestart = datetime.now() data_notnull["data_key"]=data_notnull["客户号"].apply(lambda x:str(x))+data_notnull["名单批次号"].apply(lambda x:str(x))end = datetime.now() print (en

2020-06-11 14:43:58 126

原创 str_time=》dt_datetime ,dt_date ,str_date

str_time=》dt_datetime ,dt_date ,str_dateimport datetimefrom datetime import datetime#输入:str_timestr_time='2999-12-31 23:59:59'#输出:dt_date str_date#获取当前日期# dt_datetime = datetime.now() # 格式为 datetime.datetimedt_datetime = datetime.strptime(str_ti

2020-06-11 09:43:55 224

转载 pandas: groupby()分组求平均值

转载自:https://blog.csdn.net/u012608701/article/details/80874798data.groupby('Pclass')['Fare'].mean()data.groupby('Pclass').mean()['Fare']

2020-06-10 08:52:52 2656

原创 python join for 处理多列字符串拼接

for i in range(len(data_notnull)): #下面这一步不可省略,因为i是连续的,但index_i却是真实的索引,该索引不一定连续 index_i=data_notnull.index[i] print(repr(data_notnull.loc[index_i,'客户号'])) print(repr(data_notnull.loc[index_i,'名单批次号'])) print(''.join([repr(data_notnull.loc[i

2020-06-09 17:24:56 879

原创 print(array)时array中间是省略号没有输出全部的解决方法

如果你的数据格式不是array,请先用df.values转成array格式,然后再使用以下语句。import numpy as npnp.set_printoptions(threshold=np.inf)print(data_notnull.head().values)

2020-06-09 16:15:21 388

原创 python isnull的使用

#用于查看data中呼出时间字段(也可不加呼出时间字段,则是所有字段都是False才成立)data_notnull=data[data.呼出时间.isnull()==False] data.isnull().sum() #用于查看data各列中各有多少缺失值

2020-06-08 11:06:21 3646

原创 决策树算法剪枝的一些理解

1、剪枝的目的是避免过拟合,避免过拟合的方式是在损失函数中加入附加项α|T|。2、损失函数定义如下,参考https://blog.csdn.net/ritchiewang/article/details/502540093、假设不剪枝的损失函数为C前(T前)=C(T前)+α|T前|,剪枝后仅保留根节点的损失函数为C后(T后)=C(T后)+α|T后|,因为仅剩下根节点,所以|T后|=1,另两者相等,则我们得到α值。一般情况下,若α>=[C(T后)-C(T前)]/[|T前|-1],则需要进行剪枝,

2020-05-26 09:41:00 605

转载 梯度提升模型

http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html官方文档里带了一个很好的例子,以500个弱学习器,最小平方误差的梯度提升模型,做波士顿房价预测,代码和结果如下:import numpy as npimport matplotlib.pyplot as...

2020-05-18 08:49:59 281

原创 20200518-onehot编码之get_dummies方法

# 临界VIP15天用户画像import pandas as pd#import xlrddata = pd.read_excel('D:/工作内容/XX工作/外呼/VIP临界15天.xls') type(data)data.head(2)#处理外呼时间为外呼日期import datetimeimport timeimport pandas as pdfrom datetime import datetime#col=list(data.外呼时间)#print(col)new_外呼

2020-05-18 08:48:47 200

转载 (转)如何将Sklearn数据集Bunch格式转换为Pandas数据集DataFrame?

转载链接:[https://vimsky.com/article/4362.html]from sklearn.datasets import load_irisimport pandas as pddata = load_iris()print(type(data)) #输出:<class 'sklearn.utils.Bunch'>data1 = pd. # I...

2020-04-30 16:49:43 3591 3

原创 python学习记录

20200430-差错记录–## ‘numpy.ndarray’ object has no attribute ‘head’import pandas as pdimport matplotlib.pyplot as pltimport numpy as npdf = pd.read_csv(‘http://archive.ics.uci.edu/ml/machine-learning-...

2020-04-30 14:04:26 3098

转载 pandas:apply和transform方法的性能比较(转)

原文链接:https://www.cnblogs.com/wkang/p/9794678.htmlapply与transform首先讲一下apply() 与transform()的相同点与不同点相同点:都能针对dataframe完成特征的计算,并且常常与groupby()方法一起使用。不同点:apply()里面可以跟自定义的函数,包括简单的求和函数以及复杂的特征间的差值函数等(注:...

2019-08-08 17:28:53 190

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除