机器学习
文章平均质量分 76
aka.炼金术士
这个作者很懒,什么都没留下…
展开
-
pandas复习(3)
pandas一些操作 去重 df_unique = df.drop_duplicates(['A'], keep='last') # 根据A去重只留下最后一次出现的 隔行取数据 方法1:每隔20行取数,把每20行的id取出来 a=[] for i in range(0,len(df),20): a.append(i) new_df= df.iloc[a] 方法2:直接调用read_csv()里的参数skiprows df = pd.read_csv('test.csv',header =原创 2022-04-19 08:33:10 · 152 阅读 · 0 评论 -
数据分析——泰坦尼克号预测
之前在学校做过课程设计,但是对流程比较一知半解,现在看完了机器学习实战这本书,带着自己的理解重新做一遍。 import pandas as pd import numpy as np import matplotlib.pyplot as plt 数据导入 观察数据的具体情况,可以发现年龄变量Age和Cabin有缺失,然后Name,sex,Ticket,cabin和Embark是object类型,在后续的数据处理中要进行调整。 data_train = pd.read_csv(r'C:/Users/ly-原创 2022-04-09 09:20:48 · 1622 阅读 · 0 评论 -
机器学习实战(LightGBM)
LightGBM 介绍 LightGBM(Light Gradient Boosting Machine):一个实现GBDT算法的框架,解决GBDT在海量数据遇到的问题。 两大技术: (1)GOSS(Gradient-based One-Side Sampling):减少样本数 (2)EFB (Exclusive Feature Bundling ):减少特征数 XGBoost的缺点:先预排序再找分割点,空间消耗大 XGBoost与LightGBM的区别: lightGBM XGBoost原创 2022-04-07 11:15:59 · 1028 阅读 · 0 评论