- 博客(15)
- 收藏
- 关注
原创 关于python3中使用reduce报错
关于python3中使用reduce报错print(reduce(lambda x,y:x+y,[1,2,3,4,5]))结果报错:NameError: name 'reduce' is not defined正确的使用:from functools import reduceprint(reduce(lambda x,y:x+y,[1,2,3,4,5]))结果:15语法functools.reduce(function,iterable[,initializ...
2021-02-23 15:29:58 702
原创 2020-10-25
Numpy 中包含了一些函数用于处理数组,大概可分为以下几类:修改数组形状翻转数组修改数组维度连接数组分割数组数组元素的添加与删除1、修改数组形状函数描述reshape不改变数据的条件下修改形状flat数组元素迭代器flatten返回一份数组拷贝,对拷贝所做的修改不会影响原始数组ravel返回展开数组1.1 numpy.ndarray.shape在对数组进行操作时,为了满足格式和计算的要求通常会改变其形状。numpy.ndarray
2020-10-25 23:59:57 197
原创 2020-10-22
1、副本与视图副本是一个数据的完整的拷贝,如果我们对副本进行修改,它不会影响到原始数据,物理内存不在同一位置。视图是数据的一个别称或引用,通过该别称或引用亦便可访问、操作原有数据,但原有数据不会产生拷贝。如果我们对视图进行修改,它会影响到原始数据,物理内存在同一位置。视图一般发生在:1、numpy 的切片操作返回原数据的视图。2、调用 ndarray 的 view() 函数产生一个视图。副本一般发生在:1、Python 序列的切片操作,调用deepCopy()函数。2、调用 ndar
2020-10-22 23:53:13 216
原创 2020-10-20
1、为啥学习Numpy1.1 Numpy是什么NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 的前身 Numeric 最早是由 Jim Hugunin 与其它协作者共同开发,2005 年,Travis Oliphant 在 Numeric 中结合了另一个同性质的程序库 Numarray 的特色,并加入了其它扩展而开发了 NumPy。NumPy 为开放源代码并且由许多协作者共同维护开
2020-10-20 23:56:47 281 1
原创 2020-09-27
1、相关知识1.1 stacking\blending详解stacking 将若干基学习器获得的预测结果,将预测结果作为新的训练集来训练一个学习器。如下图 假设有五个基学习器,将数据带入五基学习器中得到预测结果,再带入模型六中进行训练预测。但是由于直接由五个基学习器获得结果直接带入模型六中,容易导致过拟合。所以在使用五个及模型进行预测的时候,可以考虑使用K折验证,防止过拟合。blending是将预测的值作为新的特征和原特征合并,构成新的特征值,用于预测。为了防止过拟合,将数据分为两部分d1、d
2020-09-27 23:34:25 100
原创 2020-09-24
1、相关知识1.1模型对比与性能评估1.1.1 逻辑回归优点训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合二分类问题,不需要缩放输入特征;内存资源占用小,只需要存储各个维度的特征值;缺点逻辑回归需要预先处理缺失值和异常值【可参考task3特征工程】;不能用Logistic回归去解决非线性问题,因为Logistic的决策面是线性的;对多重共线性数据较为敏感,且很难处理数据不平衡的问题;准确
2020-09-24 23:52:10 3239
原创 特征工程
特征工程1、 导入包并读取数据import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport datetimefrom tqdm import tqdmfrom sklearn.preprocessing import LabelEncoderfrom sklearn.feature_selection import SelectKBestfrom sklear
2020-09-21 23:57:12 2262
原创 探索性数据分析(EDA)
@TOC1、读取文件读取训练集和测试A文件import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsimport datetimeimport warningswarnings.filterwarnings('ignore')#读取文件data_train=pd.read_csv('tianchi/train.csv')data_test_a=pd.read_csv
2020-09-18 22:08:26 1230
原创 赛题理解
赛题理解一、赛题背景二、赛题数据三、评测标准一、赛题背景赛题以金融风控中的个人信贷为背景,要求选手根据贷款申请人的数据信息预测其是否有违约的可能,以此判断是否通过此项贷款,这是一个典型的分类问题。通过这道赛题来引导大家了解金融风控中的一些业务背景,解决实际问题,帮助竞赛新人进行自我练习、自我提高。二、赛题数据赛题以预测用户贷款是否违约为任务,数据集报名后可见并可下载,该数据来自某信贷平台的贷款记录,总数据量超过120w,包含47列变量信息,其中15列为匿名变量。为了保证比赛的公平性,将会从中抽取80
2020-09-15 21:34:39 227
原创 2020-08-28
Task 5 模型的建立和评估_学习笔记1、一些库的作用2、模型搭建2.1 切割训练集和测试集2.2 模型创建2.3 输出模型预测结果1、一些库的作用1.1 Python的seaborn库seaborn就是在matplotlib基础上面的封装,方便直接传参数调用整体布局import seaborn as snssns.set_style("whitegrid") #横坐标有标线,纵坐标没有标线,背景白色sns.set_style("darkgrid") #默认,横纵坐标都有标线,组成一个一个格子
2020-08-28 19:02:49 143
原创 TASK3 数据可视化_学习笔记
TASK3 数据可视化1、柱状图2、堆积柱状图3、折线图4、探索不同舱位等级和生存之间的关系5、探索年龄和生存之间的关系6、探索仓位等级和年龄之间的关系1、柱状图import numpy as npimport pandas as pdimport matplotlib.pyplot as pltresults=pd.read_csv('titanic/data/result.csv')sex=results.groupby('Sex')['Survived'].sum()sex.plot.b
2020-08-25 23:56:37 523
原创 Task3 数据重构_学习笔记
Task3 数据重构_学习笔记1、数据合并1.1 数据合并的几类方法1.2 数据重排2、数据运用2.1 了解Groupby![groupby](https://img-blog.csdnimg.cn/20200823234930889.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3hpZV9uaWM=,size_16,color_FFFFFF,t
2020-08-23 23:57:44 198
原创 Task2 数据清洗及特征处理_学习笔记
Task2 数据清洗及特征处理一、基础知识1、缺失值的查看和处理1.2 缺失值的查看1.3 对缺失值进行处理1.3.1 删除(dropna)1.3.2 填充(fillna)2、重复值的查看和处理2.1 重复值的查看2.2 重复值的去除2.3 特征观察与处理2.3.1 分箱(离散化)处理2.3.2 文本变量转换二、练习数据的处理1、处理步骤一、基础知识1、缺失值的查看和处理1.2 缺失值的查看##查看缺失值#方法一:isnull() ##isnull()替换成notnull()就是统计非缺失值数
2020-08-21 23:01:57 284
原创 Task 1:数据载入及初步观察_笔记
Task 1:数据载入及初步观察_笔记1、读取和保存文件1.1相对路径/绝对路径1.2 read_csv()的参数使用2、Pandas两常用数据结构(Series和Dataframe)2.1 Series的构建与使用2.2DataFrame的构建与使用2.2.1 DataFrame的构建2.2.2 DataFrame的使用1)DataFrame数据的查看,元素,列行获取2)DataFrame 列行删除3)Dataframe 条件筛选4)Dtaframe 的排序5)查看基本统计信息1、读取和保存文件读取:
2020-08-19 23:46:06 194
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人