猛男技术控
苦心钻研!
勇于实践!
不负韶华!
展开
-
大数据作业——泰坦尼克号数据分析
文章目录一、应用案例介绍二、数据内容数据来源数据预览数据统计数据分析数据预处理船舱等级与生存率的关系性别与生存率的关系登陆港口与生存率的关系有父母和小孩与生存率的关系一、应用案例介绍泰坦尼克号的沉没是历史上最臭名昭著的海难之一。1912年4月15日,在她的处女航中,被广泛认为的“沉没” RMS泰坦尼克号与冰山相撞后沉没。不幸的是,船上没有足够的救生艇供所有人使用,导致2224名乘客和机组人员中的1502人死亡。虽然幸存有一些运气,但似乎有些人比其他人更有可能生存。针对其生存与遇难的人的数据,来分析原创 2020-11-21 21:20:06 · 11728 阅读 · 5 评论 -
大数据预测实战-随机森林预测实战(四)-模型微调
接下来介绍下一位参赛选手——GridSearchCV(),它要做的事情就跟其名字一样,进行网络搜索,也就是一个一个地遍历,不能放过任何一个可能的参数组合。就像之前说的组合有多少种,就全部走一遍,使用方法与 RandomizedSearchCV()基本一致,只不过名字不同罢了。from sklearn.model_selection import GridSearchCV# 网络搜索param_grid = { 'bootstrap': [True], 'max_depth': [8,原创 2021-02-03 20:49:48 · 1371 阅读 · 0 评论 -
大数据预测实战-随机森林预测实战(四)-模型调参
之前对比分析的主要是数据和特征层面,还有另一部分非常重要的工作等着大家去做,就是模型调参问题,在实验的最后,看一下对于树模型来说,应当如何进行参数调节。调参是机器学习必经的一步,很多方法和经验并不是某一个算法特有的,基本常规任务都可以用于参考。先来看看那些参数可供选择from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor(random_state = 42)from pprint import p原创 2021-02-03 18:59:15 · 2408 阅读 · 0 评论 -
大数据预测实战-随机森林预测实战(三)-数据量对结果影响分析
下面对比一下特征数量对结果的影响,之前两次比较没有加入新的天气特征,这次把降水、风速、积雪 3 项特征加入数据集中,看看效果怎样∶# 准备加入新的特征from sklearn.ensemble import RandomForestRegressorrf_exp = RandomForestRegressor(n_estimators= 100, random_state=0)rf_exp.fit(train_features, train_labels)# 同样的测试集prediction原创 2021-02-03 17:51:54 · 2740 阅读 · 0 评论 -
大数据预测实战-随机森林预测实战(三)-数据量对结果影响分析
数据量对结果影响分析接下来就要进行一系列对比实验,第一个问题就是当数据量增多时,使用同样的方法建模,结果会不会发生改变呢? 还是先切分新的数据集吧∶# 独热编码features = pd.get_dummies(features)# 提取特征和标签labels = features['actual']features = features.drop('actual', axis = 1)# 特征名字留着备用feature_list = list(features.columns)#原创 2021-02-03 17:13:51 · 2300 阅读 · 1 评论 -
大数据预测实战-随机森林预测实战(三)-数据与特征对模型的影响
数据与特征对随机森林的影响带着上节提出的问题,重新读取规模更大的数据,任务还是保持不变,需要分别观察数据量和特征的选寸结果的影响。导入工具包import pandas as pd读取数据features = pd.read_csv('data/temps_extended.csv')features新的数据中,数据规模发生了变化,数据量扩充到了2191条并且加入了新的天气指标:ws_1:前一天的风速prcp_1: 前一天的降水snwd_1:前一天的积雪深度既然有了新的特征,先来看看原创 2021-02-03 17:05:22 · 2190 阅读 · 0 评论 -
大数据预测实战-随机森林预测实战(二)-随机森林回归模型
随机森林气温预测数据+代码随机森林回归模型万事俱备,我们可以来建立随机森林模型啦,首先导入工具包,先建立1000个树试试吧,其他参数先用默认值,之后我们会再深入到调参任务中:# 导入算法from sklearn.ensemble import RandomForestRegressor# 建模rf = RandomForestRegressor(n_estimators= 1000, random_state=42)# 训练rf.fit(train_features, train_lab原创 2021-02-03 16:31:02 · 25680 阅读 · 5 评论 -
大数据预测实战-随机森林预测实战(一)-数据预处理
数据读取气温预测的任务目标就是使用一份天气相关数据来预测某一天的最高温度,属于回归任务,首先观察一下数据集∶# 数据读取import pandas as pdfeatures = pd.read_csv('data/temps.csv')features.head(5)该项目实战主要完成以下 3 项任务。使用随机森林算法完成基本建模任务∶包括数据预处理、特征展示、完成建模并进行可视化展示分析。分析数据样本量与特征个数对结果的影响∶在保证算法一致的前提下,增加数据样本个数,观察结果变原创 2021-02-03 12:49:07 · 9309 阅读 · 4 评论 -
大数据分析实战-信用卡欺诈检测(七)-过采样方案及项目总结
大数据分析实战-信用卡欺诈检测(一)大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证大数据分析实战-信用卡欺诈检测(三)- 模型评估大数据分析实战-信用卡欺诈检测(四)-正则化惩罚大数据分析实战-信用卡欺诈检测(五)-逻辑回归模型大数据分析实战-信用卡欺诈检测(六)-混淆矩阵过采样SMOTE 数据生成策略如何才能让异常样本与正常样本一样多呢?这里需要对少数样本进行生成,这可不是复制粘贴,一模一样的样本是没有用的,需要采用一些策略,最常用的就是 SMOTE 算法(见图 6-16),其原创 2021-02-02 18:47:30 · 2124 阅读 · 0 评论 -
大数据分析实战-信用卡欺诈检测(六)-混淆矩阵
大数据分析实战-信用卡欺诈检测(一)大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证大数据分析实战-信用卡欺诈检测(三)- 模型评估大数据分析实战-信用卡欺诈检测(四)-正则化惩罚大数据分析实战-信用卡欺诈检测(五)-逻辑回归模型混淆矩阵预测结果明确之后,还可以更直观地进行展示,这时候混淆矩阵就派上用场了。混淆矩阵中用到的指标值前面已经解释过,既然已经训练好模型,就可以展示其结果,这里用到 Matplotlib 工具包,大家可以把下面的代码当成一个混淆矩阵模板,用的时候,只需传入自原创 2021-02-02 15:56:07 · 1257 阅读 · 0 评论 -
大数据分析实战-信用卡欺诈检测(五)-逻辑回归模型
大数据分析实战-信用卡欺诈检测(一)大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证[大数据分析实战-信用卡欺诈检测(三)- 模型评估]0(https://xiaobaibubai.blog.csdn.net/article/details/113542073)大数据分析实战-信用卡欺诈检测(四)-正则化惩罚逻辑回归模型参数对结果的影响在逻辑回归算法中,涉及的参数比较少,这里仅对正则化惩罚力度进行调参实验,为了对比分析交叉验证的效果,对不同验证集分别进行建模与评估分析,代码如下∶#原创 2021-02-02 14:26:38 · 1295 阅读 · 0 评论 -
大数据分析实战-信用卡欺诈检测(四)-正则化惩罚
大数据分析实战-信用卡欺诈检测(一)大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证大数据分析实战-信用卡欺诈检测(三)- 模型评估文章目录正则化惩罚正则化惩罚正则化惩罚,这个名字看起来有点别扭, 什么要惩罚呢?先来解释一下过拟合的含义。建模的出发点就是尽可能多地满足样本数据,在图6-11中,图6-11(a)中直线看起来有点简单,没有满足大部分数据样本点,这种情况就是欠拟合,究其原因,可能由于模型本身过于简单所导致。再来看图6-1(b),比图6-11(a)所示模型稍微复杂些,可以满足大原创 2021-02-02 11:16:12 · 701 阅读 · 0 评论 -
大数据分析实战-信用卡欺诈检测(三)- 模型评估
大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证大数据分析实战-信用卡欺诈检测(一)文章目录模型评估方法模型评估方法接下来,没错,还没到实际建模任务,还需要考虑模型的评估方法,为什么建模之前要考虑整个过程呢?因为建模是一个过程,需要优先考虑如何评估其价值,而不是仅仅提供一堆模型参数值。准确率是分类问题中最常使用的一个参数,用于说明在整体中做对了多少。下面举一个与这份数据集相似的例子∶医院中有1000个病人,其中10个患癌,990个没有患癌,需要建立一个模型来区分他们。假设模型认为病人都没原创 2021-02-02 10:57:49 · 1571 阅读 · 0 评论 -
大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证
第一部分已经写到这里了,看完第一部分再看这一部分:大数据分析实战-信用卡欺诈检测文章目录下采样方案下采样方案下采样方案的实现过程比较简单,只需要对正常样本进行采样,得到与异常样本一样多的个数即可,代码如下∶# 下采样# x是所有的非class行,y是class行,相当于把数据切分成了两部分x =data.loc[:,data.columns != 'Class']y =data.loc[:,data.columns == 'Class']# 统计交易异常的列数并取出indexnumbe原创 2021-02-02 10:36:14 · 1066 阅读 · 0 评论 -
大数据分析实战-信用卡欺诈检测
文章目录数据分析与预处理数据读取与分析样本不均衡解决方案特征标准化数据分析与预处理假设有一份信用卡交易记录,遗憾的是数据经过了脱敏处理,只知道其特征,却不知道每一个字段代表什么含义,没关系,就当作是一个个数据特征。在数据中有两种类别,分别是正常交易数据和异常交易数据,字段中有明确的标识符。要做的任务就是建立逻辑回归模型,以对这两类数据进行分类,看起来似乎很容易,但实际应用时会出现各种问题等待解决。熟悉任务目标后,第一个想法可能是直接把数据传到算法模型中,得到输出结果就好了。其实并不是这样,在机器学习原创 2021-02-01 16:16:44 · 2303 阅读 · 0 评论 -
大数据分析必须要会的数据处理技巧!!!
文章目录数值类型转换属性类型转换使用Pandas 工具包可以处理千万级别的数据量,但读取过于庞大的数据特征时,经常会遇到内存溢出等问题。估计绝大多数读者使用的笔记本电脑都是8GB内存,没关系,这里教给大家一些大数据处理技巧,使其能够占用更少内存。数值类型转换这里我们读取20年C题的一个数据。其数据已经上传到了这里,可以自行下载:数学建模美赛2020C题数据以及优秀o奖论文输出结果显示这份数据读取进来后占用17.8MB内存,数据类型主要有2种,其中,float64类型有 5个特征,object类型原创 2021-01-31 23:55:57 · 1352 阅读 · 0 评论 -
表格数据画图神器-pandas画图操作
如果对数据进行简单绘图也可以直接用Pandas 工具包,1行代码就能进行基本展示,但是,如果想把图绘制得更完美一些,还需要使用专门的工具包,例如 Matplotlib、Seaborn等,这里先演示Pandas中基本绘图方法∶虽然直接对数据执行 plot()操作就可以完成基本绘制,但是,如果想要加入一些细节,就需要使用 Matplotlib 工具包(下一章还会专门讲解),例如要同时展示两个图表,就要用到子图∶# 在 Notebook 中使用绘图操作需要先执行此命令%matplotlib inlinei原创 2021-01-31 22:46:09 · 929 阅读 · 0 评论 -
pandas时间处理操作
时间操作在机器学习建模中,从始至终都是尽可能多地利用数据所提供的信息,当然时间特征也不例外。当拿到一份时间特征时,最好还是将其转换成标准格式,这样在提取特征时更方便一些∶时间特征只需要满足标准格式就可以调用各种函数和属性了,上述操作通过时间提取了当前具体的年、月、日等指标。一旦转换成标准格式,注意其dtype类型,就可以调用各种属性进行统计分析了∶如果数据中没有给定具体的时间特征,也可以自己来创建,例如知道数据的采集时间,并且每条数据都是固定时间间隔保存下来的∶读取数据时,如果想以时间特征原创 2021-01-31 22:30:15 · 380 阅读 · 0 评论 -
大数据分析必须要会的python函数操作!!!
这里以2020年美赛C题为例,用实战进行数据处理的学习。其数据已经上传到了这里,可以自行下载:数学建模美赛2020C题数据以及优秀o奖论文Merge操作首先我们自己创建一些小数据来直观的看一下操作。现在按照key 列把两份数据整合在一起了,key列在 left 和right 两份数据中恰好都一样,试想∶如果不相同,结果会发生变化吗?细心的读者应该发现,两份数据key1列和key2列的前3行都相同,但是第4行的值不同,这会对结果产生什么影响吗?输出结果显示前3行相同的都组合在一起了,但是第原创 2021-01-31 22:27:59 · 659 阅读 · 1 评论 -
大数据分析必须要会的数据透视表!!!
这里以2020年美赛C题为例,用实战进行数据处理的学习。其数据已经上传到了这里,可以自行下载:数学建模美赛2020C题数据以及优秀o奖论文pivot做透视图首先我们自己创建一些小数据来直观的看一下操作。其中Category表示把钱花在什么用途上(如交通运输、家庭、娱乐等费用),Month表示统计月份, Amount 表示实际的花费。下面要统计的就是每个月花费在各项用途上的金额分别是多少;其中 Pclass 表示船舱等级,Fare表示船票的价格。这里表示按乘客的性别分别统计各个舱位购票的平原创 2021-01-30 23:00:17 · 841 阅读 · 0 评论 -
大数据分析必须要会的统计分析!!!
文章目录统计分析这里以2020年美赛C题为例,用实战进行数据处理的学习。其数据已经上传到了这里,可以自行下载:数学建模美赛2020C题数据以及优秀o奖论文统计分析拿到特征之后可以分析的指标比较多,例如均值、最大值、最小值等均可以直接调用其属性获得。先用字典结构创建一个简单的 DataFrame,既可以传入数据,也可以指定索引和列名∶同理均值 df.mean()、中位数 df.median()、最大值 df.max()、最小值 df.min()等操作的计算方式都相同。这里对销售C题中的销售数据原创 2021-01-30 21:10:26 · 1252 阅读 · 0 评论 -
大数据分析必须要会的数据预处理操作(二)!!!
DataFrame,Series原创 2021-01-30 19:02:53 · 661 阅读 · 0 评论 -
大数据分析必须要会的数据预处理操作(一)!!!
文章目录pandas基础函数读取并查看DataFrame结构info()返回索引特征名称数据类型获得数值矩阵数据索引,取某列的值修改索引位置索引.iloc()前五行数据.loc()用标签找数据布尔类型当索引这里以2020年美赛C题为例,用实战进行数据处理的学习。其数据已经上传到了这里,可以自行下载:数学建模美赛2020C题数据以及优秀o奖论文pandas基础函数读取并查看注意,这里是tsv文件,所以我们可以用sep参数,设置其以换行符隔开(一般的csv是以逗号隔开的)。import pandas原创 2021-01-30 18:46:13 · 1484 阅读 · 3 评论 -
python数值计算
SymPysympy是python的一个科学计算库,用强大的符号计算体系完成诸如多项式求值,求极限,求导,解放长求积分,解微分方程,级数展开,矩阵运算等功能。如:常用的sympy内置符号自然对数:sympy.E无穷大:sympy.oo(是字母oo)圆周率π:sumpy.pyimport sympyimport numpy as npprint(np.double(sympy.log(sympy.E*sympy.pi)))2.1447298858494用sympy进行初等运算常原创 2021-01-16 13:52:20 · 2943 阅读 · 0 评论 -
numpy数组合并,矩阵拼接
来自博客园直接合并将两个一维数组合并成一个二维数组:import torchimport numpy as npimport matplotlib.pyplot as plta = np.arange(0,15,0.1)b = 1.088 * a + 0.638 + np.random.rand() * 10print(a.shape,b.shape)points = np.array([a,b])print(points.shape)(150,) (150,)(2, 150.原创 2021-01-13 16:17:22 · 4630 阅读 · 1 评论 -
呕心沥血干完K-Means聚类——深度AI科普团队
K-Means简介K-Means 是一种非监督学习。K 代表的是 K 类,Means 代表的是中心,它有点像全自动分类。聚类方法几乎可以应用于所有对象,簇内的对象越相似,聚类的效果越好。你可以理解这个算法的本质是确定 K 类的中心点,当你找到了这些中心点,也就完成了聚类。所以我们要解决的就是:如何确定 K 类的中心点?如何将其他点划分到 K 类中?对亚洲足球队的水平,你可能也有自己的判断。比如一流的亚洲球队有谁?你可能会说伊朗或韩国。二流的亚洲球队呢?你可能说是中国。三流的亚洲球队呢?.原创 2020-12-08 10:48:56 · 495 阅读 · 0 评论 -
这就是数据分析之数据可视化基础概念及工具
图片在内容表达上,要远胜于文字,它不仅能体现数据真实性,还能给人很大的想象空间。如果你想做一名数据分析师,那么掌握可视化技能是必不可少的,因为在大部分情况下,老板更关心呈现的结果。数据可视化的视图都有哪些?我们常用的可视化视图超过 20 种,分别包括:文本表、热力图、地图、符号地图、饼图、水平条、堆叠条、并排条、树状图、圆视图、并排圆、线、双线、面积图、双组合、散点图、直方图、盒须图、甘特图、靶心图、气泡图等。你不用记住这些视图名称都是什么,因为在可视化工具中,操作面板上都会有这些图形可供选择。你看一原创 2020-12-05 00:01:46 · 1302 阅读 · 0 评论 -
这就是数据分析之数据变换
如果一个人在百分制的考试中得了 95 分,你肯定会认为他学习成绩很好,如果得了 65 分,就会觉得他成绩不好。如果得了 80 分呢?你会觉得他成绩中等,因为在班级里这属于大部分人的情况。为什么会有这样的认知呢?这是因为我们从小到大的考试成绩基本上都会满足正态分布的情况。什么是正态分布呢?正态分布也叫作常态分布,就是正常的状态下,呈现的分布情况。比如你可能会问班里的考试成绩是怎样的?这里其实指的是大部分同学的成绩如何。以下图为例,在正态分布中,大部分人的成绩会集中在中间的区域,少部分人处于两头的位置。正原创 2020-12-04 23:11:30 · 1017 阅读 · 0 评论 -
这就是数据分析之数据集成
什么是数据集成我们采集的数据经常会有冗余重复的情况。举个简单的例子,假设你是一个网络综艺节目的制片人,一共有 12 期节目,你一共打算邀请 30 位明星作为节目的嘉宾。你知道这些明星影响力都很大,具体在微博上的粉丝数都有标记。于是你想统计下,这些明星一共能直接影响到微博上的多少粉丝,能产生多大的影响力。然后你突然发现,这些明星的粉丝数总和超过了 20 亿。那么他们一共会影响到中国 20 亿人口么?显然不是的,我们都知道中国人口一共是 14 亿,这 30 位明星的影响力总和不会覆盖中国所有人口。那么如何原创 2020-12-04 18:06:02 · 2012 阅读 · 0 评论 -
对!这就是你要的pandas练习题(❤️❤️)
将下面的字典创建为DataFrame提取含有字符串"Python"的行题目:修改列名题目:统计grammer列中每种编程语言出现的次数提取csore列中值大于3的行数据去重计算某列平均值将某列转换为list提取popularity列最大值所在行对某列值的大小进行排序取出某一行计算salary列的中位数...原创 2020-12-04 17:38:52 · 342 阅读 · 0 评论 -
这就是数据分析之数据采集
数据主要分以下四类:开放数据源一般是针对行业的数据库。比如美国人口调查局开放了美国的人口信息、地区分布和教育情况数据。除了政府外,企业和高校也会开放相应的大数据,这方面北美相对来说做得好一些。国内,贵州做了不少大胆尝试,搭建了云平台,逐年开放了旅游、交通、商务等领域的数据量。爬虫抓取,一般是针对特定的网站或 App。如果我们想要抓取指定的网站数据,比如购物网站上的购物评价等,就需要我们做特定的爬虫抓取。第三类数据源是传感器,它基本上采集的是物理信息。比如图像、视频、或者某个物体的速度、热度、压强等。原创 2020-12-04 17:04:02 · 693 阅读 · 0 评论 -
对!这就是你要的pandas数据清洗练习题(❤️)
将下面的字典创建为DataFrame输出df的所有列名查看数据行列数查看前5行数据查看最后5行数据保存到csv文件读取csv文件存写Excel文件题目:查看索引、数据类型和内存信息题目:查看数值型列的汇总统计题目:删除某一列题目:删除某一行数据题目:查看每列的数据类型题目:重置data的行号题目:修改列名...原创 2020-12-03 19:56:53 · 1028 阅读 · 0 评论 -
这就是数据分析之Pandas与数据清洗
总括在数据分析工作中,Pandas 的使用频率是很高的,一方面是因为 Pandas 提供的基础数据结构 DataFrame 与 json 的契合度很高,转换起来就很方便。另一方面,如果我们日常的数据清理工作不是很复杂的话,你通常用几句 Pandas 代码就可以对数据进行规整。Pandas 可以说是基于 NumPy 构建的含有更高级数据结构和分析能力的工具包。在 NumPy 中数据结构是围绕 ndarray 展开的,那么在 Pandas 中的核心数据结构是什么呢?下面主要给你讲下 Series 和 Da原创 2020-12-03 09:59:05 · 773 阅读 · 0 评论 -
这就是数据分析之numpy
之前已经写过python环境的配置以及安装等教程了。不会的可以看这个。https://xiaobaibubai.blog.csdn.net/article/details/109777532原创 2020-12-02 23:51:59 · 273 阅读 · 0 评论 -
这就是数据分析之算法认知
数据挖掘基本流程商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,实现自己的需求,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完成数据挖掘前的准备工作。模型建立:选择和应用各种数据挖掘模型,并进行优化,以便得到更好的分类结果。模型评估:对模型进行评价,并检查构建模型的每个步原创 2020-12-02 20:34:53 · 380 阅读 · 0 评论 -
这就是数据分析之数据分析入门
MAS 方法:Multi-Dimension:想要掌握一个事物,就要从多个角度去认识它。Ask:不懂就问,程序员大多都很羞涩,突破这一点,不懂就问最重要。Sharing:最好的学习就是分享。用自己的语言讲出来,是对知识的进一步梳理。概述数据分析主要有以下三部分数据采集:任何分析都要有数据源,它是我们的原材料。数据挖掘:之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务。因此数据挖掘的核心是挖掘数据的商业价值,也就是我们所谈的商业智能 BI。数据可视化:它可以说是数据领域中万金原创 2020-12-02 20:23:08 · 381 阅读 · 0 评论