猛男技术控
苦心钻研!
勇于实践!
不负韶华!
展开
-
从入门到入土——足够你拿国奖的数学建模资料
刚清理文档发现自己整理了好多资料,删了挺可惜的,毕竟自己做建模拿的成绩全靠这些资料,就拿出来分享下吧!注意:分享的虽多,但勿贪多,自己好好消化一个算法,一个赛题,比囫囵吞枣看了所有的都要强!!!570G 不管是小白还是老s机,总有适合你的资料。数学建模的各种类型,建议实战为主主要包含内容:好多好多,上图为敬!!!原创 2022-09-27 18:34:07 · 336 阅读 · 0 评论 -
大数据预测实战-随机森林预测实战(四)-模型微调
接下来介绍下一位参赛选手——GridSearchCV(),它要做的事情就跟其名字一样,进行网络搜索,也就是一个一个地遍历,不能放过任何一个可能的参数组合。就像之前说的组合有多少种,就全部走一遍,使用方法与 RandomizedSearchCV()基本一致,只不过名字不同罢了。from sklearn.model_selection import GridSearchCV# 网络搜索param_grid = { 'bootstrap': [True], 'max_depth': [8,原创 2021-02-03 20:49:48 · 1417 阅读 · 0 评论 -
大数据预测实战-随机森林预测实战(四)-模型调参
之前对比分析的主要是数据和特征层面,还有另一部分非常重要的工作等着大家去做,就是模型调参问题,在实验的最后,看一下对于树模型来说,应当如何进行参数调节。调参是机器学习必经的一步,很多方法和经验并不是某一个算法特有的,基本常规任务都可以用于参考。先来看看那些参数可供选择from sklearn.ensemble import RandomForestRegressorrf = RandomForestRegressor(random_state = 42)from pprint import p原创 2021-02-03 18:59:15 · 2424 阅读 · 0 评论 -
大数据预测实战-随机森林预测实战(三)-数据量对结果影响分析
下面对比一下特征数量对结果的影响,之前两次比较没有加入新的天气特征,这次把降水、风速、积雪 3 项特征加入数据集中,看看效果怎样∶# 准备加入新的特征from sklearn.ensemble import RandomForestRegressorrf_exp = RandomForestRegressor(n_estimators= 100, random_state=0)rf_exp.fit(train_features, train_labels)# 同样的测试集prediction原创 2021-02-03 17:51:54 · 2776 阅读 · 0 评论 -
大数据预测实战-随机森林预测实战(三)-数据量对结果影响分析
数据量对结果影响分析接下来就要进行一系列对比实验,第一个问题就是当数据量增多时,使用同样的方法建模,结果会不会发生改变呢? 还是先切分新的数据集吧∶# 独热编码features = pd.get_dummies(features)# 提取特征和标签labels = features['actual']features = features.drop('actual', axis = 1)# 特征名字留着备用feature_list = list(features.columns)#原创 2021-02-03 17:13:51 · 2321 阅读 · 1 评论 -
大数据预测实战-随机森林预测实战(三)-数据与特征对模型的影响
数据与特征对随机森林的影响带着上节提出的问题,重新读取规模更大的数据,任务还是保持不变,需要分别观察数据量和特征的选寸结果的影响。导入工具包import pandas as pd读取数据features = pd.read_csv('data/temps_extended.csv')features新的数据中,数据规模发生了变化,数据量扩充到了2191条并且加入了新的天气指标:ws_1:前一天的风速prcp_1: 前一天的降水snwd_1:前一天的积雪深度既然有了新的特征,先来看看原创 2021-02-03 17:05:22 · 2221 阅读 · 0 评论 -
大数据预测实战-随机森林预测实战(二)-随机森林回归模型
随机森林气温预测数据+代码随机森林回归模型万事俱备,我们可以来建立随机森林模型啦,首先导入工具包,先建立1000个树试试吧,其他参数先用默认值,之后我们会再深入到调参任务中:# 导入算法from sklearn.ensemble import RandomForestRegressor# 建模rf = RandomForestRegressor(n_estimators= 1000, random_state=42)# 训练rf.fit(train_features, train_lab原创 2021-02-03 16:31:02 · 25840 阅读 · 5 评论 -
大数据分析实战-信用卡欺诈检测(七)-过采样方案及项目总结
大数据分析实战-信用卡欺诈检测(一)大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证大数据分析实战-信用卡欺诈检测(三)- 模型评估大数据分析实战-信用卡欺诈检测(四)-正则化惩罚大数据分析实战-信用卡欺诈检测(五)-逻辑回归模型大数据分析实战-信用卡欺诈检测(六)-混淆矩阵过采样SMOTE 数据生成策略如何才能让异常样本与正常样本一样多呢?这里需要对少数样本进行生成,这可不是复制粘贴,一模一样的样本是没有用的,需要采用一些策略,最常用的就是 SMOTE 算法(见图 6-16),其原创 2021-02-02 18:47:30 · 2148 阅读 · 0 评论 -
大数据分析实战-信用卡欺诈检测(六)-混淆矩阵
大数据分析实战-信用卡欺诈检测(一)大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证大数据分析实战-信用卡欺诈检测(三)- 模型评估大数据分析实战-信用卡欺诈检测(四)-正则化惩罚大数据分析实战-信用卡欺诈检测(五)-逻辑回归模型混淆矩阵预测结果明确之后,还可以更直观地进行展示,这时候混淆矩阵就派上用场了。混淆矩阵中用到的指标值前面已经解释过,既然已经训练好模型,就可以展示其结果,这里用到 Matplotlib 工具包,大家可以把下面的代码当成一个混淆矩阵模板,用的时候,只需传入自原创 2021-02-02 15:56:07 · 1276 阅读 · 0 评论 -
大数据分析实战-信用卡欺诈检测(五)-逻辑回归模型
大数据分析实战-信用卡欺诈检测(一)大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证[大数据分析实战-信用卡欺诈检测(三)- 模型评估]0(https://xiaobaibubai.blog.csdn.net/article/details/113542073)大数据分析实战-信用卡欺诈检测(四)-正则化惩罚逻辑回归模型参数对结果的影响在逻辑回归算法中,涉及的参数比较少,这里仅对正则化惩罚力度进行调参实验,为了对比分析交叉验证的效果,对不同验证集分别进行建模与评估分析,代码如下∶#原创 2021-02-02 14:26:38 · 1319 阅读 · 0 评论 -
大数据分析实战-信用卡欺诈检测(四)-正则化惩罚
大数据分析实战-信用卡欺诈检测(一)大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证大数据分析实战-信用卡欺诈检测(三)- 模型评估文章目录正则化惩罚正则化惩罚正则化惩罚,这个名字看起来有点别扭, 什么要惩罚呢?先来解释一下过拟合的含义。建模的出发点就是尽可能多地满足样本数据,在图6-11中,图6-11(a)中直线看起来有点简单,没有满足大部分数据样本点,这种情况就是欠拟合,究其原因,可能由于模型本身过于简单所导致。再来看图6-1(b),比图6-11(a)所示模型稍微复杂些,可以满足大原创 2021-02-02 11:16:12 · 721 阅读 · 0 评论 -
大数据分析实战-信用卡欺诈检测(三)- 模型评估
大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证大数据分析实战-信用卡欺诈检测(一)文章目录模型评估方法模型评估方法接下来,没错,还没到实际建模任务,还需要考虑模型的评估方法,为什么建模之前要考虑整个过程呢?因为建模是一个过程,需要优先考虑如何评估其价值,而不是仅仅提供一堆模型参数值。准确率是分类问题中最常使用的一个参数,用于说明在整体中做对了多少。下面举一个与这份数据集相似的例子∶医院中有1000个病人,其中10个患癌,990个没有患癌,需要建立一个模型来区分他们。假设模型认为病人都没原创 2021-02-02 10:57:49 · 1591 阅读 · 0 评论 -
大数据分析实战-信用卡欺诈检测(二)-下采样方案和交叉验证
第一部分已经写到这里了,看完第一部分再看这一部分:大数据分析实战-信用卡欺诈检测文章目录下采样方案下采样方案下采样方案的实现过程比较简单,只需要对正常样本进行采样,得到与异常样本一样多的个数即可,代码如下∶# 下采样# x是所有的非class行,y是class行,相当于把数据切分成了两部分x =data.loc[:,data.columns != 'Class']y =data.loc[:,data.columns == 'Class']# 统计交易异常的列数并取出indexnumbe原创 2021-02-02 10:36:14 · 1085 阅读 · 0 评论 -
大数据分析实战-信用卡欺诈检测
文章目录数据分析与预处理数据读取与分析样本不均衡解决方案特征标准化数据分析与预处理假设有一份信用卡交易记录,遗憾的是数据经过了脱敏处理,只知道其特征,却不知道每一个字段代表什么含义,没关系,就当作是一个个数据特征。在数据中有两种类别,分别是正常交易数据和异常交易数据,字段中有明确的标识符。要做的任务就是建立逻辑回归模型,以对这两类数据进行分类,看起来似乎很容易,但实际应用时会出现各种问题等待解决。熟悉任务目标后,第一个想法可能是直接把数据传到算法模型中,得到输出结果就好了。其实并不是这样,在机器学习原创 2021-02-01 16:16:44 · 2339 阅读 · 0 评论 -
大数据分析必须要会的数据处理技巧!!!
文章目录数值类型转换属性类型转换使用Pandas 工具包可以处理千万级别的数据量,但读取过于庞大的数据特征时,经常会遇到内存溢出等问题。估计绝大多数读者使用的笔记本电脑都是8GB内存,没关系,这里教给大家一些大数据处理技巧,使其能够占用更少内存。数值类型转换这里我们读取20年C题的一个数据。其数据已经上传到了这里,可以自行下载:数学建模美赛2020C题数据以及优秀o奖论文输出结果显示这份数据读取进来后占用17.8MB内存,数据类型主要有2种,其中,float64类型有 5个特征,object类型原创 2021-01-31 23:55:57 · 1366 阅读 · 0 评论 -
表格数据画图神器-pandas画图操作
如果对数据进行简单绘图也可以直接用Pandas 工具包,1行代码就能进行基本展示,但是,如果想把图绘制得更完美一些,还需要使用专门的工具包,例如 Matplotlib、Seaborn等,这里先演示Pandas中基本绘图方法∶虽然直接对数据执行 plot()操作就可以完成基本绘制,但是,如果想要加入一些细节,就需要使用 Matplotlib 工具包(下一章还会专门讲解),例如要同时展示两个图表,就要用到子图∶# 在 Notebook 中使用绘图操作需要先执行此命令%matplotlib inlinei原创 2021-01-31 22:46:09 · 947 阅读 · 0 评论 -
pandas时间处理操作
时间操作在机器学习建模中,从始至终都是尽可能多地利用数据所提供的信息,当然时间特征也不例外。当拿到一份时间特征时,最好还是将其转换成标准格式,这样在提取特征时更方便一些∶时间特征只需要满足标准格式就可以调用各种函数和属性了,上述操作通过时间提取了当前具体的年、月、日等指标。一旦转换成标准格式,注意其dtype类型,就可以调用各种属性进行统计分析了∶如果数据中没有给定具体的时间特征,也可以自己来创建,例如知道数据的采集时间,并且每条数据都是固定时间间隔保存下来的∶读取数据时,如果想以时间特征原创 2021-01-31 22:30:15 · 390 阅读 · 0 评论 -
大数据分析必须要会的python函数操作!!!
这里以2020年美赛C题为例,用实战进行数据处理的学习。其数据已经上传到了这里,可以自行下载:数学建模美赛2020C题数据以及优秀o奖论文Merge操作首先我们自己创建一些小数据来直观的看一下操作。现在按照key 列把两份数据整合在一起了,key列在 left 和right 两份数据中恰好都一样,试想∶如果不相同,结果会发生变化吗?细心的读者应该发现,两份数据key1列和key2列的前3行都相同,但是第4行的值不同,这会对结果产生什么影响吗?输出结果显示前3行相同的都组合在一起了,但是第原创 2021-01-31 22:27:59 · 673 阅读 · 1 评论 -
大数据分析必须要会的数据透视表!!!
这里以2020年美赛C题为例,用实战进行数据处理的学习。其数据已经上传到了这里,可以自行下载:数学建模美赛2020C题数据以及优秀o奖论文pivot做透视图首先我们自己创建一些小数据来直观的看一下操作。其中Category表示把钱花在什么用途上(如交通运输、家庭、娱乐等费用),Month表示统计月份, Amount 表示实际的花费。下面要统计的就是每个月花费在各项用途上的金额分别是多少;其中 Pclass 表示船舱等级,Fare表示船票的价格。这里表示按乘客的性别分别统计各个舱位购票的平原创 2021-01-30 23:00:17 · 860 阅读 · 0 评论 -
大数据分析必须要会的统计分析!!!
文章目录统计分析这里以2020年美赛C题为例,用实战进行数据处理的学习。其数据已经上传到了这里,可以自行下载:数学建模美赛2020C题数据以及优秀o奖论文统计分析拿到特征之后可以分析的指标比较多,例如均值、最大值、最小值等均可以直接调用其属性获得。先用字典结构创建一个简单的 DataFrame,既可以传入数据,也可以指定索引和列名∶同理均值 df.mean()、中位数 df.median()、最大值 df.max()、最小值 df.min()等操作的计算方式都相同。这里对销售C题中的销售数据原创 2021-01-30 21:10:26 · 1270 阅读 · 0 评论 -
大数据分析必须要会的数据预处理操作(二)!!!
DataFrame,Series原创 2021-01-30 19:02:53 · 672 阅读 · 0 评论 -
大数据分析必须要会的数据预处理操作(一)!!!
文章目录pandas基础函数读取并查看DataFrame结构info()返回索引特征名称数据类型获得数值矩阵数据索引,取某列的值修改索引位置索引.iloc()前五行数据.loc()用标签找数据布尔类型当索引这里以2020年美赛C题为例,用实战进行数据处理的学习。其数据已经上传到了这里,可以自行下载:数学建模美赛2020C题数据以及优秀o奖论文pandas基础函数读取并查看注意,这里是tsv文件,所以我们可以用sep参数,设置其以换行符隔开(一般的csv是以逗号隔开的)。import pandas原创 2021-01-30 18:46:13 · 1503 阅读 · 3 评论 -
2019美赛C题论文解读
文章目录题目分析题目分析三步骤题目翻译解读题干问题第1部分第2部分第3部分第4部分题目切入点及模型选择针对第一问数据清洗可能出现的位置题目分析题目分析三步骤这是个什么样的题需要我们干什么我们需要做什么美赛的问题可能说的很模糊,很笼统,这就要我们自己去消化理解。题目翻译数据附件可在这里下载:2019美赛C题数据+O奖论文解读题干他就是说在美国有个毒品叫阿片,然后给了我们两种数据。一种数据是联邦、州和地方法医实验室分析的毒品案件的毒品鉴定结果和相关信息。就是给了五个州,然后这五个原创 2021-01-26 17:37:46 · 10782 阅读 · 9 评论 -
数学建模美赛初识
文章目录什么叫数学建模数学模型数学建模建模步骤数学建模有什么问题数据处理问题关联与因果分类与判别评价与决策预测与预报优化与控制什么叫数学建模数学模型数学建模建模步骤模型建立:算法创新、算法改进、参数改进+模型求解:将数据代入模型中(数据可能有很多错误,要进行预处理、筛选)模型分析:表层分析(根据结果得出的论)+深层分析(根据结果进一步挖掘出的结论)模型检验:模型的正确性模型的应用:模型的可推广性数学建模有什么问题数据处理问题关联与因果分类与判别评价与决策原创 2021-01-08 21:32:32 · 1258 阅读 · 0 评论 -
建模前总结
难点读不懂题目找不到数据完全没有思路相似:如拍照赚钱的题——众包问题,这里可以想到,如出租车或者外卖这种问题,都是类似的。普通问题:最后让我做什么?优化?评价?预测????.思路需要查阅资料,结合已知知识,工作:怎么处理数据,处理信息模型的信息数据解题的关键信息有用的,根本的信息保留中间结果,记录最终结果误差分析:必须知道真实的结果才要做误差分析灵敏度分析:参数的改动对模型的效果有较大影响模型的评价一定要写...原创 2020-09-09 10:18:34 · 809 阅读 · 0 评论 -
建模赛前讲解
不能泄露任何个人信息2组论文2组支撑材料八点之前无限次上传,八点前先熟练下提交过程,十点前,提前半小时提交论文格式为pdf文件大小最多20M9.13----22:00之后不能进行任何操作只能等待上传一二条 承诺书,编号都不用写,获得国奖才写摘要不能超过一页页码一定要有,正文不要目录,尽量在20页之内,可以超过一点要求包含所有程序代码一定要有程序,程序越多越好所有引用必须标注,包括网上资料所有文献必须引用参考文献十篇以内字体颜色等不做统一要求pdf格式大小不能超过2原创 2020-09-08 21:08:52 · 889 阅读 · 0 评论 -
数学建模之时间序列模型及其应用
摘要时间序列模型就是将预测对象按照时间顺序排列起来,用这一组时间序列过去的变化规律,推断今后变化的可能性及变化趋势、变化规律。时间序列模型也是一种回归模型,其一方面承认事物发展的延续性,运用过去的数据来推测事物的发展趋势;另一方面又考虑到偶然因素产生的随机性,为了消除随机波动的影响,利用历史数据,进行统计分析,并对数据进行适当的处理,进行趋势预测。优点是简单易行,便于掌握,能够充分运用原时间序列的各项数据,计算速度快,对模型参数有动态确定的能力,精度较好,采用组合的时间序列或者把时间序列和其他模型组原创 2020-08-12 21:38:42 · 20198 阅读 · 14 评论 -
数学建模之回归分析加例题详解(MATLAB实现)
一元线性回归变量之间的关系大致可分为两大类:确定性的关系:可以用精确的函数关系来表达。例如矩形面积S与边长a,b的关系。非确定性的关系:变量之间既互相联系但又不是完全确定的关系,称为相关关系。例如人的身高与体重、农作物产量与降雨量等的关系。从数量的角度去研究这种非确定性的关系,是数理统计的一个任务. 包括通过观察和试验数据去判断变量之间有无关系,对其关系大小作数量上的估计、推断和预测,等等.回归分析就是研究相关关系的一种重要的数理统计方法.一元正态线性回归模型只有两个变量的回归分析, 称原创 2020-08-03 16:06:14 · 20267 阅读 · 24 评论 -
数学建模、统计学之方差分析
主要用于多组均数 之间的显著性检验。原创 2020-07-31 23:16:03 · 6935 阅读 · 9 评论 -
数学建模之层次分析法及其应用
层次分析法在数学建模中是非常常见的,其原理、应用场景及实例本文里都有。希望能对数学建模爱好者、挑战者提供一些帮助。如有不清楚或错误的地方还望指出。原创 2020-07-28 23:57:16 · 8475 阅读 · 21 评论 -
MATLAB函数随笔画图篇
这些都是我在学习MATLAB与数学建模时遇到的一些常用函数,就在这里写了下。当然MATLAB十分强大,函数众多,这些只是凤毛麟角,这篇博客我也会一直更新有新的函数就接着写上。有不足之处还望指出。原创 2020-07-18 10:03:20 · 4106 阅读 · 26 评论 -
MATLAB函数随笔之计算篇
这些都是我在学习MATLAB与数学建模时遇到的一些常用函数,就在这里写了下。当然MATLAB十分强大,函数众多,这些只是凤毛麟角,这篇博客我也会一直更新有新的函数就接着写上。有不足之处还望指出。原创 2020-07-18 10:00:51 · 7528 阅读 · 29 评论 -
数学建模之十分钟学会LINGO(附建模实战)
Lingo 基本界面打开lingo后会弹出一个对话框,点击 Cancel 左边的 Never Register 即可,其余内容用不到。界面自动弹出名为“Lingo Model – Lingo 1”的窗口,用于书写代码。以解方程的题目: x+1=2x+1=2x+1=2为例,写完代码后,点击“红色的靶心”运行程序。首先 Lingo 会弹出一个名为“Solver Status”的对话框,它显示运行时间等信息。读取到运行时间是 0 时 0 分 0 秒,充分证明了 Lingo 的强大之处。5. 然后,原创 2020-07-15 13:00:51 · 40382 阅读 · 27 评论 -
数学建模之线性规划问题与LINGO软件的使用
写了整整一天,希望能给做建模的小伙伴一点帮助。很用心,新手应该能看懂,其实理论知识也就那样,关键是自己动手实践,里面加了很多例题,希望小伙们们能看懂,我们建模国赛见。原创 2020-07-13 16:51:11 · 12666 阅读 · 35 评论 -
数学建模之传染病SIR模型(新冠真实数据)
这个模型没有做完,但大体还是有的,光这些东西就弄了四天,到了数学建模国赛得多难多累啊,哎,让我这个小白手足无措。毕竟还没有正规的培训,这个模型等期末考完试一定好好做做!!!希望参对大家有写帮助,如有错误还望指出。原创 2020-07-06 11:23:34 · 87395 阅读 · 107 评论 -
数学建模之微分方程(符实现例题和MATLAB源码)
微分方程模型在数学建模中是非常常见的,不仅仅是模型,很多的其他模型也都会用到微分方程。这里我整理了微分方程的基础概念到数学建模实例的详细内容,后面还会些当今最流行的传染病模型,希望能对数学建模爱好者、挑战者提供一些帮助。原创 2020-07-02 16:19:40 · 9527 阅读 · 39 评论 -
想做数学建模?先看看这些MATLAB函数吧!
这里只是大体总结了下,没有给出具体的用法,当你想用某个函数实现某个功能时可以直接 $ctrl+F$ 搜索下面表格中的函数,然后命令行输入 `help 函数`就可以看其详细具体的用法。原创 2020-06-28 19:31:31 · 3549 阅读 · 39 评论 -
数学建模之图论——图与网络模型(二)(最小生成树问题、最大流问题)
数学建模和数据结构必须要会的模型 身为大一小白,耗费的第二天天,终于弄懂了这些。希望参对大家有写帮助,如有错误还望指出。原创 2020-06-25 00:02:06 · 7691 阅读 · 22 评论 -
数学建模之图论——图与网络模型(一)(基本概念和最短路问题,附MATLAB源码)
数学建模和数据结构必须要会的模型身为大一小白,耗费一天,终于弄懂了这些,如有错误还望指出。原创 2020-06-24 13:15:41 · 7849 阅读 · 55 评论 -
数学建模之插值与拟合(附实例及MATLAB源码)
MATLAB拟合和插值写了整整一天,希望能给做建模的小伙伴一点帮助。很用心,新手应该能看懂,其实理论知识也就那样,关键是自己动手实践,里面加了很多例题,希望小伙们们能看懂,我们建模国赛见????原创 2020-06-21 21:10:45 · 19416 阅读 · 58 评论