逻辑本人-CSDN博客

原创泛化能力/生成模型和判别模型-2022年1月24日

泛化能力指的是学习方法的泛化能力，而不是学习到的模型的泛化能力。是学习所得到模型对于新数据的预测能力，是学习方法本质上重要的性质我们一般会采用测试数据集评价学习方法的泛化能力，但是这种评价只依赖于测试数据集，所以得出的评价结果可能是不可靠的。故统计学习方法试图从理论上对学习方法的泛化能力进行分析。泛化误差反应了学习方法的泛化能力，是学习所得到的模型对于新数据预测的误差，其实就是所学习到的模型的期望风险。泛化误差越小的模型越有效。二维随机变量的数学期望？泛化误差上界学习方法的泛化能力的研

2022-01-24 17:00:33 1103

原创训练误差测试误差/过拟合欠拟合/正则化和交叉验证/2022年1月22日

过拟合：从训练集中提取的样本特征过多，即模型的参数过多；导致模型在训练集上效果很好，在测试集很差。欠拟合：与过拟合相反，且在训练集和测试集上效果都差识别方法：从训练集中随机选取一部分样本作为一个验证集，采用k折交叉验证的方式，用训练集训练模型的同时在验证集上测试算法结果。在不干预拟合下，随着模型拟合能力的增强，错误率在训练集上逐渐减小，而在验证集上先减小再增大。当两者的误差率都较大时，属于欠拟合状态；当验证集误差率达到最低点，说明拟合效果最好，其由最低点增大时，处于过拟合状态。解决过拟合的方法：

2022-01-22 15:46:10 2836

原创统计学习方法概述-2022年1月21日

统计学习方法的步骤1.得到一个训练集合2.选择学习模型的集合-称之为假设空间-模型3.确定模型选择的准则-策略4.实现求解最优模型的算法（通过算法实现模型选择）-算法5.通过统计学习方法选取出最优模型（以上三要素构成学习方法/系统）6.利用最优模型对新数据进行预测或分析总结：训练集-学习系统-最优模型新数据-预测系统-预测分析统计学习或者机器学习（Statistical Machine Learning）对象是数据：从数据出发，提取数据特征，抽象出数据的模型，发现数据中的知识，最后又回

2022-01-22 12:28:02 788

原创 HDFS：Hadoop分布式文件系统-2022年1月5日

Hadoop集群搭建好大数据：hadoop有很多框架（hadoop、hive、hbase）sparkflink4次课讲hadoop框架，hdfs存储/mapreduce分布式计算/yarn资源调度3次课讲hive3次课讲hbase1次课讲flume上完课，上一个项目：游戏数仓 5次课大数据项目的流程：首先要有数据，可以来自不同的地方。有数据之后，把数据接入大数据的环境（系统）中，这个过程叫etl过程在大数据系统中存储数据，数据是死的，我们可以基于数据做一些计算计算后，

2022-01-13 19:34:15 102

原创非参数贝叶斯统计-2021年12月30日

2022-01-05 15:02:04 215

原创无约束最优化问题之迭代下降算法整理-2021年12月22日

2021-12-24 10:19:10 440

原创无约束优化问题之迭代下降算法-2021年12月20日/21日

最优化问题概述对需要优化的问题建模根据优化问题的特征，找相应的软件快速求解软件：对于凸优化Matlab cvx最优化问题是决策问题，比如生产问题，路径选择问题，车辆调度问题，投资决策问题，从许多可以执行的策略中选择一个或者一些可以执行的策略使得目标最优；一个最优化问题应该包括：1、决策变量（生产问题中的原材料，你要去做决定的事情）2、一个或者多个目标函数（明确目标是什么，比如成本尽可能小，时间尽可能少，收益尽可能大）3、一个由可行策略组成的集合，可以由等式或者不等式刻画；最优化问题的基本形

2021-12-24 10:15:42 437

原创 SQl留存数据/插入行/修改记录-2021年12月20日

问题1:对数据表内容精简，并留存历史数据；已经创建了一张新表exam_record_before_2021用来备份2021年之前的试题作答记录，结构和exam_record表一致，请将2021年之前的已完成了的试题作答纪录导入到该表。题解1:从另一个表导入：INSERT INTO table_name SELECT * FROM table_name2 [WHERE key=value]...

2021-12-21 08:32:22 364

原创狄利克雷混合模型/Stick- breaking模型/非参数先验分布-2021年12月18日

2021-12-20 16:33:27 570

原创混淆矩阵/简单投票法-2021年12月15日

混淆矩阵投票融合法

2021-12-18 15:15:30 244

原创 ID3算法/C4.5算法/CART分类树/CART回归树-2021年12月14日

2021-12-14 22:08:51 557

原创信息增益/CART算法-2021年12月13日

信息增益=熵-条件熵D是训练数据集，不知道任何信息情况下得到是熵D｜A是已知特征A情况下得到的熵，是条件熵哪一个特征带来的信息增益越大，哪个特征就是最优特征。CART算法Classification and Regression Tree十大算法之一输出变量是离散的是分类问题输出变量是连续的是回归问题学习目标：选择特征、生成树、剪枝树模型是两叉的，将复杂问题用简单结构表示基尼指数：用来度量不确定性，越大越不确定。树模型对实际工作的帮助很大。比赛中常用的方法就是特征工程、lightG

2021-12-13 22:31:03 2020

原创 MCMC/决策树的目的本质策略-2021年12月12日

第一点是搞清楚方差是什么？第二点是向量可以减标量第三点是RW采样器不需要从分布中模拟值，先移除原有采样器，再

2021-12-13 14:37:01 235

原创 MCMC代码-2021年12月11日

代码运行不出来的主要问题是什么？是我的基本知识没弄明白还是代码的基础知识没搞清楚？好像两者都有。那就一个一个解决吧。首先是基础知识。1、用简单的密度函数看结果2、师姐用核密度估计是干什么的3、可以用核密度估计得到密度函数，再借助贝叶斯方法和贝叶斯广义矩估计方法作比较吗？思考：估计未知分布的均值和估计未知分布的方差的区别？从中可以发掘估计未知分布的方差和估计未知分布的基尼系数有什么区别？首先，估计均值的话就不需要借助解决缺失数据的方法啦...

2021-12-11 21:43:33 771

原创决策树/美团复赛-“轻食主义“消费者评论的情感分析/对核密度估计的理解/决策树基本知识-2021年12月10日

要不断拓宽自己的视野，这样才可以更多维度地对数据进行更多地思考。一、全面认识了解轻食并了解轻食市场状况主打“三低两高”-低脂、低热、低糖、高纤维、高蛋白截止2019年9月，美团外卖轻食订单量同比增长98%，轻食商家数量同比增长58%。但是现有市场上并没有一个既能够集结轻食商家资源，又能够服务轻食爱好者需求的专业化平台。虽然受到疫情的影响，部分商家倒闭，但是数据显示2020年，有84%的消费者比以前更关注健康，新的轻食主义者也在不断涌现。除了极速增长的商家和订单数量，美团平台上也留下了海量、多维、亟待挖

2021-12-11 09:16:54 958

原创初识机器学习-2021年12月9日

机器学习的主要任务是回归和分类以及聚类。学习机器学习的目的要清晰，比如：应用于鉴别垃圾邮件、用图像进行人脸识别、电商网站的推荐等。（这些应用都是从数据中学习到的结果）了解机器学习适合的应用场景，明确它可以做什么、不能做什么也很重要。机器学习的基础理论和算法不是新出现的，由于计算机擅长处理重复的任务，同时计算机具备能够收集大量数据的环境以及具备了能够处理大量数据的环境，所以可以比人类更高效地读取大量数据、学习数据的特征并且从中找出数据的模式。这样的方式成为机器学习或者模式识别。数据在机器学习中是很重要

2021-12-08 21:25:17 681

weixin_51879748的博客

原创泛化能力/生成模型和判别模型-2022年1月24日

原创训练误差测试误差/过拟合欠拟合/正则化和交叉验证/2022年1月22日

原创统计学习方法概述-2022年1月21日

原创 HDFS：Hadoop分布式文件系统-2022年1月5日

原创非参数贝叶斯统计-2021年12月30日

原创无约束最优化问题之迭代下降算法整理-2021年12月22日

原创无约束优化问题之迭代下降算法-2021年12月20日/21日

原创 SQl留存数据/插入行/修改记录-2021年12月20日

原创狄利克雷混合模型/Stick- breaking模型/非参数先验分布-2021年12月18日

原创混淆矩阵/简单投票法-2021年12月15日

原创 ID3算法/C4.5算法/CART分类树/CART回归树-2021年12月14日

原创信息增益/CART算法-2021年12月13日

原创 MCMC/决策树的目的本质策略-2021年12月12日

原创 MCMC代码-2021年12月11日

原创决策树/美团复赛-“轻食主义“消费者评论的情感分析/对核密度估计的理解/决策树基本知识-2021年12月10日

原创初识机器学习-2021年12月9日

原创外文文献阅读《Bayesian Generalized Method of Moment》-2021年12月8日

原创 SQL查询语句查询行-2021年12月7日

原创 PPT制作神器/ROI-2021年12月6日

原创 SQL窗口函数/插入数据的两种方式/正则表达式例题-2021年12月5日

原创 SQL练习及case when函数用法-2021年12月4日

原创 Jupyter notebook Macos安装/正则表达式/series和list区别及相互转换-2021年12月3日

原创 R循环结果/Python正则表达式-2021年12月1日

原创 MCMC/论文-2021年11月30日

原创 SQL/剪辑-2021年11月29日

原创 Python/SQL-实习整理

空空如也

空空如也