自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 泛化能力/生成模型和判别模型-2022年1月24日

泛化能力指的是学习方法的泛化能力,而不是学习到的模型的泛化能力。是学习所得到模型对于新数据的预测能力,是学习方法本质上重要的性质我们一般会采用测试数据集评价学习方法的泛化能力,但是这种评价只依赖于测试数据集,所以得出的评价结果可能是不可靠的。故统计学习方法试图从理论上对学习方法的泛化能力进行分析。泛化误差反应了学习方法的泛化能力,是学习所得到的模型对于新数据预测的误差,其实就是所学习到的模型的期望风险。泛化误差越小的模型越有效。二维随机变量的数学期望?泛化误差上界学习方法的泛化能力的研

2022-01-24 17:00:33 1103

原创 训练误差测试误差/过拟合欠拟合/正则化和交叉验证/2022年1月22日

过拟合:从训练集中提取的样本特征过多,即模型的参数过多;导致模型在训练集上效果很好,在测试集很差。欠拟合:与过拟合相反,且在训练集和测试集上效果都差识别方法:从训练集中随机选取一部分样本作为一个验证集,采用k折交叉验证的方式,用训练集训练模型的同时在验证集上测试算法结果。在不干预拟合下,随着模型拟合能力的增强,错误率在训练集上逐渐减小,而在验证集上先减小再增大。当两者的误差率都较大时,属于欠拟合状态;当验证集误差率达到最低点,说明拟合效果最好,其由最低点增大时,处于过拟合状态。解决过拟合的方法:

2022-01-22 15:46:10 2836

原创 统计学习方法概述-2022年1月21日

统计学习方法的步骤1.得到一个训练集合2.选择学习模型的集合-称之为假设空间-模型3.确定模型选择的准则-策略4.实现求解最优模型的算法(通过算法实现模型选择)-算法5.通过统计学习方法选取出最优模型(以上三要素构成学习方法/系统)6.利用最优模型对新数据进行预测或分析总结:训练集-学习系统-最优模型新数据-预测系统-预测分析统计学习或者机器学习(Statistical Machine Learning)对象是数据:从数据出发,提取数据特征,抽象出数据的模型,发现数据中的知识,最后又回

2022-01-22 12:28:02 788

原创 HDFS:Hadoop分布式文件系统-2022年1月5日

Hadoop集群搭建好大数据:hadoop有很多框架(hadoop、hive、hbase)sparkflink4次课 讲hadoop框架,hdfs存储/mapreduce分布式计算/yarn资源调度3次课 讲hive3次课 讲hbase1次课 讲flume上完课,上一个项目:游戏数仓 5次课大数据项目的流程:首先要有数据,可以来自不同的地方。有数据之后,把数据接入大数据的环境(系统)中,这个过程叫etl过程在大数据系统中存储数据,数据是死的,我们可以基于数据做一些计算计算后,

2022-01-13 19:34:15 102

原创 非参数贝叶斯统计-2021年12月30日

2022-01-05 15:02:04 215

原创 无约束最优化问题之迭代下降算法整理-2021年12月22日

2021-12-24 10:19:10 440

原创 无约束优化问题之迭代下降算法-2021年12月20日/21日

最优化问题概述对需要优化的问题建模根据优化问题的特征,找相应的软件快速求解软件:对于凸优化Matlab cvx最优化问题是决策问题,比如生产问题,路径选择问题,车辆调度问题,投资决策问题,从许多可以执行的策略中选择一个或者一些可以执行的策略使得目标最优;一个最优化问题应该包括:1、决策变量(生产问题中的原材料,你要去做决定的事情)2、一个或者多个目标函数(明确目标是什么,比如成本尽可能小,时间尽可能少,收益尽可能大)3、一个由可行策略组成的集合,可以由等式或者不等式刻画;最优化问题的基本形

2021-12-24 10:15:42 437

原创 SQl留存数据/插入行/修改记录-2021年12月20日

问题1:对数据表内容精简,并留存历史数据;已经创建了一张新表exam_record_before_2021用来备份2021年之前的试题作答记录,结构和exam_record表一致,请将2021年之前的已完成了的试题作答纪录导入到该表。题解1:从另一个表导入:INSERT INTO table_name SELECT * FROM table_name2 [WHERE key=value]...

2021-12-21 08:32:22 364

原创 狄利克雷混合模型/Stick- breaking模型/非参数先验分布-2021年12月18日

2021-12-20 16:33:27 570

原创 混淆矩阵/简单投票法-2021年12月15日

混淆矩阵投票融合法

2021-12-18 15:15:30 244

原创 ID3算法/C4.5算法/CART分类树/CART回归树-2021年12月14日

2021-12-14 22:08:51 557

原创 信息增益/CART算法-2021年12月13日

信息增益=熵-条件熵D是训练数据集,不知道任何信息情况下得到是熵D|A是已知特征A情况下得到的熵,是条件熵哪一个特征带来的信息增益越大,哪个特征就是最优特征。CART算法Classification and Regression Tree十大算法之一输出变量是离散的是分类问题输出变量是连续的是回归问题学习目标:选择特征、生成树、剪枝树模型是两叉的,将复杂问题用简单结构表示基尼指数:用来度量不确定性,越大越不确定。树模型对实际工作的帮助很大。比赛中常用的方法就是特征工程、lightG

2021-12-13 22:31:03 2020

原创 MCMC/决策树的目的本质策略-2021年12月12日

第一点是搞清楚方差是什么?第二点是向量可以减标量第三点是RW采样器不需要从分布中模拟值,先移除原有采样器,再

2021-12-13 14:37:01 235

原创 MCMC代码-2021年12月11日

代码运行不出来的主要问题是什么?是我的基本知识没弄明白还是代码的基础知识没搞清楚?好像两者都有。那就一个一个解决吧。首先是基础知识。1、用简单的密度函数看结果2、师姐用核密度估计是干什么的3、可以用核密度估计得到密度函数,再借助贝叶斯方法和贝叶斯广义矩估计方法作比较吗?思考:估计未知分布的均值和估计未知分布的方差的区别?从中可以发掘估计未知分布的方差和估计未知分布的基尼系数有什么区别?首先,估计均值的话就不需要借助解决缺失数据的方法啦...

2021-12-11 21:43:33 771

原创 决策树/美团复赛-“轻食主义“消费者评论的情感分析/对核密度估计的理解/决策树基本知识-2021年12月10日

要不断拓宽自己的视野,这样才可以更多维度地对数据进行更多地思考。一、全面认识了解轻食并了解轻食市场状况主打“三低两高”-低脂、低热、低糖、高纤维、高蛋白截止2019年9月,美团外卖轻食订单量同比增长98%,轻食商家数量同比增长58%。但是现有市场上并没有一个既能够集结轻食商家资源,又能够服务轻食爱好者需求的专业化平台。虽然受到疫情的影响,部分商家倒闭,但是数据显示2020年,有84%的消费者比以前更关注健康,新的轻食主义者也在不断涌现。除了极速增长的商家和订单数量,美团平台上也留下了海量、多维、亟待挖

2021-12-11 09:16:54 958

原创 初识机器学习-2021年12月9日

机器学习的主要任务是回归和分类以及聚类。学习机器学习的目的要清晰,比如:应用于鉴别垃圾邮件、用图像进行人脸识别、电商网站的推荐等。(这些应用都是从数据中学习到的结果)了解机器学习适合的应用场景,明确它可以做什么、不能做什么也很重要。机器学习的基础理论和算法不是新出现的,由于计算机擅长处理重复的任务,同时计算机具备能够收集大量数据的环境以及具备了能够处理大量数据的环境,所以可以比人类更高效地读取大量数据、学习数据的特征并且从中找出数据的模式。这样的方式成为机器学习或者模式识别。数据在机器学习中是很重要

2021-12-08 21:25:17 681

原创 外文文献阅读《Bayesian Generalized Method of Moment》-2021年12月8日

2021-12-08 18:47:16 144

原创 SQL查询语句查询行-2021年12月7日

人的一生啊,自己觉得过得幸福就够了呢SQL查询语句查询行无法查找满足同列两个值的结果,一次查询因为不可能既满足01,又满足02,所以要多次查询或者用连接多个相同表的方式查询结果或者《现代营销》《合作经济与科技》《人人健康》...

2021-12-08 18:36:05 210

原创 PPT制作神器/ROI-2021年12月6日

多学多看,你会发现世界远比你想象得有趣。稿定设计、canva可画、islide(power point才能用)要勇敢果断,这样效率才会upup!ROI:Return on Investment投资回报率是指通过投资而应该返回得到的价值,即企业从一项投资活动当中得到的经济回报。要多给别人讲故事,慢慢地提升表达能力。...

2021-12-07 08:56:51 218

原创 SQL窗口函数/插入数据的两种方式/正则表达式例题-2021年12月5日

正则表达式:判断字符串中有几个中文字符import redef getnum_of_cn(inputdata): '''计算字符串中 中文字符 数量''' chi = re.findall(r'[\u4E00-\u9FFF]', inputdata) return len(chi) def test(): n = getnum_of_cn('你好,lajfldkjaklda123') print(n) if __name__ == '__main__': test()\u4E0

2021-12-05 18:46:54 1386

原创 SQL练习及case when函数用法-2021年12月4日

SQL题目1:查询2021年8月份所有练习过题目的总用户数和练习过题目的总次数题解1:限定条件:2021年8月份需要想办法表示:1.like:date like ‘2021-08%’2.year,month函数:year(date)==‘2021’ and month(date)= =‘08’3.date_format函数:date_format(date, ‘%Y-%m’)=‘2021-08’;查询的结果是计数结果,用count();总用户数是去重后结果,用distinct()。题目2

2021-12-05 08:56:52 884

原创 Jupyter notebook Macos安装/正则表达式/series和list区别及相互转换-2021年12月3日

Jupyter notebook Macos安装debug:调试同一个项目的代码放在一个项目下便于查找下载网址:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/series和list的区别是两种不同的数据类型series是带有索引的数组list是一个一维数组两者可以相互转换series转换为list:a=S.tolist()list转换为series:S=Series(a,index=[‘a’,‘b’,‘c’,‘d’,‘e’])

2021-12-04 15:30:56 633

原创 R循环结果/Python正则表达式-2021年12月1日

代码整理核心是把pump模型分析透彻理解R中的for循环结构for (name in seq){exp}name是循环变量,每次循环时,name都从seq中取值,然后执行exp的语句,当name不在seq中时,循环终止。Python正则化正则表达式用于在文本中查找匹配的字符串,Python中的数量词默认是贪婪的,即获取"ab",将找到"abbb"。一般字符匹配规则格式匹配的字符情况\转义字符\ ...匹配除换行符\n之外的所有字符[]匹配字符集

2021-12-02 08:10:16 485

原创 MCMC/论文-2021年11月30日

蒙特卡罗方法是一种随机抽样方法,是利用随机数去解决计算的问题,通过实验去求解一些概率或者期望的问题。第一步:生成随机数计算机只能产生均匀分布的伪随机数,我们通常希望得到其他分布的随机数,就要想办法把均匀分布的数映射到服从一定分布的数。如何映射?马尔可夫链能实现状态之间的转移,下一个状态只与当前的状态有关,与之前的状态没有关系。基于马尔可夫链不同的初始值,当最后链平稳时,收敛的结果都是相同的。Metropolis算法通常细致平稳性不易满足构造接受概率表达式,构造出满足细致平稳性的马尔可夫链

2021-11-30 22:20:14 671

原创 SQL/剪辑-2021年11月29日

SQL1.limit 2 offset 02.不等于可以用 != 或者 not in3.and优先级高于or4.字符匹配:_:匹配任意一个字符;%:匹配0个或多个字符;[ ]:匹配[ ]中的任意一个字符(若要比较的字符是连续的,则可以用连字符“-”表 达 );[^ ]:不匹配[ ]中的任意一个字符。5.having用法SQL出现having的原因是,where关键字无法与聚合函数一起使用having关键字放在group by关键字后面,针对分组后的数据进行筛选6.join 表名 on

2021-11-30 13:24:46 146

原创 Python/SQL-实习整理

Pythondf.query()函数是对数据框进行行挑选的操作df.query("expression")例df.query(“column==‘A’”)等同于df[df[“column”]==“A”]df2是对df1的复制df2=df1.copy()apply应用公式pd.df.apply(func)例f=lambda x: x.max()-x.min()指定一周中的某一天作为一周的第一天,0:周一…6:周日import calendar as calcal.setfi

2021-11-30 10:48:13 1004

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除