自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 特征工程2----构造新特征

联合:如果我们通过领域知识或者其他知识了解到,可以将简单的特征联合起来得到组合特征也是有意义的,我们就可以执行联合操作,构造联合特征。同时,通过数据的可视化,我们还可以确定我们对数据应该采用什么样的重塑方式(一般是取对数或者取幂,但是要画出特征的分布以后才能决定)上面Components特征是新建的统计特征,就通过计数的方式统计了混凝土中的成分种数,这对模型是有益的。的,比如说,一组疾病的风险因素。可以通过一些数学操作来构造新的特征,如特征1与特征2的比、乘、加、减,可以构造出特征3,3.研究以前的工作。

2024-01-16 11:19:23 1336 1

原创 特征工程1--指导思想及互信息

表格数据中,面对大量的特征,我们无从下手。一个很好的起点是使用特征效用度量,然后选取排名前几的特征进行特征效用度量采用互信息,计算高效,理论上是有根据的,抵抗过拟合,特征工程的意义1.构造适合模型的特征例如入门竞赛房价预测中,使用线性模型时,就需要把房间的长度特征和宽度特征构造成面积特征。因为房价和长度的关系是非线性的,无法用线性模型进行训练,而面积和房价是线性关系的,适合用线性模型训练2.互信息可以描述两者之间的任何情况下的特征,(不像皮尔逊相关系数,只适用于特征间是线性相关的)

2024-01-15 16:39:32 400 1

原创 基于SHAP的特征筛选----说明

3.对于每一个未被消除的特征,使用 Shap 值计算单独消除其中一个特征前后损失函数变化的得分。其中ai是模型对样本xi的预测结果,vi,j是j特征对样本i预测结果的贡献度,二者有如下关系。对模型输出的贡献,从而帮助确定哪些特征对模型预测的影响较小,可以被移除。------- 去掉特征j后,模型对样本xi预测结果的损失。------- 模型对样本xi预测结果的损失。2.计算当前损失值(从原始特征中消除了E中的特征后的)1.从从空的已消除特征集合 E={}开始。在特征消除中,使用SHAP值来衡量。

2024-01-02 13:01:44 1100

原创 算法学习3

简短描述:选择排序是一种简单的排序算法,它通过多次遍历待排序列表,每次选择最小(或最大)的元素放置在已排序部分的末尾,逐步完成整个列表的排序。

2024-02-07 21:40:25 369

原创 算法学习2

严格证明较复杂,一般来做一般游戏类,避免思维定势知识点:奇数的约数只能是奇数,偶数的约数无所谓leetcode:292、Nim游戏495、提莫攻击分两种情况,注意本次和下次之间的逻辑319、灯泡开关1025、除数博弈747、至少是其他数字两倍的最大数if语句,缓存中间值往下传递1688、比赛中的配对次数414、第三大的数if语句,缓存中间值往下传递1518、换水问题877、石子游戏。

2024-02-03 18:23:14 359

原创 申论学习2

影响类题:影响的意思(有好有坏,事情的结果---写得全一些,不是过程)、问法、答题的关键指示词,归纳积累。问题类题:常见问法、答题摘抄关键指示词、归纳概括积累、分析推导关键词。了)3、分析推导(问题中、目的中推导意义、作用啥的)(根据答题要素有不同)、审题。(不同题有注意点不同)、,2、归纳概括(特别是。

2024-02-01 21:06:03 399

原创 算法学习1

5进入栈,3<5, 5出栈,3进栈,8>3,8进栈,1<8,1<3,3、8出栈,1进栈,9>1,9进栈,6<9,9出栈,6进栈,7>6,7进栈,8>7,8进栈,2<8,2<7,2<6,2>1,所以 6,7,8出栈 2进栈。这样能够给出更好的不等式,使元素的下标=该元素前面元素的个数 0<=N<10,就表示10个元素,10=10,更优雅,比1<=N<11好。10.给定一个数组[5,3,8,1,9,6,7,8,2],描述用这个数组构建一个单调递减栈(从栈顶到栈底单调递减)的过程。队列:先进先出,队头操作。

2024-01-31 22:36:47 316

原创 算法学习0

OJ界面不会提供任何代码,包括include/import库都要自己完成,并自己控制输入输出格式。方法:1.有图先看图,图文一起 2.根据用例,来反推题目意思 3.对于无关的题目背景不要在意。设问,输入质量不一样,代码本身也不一样,可能要多几个变量和参数,不要觉得比力扣难就不会了。3.力扣会给出具体的错误用例,但大厂考试不可以看到具体的错误用例。4.其他题目,看着和力扣上的题没见过的。1.题干修改,设问类似。2.题干一致,设问修改。3.题干一致,设问一致。

2024-01-31 18:19:43 335

原创 申论学习1

字迹清晰、重点是论点与论证,适当文采,答题以材料为基础,不盲目背知识点。不二法则:依据材料,联系社会现实,传达主流声音与正能量。申论文章写作题的核心观点、写作思路和层次要依据资料内容而定--客观。1.部分答案要点需要通过归纳概括资料或分析推导资料得出,不能直接抄。不会有较强开放性、主观性与政治敏感性的题目。论述论据、论证手法要自己写--主观性。2.语言准确规范反映资料意愿。内容,军事、国家统一不考。文化、生态、社会治理。

2024-01-30 21:05:09 371 1

原创 BN层使用简要说明

具体见李宏毅的BN层的那节第7分钟的讲解.-------这里引出BN层的作用,可以使用较大学习率。4.对于CV中的问题,因为显存关系,bs不能变大的话,用GN替代BN。2.使用时注意bs不能太小,因为是一个统计量,BN是用bs的统计量模拟全部数据的统计量,太小绝对不行。是李沐说的,BN层的μ和sigma相当于是一个随机噪音。--------引出BN作用,可以提高模型。1.训练无效:损失来回振荡、没有训练效果----用了以后可能能看到点训练效果。2.训练很慢,收敛慢------用了后速度嗖嗖的。

2023-10-01 17:18:23 67

原创 c++:for 循环 ——初学

这段代码可以编译,只是for循环中的内容不会运行而已。

2023-08-23 11:24:14 38

原创 PCA简单记录

此时我们想把二维的数据降成一维的,即用一个轴来表示5个数据。所以要找一个轴,使各点在这个轴上的投影能呈现出最多的信息量即越分散越能分清每个点也就越好。这是对于一维的,若降维后是2维以及更高,我们就要寻找多个基底,基底必须是相互正交的,只有这样才能表示出最多信息。对于图中的5个二维样本,在对每个字段中心化后(使每一维的均值为0),在图上代表了5个点。那么如何找到这个变换矩阵P,使得变换后的数据的协方差矩阵C满足上述条件呢:推导如下。所以,我们要找的P就是能使X的协方差矩阵对角化的一个矩阵。

2023-08-21 18:34:24 48 1

原创 cv2显示图片报错:OpenCV Error: Unspecified error (The function is not implemented. Rebuild the library with

但是在jupyer上执行不了cv2.waitKey(-1)这行代码,不知道啥原因。会忽略下面路径里的库,于是要查看目前jupyter 调用的第三方库的路径。路径没有问题,问题在于最后一行代码:cv2.imshow()按照上面的继续操作:重新下载open-python库。首先,直接在jupyter里pip list。错误内容忘记截图了,我进行了以下操作。所以我们要进到这个路径里。把headless删除。

2023-08-04 16:57:56 212 1

原创 pytorch 中交叉熵的使用及解释

nn.CrossEntropyLoss中直接输入标签Y即可,计算时会自动选取真实标签对应的预测概率q进行损失计算,手写具体过程如下:-L即为4个样本的交叉熵损失函数(reduction='sum')对于样本不平衡的情况,需要使用weight参数,其使用及内部具体计算过程如下。

2023-07-24 16:28:57 113

原创 RandomForestRegressor与GridSearchCV使用——简单流程

【代码】RandomForestRegressor与GridSearchCV使用——简单流程。

2023-07-12 16:07:11 210 1

原创 lgbm.cv与Hyperopt框架参数搜索——简单流程

要注意的是,参数名称需要写对,要与lgb中的参数名称一样。最后返回的params_best就是最佳参数字典。一.Hyperopt的简单讲解与使用。一.lgb.cv的简单讲解与使用。

2023-07-12 12:00:15 350 1

原创 lightgbm使用-lgb.Dataset()

1.定义数据集和标签,这里定义为二分类问题,注意feature和label的类型,并不要求同类型。虽然feature是array数组,但是也可以指定特征名称。这里指定第五例特征是分类特征。lgb.train的参数明天再补 cout

2023-07-11 00:08:46 1439 1

原创 CountVectorizer, TfidfVectorizer的联合使用

cntv.fit_transform(train[col]) #train[col]是一个series,它返回一个存储格式(row,num1) -- num2,row是说train[col]中的数据有几行,num1是指数据中词语的序号,因为CountVectorizer()方法会自动给每个词语标上序号。重要的是,这个函数返回的数据结构类似于CountVectorizer,也是(row,num1) -- num2这样的,唯一不同的是num2是指num1指示的词语的重要程度。(一行就是一篇文章)

2023-07-08 22:35:30 61

原创 groupby后的apply的用法细节——特征工程

所以可以理解为按card_id进行groupby后的单列特征city_id是card_id的一行,是他们的键。而所有的city_id是他们的值,存储为['76','69'.....],所以list他们时不会变成[‘7’,‘6’ ,‘6‘,‘9’......]在进行特征工程时,我们经常对表格类数据进行.groupby操作,但其实我对.groupby后的数据到底是长什么样的了解不全面,下面以几个例子。上图中,我们以card_id为分组,来一个个处理特征,现在处理的是city_id特征。

2023-07-08 16:59:42 183

原创 df.groupby的数据操作的细节——特征工程

它直接返回一个series,且是按照原始df的顺序把以id为分组的diff()值直接对到里面,这就与我们想象的分组呈现的情况不同了。对于给定的df,有时候我们需要对其进行分组操作,来进行特征的对应,这时候我们就应知道分组后的数据进行在数学操作后到底是什么样的。一般只能以循环的方式读出groupby后的数据:看到是类似键值对的存储方式。这是大多数情况,包括max、min,std等操作都是返回类似这样的形状。所以,这里要特别注意,可以直接使用。但是.diff()方法就不同了。来按id创造’天差‘特征列。

2023-07-08 09:49:31 112

原创 目标列初步感受

2023-07-06 19:57:00 43 1

原创 数据正确性校验

第三行:检验trian和test的样本有没有重复。第一行:检验train的样本有没有重复。第二行:检验test的样本有没有重复。

2023-07-06 19:47:36 49 1

原创 多变量的联合分布对比——转化为单变量分布对比

可以看到index_dis只有241行,但是index却有477这么大,说明.drop_duplicates()删除了好多行,也就是train_dis和test_dis有好多重复的值。这样说明了一个问题,说明测试集和训练集是在一个原始数据集中随机划分的,这为我们如何进行分组交叉验证提供了指导思想。当然:实例只画出了两个特征的联合变量分布,要把每个都轮过去,如果都是这样才能说明是随机分的。那么,要怎么判断train和test的这两个特征的联合分布一不一样呢,画个图看看就好了。

2023-07-06 19:35:40 144 1

原创 pandas自带的plot()-df.plot()简单用法

画出的图会将series的列名称(数字类型或者object都行)当作横轴,且不论什么类型,横轴按原顺序画在坐标轴上,index对应的值(需要是数字类型)当作纵轴。对于series数据类型,可以使用.plot()方法进行频数的可视化,.plot()默认参数是画直线,具体来说就是按数据一条条画点,然后连起来。所以要想获得正常的图,最好把series排序下,用.sort_index(),改变原始顺序为顺序。1.index是object。2.index是数字类型。

2023-07-06 18:17:12 315 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除