自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 give me some credits

RevolvingUtilizationOfUnsecuredLines,DebtRatio,NumberRealEstateLoansOrLines,NumberOfDependents,NumberOfTimePastDueNotWorse不完全单调。1.假设在某个特定的比率设定特定的预期分值(设定比率为θ的特定点的分值为P)2.假设比率翻番的分数(PDO)(比率为2θ的点的分值为P-PDO).通过合并,判断特征数值等等,对有问题的特征进行重新分箱。通过不同分箱观察数据特征,结合业务逻辑,数据走向。

2024-04-17 15:35:00 716 1

原创 SQL笔记

按col2 进行分组(partition ),每组以col1进行排序(order),并进行连续加总(sum)):并列后间隔排名(1,2,2,3,4)):并列后间隔排名(1,2,2,4,5)执行顺序:where ----- group by ----- having。按照col1的顺序,计算该行col1列之前的所有col3的总和。查询TABLEA,查询TABLEB,两个查询对比计算笛卡尔积。A表的外键约束作用:让A表的某个字段依赖于B表中的某个字段。将替换的值生成新的一列new。根据col1的排序添加行数。

2024-04-12 15:18:44 1391

原创 机器学习—强化学习

根据 x=(s,a) , y=R(s)+γ maxQ(s’,α’) 训练模型,其中y中的maxQ(s’,α’),即为10000组数据中Q最大的一项。状态动作函数Q(s,α): 在当前位置s,进行一次α的行动,然后按照最优策略执行,得到的奖励。根据输入的(s,a)随机出可能的(s,a,R(s),s’),记录下10000组数据。贝尔曼方程: Q(s,α)=R(s)+γ maxQ(s’,α’)根据当前位置s,计算得到return的奖励最大的行动策略α。最优策略下的行动等于maxQ(s,α)的α。

2024-03-14 18:16:39 726

原创 机器学习——推荐算法

推荐标签:1:喜欢/肯定 ,0:不喜欢/否定?user j的特征 —计算出—>movie i的特征 —计算出—>用户j是否对电影i进行打分,打分了为1,未打分为0。避免当用户的w,b均为0时出现预测值均为0的情况。代表user j有多喜欢电影的某特征。代表movie i的含有多少某特征。将推荐算法的线性回归看作逻辑回归,求预测的。将成本函数中的平方误差替换为逻辑回归的误差。可能没有具体含义,但可以根据。分别构造两个神经网络计算。用户j对电影i的评分。

2024-03-06 19:24:17 837

原创 机器学习—聚类和异常检测

也可以根据特征的含义,将已有的数据进行组合,想出相加相乘等等。2.重新移动质心(将质心移动到该类所有点的均值处)交叉验证集:2000组正常数据,10组异常数据。交叉验证集:4000组正常数据,20组异常数据。eg:10000组正常数据和20组异常数据。测试集:2000组正常数据,10组异常数据。异常检测算法的“异常值”样本通常都很少。1.把点分配给距离它最近的质心。等等,让数据更加符合正态分布。训练集:6000组正常数据。训练集:6000组正常数据。直方图绘制特征x,可通过。

2024-03-06 16:14:07 452

原创 机器学习—决策树

在决策树分裂过程中,尝试不同的阈值进行分割,选择信息增益最大的阈值作为决策树的分割点。利用不同训练集训练出不同的决策树,同一样本在不同的树下可能是不同的结果。将总体样本进行放回抽样,制造不同的训练集(训练集内部也可重复)进行预测时,根据所有树(森林)的分类结果进行投票,输出分类结果。分裂前信息熵:H(0.5)(10只动物,5只猫,p=0.5)分裂后左分支:H(0.8)(7只动物,4只猫,p=0.57)分裂后右分支:H(0.2)(3只动物,1只猫,p=0.33)4.一个节点上的样本太少(小于一定阈值)

2024-03-03 19:57:51 812

原创 机器学习—模型评估及优化

使用更大数据集的神经网络的隐藏层以及参数,作为当前训练的隐藏层及初始参数。使用不同的正则化参数,进行交叉验证,尝试找到最佳λ。训练集误差随着样本增加而上升:样本越少,越容易满足。高偏差:训练集和测试集结果相近,但总体误差过大。音频识别:将原本音频和噪音结合后添加进样本。分割训练集和测试集,计算测试集的成本函数。高方差:训练集结果良好,但测试集误差过大。图像识别,将扭曲旋转的字符图像添加进样本。合成数据:在文本识别时,导入新的字体。提高阈值:精确率更高,召回率更低。降低阈值:精确率更低,召回率更高。

2024-03-03 12:39:08 729

原创 机器学习—神经网络

muti class classification:输出结果为单一数值,从多个选项中选出一个。muti lable classification:输出结果为向量(同时判断了多个事件)更复杂的神经网络具有更多的中间层,更多的特征等等。激活函数的选择:大多根据输出层y的取值范围。卷积层:一个神经元只针对一部分输入层的内容。输入层:衬衫价格,运输成本,营销,材质。神经网络为前向传播,从左至右,依次计算。中间层:可购性,潜在意识 ,质量意见。隐藏层的激活函数常用ReLU()输出层:销量好坏的可能。

2024-03-02 11:57:36 1519

原创 机器学习—逻辑回归

正则化:保留原有功能信息,但防止功能产生过大影响。解决二分类问题,=阈值为1。决策边界:边界内外/边界左右为0和1。将每个w都“惩罚”一点,防止数值过大。平方差作为成本,会有很多极小值。

2024-02-22 16:39:54 356 1

原创 机器学习—多元线性回归补充

尽管回归后数据集的损失很小,但方差过大,过度满足了样本数据。将特征适当缩放,让等高线近似于圆形,便于进行计算。从原有数据中,提取更能描述数据特征的变量,例如x。保留所有特征功能,只是防止特征产生较大的影响。当数据集有一点点变动,计算结果将会改变很大。足够多的训练集/选择适量的合适特征/正则化。若特征间差异过大,成本函数的等高线为椭圆。通过设定迭代次数判断梯度下降是否收敛。学习率太大:可能导致成本函数不降反升。会导致在梯度下降过程中来回徘徊。学习率太小:迭代次数太多。

2024-02-21 16:31:54 805

原创 机器学习—线性回归的梯度下降

fill:#333;color:#333;color:#333;fill:none;ffill:#333;color:#333;color:#333;fill:none;xfm1​∑i1m​y​i−yi2wə​J(w,b)bə​J(w,b)

2024-01-17 15:15:45 1775

原创 机器学习介绍—监督学习与无监督学习

fill:#333;color:#333;color:#333;fill:none;a numbercategoriesclustering。

2024-01-16 18:58:32 326 1

原创 Git Tortoisegit的基础安装与登录

tortoisegit及gitlab的安装登录

2022-07-18 16:47:15 820 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除