weixin_46517201-CSDN博客

原创 give me some credits

RevolvingUtilizationOfUnsecuredLines，DebtRatio，NumberRealEstateLoansOrLines，NumberOfDependents，NumberOfTimePastDueNotWorse不完全单调。1.假设在某个特定的比率设定特定的预期分值(设定比率为θ的特定点的分值为P)2.假设比率翻番的分数（PDO）(比率为2θ的点的分值为P-PDO).通过合并，判断特征数值等等，对有问题的特征进行重新分箱。通过不同分箱观察数据特征，结合业务逻辑，数据走向。

2024-04-17 15:35:00 720 1

原创 SQL笔记

按col2 进行分组(partition )，每组以col1进行排序(order)，并进行连续加总（sum）)：并列后间隔排名（1，2，2，3，4）)：并列后间隔排名（1，2，2，4，5）执行顺序：where ----- group by ----- having。按照col1的顺序，计算该行col1列之前的所有col3的总和。查询TABLEA，查询TABLEB，两个查询对比计算笛卡尔积。A表的外键约束作用：让A表的某个字段依赖于B表中的某个字段。将替换的值生成新的一列new。根据col1的排序添加行数。

2024-04-12 15:18:44 1395

原创机器学习—强化学习

根据 x=(s,a) ， y=R(s)+γ maxQ(s’,α’) 训练模型，其中y中的maxQ(s’,α’)，即为10000组数据中Q最大的一项。状态动作函数Q(s,α): 在当前位置s，进行一次α的行动，然后按照最优策略执行，得到的奖励。根据输入的(s,a)随机出可能的(s,a,R(s),s’),记录下10000组数据。贝尔曼方程： Q(s,α)=R(s)+γ maxQ(s’,α’)根据当前位置s，计算得到return的奖励最大的行动策略α。最优策略下的行动等于maxQ(s,α)的α。

2024-03-14 18:16:39 736

原创机器学习——推荐算法

推荐标签：1：喜欢/肯定，0：不喜欢/否定？user j的特征 —计算出—>movie i的特征 —计算出—>用户j是否对电影i进行打分，打分了为1，未打分为0。避免当用户的w,b均为0时出现预测值均为0的情况。代表user j有多喜欢电影的某特征。代表movie i的含有多少某特征。将推荐算法的线性回归看作逻辑回归，求预测的。将成本函数中的平方误差替换为逻辑回归的误差。可能没有具体含义，但可以根据。分别构造两个神经网络计算。用户j对电影i的评分。

2024-03-06 19:24:17 852

原创机器学习—聚类和异常检测

也可以根据特征的含义，将已有的数据进行组合，想出相加相乘等等。2.重新移动质心（将质心移动到该类所有点的均值处）交叉验证集：2000组正常数据，10组异常数据。交叉验证集：4000组正常数据，20组异常数据。eg：10000组正常数据和20组异常数据。测试集：2000组正常数据，10组异常数据。异常检测算法的“异常值”样本通常都很少。1.把点分配给距离它最近的质心。等等，让数据更加符合正态分布。训练集：6000组正常数据。训练集：6000组正常数据。直方图绘制特征x，可通过。

2024-03-06 16:14:07 467

原创机器学习—决策树

在决策树分裂过程中，尝试不同的阈值进行分割，选择信息增益最大的阈值作为决策树的分割点。利用不同训练集训练出不同的决策树，同一样本在不同的树下可能是不同的结果。将总体样本进行放回抽样，制造不同的训练集（训练集内部也可重复）进行预测时，根据所有树（森林）的分类结果进行投票，输出分类结果。分裂前信息熵：H(0.5)（10只动物，5只猫，p=0.5）分裂后左分支：H(0.8)（7只动物，4只猫，p=0.57）分裂后右分支：H(0.2)（3只动物，1只猫，p=0.33）4.一个节点上的样本太少（小于一定阈值）

2024-03-03 19:57:51 817

原创机器学习—模型评估及优化

使用更大数据集的神经网络的隐藏层以及参数，作为当前训练的隐藏层及初始参数。使用不同的正则化参数，进行交叉验证，尝试找到最佳λ。训练集误差随着样本增加而上升：样本越少，越容易满足。高偏差：训练集和测试集结果相近，但总体误差过大。音频识别：将原本音频和噪音结合后添加进样本。分割训练集和测试集，计算测试集的成本函数。高方差：训练集结果良好，但测试集误差过大。图像识别，将扭曲旋转的字符图像添加进样本。合成数据：在文本识别时，导入新的字体。提高阈值：精确率更高，召回率更低。降低阈值：精确率更低，召回率更高。

2024-03-03 12:39:08 738

原创机器学习—神经网络

muti class classification：输出结果为单一数值，从多个选项中选出一个。muti lable classification：输出结果为向量（同时判断了多个事件）更复杂的神经网络具有更多的中间层，更多的特征等等。激活函数的选择：大多根据输出层y的取值范围。卷积层：一个神经元只针对一部分输入层的内容。输入层：衬衫价格，运输成本，营销，材质。神经网络为前向传播，从左至右，依次计算。中间层：可购性，潜在意识，质量意见。隐藏层的激活函数常用ReLU()输出层：销量好坏的可能。

2024-03-02 11:57:36 1528

原创机器学习—逻辑回归

正则化：保留原有功能信息，但防止功能产生过大影响。解决二分类问题，=阈值为1。决策边界：边界内外/边界左右为0和1。将每个w都“惩罚”一点，防止数值过大。平方差作为成本，会有很多极小值。

2024-02-22 16:39:54 364 1

原创机器学习—多元线性回归补充

尽管回归后数据集的损失很小，但方差过大，过度满足了样本数据。将特征适当缩放，让等高线近似于圆形，便于进行计算。从原有数据中，提取更能描述数据特征的变量，例如x。保留所有特征功能，只是防止特征产生较大的影响。当数据集有一点点变动，计算结果将会改变很大。足够多的训练集/选择适量的合适特征/正则化。若特征间差异过大，成本函数的等高线为椭圆。通过设定迭代次数判断梯度下降是否收敛。学习率太大：可能导致成本函数不降反升。会导致在梯度下降过程中来回徘徊。学习率太小：迭代次数太多。

2024-02-21 16:31:54 811

原创机器学习—线性回归的梯度下降

fill:#333;color:#333;color:#333;fill:none;ffill:#333;color:#333;color:#333;fill:none;xfm1∑i1myi−yi2wəJ(w,b)bəJ(w,b)

2024-01-17 15:15:45 1785

原创机器学习介绍—监督学习与无监督学习

fill:#333;color:#333;color:#333;fill:none;a numbercategoriesclustering。

2024-01-16 18:58:32 332 1

原创 Git Tortoisegit的基础安装与登录

tortoisegit及gitlab的安装登录

2022-07-18 16:47:15 886 1

weixin_46517201的博客