数据科学
文章平均质量分 59
end
这个作者很懒,什么都没留下…
展开
-
机器学习入门笔记(二)----线性回归
1. 目标 : 找到使代价函数最小的函数h。2. 代价函数:cost function,J。平方误差代价函数:J(θ0,θ1)=12m∑i=1m(y^i−yi)2=12m∑i=1m(hθ(xi)−yi)2...3. 梯度下降法:将代价函数J取值最小化。定义:θj:=θj−α∂∂θjJ(θ0,θ1)α:速率、步长。太小导致速度慢。太大,导致不能收敛、甚至发散。常规做法原创 2017-08-24 22:54:17 · 680 阅读 · 0 评论 -
机器学习入门笔记(八)----支持向量机SVM
支持向量机SVM在复杂的非线性方程方面,比逻辑回归和神经网络表现的更为清晰、强大。1. 通过逻辑回归了解SVM大致形式设z = thetaT * x假设函数:h(x) = 1 / (1 + e^(-z))分类为1 if h > 0.5 即 z >0分类为0 if h 代价函数:两图分别为y=1和y=0时的曲线,粉色手绘图为曲线的近似折线表示。为别取名co原创 2017-09-25 10:14:03 · 965 阅读 · 0 评论 -
机器学习入门笔记(十)----异常检测
介绍异常检测是机器学习的一个常用应用,主要针对非监督学习问题。 比如: * 飞机引擎制造商,采集生产的引擎的各个特征,通过异常检测算法来鉴定引擎有异常的概率。 * 信用卡欺诈账户检测 * 服务器集群,异常节点监测。高斯分布俗称:正态分布。 两个参数定义一个分布: 1. 均值μ 2. 方差σ^2 图形: μ决定中心位置,σ决定波峰宽度。y轴为x取某值的概率。 公式: 算法利用原创 2017-10-22 19:17:35 · 950 阅读 · 0 评论 -
机器学习入门笔记(九)----无监督学习
一、特征对于无标签的数据,算法自动的解析出数据中的结构。二、应用市场细分、用户关系网络分析、星系数据分析等等三、K均值算法步骤:(1)随机选取聚类中心 (2)计算与聚类中心的距离,进行分类 (3)计算每个分类的均值,作为新的聚类中心 (4)重复2 3步骤,直到分类结果稳定参数:(1)K分类个数 (2)数据优化目标: c(i)为第i个样本所属的聚类索引:1…K uk为第k个聚类中心 uc原创 2017-10-17 11:40:22 · 604 阅读 · 0 评论 -
机器学习入门笔记(七)----机器学习实用方法
当我们实现一个机器学习模型后,发现效果并不是很理想,改进的方法有非常多,那么如果诊断当前模型,选择一条合适的道路去优化就成了一项必不可少的技能,否则‘拍脑门’的胡乱尝试,将会是一件非常浪费时间的事情,且最终也不一定能得到很好的效果。1. 评估一个假设模型:我们通过算法得到一个假设模型后,该模型可能是欠拟合或过拟合的。即在训练数据上表现的比较好,但是在额外的位置数据中,其实并不能很好的进行预原创 2017-09-19 09:44:37 · 535 阅读 · 0 评论 -
机器学习入门笔记(六)----神经网络
1.模型表示:模型分层:输入层、输出层、隐藏层。a(i) i表示第几层。thera(i) : 为第i层到第i+1层间的权重参数。2. 向前传播:g(theta(i) * a(i))得到a(i+1)。最后一层即是h(x)3. 解决分类问题:类别 c = 2时,输出层仅一个节点,与逻辑回归相同,表示某一个分类的概率。类别 c > 2时,输出层c个节点,每个节点的原创 2017-09-14 18:58:35 · 415 阅读 · 0 评论 -
机器学习入门笔记(五)----过拟合问题
上右边的图像,展示过拟合的情况。过拟合问题,解决方法:1.减少特征数量2.正规化:保留所有特征,弱化特征参数。正规化(regularization):代价函数: 1.线性回归: (1)梯度下降对theta0不惩罚,其余theta引入正规化参数lamada。(2) 方程法:2.逻辑回归与线性回归相同,加入theta惩罚项。原创 2017-09-07 18:33:48 · 434 阅读 · 0 评论 -
机器学习入门笔记(三)----Octave简单使用
1. 四则运算:1 + 2 1 * 2 1 / 2 1 - 22. 变量赋值a = 1a = 1; % 不显示赋值结果3. 注释: %4. 相等 / 不等 : 1 == 2 %结果是0,表示为假1 ~= 2 %结果为15. 逻辑 / 位运算:1 || 0 % 11 && 0 % 0xor(1, 0) % 1, 异或原创 2017-08-26 21:32:36 · 3097 阅读 · 0 评论 -
机器学习入门笔记(四)----逻辑回归
1.逻辑回归用于解决分类问题,简单举例 : 判定邮件是否为垃圾邮件;肿瘤是良性的还是恶性的.2.假设函数: 3.预测结果h(x)值的含义为 : x的分类结果属于'1'的概率, 概率表示:原创 2017-08-31 23:13:21 · 529 阅读 · 0 评论 -
机器学习入门笔记(一)----初次见面
1. 尝试对机器学习进行定义:给予机器自我学习的能力对于任务T完成质量的度量P,可以随着经验E提升。2. 分类:监督学习:已有数据前提下,给出一个算法。算法可以得出数据集中的结果,并尽量得出更多数据集外的正确结果。无监督学习:不确定结果是什么样子的自主学习。3. 监督学习:回归问题:房价预测分类问题:肿瘤良性、恶性4. 无监督学习:原创 2017-08-23 20:45:02 · 360 阅读 · 0 评论 -
机器学习入门笔记(十一)----推荐系统
推荐系统是目前非常受欢迎的一个机器学习应用。下面将以电影推荐为例子简单介绍实现推荐系统的方法。前提假设我们运营一个电影网站,每个用户可以对电影评分:0-5分。 n(u) 代表用户数量 n(m) 代表电影数量 r(i,j) 代表用户j是否对电影i进行评分。1 已评。0 未评 y(i,j) 代表用户j对电影i的评分。目的推荐系统的目的是运行算法,预测用户对他们没打过分的电影的分数,然后进行推荐。原创 2017-10-25 20:14:16 · 725 阅读 · 0 评论