机器学习算法
文章平均质量分 75
阿童木-atom
行到水穷处,坐看云起时!
鄙人学富五车、才高八斗。技术能力称雄天下,敢领风骚数五百年。java、scala、python、C/C++、php登峰造极,精通Spring、mybatis、hibernate、struts2各种框架及具备各种大型系统架构能力,深耕搜索、推荐、数据挖掘、机器学习、深度学习、人工智能等领域,通读lucene、solr、elaticsearch、sphinx、mahout、tensorfolw等开源项目源码,精通hadoop、hbase、hive、spark、kafka、rabbit、activeMQ等大数据处理工具的应用。
展开
-
k-means聚类算法hadoop实现源码
本篇文章只讲可用的hadoop实现算法的源码,可直接拷贝用于工程中!/** * 质点特征模型,可根据自己的业务需求进行修改 * * @author jianting.zhao */public class ParticleModel { //特征x public double x; //特征y public double y; public原创 2017-10-11 09:35:46 · 16991 阅读 · 1 评论 -
tensolrflow中get_variable和tf.Variable区别
先来看下二者的定义: Variable:必须给定的参数只有一个initial_value,如果名字没指定会自己生成一个Variable:0类似于此 def __init__(self, initial_value=None, trainable=True, collections=None...原创 2018-06-04 18:00:49 · 15425 阅读 · 0 评论 -
神经网络一之神经网络结构与原理以及python实战
本系列埔文由浅入深介绍神经网络相关知识,然后深入神经网络核心原理与技术,最后浅出python神经网络编程实战。通过本系列博文,您将彻底理解神经网络的原理以及如何通过python开发可用于生产环境的程序。本博文论讨神经网络的结构与原理 计算机所长: 了解计算机源理的人都知道计算机只适合做与之相匹配的任务(计算机只能执行0和1的二制机加法),如数学计算、绘制图表,目前的计算机每秒...原创 2018-06-04 13:05:29 · 19216 阅读 · 1 评论 -
深度学习第四讲之特征缩放
转载请注明出处什么是特征缩放 特征缩放其实就是标准化数据特征的范围。 为什么要进行特征缩放 特征缩放可以使得ML方法工作的更好,比如在k-nn的算法中,分类器主要是计算两点之间的欧几里得距离,如果一个feature比其他另外一个feature大超过一个数量级的情况下,那么两者之间的距离就会更大的偏向于这个feature。因此,我们必须对每个feature都进行归一化,...原创 2018-04-27 15:36:18 · 17124 阅读 · 0 评论 -
深度学习第二讲之卷积神经网络
转载请注明出处 本文引用了TensorFlow实战的部分内容,如果涉及版权问题,请您联系本人,本人将立即删除。610417806@qq.com机器学习的本质 机器学习的本质,可以用上图来概括。深度学习是机器学习的一个分支,更准确得说是机器学习一种新的实现技术。机器学习就是寻找一个函数,这个函数可以根据输入给出输出即预测值,分类、回归、推荐等所有的机器学习都是为了找到一个函数。如...原创 2018-04-03 14:14:25 · 17975 阅读 · 2 评论 -
深度学习第一讲之深度学习基础
深度学习第一讲之深度学习基础转载请注明出处! 本篇博文从what、why、when、who、where、how五个方面来分析深度学习,接下来讲如何入门,我门将通过介绍实际案例来讲解深度学习的实际应用,一下篇博文讲解深度学习的核心技术:卷积神经网络WHAT?什么是深度学习?维基百科: 深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变...原创 2018-04-03 10:56:15 · 18482 阅读 · 1 评论 -
机器学习经典损失函数之交叉熵和均方差
损失函数是用来评估预测模型效果的,即model的预测值与实真实值的差距。不用的机器学习模型有不同的损失函数来评估。本篇博文主要讲用于分类问题的交叉熵和回归问题的均方差。先来说下分类和回归的区别。机器学习或深度学习领域常见的就是分类和回归,通俗的讲分类就把样品分到事先定义好的n个类别中,解决的是离散量的问题,回归输出一个实数,解决的是模拟量的问题,例好如垃圾邮件预测是一个分类问题,身高预测是一个回归...原创 2018-04-02 09:03:56 · 18445 阅读 · 1 评论 -
深入理解查准率与查全率
欢迎关注鄙人公众号,技术干货随时看!查准率与查全率(召回率)是在信息检索与机器学习领域常用的衡量指标,书籍或网络上有非常多的定义,敝人在重温周志华先生《机器学习》一书时,发现书中的定义是非常科学的,而且把这两个指标根据混淆矩阵进行了数学化!在信息检索领域的定义:检索出的n个文档中正确结果(m个结果是正确的)的比率即是查准率,即p=n/m;假设在所有的数据中正确结果有n个,一次检索...原创 2018-03-22 12:59:27 · 21676 阅读 · 2 评论 -
频繁项集实际应用之分类到分类的交叉推荐
欢迎关注鄙人公众号,技术干货随时看!首先介绍下频繁项集的相关知识!其实频繁项集是针对购物车提出来的,也就是在购物车中频繁出现的物品的集合。2.相关概念:关联规则的支持度:Support(A,B)=包含A和B的事务数/事务总数关联规则的置信度:Confidence(A,B)= 包含A和B的事务数/包含A事务数频繁项集:项集的频率大于等于最小支持度。强相关规则:同时满足...原创 2017-10-12 16:49:47 · 16051 阅读 · 0 评论 -
hanlp源码解读之字符正规化CharTable
概述:字符正规化是指在分词之前把繁体转成简体、大写转成小写等,在自然语言处理中这是必不可以的一个步骤!在hanlp中的实现方法是基于词典的,也就是正规则字符对照表。就是“data/dictionary/other/CharTable.txt” 这个词典,打开后是下面这个样子的!«=《 「=“」=”『=‘』=’【=《〗="〝="〞="と=之ふ=子ル=儿ㄖ=日丟=丢原创 2017-10-12 09:28:23 · 16237 阅读 · 0 评论 -
tensorflow滑动平均模型ExponentialMovingAverage的使用
滑动平均模型可以在一定程度上提高最终模型在测试集或实际预测数据的准确性。神经网络中每层的参数矩阵W都建一个对应的影子变shade_w量,一般情况下每一批数据更新一次W,shade_w也会随着更新但更新的幅度小有W。影子变量更新值由下面的公式决定: shadow_w = decay * shadow_w + (1-decay) * w shadow_w的初始值就是w的初始值,decay...原创 2018-06-06 12:16:41 · 15885 阅读 · 0 评论