机器学习
闻香识代码
这个作者很懒,什么都没留下…
展开
-
中文分词框架Hanlp简单案例(scala)
中文分词框架Hanlp简单案例(scala)背景在机器学习中,如果需要对中文做自然语言处理,分词的环节必不可少。有很多好用框架Hanlp就是一个分词框架案例<dependency> <groupId>com.hankcs</groupId> <artifactId>hanlp</artifactId> <version>portable-1.7.4&l原创 2020-11-01 20:39:35 · 888 阅读 · 0 评论 -
大数据机器学习之KNN(k近邻)算法Spark mllib实现案例
大数据机器学习之KNN(k近邻)算法Spark mllib实现案例背景在大数据场景下,spark框架提供了支持分类,聚合,协同过滤,回归四大类场景的mllib模块本文讲述的knn刚好是spark mllib不支持,但可以自行实现的算法。案例数据标注的训练数据label,f1,f2,f3,f4,f50,10,20,30,40,300,12,22,29,42,350,11,21,31,40,340,13,22,30,42,320,12,22,32,41,330,10,21,原创 2020-11-01 17:37:44 · 2243 阅读 · 0 评论 -
大数据开发之机器学习总结(Mllib示例)(五)
大数据开发之机器学习总结(Mllib示例)(五)背景作为spark框架中支持机器学习的模块,其算法库核心内容如下可以看到,主要就是分类,回归,决策树等算法1. 分类算法分类算法属于监督式学习,使用类标签已知的样本建立一个分类函数或分类模型,应用分类模型,能把数据库中的类标签未知的数据进行归类分类在数据挖掘中是一项重要的任务,目前在商业上应用最多,常见的典型应用场景有流失预测、精确营销、客户获取、个性偏好等MLlib 目前支持分类算法有:逻辑回归、支持向量机、朴素贝叶斯和决策树导原创 2020-10-31 22:53:59 · 352 阅读 · 0 评论 -
大数据开发之机器学习总结(Spark Mllib)(四)
大数据开发之机器学习总结(Spark Mllib)(四)背景在大数据和机器学习交叉的领域,如果公司选择了hadoop生态,结合spark框架,则spark 的mllib用于机器学习实际应用就是不二选择了。团队有spark基础,学习和适用门槛低。但如果选择python生态,则需要团队有python基础,另外个人认为,python工程化对比java生态还是差了那么一些意思。1. Spark MLLib简介spark的mllib目前支持4种常见机器学习问题,分类,回归,聚类,协同过滤。mlli原创 2020-10-31 22:24:21 · 907 阅读 · 0 评论 -
大数据开发之机器学习总结(数学知识)(三)
大数据开发之机器学习总结(三)机器学习基础数学知识5. Spark MLLib简介6. 模型评估7. Spark MLlib算法案例8.原创 2020-10-31 21:16:55 · 279 阅读 · 0 评论 -
大数据开发之机器学习总结(二)
大数据开发之机器学习总结(二)1. 精确率和召回率监督学习中,如何评估一个模型的效果,这时候就需要相办法做指标评估。监督学习中,针对分类场景,一般是分类准确率,定义为分类器对测试集正确分类的样本数与总样本数之比对于二类分类问题,常用指标就是精确率和召回率,这时候按照真实数据所属类比与模型预测结果组合划分,有如下2. 回归问题监督学习中,回归就是基于已有数据,找出输入和输出之间规律,然后根据输入的数据,得出预测的结果数据。有点类似新建一个函数,来贴合现有的函数。这叫做拟合回归问题分类原创 2020-10-24 23:02:23 · 225 阅读 · 0 评论 -
大数据开发之机器学习总结(一)
大数据开发之机器学习总结1. 背景在大数据开发中,数据分析目的一般分为2大类,一个是基于已有数据,提炼出想要的数据汇总信息。一个是基于已有数据使用算法训练出模型,基于模型预测和分析未来的新数据。前者就是很多时候的大数据分析场景,后者则涉及到算法模型,机器学习的范畴。更进一步,人工智能,但机器学习和人工智能,本身其实技术上并没有非常严格的界限。2. 机器学习概念机器学习,故名思意,让机器通过学习过去的经验数据,然后可以更好处理现在和未来的任务。官方定义,研究计算机对于特定任务的性能,逐步改善原创 2020-10-24 22:43:41 · 1253 阅读 · 0 评论