自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 《机器学习实战》k邻近算法代码(2-1)详解

注明:此文的代码源于《机器学习实战》。注释为个人为学习而添加,仅供参考。概述:利用矩阵计算距离步骤:1.得到训练集矩阵和对应的标签 ;2. 将每个变量集复制和训练集矩阵同结构的矩阵;3.变量集矩阵和训练集矩阵相减,结果中每个元素计算2次幂之后,再按行对元素进行求和后开2次方,使用的是欧式距离计算公式4. 对距离最近的前k个标签进行统计,结果最大的也就变量...

2019-06-24 18:00:34 973

原创 ETL: 如何使用kettle向API接口推送Json数据

Kettle作为开源ETL工具,使用较多(因为不花钱)。 最近我个人在使用的时候遇到了需要将hive的数据以Json的格式推动到API接口。调用API使用的是Kettle的组件“rest client”。具体的流程如下: 因为向下游推送数据时候,需要先获取 Token密码,再拼接为API的URL 。所以,第一步需要先获取Token密码: ...

2019-04-28 08:05:31 12391 4

原创 Sqoop 抽数据---优化

sqoop作为一个跨平台抽取和输出数据的工具,在关系型数据库(oralce,mysql等)和大数据平台之间常用。而目前的项目使用的hadoop平台,上游数据库是Oracle。 作为ETL的一环,加载作业的性能也是需要关注和优化的。如果使用Sqoop命令,则可以从以下几点进行优化: 1.允许并行抽数: -m n:这个参数代表的是允许n个MapRe...

2019-03-04 01:11:16 3367

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除