- 博客(3)
- 收藏
- 关注
原创 《机器学习实战》k邻近算法代码(2-1)详解
注明:此文的代码源于《机器学习实战》。注释为个人为学习而添加,仅供参考。概述:利用矩阵计算距离步骤:1.得到训练集矩阵和对应的标签 ;2. 将每个变量集复制和训练集矩阵同结构的矩阵;3.变量集矩阵和训练集矩阵相减,结果中每个元素计算2次幂之后,再按行对元素进行求和后开2次方,使用的是欧式距离计算公式4. 对距离最近的前k个标签进行统计,结果最大的也就变量...
2019-06-24 18:00:34 973
原创 ETL: 如何使用kettle向API接口推送Json数据
Kettle作为开源ETL工具,使用较多(因为不花钱)。 最近我个人在使用的时候遇到了需要将hive的数据以Json的格式推动到API接口。调用API使用的是Kettle的组件“rest client”。具体的流程如下: 因为向下游推送数据时候,需要先获取 Token密码,再拼接为API的URL 。所以,第一步需要先获取Token密码: ...
2019-04-28 08:05:31 12391 4
原创 Sqoop 抽数据---优化
sqoop作为一个跨平台抽取和输出数据的工具,在关系型数据库(oralce,mysql等)和大数据平台之间常用。而目前的项目使用的hadoop平台,上游数据库是Oracle。 作为ETL的一环,加载作业的性能也是需要关注和优化的。如果使用Sqoop命令,则可以从以下几点进行优化: 1.允许并行抽数: -m n:这个参数代表的是允许n个MapRe...
2019-03-04 01:11:16 3367
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人