![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
bigdata
文章平均质量分 68
喵十八
这个作者很懒,什么都没留下…
展开
-
DT近期合作爬坑记录
归档至githubDT代码中的坑连续两周时间都在支持DT以及相关的label的开发能够明显的发现DT提供的代码质量非常之差。列举出来,前事不忘后事之师。hard core在spark的代码中,将master 以及入参全部hard core,入参不必说他,将master 设置之后,我spark submit可是会报错的啊。不转为String 直接saveAsTextFile常常出现(...原创 2018-01-21 15:00:16 · 54 阅读 · 0 评论 -
群内2018_3月讨论整理
归档至github2018.03.29_01问题描述如何成为技术大牛根据阿里的分享do moredo betterdo exercise如何成为技术大牛2018.03.29_02问题描述淘宝如何保持宝贝数量的一致性思路淘宝宝贝数量先减去购卖数,不为0就可以同步处理,处理失败再加回来。如果宝贝数量减到一,则竞争。2018.03.28_01问题描述worker 与 exe...原创 2018-04-08 09:13:33 · 82 阅读 · 0 评论 -
Lookalike 技术调研
归档至githubWhat基本上所有的互联网公司都有其广告投放平台,这是给广告主投放广告的一个页面。广告主可以通过广告提交页面提交自己的广告需求,后台会给广告主圈定一部分潜在用户,这个就是我们称为Lookalike的模块。lookalike 不是某一种特定的算法,而是一类方法的统称,这类方法综合运用多种技术,最终达到目的。How第一种就是显性的定位,广告主根据用户的标签直接定位比如说通过...原创 2018-04-11 15:11:22 · 191 阅读 · 0 评论 -
和DH大神交流总结
归档至github交流目的及解答反馈现在遇到的问题获得解答确定后续的技术路线,借助DT的经验来确定选型是否合适之前定的方案是合适的,但是细节上需要进一步明确。得出能够落实的方案(理论依据 + 实现可能)向业务请教现有有效规则经验,抽象化为特征积累数据模型迁移尝试构建稀疏特征,第一步尝试使用MLR等传统模型处理,第二步采用多层神经网络(是否激进一些,直接使用神经网络???)...原创 2018-06-13 21:18:31 · 86 阅读 · 0 评论 -
群内2018_4月讨论整理1
已经归档至github说明以下内容来自群中出现的问题,大家讨论的结果Q群:432600958微信群:加微信w3aboutyun,附上about云铁粉2018.04.13_01问题描述面试资源题目分享资料TOP 25大常见Hadoop面试题及答案Spark面试题汇总 密码:bcpc2018.04.12_01问题描述sklearn 训练的模型如何在spark streamin...原创 2018-07-03 00:09:29 · 101 阅读 · 0 评论 -
群内2018_4月讨论整理2
归档至github说明以下内容来自群中出现的问题,大家讨论的结果Q群:432600958微信群:加微信w3aboutyun,附上about云铁粉部分内容整理时,已经注明出处,但很多内容,较为零碎,也无暇整理,如有不妥,请联系我,谢谢。这次整理开始,按照问题进行分类银行存储金额,使用什么类型时间2018.04.27思路用Int,直接存分今日头条用户定向预估的实现方案 讨论...原创 2018-07-03 00:13:03 · 130 阅读 · 0 评论 -
群内2018_5月讨论整理
归档至github说明以下内容来自群中出现的问题,大家讨论的结果Q群:432600958微信群:加微信w3aboutyun,附上about云铁粉部分内容整理时,已经注明出处,但很多内容,较为零碎,也无暇整理,如有不妥,请联系我,谢谢。五月一直在加班,整理的东西有限如何从小白快速蜕变为大佬时间2018.05.03内容这是一些经验,主要有两点1、 培养自己的阅读习惯2、 提高对...原创 2018-07-03 00:14:23 · 95 阅读 · 0 评论 -
Spark mllib KMeans 源码走读【2018存档】
本文基于Spark 1.6.3KMeans介绍K-Means算法是一种基于距离的聚类算法,采用迭代的方法,计算出K个聚类中心,把若干个点聚成K类。具体的数学推演可以参考这两篇:基本Kmeans算法介绍及其实现K-means聚类算法MLlib 中KMeans 实现介绍MLlib实现K-Means算法的原理是,运行多个K-Means算法,每个称为run,返回最好的那个聚类的类簇中心。初始的类簇中心,可以是随机的,也可以是KMean||得来的,迭代达到一定的次数,或者所有run都收敛时,算法就结束。原创 2021-08-23 20:59:19 · 121 阅读 · 0 评论 -
spark-submit 源码阅读【2018存档】
前言基于spark1.6 源码整体流程参考这个图整个流程,涉及3个sh,以两个类作为入口spark-submit-> spark-class-> load-spark-env.sh 加载conf 中的spark-env.sh 中的环境变量,配置scala 的版本-> 返回spark-class-> 一系列环境变量的校验,依赖包目录的校验、设置-> 执行 org.apache.spark.launcher.Main-> 执行 org.apache.sp原创 2021-08-23 20:57:49 · 95 阅读 · 0 评论 -
Spark 爬坑记录之percent_rank()【2017存档】
若在maven 中配置了 org.scala-tools maven-scala-plugin compile testCompile ${scala.version}.6 -target:jvm-1.7 无需再在IDEA中配置 scala 的sdk注意这一行,最好标注小版本 2.10.62.10.6原创 2021-08-23 20:54:00 · 293 阅读 · 0 评论 -
Spark 爬坑记录之开发Scala版本冲突【2017存档】
若在maven 中配置了 org.scala-tools maven-scala-plugin compile testCompile ${scala.version}.6 -target:jvm-1.7 无需再在IDEA中配置 scala 的sdk注意这一行,最好标注小版本 2.10.62.10.6原创 2021-08-23 20:50:47 · 188 阅读 · 0 评论 -
将基于Spark 2.x 开发的LDA 程序 迁移至Spark 1.6 的环境【2017存档】
前言对方提供的LDA 聚类程序,是基于Spark 2.x 的,但是,我们的生产环境是Spark 1.6。 恩那么问题就来了,怎么让基于Spark 2.x 的代码在Spark 1.6 上跑起来。第一个想法是,只要把SparkSession 改为SparkContext 和 SQLContext 就行了。然后发现自己真的图样图森破。对方非常高端的使用了ml库,当然这不是问题。对方是用python 写的,当然这也不是问题毕竟小学生都要学python了,作为一个程序员不会python 就说不过去了对方的pytho原创 2021-08-23 20:48:09 · 92 阅读 · 0 评论 -
数据挖掘 & Spark MLlib 经验记录【2017存档】
1.数据挖掘是有目的的,Spark只是工具在数据挖掘操作前,需要明确,通过这些计算,你希望从这一堆数据中获取到什么。不然只是每个算法跑一遍,也只能证明你调用Spark API 的能力合格了。在最开始的时候,进入了一个误区,以为社区炒的火热的Spark是全知全能的。数据挖掘什么的,Spark就能搞定了。然而,Spark毕竟只是一个工具,使用工具归根结底还是人。最开始,只是想掌握Spark这种技术而已,从而忽视了数据挖掘的目的(当然,这也和团队构成有关,一个产品经理加我一个研发,总觉得和业务相关的事由产品经原创 2021-08-23 20:46:40 · 182 阅读 · 0 评论 -
Spark开发环境搭建【2018存档】
Spark本地安装Java 安装Spark 安装PySpark 安装Java安装这一部分不多赘述,配置好Java 环境变量即可。Spark 安装在官网下载所需版本的Spark 压缩包解压至对应目录,如 C:\dev\spark1.6.3配置环境变量这时,进入cmd 命令行,可以启动。Pyspark 安装要求在本机已经安装好Spark。此外python 3.6 版本不兼容Spark 1.6,使用时需要注意。新增环境变量:PYTHONPATH值为:%SPARK_HOME%\原创 2021-08-23 20:42:04 · 85 阅读 · 0 评论 -
Spark 学习笔记【2018存档】
这里写自定义目录标题前言前置条件编程语言算法知识SQL进阶教程一些站点前言Spark 作为目前最火的技术栈或许 大概 应该 maybe 没有之一了吧,看上去很厉害,实际上也很厉害。。。去年,有个东西还准备自己造轮子解决,后来耽搁了,上周一搜,已经有大神造好了轮子本篇,作为自己学习Spark 的一个记录,不涉及Spark 的具体介绍,主要是一些学习思路和学习资料的整理,资源都来自网络及社区,侵删。前置条件编程语言学习使用Spark,需要有一定的基础知识,在编程语言的方面,目前支持了Scala、J原创 2021-08-23 20:38:58 · 110 阅读 · 0 评论