spark
文章平均质量分 94
辰星M
保持学习,知识分享
展开
-
[spark]计算商品相似度
一、商品相似度定义 基于物品的协同过滤算法是业界应用最多的算法,它的思想是给用户推荐那些和他们喜欢的物品相似的物品,主要分为两个步骤:一,计算物品之间的相似度;二,根据物品相似度和用户的历史行为给用户生成推荐列表。物品i和物品j的相似度可定义为:其中,分母是喜欢物品i的用户数,分子是同时喜欢物品i和物品j的用户数。 在电商网站中,用户前后的消费行为有很强的关联性,如上图所示,两个用户...原创 2018-07-12 19:19:37 · 8822 阅读 · 0 评论 -
[spark性能调优]spark submit资源参数调优及amazon集群示例
目录一、spark作业基本运行原理二、资源参数调优Spark内存管理:三、amazon集群资源参数示例 一、spark作业基本运行原理资源申请与分配: 我们使用spark-submit提交一个spark作业后,这个作业会启动一个对应的Driver进程。根据使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动(client mo...原创 2018-08-23 18:42:41 · 2211 阅读 · 1 评论 -
spark共享变量:累加器与广播变量
累加器 累加器提供了将工作节点中的值聚合到驱动器程序中的简单语法。累加器一个常见用途是,在调试时对作业执行过程中的事件进行计数。 执行行动操作后,累加器的值才会更新; 累加器的值只有在驱动程序才能访问,从工作节点上任务的角度看,累加器只是一个只写变量。在这种模式下,累加器的实现可以更加高效,不需要对每次更新操作进行复杂的通信。 广播变量...原创 2018-10-26 09:34:52 · 200 阅读 · 0 评论 -
[spark]在集群上运行spark
目录1、spark运行时架构2、两种操作:转化操作和行动操作3、在集群上运行应用程序4、使用spark-submit部署应用1、spark运行时架构运行时架构描述:spark-submit启动驱动器 驱动器和集群管理器通信,为执行器申请资源 集群管理器启动执行器不同结点的职责: 结点类型 职责 驱动器...原创 2018-11-23 09:04:22 · 676 阅读 · 0 评论 -
[spark]总结spark ML机器学习库(pyspark.ml)
目录一、pyspark.ml.feature特征处理二、pyspark.ml模型三、pyspark.ml.tuning参数遍历一、pyspark.ml.feature特征处理 方法 描述 功能 连续特征离散化 Binarizer 将连续值划分为二元离散数值 连续特征离散化 Bucketizer 将连续值划分为多元离散数值 ...原创 2019-05-22 20:00:10 · 2562 阅读 · 0 评论 -
spark性能优化-数据倾斜
背景: 计算同一品类两两商品的相似度,已有的数据结构:[(cid,int); (pid,int); (features,vector)],商品数4W,商品对8W,用时8h。分析是由于数据倾斜导致,例如cid1有100个商品,cid2有300个商品,cid3有1000个商品,由于根据分类id,计算商品相似度,cid3的商品对在一个task中,导致所有任务都等待这一个task运行结束。...原创 2019-06-26 21:47:08 · 182 阅读 · 0 评论