算法
北京小峻
苦心钻研只为更专业
展开
-
spark中的宽依赖,与窄依赖的区别
spark中的宽依赖,与窄依赖的区别在一个程序里面产生宽依赖和窄依赖的RDD是分父RDD和子RDD的,其中父RDD和子RDD是相对而言,相邻两个RDD处理之前是父RDD,处理之后就是子rdd,具体你用的什么算子产生没有产生shuffle就是会出现宽依赖和窄依赖的现象.宽依赖多对多,一对多(父RDD的一个或者多个分区,可能被子RDD多个分区所使用,)窄依赖一对一,多对一(父RDD的一个或...原创 2020-04-15 21:26:42 · 640 阅读 · 1 评论 -
用户画像之情感语义分析
用户画像之情感语义分析在用户画像中的用户商品,品类,品牌偏好程度画像(模型标签)中需要统计出如下的指标:事实标签:用户对某商品,品类,品牌的购买记录 – 统计订单表, SQL直接出.事实标签:用户对某商品,品类,品牌的收藏记录 – 统计交互事件明细表, SQL直接出.事实标签:用户对某商品,品类,品牌的浏览记录 – 统计流量事件明细表, SQL直接出.事实标签:用户对某...原创 2020-04-13 23:10:23 · 623 阅读 · 0 评论 -
TF-IDF算法详解
TF-IDF算法详解此算法多用于情感语义分析,提取每条评论中的权重词用来分析,分类!TF:(Term Frequency,缩写为TF)也就是词频.IDF:(Inverse Document Frequency) 逆文档频率下面就是具体的公式:1.计算词频TF考虑到文章有长短之分,为了方便不同文章的比较,进行"词频"标准化.再或者2.计算逆文档频率需要一个语料库(corpus)...原创 2020-04-13 21:36:45 · 3076 阅读 · 1 评论 -
MLlib之朴素贝叶斯数学原理到现实问题编程
MLlib之朴素贝叶斯数学原理到现实问题编程1.样本数据:+-------+------+-------+-----+----+-------+| name | job | income| age | sex| label |+-------+------+-------+-----+----+-------+|张飞 |老师 |中 |青年 |男 |出轨 ||赵云...原创 2020-02-21 16:31:57 · 261 阅读 · 1 评论 -
sqarkSQL中的UDF用户自定义函数理解及应用
sqarkSQL中的UDF用户自定义函数理解及应用sqarksql不是万能的有一些功能无法实现所以我们需要自定义函数例如 sqarksql中的 concat_ws(",",“A”,“B”)=>将两个字段合并成一个字段中间用,隔开输入一行返回一行的就叫做udf输入一行返回多行的就叫做udtf输入多行返回一行的就叫做udaf例如需求:你输入一个id让他给你返回一个省市区,在sq...原创 2020-02-21 15:50:38 · 344 阅读 · 0 评论 -
MLlib之KNN算法实例
KNN算法实例knn算法的思想:邻近算法,或者最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表(近朱者赤近墨者黑)。求距离公式:曼哈顿距离欧几里得距离需求:样本数据,label,f1,f2,f3,f4,f50,10,20,30,40,300,1...原创 2020-02-21 13:27:55 · 501 阅读 · 0 评论