spark
文章平均质量分 67
xiaokekehaha19
这个作者很懒,什么都没留下…
展开
-
大数据---spark系列--DateFrame
做了几年的大数据开发,现在有了写博客的想法。目前对spark的研究是最多的,来个开篇作吧。自从spark1.3开始有了Dataframe后,自此数据分析的领域有多了一个神器。开始的时候我也好奇它是什么东东。于此我们先从案例看起--很多时候我们是看官方案例开始的给个链接吧 http://spark.apache.org/docs/latest/sql-programming-gu原创 2015-09-25 10:42:39 · 1004 阅读 · 0 评论 -
spark--案例分享--性别预测
spark里面有很多分类算法逻辑回归(linear models (SVMs, logistic regression, linear regression)naive Bayes decision trees等这里我采用ML来做里面的分类算法 支持LR ,决策树、还有NaiveBayesModel等获取训练数据,(已知性别的数据在hive里面,所以从中获取数据)表我就一table代替原创 2015-09-28 15:44:38 · 3343 阅读 · 0 评论 -
spark高级文本处理技术--spark-Machine Learning With Spark
数据下载地址http://kdd.ics.uci.edu/databases/20newsgroups/20newsgroups.data.html.20news-bydate.tar.gz解压这个文件里面有很多文件夹加载数据 val path="/zhouxiaoke/20news-bydate-train/*" val rdd =sc.wholeTextFil原创 2015-09-28 11:32:12 · 730 阅读 · 0 评论 -
spark文本处理-文章分类
这里我采用的还spark来做数据处理以及采用的是spark里面的算法spark里面提供了词频-逆文本频率(TF-IDF)它给一个文本的每一个词赋予了一个权值,权值的计算是基于文本中出现的频率,同时采用逆向文本频率做全局归一化。具体的算法推断大家可以去看官网介绍。分类采用NaiveBayes来做我们来看一段数据(需要数据、代码的可以给我留言)Four score and se原创 2015-09-28 11:18:40 · 1839 阅读 · 6 评论 -
Spark ML Pipelines实例
趁着放假的前的空闲时光,写了几遍吧,这里主要是写一个ML里面的实例,这个是我从一个国外网站上看到的,以前的算法都是用的mlib,现在开始用ML来做。其实开始我对ML和mlib区别比较模糊,后来多看了几遍官网自己就熟悉了。没事就溜达一下官网吧,个人觉得官网是几个开源中最好的一个,api介绍也很丰富。准备数据用户的浏览网址数据Cookie | Site原创 2015-09-30 10:35:54 · 732 阅读 · 0 评论 -
spark--DataFrame处理udf操作和一些聚合操作
在spark中对数据进行处理udf函数还是很多的下面介绍在df下udf操作实例 val sqlContext = new SQLContext(sc) import sqlContext.implicits._调用sqlcontext里面的udf函数 sqlContext.udf.register("str",(_:String).length) sqlContext.s原创 2015-09-29 17:27:31 · 8342 阅读 · 0 评论