![](https://img-blog.csdnimg.cn/20190905171821827.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
计算机-周卓
主要从事高性能计算集群运维
展开
-
Spark里WordCount程序三种写法
方法一:val g=sc.textFile("/hosts").flatMap(x=>x.split(" ")).map(x=>(x,1)).reduceByKey((x,y)=>x+y)方法二:scala> val rr=sc.textFile("/test2").flatMap(x=>x.split(" ")).countByValue()方法三:val原创 2018-06-11 13:47:25 · 664 阅读 · 0 评论 -
Spark DataFrame写入MySQL数据库(一)
对于结构化数据,我们都可以将其存放到数据库中,尤其在Spark2.0以后,Spark开始用dataframe为核心的API来处理数据。dataframe的结构与SQL结构非常相似,但DataFrame的数据类型不一定与SQL中字段的数据类型兼容,这里分两种情况来说明DataFrame存入数据库。本篇首先介绍简单的数据类型下,如何存入数据库。假如现在有个文本如下:1001,zhangsan...原创 2018-11-08 21:24:05 · 4824 阅读 · 1 评论 -
SparkingH2O安装与测试
是一个可扩展的H2O机器学习算法平台,它与Spark的功能相结合。 它允许用户将使用Scala / R / Python语言来调用它。在安装它时需要注意版本与spark版本一致,由于本人的spark平台为2.3版本,即对应安装2.3版的Sparkling Water安装步骤如下:1、下载Spark_H2O安装包sparkling-water-2.3.284_nightly.zip(下载地址...原创 2018-10-14 22:12:10 · 1034 阅读 · 1 评论 -
IntelliJ IDEA 2018.2.4 x64破解
1、下载IntelliJ IDEA 2018.2.4 x64ultimate版并安装,切记安装后不要急着打开程序!!!2、安装完成后,将JetbrainsCrack-3.1-release-enc.jar放至ideal安装目录下的bin目录下 (JetbrainsCrack-3.1-release-enc.jar:点我下载)3、编辑bin下的文件,指定jar位置idea....原创 2018-10-12 16:31:40 · 2194 阅读 · 0 评论 -
通俗理解TF-IDF文本分析算法
TF-IDF是一种文本词频(文本特征提取)统计算法概念:词频(TF):一个词语在文本中出现的频率;文本总数(D):所搜集的所有文本数;含关键字文本数(Dw):含有某个词(关键字)的文本数目;公式:情景假设:现搜集了D个文件,要分析某文件某关键词w的TF-IDF词频TF(w)=某词w在所有文件中出现的次数/该文件的总词数含有w词的文本共有Dw个,则IDF(w)=log(D/Dw+1...原创 2018-08-22 17:23:49 · 2378 阅读 · 0 评论 -
计算机图论入门
图论学科背景数学史上的图论可以追溯到柯尼斯堡七桥问题(大约1730年代)。它提问是否可以在以下限制条件下遍历柯尼斯堡市的七座桥梁。欧拉于1736年研究并解决了此问题,他把问题归结为如“一笔画”问题。他的《柯尼斯堡七桥》的论文圆满解决了这一问题,同时开创了数学一个新分支---图论。 图论概念平均路径长度:所有可能节点对应的最短路径长度的平均值。给出了图的“紧密度”度量,可用于了解此网络中...原创 2018-08-07 13:03:36 · 12194 阅读 · 5 评论 -
Spark GraphX aggregateMessage函数介绍
aggregateMessage函数有两个大操作,一个是sendMsg,一个是mergeMsg。aggregateMessages函数其对象是三元组。sendMsg是将三元组的属性信息进行转发,mergeMsg是将sendMsg转发的内容进行聚合。sendMsg函数以EdgeContex作为输入参数,没返回值,提供两个消息的函数sendToSrc:将Msg类型的消息发送给源节点sendToDst:...原创 2018-07-15 20:35:45 · 1927 阅读 · 0 评论 -
Spark调优(一)--资源分配调优
性能调优的王道,就是增加和分配更多的资源,性能和速度上的提升,是显而易见的;在一定范围之内,增加资源与性能的提升,是成正比的;问题:1、分配哪些资源?2、在哪里分配这些资源?3、为什么多分配了这些资源以后,性能会得到提升?答案:1、分配哪些资源?executor、cpu per executor、memory per executor、driver memory2、在哪里分配这些资源?在我们在生产...原创 2018-06-28 18:31:09 · 462 阅读 · 0 评论 -
Spark集群架构原理
Spark集群分类Spark集群分为独立集群模式和yarn模式,独立集群模式即Standalone模式,是Spark自带的一种集群模式,它的架构是Master-Worker架构。yarn模式是借助Hadoop的yarn资源管理运行的一种集群模式,yarn模式还细分为yarn-cluster模式和yarn-client模式。Standalone模式架构原理standalone模式下,spark-su...原创 2018-07-01 19:31:58 · 621 阅读 · 0 评论 -
RDD常用操作(一)
take(N):随机取RDD中N个元素scala> s3.take(4)res4: Array[Int] = Array(1, 2, 3, 4)takeOrder(N):升序取出RDD中N个元素scala> s3.takeOrdered(2)res7: Array[Int] = Array(1, 2)top(N):降序取出RDD中N个元素scala> s3.top(4)res8:...原创 2018-06-07 19:18:46 · 1860 阅读 · 0 评论 -
RDD读取数据
文件读取scala> val lines = sc.textFile("README.md")scala> lines.collect()//显示并行化读取scala> var lines = sc.parallelize(List("i love you"))scala> lines.collect()coalesce() /repartition()调整分区val rd...原创 2018-06-07 19:15:08 · 2247 阅读 · 0 评论 -
RDD常用操作(二)
PairRDD方法:(针对键值对的RDD方法)groupByKey():根据Key对Value分组scala> val rdd1=sc.makeRDD(List(("A",2),("B",1),("A",5),("C",2),("B",2)))scala> rdd1.groupByKey().collectres15: Array[(String, Iterable[Int])]原创 2018-06-07 19:27:47 · 371 阅读 · 0 评论 -
RDD二元操作
如果出现一些函数不能用导入包import org.apache.spark.api.javaunion++ 等价于 union 将两个rdd做并集val rdd1 = sc.parallelize(List(1,2,3,4,5))val rdd2 = sc.parallelize(List(6,7,8,9,10))Val rdd3 = rdd1 ++ rdd2 结果就是 rdd(1,2,3,4,5...原创 2018-06-08 11:20:25 · 337 阅读 · 0 评论 -
Spark MLlib 入门--Breeze函数
Breeze函数介绍Spark MLlib底层的向量、矩阵运算使用了Breeze库,Breeze库提供了Vector/Matrix的实现以及相应计算的接口(Linalg)。但是在MLlib里面同时也提供了Vector和Linalg等的实现导包:import breeze.linalg._import breeze.numerics._创建2行3列零矩阵scala> val m1 = Dens...原创 2018-06-08 15:12:07 · 1001 阅读 · 0 评论 -
Spark DataFrame写入MySQL数据库(二)
对于DataFrame中字段为复合类型,即不是SQL字段中支持的数据类型的话,将DataFrame存入SQL将报错。本人在用Spark做机器学习时,常常会产生一些特征值(即一些向量)。如果直接将DataFrame字段中的特征值直接写入SQL中将会报错,如下:Exception in thread "main" java.lang.IllegalArgumentException:...原创 2018-11-08 21:53:10 · 1943 阅读 · 0 评论