AI / BigData / Cloud
wendaocp
这个作者很懒,什么都没留下…
展开
-
Spark学习-Streaming
Spark StreamingSpark Streaming对比StormSpark Streaming 处理逻辑对比 SparkCore / SparkSQLSpark Streaming流式处理框架,7*24h 不间断运行对比StormStorm处理流式数据是:来一条,出一条。是纯实时处理。Spark Streaming 处理逻辑会等待一段时间,可以认为设置等待多久。比如等待10s,那么等到10s后,会把这期间的所有数据批量处理,然后输出结果。简而言之:来一段时间内的数据,一起处理。原创 2020-06-21 13:49:30 · 149 阅读 · 0 评论 -
PCA 和 SVD 的区别和联系
基础两者的基础都是 求解特征值、特征向量矩阵对向量的乘法,其实是矩阵对此向量的旋转和拉伸。如果矩阵对某个向量V只拉伸而不旋转,那么V就是该矩阵的eigenVector,拉伸比就是eigenValue.PCA是对一个维度的分析,比如对features分析,可以实现特征降维。SVDA=UΣVTA=U\Sigma V^TA=UΣVT是对两个维度的分析。比如矩阵的每行是产品,每列是用户,矩阵元素是评分。可以使用SVD向用户做产品推荐。...原创 2020-06-13 21:40:10 · 638 阅读 · 0 评论 -
稀疏矩阵的压缩方式 CCS / CRS
Sparse Matrix 稀疏矩阵Storage 存储方式Compressed Row Storage (CRS)Compressed Column Storage (CCS)参考Storage 存储方式Compressed Row Storage (CRS)压缩行的存储。这使用行优先的存储方式,即把矩阵转成一维数组时,行优先进行。使用3个向量来表示稀疏矩阵:values:存储非0的数值col_index:记录非0数值的在矩阵里的列索引 (0-based index)。row_ptr:记录原创 2020-06-13 12:30:02 · 3238 阅读 · 1 评论 -
Spark-Pipeline
Spark-Pipeline注IntroPipelineFitTransformDAGParametersSaving and Loading Pipelinescode注学习笔记。若涉及侵权,请告知删除。Intro构建在DataFrame之上。Mllib提供标准的机器学习算法API,能够方便的将不同的算法组合成一个独立的管道 Pipeline or workflow.DataFrame: from Spark SQL as an ML dataset, which can hold a var原创 2020-06-06 19:15:11 · 363 阅读 · 0 评论 -
hdfs shell的基本操作和hdfsWeb查看文件
hdfs shell, hdfsWebhdfs基本操作查询命令创建新的空文件创建文件增加文件查看文件内容复制文件删除文件或文件夹重命名将源目录下的所有文件排序合并到一个本地文件hdfs基本操作查询命令$ hadoop dfs -ls / 查询 / 目录下的所有文件和文件夹$ hadoop dfs -ls -R 以递归的方式创建新的空文件hdfs dfs -mkdir /t...原创 2020-05-30 11:17:28 · 696 阅读 · 0 评论 -
Spark求数据的统计值:最大值、最小值、平均值、方差、数量(Java代码)
Spark计算统计值用到的核心类Java代码注用到的核心类org.apache.spark.mllib.stat.Statisticsorg.apache.spark.mllib.stat.MultivariateStatisticalSummaryJava代码package ml.summary;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spar原创 2020-05-28 16:43:51 · 3764 阅读 · 0 评论 -
Spark MLlib求解机器学习Precision, Recall, F1值 (Java代码)
Spark MLlib求解Precision, Recall, F1 使用JavaMaven依赖使用的核心类理论准备Precicion, Recall, F1计算Precision计算Recall计算F1注意Java代码回到发放信用卡问题上用到的数据集参考Maven依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</art原创 2020-05-23 19:58:38 · 880 阅读 · 0 评论