spark
陈大豆
这个作者很懒,什么都没留下…
展开
-
spark连接hive
1.pom文件需要加<dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>1.2.1</version> <!-- <scope>provided</scope>--> </depende原创 2021-07-25 20:46:02 · 476 阅读 · 0 评论 -
spark学习之路一(spark概述)
文章目录前言一、spark是什么?1.定义2.历史二、spark的内置模块1.具体展示2.具体介绍三.spark特点前言最近感觉自己无所事事,有点烦,烦躁的时候,搞点事做做把~,然后呢,就来搞事了。一、spark是什么?1.定义Spark是一种基于内存的快速、通用、可扩展的大数据分析引擎。2.历史2009年诞生于加州大学伯克利分校AMPLab,项目采用Scala编写。2010年开源;2013年6月成为Apache孵化项目2014年2月成为Apache顶级项目。二、spark的内置模原创 2021-02-18 20:47:49 · 361 阅读 · 0 评论 -
spark应用中jackson版本冲突的解决
https://segmentfault.com/a/1190000016412887转载 2021-01-28 23:24:02 · 857 阅读 · 0 评论 -
spark需要引用的包
pom.xml如下显示<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-原创 2021-01-28 23:04:03 · 472 阅读 · 0 评论 -
hive on spark
https://blog.51cto.com/14048416/2392853转载 2021-01-27 23:49:10 · 163 阅读 · 1 评论 -
spark中稀疏向量转密集向量
在通过VectorAssembler将多列特征值和并后,由于spark存储格式的原因,会将含有很多0值的一行转为稀疏向量sparseVector进行存储。然而在后续计算过程中,我们需要的是密集向量,所以需要将稀疏向量转为密集向量。1.先通过VectorAssembler将需要的列转成向量列2.转为RDD后map操作,将feature列中的元素转为DenseVector在这里插入图片描述...转载 2020-10-17 17:16:10 · 1024 阅读 · 1 评论