一、背景
由于c端用户数量增长过快,将几千万的数据放在mysql中并不实际,耗费大量的空间,速度也跟不上。
一个方法是采取分库分表的方式;
另一个方法是使用Spark直接查询Hive数据库;(采用)
二、实施
1、添加maven依赖
<!-- spark on hive -->
<!-- spark on hive -->
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.6.0</version>
<exclusions>
<exclusion>
<artifactId>servlet-api</artifactId>
<groupId>javax.servlet</groupId>
</exclusion>
<exclusion>
<artifactId>jasper-compiler</artifactId>
<groupId>tomcat</groupId>
</exclusion>
<exclusion>
<artifactId>jasper-runtime</artifactId>
<groupId>tomcat</groupId>
</exclusion>
<exclusion>
<artifactId>jsp-api</artifactId>
<groupId>javax.servlet.jsp</groupId>