wx_Jum-CSDN博客

原创数据中台究竟是什么

数据中台概念数据中台是一套可持续“让企业的数据用起来”的机制，一种战略选择和组织形式，是依据企业特有的业务模式和组织架构，通过有形的产品和实施方法论支撑，构建一套持续不断把数据变成资产并服务于业务的机制。数据中台需要具备数据汇聚整合、数据提纯加工、数据服务可视化、数据价值变现４个核心能力，让企业员工、客户、伙伴能够方便地应用数据。...

2021-05-28 11:59:14 141

原创 Hive SQL 报错 Display all 478 possibilities? (y or n)

Display all 478 possibilities? Display all 478 possibilities? (y or n)Display all 478 possibilities? (y or n)今天使用Hive跑SQL时遇到了这个错误，Display all 478 possibilities? (y or n)报错原因：包含大量的tab缩进解决方法：删除tab缩进即可...

2021-05-11 13:46:39 467

原创利用pyspark 实现协同过滤算法

from pyspark import SparkConffrom pyspark.ml.evaluation import RegressionEvaluatorfrom pyspark.ml.recommendation import ALSfrom pyspark.ml.tuning import CrossValidator, ParamGridBuilderfrom pyspark.sql import SparkSessionfrom pyspark.sql.types import

2020-12-28 16:05:07 767

原创根据经纬度查找附近的人

SELECT author_id, # 用户id last_latitude, # 经度 last_longitude, #纬度 ( 3959 * acos ( cos ( radians(22.516218) ) * cos( radians( last_latitude ) ) * cos( radians( last_longitude ) - radians(113.907005) ) + sin ( ra

2020-11-13 15:31:41 407

原创 Git 拉取上传代码问题

今天用IDEA拉取代码的时候，遇到了这个问题Fetch failed: Could not read from remote repository.由于IDEA显示的信息过少，并不能定位到为什么会拉取失败的原因，所以要使用git 工具查下原因！使用git 克隆代码仓库 git clone git@ip:your project.git-----------------------...

2020-03-11 10:46:48 334

原创 Rabbit的连接的两种方式

Rabbit的连接的两种方式方式一：方式二：推送消息消费消息方式一：public static Connection GetRabbitConnection() { ConnectionFactory factory = new ConnectionFactory(); factory.setUsername(Config.UserName); factory.setP...

2019-12-24 10:29:52 1253

原创 java8笔记之正序倒序sorted()

自然序排序一个listlist.stream().sorted() 自然序逆序元素，使用Comparator 提供的reverseOrder() 方法list.stream().sorted(Comparator.reverseOrder()) 使用Comparator 来排序一个listlist.stream().sorted(Comparator.comparing(...

2019-10-14 16:31:34 492

转载 JAVA API操作ElasticSearch

Maven依赖环境<parent> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-starter-parent</artifactId> <version>2.0.1.RELEASE</version> <...

2019-09-25 11:30:36 145

原创 Spark将数据写入ElastichSearch

第一步：导包<dependency> <groupId>org.elasticsearch</groupId> <artifactId>elasticsearch</artifactId> <version>6.3.2</version></dependency&...

2019-07-25 15:37:28 374

原创机器学习及SparkMLlib简介

机器学习概念机器学习的定义在维基百科上对机器学习提出以下几种定义：机器学习是一门人工智能的科学，该领域的主要研究对象是人工智能，特别是如何在经验学习中改善具体算法的性能。机器学习是对能通过经验自动改进的计算机算法的研究机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。可以看出机器学习强调三个关键词：算法、经验、性能，其处理过程如下图所示。上图表明机器学习是数据通过算法...

2019-07-25 10:35:29 389

转载 Kafka读写

我们都知道，Kafka的特性之一就是高吞吐率，但是Kafka的消息是保存或缓存在磁盘上的，一般认为在磁盘上读写数据是会降低性能的，那么Kafka为什么速度那么快？即使是普通的服务器，Kafka也可以轻松支持每秒百万级的写入请求，超过了大部分的消息中间件，这种特性也使得Kafka在日志处理等海量数据场景广泛应用。写入数据Kafka会把收到的消息都写入到硬盘中，它绝对不会丢失数据。为了优化写入速度...

2019-06-11 13:52:18 627

转载 java中newInstance()和new()详解

文章目录背景区别背景在Java开发特别是数据库开发中，经常会用到Class.forName( )这个方法。通过查询Java Documentation我们会发现使用Class.forName( )静态方法的目的是为了动态加载类。在加载完成后，一般还要调用Class下的newInstance( )静态...

2019-06-11 11:19:51 3958

原创 Scala语言单例模式

private var spark:Option[SparkConf] = Nonedef get(appName:String):SparkConf = { if(spark.isEmpty) { val conf = new SparkConf() .setAppName(appName) .setMaster("local[*]") sp...

2019-06-04 14:52:06 350

原创分布式架构之消息系统之ActiveMQ

简介在分布式系统中，消息系统的应用十分广泛，消息可以作为应用间通信的一种方式。消息被保存在队列中，直到被接收者取出。由于消息发送者不需要同步等待消息接收者的响应，消息的异步接收降低了系统集成的耦合度，提升了分布式系统协作的效率，使得系统能够更快地响应用户，提供更高的吞吐。当系统处于峰值压力时，分布式...

2019-06-04 10:50:52 353

原创 NoSQL之Redis（一）Redis介绍与安装

简介 Redis是一个key-value存储系统。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。与Memcached一样，为了保证效率，数据都是缓存在内存中...

2019-06-03 17:03:01 114

原创 NoSQL之MemCached（一）MemCached介绍与安装

简介 memcache是 danga.com 的一个项目，它是一款开源的高性能的分布式内存对象缓存系统，早是给 LiveJournal2提供服务的，后来逐渐被越来越多的大型网站所采用，用于在应用中减少对数据库的访问，提高应用的访问速度，并降低数据库的负载。 &nb...

2019-06-03 16:16:21 168

原创 Spark SQL 内置函数列表

• 1 !• 2 %• 3 &• 4 *• 5 +• 6 -• 7 /• 8 <• 9 <=• 10 <=>• 11 =• 12 ==• 13 >• 14 >=• 15 ^• 16 abs• 17 acos• 18...

2019-05-28 10:37:30 556

原创解决org.apache.hadoop.io.nativeio.NativeIO$Windows.createDirectoryWithMode0(Ljava/lang/String;I)V

在运行spark程序.enableHiveSupport()访问Hive时，报java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO$Windows.错误，如下图：解决办法：下载对应的hadoop版本包到本地配置hadoop的环境变量把hadood.dll和winutils.exe复制到C:\Win...

2019-05-22 09:58:42 786

原创 Spark算子操作

Spark常用的算子类型（Transformation型算子，Action型算子）Transformation算子mapfilter(function)flatMap(function)mapPartitions(function)mapPartitionsWithIndex(function)sample(withReplacement , fraction , seed)un...

2019-05-21 11:41:33 134

原创 spark-submit报错java.lang.IllegalStateException: User did not initialize spark context!

在IDEA上编写spark程序，打成jar包之后，上传到服务器，然后以yarn cluster模式提交:spark-submit…时报错解决办法：去掉master("local")...

2019-05-18 10:00:59 2311 1

原创 phoenix 创建表 Order of columns in primary key constraint must match the order in which they're

今天在phoenix 创建表时遇到 ERROR 1004 (42J02): Order of columns in primary key constraint must match the order in which they're declared. columnName=TB_TOURISAATS.ACT_TIMMI这种错误原SQL语句CREATE TABLE tb_test( u...

2019-05-17 16:41:56 586

原创 IDEA添加mongo插件

打开设置界面搜索mongodb插件，并重启IDEA打开mongo管理界面配置mongodb打开视图

2019-05-17 09:09:03 1659 3

转载特征工程全过程

简介有这么一句话在业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢？顾名思义，其本质是一项工程活动，目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳，人们认为特征工程包括以下方面：特征处理是特征工程的核心部分，sklearn提供了较为完整的特征处理方法，包括数据预处理，特征选择，降维等。首次接触到sklearn，通常...

2019-05-13 20:15:54 3596 1

转载彻底理解cookie、session、token

发展史1、很久很久以前，Web 基本上就是文档的浏览而已，既然是浏览，作为服务器，不需要记录谁在某一段时间里都浏览了什么文档，每次请求都是一个新的HTTP协议，就是请求加响应，尤其是我不用记住是谁刚刚发了HTTP请求，每个请求对我来说都是全新的。这段时间很嗨皮。2、但是随着交互式Web应用的兴起，像在线购物网站，需要登录的网站等等，马上就面临一个问题，那就是要管理会话，必须记住哪些人...

2019-05-10 09:10:55 92

原创 Spring Boot 整合Hive/Phoenix数据源

环境准备Hadoop : 2.7.3Hive : 1.2.1HBase : 1.2添加依赖pom.xml文件<properties> <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding> <spring-data-hadoop.version>2....

2019-05-08 10:53:59 1862 1

原创 Spark SQL使用 JDBC 从其他数据库读取数据的数据源

spark-shell方式读取bin/spark-shell --driver-class-path ***.jar --jars ***.jar用户可以使用 Data Sources API 将来自远程数据库的表作为 DataFrame 或 Spark SQL 临时视图进行加载。也可以在数据源选项中指定 JDBC 连接属性。用户和密码通常作为登录数据源的连接属性提供。除了连接属...

2019-05-07 10:41:47 771

原创 hadoop强制进行Active/Standby切换的命令

查看集群的服务状态hdfs haadmin -getServiceState namenode11强制进行切换hdfs haadmin -transitionToActive/transitionToStandby -forcemanual namenode11

2019-05-07 09:43:50 2061

原创 Spark连接Mongodb

简介MongoDB下载地址MongoDB Connector for Apache Spark，是用于Apache Spark的MongoDB连接器公开了Spark的所有库，包括Scala、Java、Python和R. MongoDB数据被具体化为数据流和数据集，用于使用机器学习、图、流和SQL api进行分析。这里是Spark和MongoDB部署的一个典型架构。Spark任务一般由Sp...

2019-05-06 17:44:10 1503

原创 NoSQL数据库之MongoDB（一）Mongo介绍与安装

MongoDB简介 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。 MongoDB 是一个介于关系数据库和非关系数据库之间的产品，是非关...

2019-05-05 17:56:23 568

原创不使用触发器创建更新时间

ALTER TABLE `dgdata`.`test` ADD COLUMN `update_time` timestamp(0) NULL DEFAULT CURRENT_TIMESTAMP(0) ON UPDATE CURRENT_TIMESTAMP(0) AFTER `value`,ADD INDEX `update_time`(`update_time`) USING BTREE;...

2019-05-05 14:23:00 170

转载 DB数据同步到Hive数据仓库

背景在数据仓库建模中，未经任何加工处理的原始业务层数据，我们称之为ODS(Operational Data Store)数据。在互联网企业中，常见的ODS数据有业务日志数据（Log）和业务DB数据（DB）两类。对于业务DB数据来说，从MySQL等关系型数据库的业务数据进行采集，然后导入到Hive中，是进行数据仓库生产的重要环节。如何准确、高效地把MySQL数据同步到Hive中？一般常用的解决方...

2019-05-04 22:20:39 1595

转载 Spark性能调优之Shuffl调优

概述在Spark的源码中，负责shuffle过程的执行、计算和处理的组件主要就是ShuffleManager，也即shuffle管理器。而随着Spark的版本的发展，ShuffleManager也在不断迭代，变得越来越先进。在Spark 1.2以前，默认的shuffle计算引擎是HashShuffleManager。该ShuffleManager而HashShuffleManager有着一个非...

2019-05-04 21:50:21 829

转载 Spark性能调优之数据倾斜调优

概述在进行shuffle的时候，必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理，比如按照key进行聚合或join等操作。此时如果某个key对应的数据量特别大的话，就会发生数据倾斜。hello这个key，在三个节点上对应了总共7条数据，这些数据都会被拉取到同一个task中进行处理；而world和you这两个key分别才对应1条数据，所以另外两个task只要分别处理1条数据即...

2019-05-04 21:41:00 101

转载 Spark性能调优之资源参数调优

概述资源参数调优是对Spark运行过程中各个使用资源的地方，通过调节各种参数，来优化资源使用的效率，从而提升Spark作业的执行性能。以下参数就是Spark中主要的资源参数，每个参数都对应着作业运行原理中的某个部分，我们同时也给出了一个调优的参考值。参数列表num-executors参数说明：该参数用于设...

2019-05-04 21:24:37 303

转载 Spark性能调优之开发调优

开发调优原则一：避免创建重复的RDD 对于同一份数据，只应该创建一个RDD，不要创建重复创建RDD来代表同一份数据。错误的写法val rdd1 = sc.textFile("hdfs://node1:9000/test.txt")rdd1.map(...)val rdd2 = sc.textF...

2019-05-04 21:15:12 100

原创 Spring Cloud之Eureka服务发现

文章目录Spring Cloud概述Eureka服务器Eureka：服务发现Eureka服务端Eureka客户端Spring Cloud官网Spring Cloud概述 Spring Cloud是通过自动配置为Spring Boot应用程序提供Netflix OSS集成，并绑定到Spring环境和其...

2019-04-19 11:54:22 94

翻译 SparkStreaming Guide

概述 Spark Streaming是核心Spark API的扩展，支持可伸缩、高吞吐量、容错的实时数据流处理。数据可以从Kafka、Flume、Kinesis或TCP套接字等多种来源获取，并且可以使用复杂的算法处理数据，这些算法由map、reduce、join和window等高级函数表示。最后，处理后...

2019-04-18 16:07:58 95

原创 Azkaban详细介绍

Azkaban概述Azkaban是一个批处理工作流作业调度程序，在LinkedIn上创建，用于运行Hadoop作业，整体包括三部分webserver、dbserver、executorserver。Azkaban通过作业依赖项解决排序问题，并提供一个易于使用的web用户界面来维护和跟踪工作流。Azkaban特点兼容任何版本的Hadoop易于使用的web UI简单的web和http工作流...

2019-04-18 16:07:19 1749

转载 SparkStreaming读取kafka数据的方式

SparkStreaming读取kafka数据的方式官网：http://spark.apache.org/docs/latest/streaming-kafka-0-8-integration.html#approach-2-direct-approach-no-receivers方式一：Approach 1: Receiver-based Approach（基于Receiver方式）方式二：Ap...

2019-04-18 16:06:37 1100

原创 CDH安装

环境IP地址主机名192.168.0.100hadoop-master192.168.0.101hadoop-slave1192.168.0.102hadoop-slave2准备工作关闭防火墙firewalld# systemctl stop firewalld# systemctl disable firewalld关闭selin...

2019-04-18 15:41:58 141

ZK可视化.rar

hadoop-dll各版本集合.rar

Robomongo.rar

redis-desktop-manager(Redis可视化工具).rar

空空如也