yk_3215123-CSDN博客

原创《Python 6》--Python连接数据库

python连接数据库Python需要有一个模块，来实现与MySQL数据库的连接：PyMySQL1.Python3 MySQL 数据库连接 - PyMySQL 驱动 PyMySQL 是在 Python3.x 版本中用于连接 MySQL 服务器的一个库，Python2中则使用mysqldb。2.先安装（配置python环境变量） a）进入cmd -->pip install...

2019-10-20 20:28:29 312

原创《ETLSDK插件开发》

etlsdk插件开发快速入门插件通过终端运行命令示例：APIDatasourceFactory（）类read_dataframe（input，** kwargs）write_dataframe（df，输出，** kwargs）Table（）类：db_table_name全名名称数据库名称图式划分all_columnsIDs...

2019-10-15 18:39:58 354

原创《Python 5》--Python面向对象、类的继承、正则表达式

■Python 面向对象Python从设计之初就已经是一门面向对象的语言，正因为如此，在Python中创建一个类和对象是很容易的。本章节我们将详细介绍Python的面向对象编程。面向对象技术简介：类(Class): 用来描述具有相同的属性和方法的对象的集合。它定义了该集合中每个对象所共有的属性和方法。对象是类的实例。类变量：类变量在整个实例化的对象中是公用的。类变量定义在类中且在函数...

2019-10-14 23:00:10 289

原创《Python 4》--Module模块、import语句、from...import语句、主函数调用、python文件I/O、打开关闭文件、文件定位、OS文件/目录方法、异常处理、内置函数、

■Python 模块Python 模块(Module)，是一个 Python 文件，以 .py 结尾，包含了 Python 对象定义和Python语句。模块让你能够有逻辑地组织你的 Python 代码段。把相关的代码分配到一个模块里能让你的代码更好用，更易懂。模块能定义函数，类和变量，模块里也能包含可执行的代码。（即,所有.py结尾的都是模块)________________...

2019-10-14 22:17:40 420

原创《Python 3》--三引号、math模块、cmath模块、日期和时间、转义字符、字符串运算符、字符串格式化、函数、全局变量和局部变量、匿名函数（lambda））

■Python三引号（triple quotes）python中三引号可以将复杂的字符串进行复制:python三引号允许一个字符串跨多行，字符串中可以包含换行符、制表符以及其他特殊字符。三引号的语法是一对连续的单引号或者双引号（通常都是成对的用）。#!/usr/bin/python# -*- coding: UTF-8 -*-var = '''hello world'...

2019-10-13 23:31:05 332

原创《Python 2》--python保留字、引号、运算符、循环语句、循环嵌套（图形打印）

■Python 保留字符下面的列表显示了在Python中的保留字。这些保留字不能用作常数或变数，或任何其他标识符名称。所有 Python 的关键字只包含小写字母。and exec notassert finally orbreak for passclass from...

2019-10-04 11:43:49 1241 1

原创《Python 1》--python的简介、解释器、读取键盘输入函数、变量类型推断、5个标准数据类型、字符串的内置函数、for循环、list列表、tuple元组、字典dictionary

Python 的起源：Python 的创始人为吉多·范罗苏姆（Guido van Rossum）1. 1989 年的圣诞节期间，吉多·范罗苏姆为了在阿姆斯特丹打发时间，决心开发一个新的**解释程序**，作为 ABC 语言的一种继承2. ABC 是由吉多参加设计的一种教学语言，就吉多本人看来，ABC 这种语言非常优美和强大，是专门为非专业程序员设计的。但是 ABC 语言并没有...

2019-10-02 22:35:47 737

原创《项目移动用户网上预购行为分析》

基于移动上网数据的预购（购车、购房）行为分析设计。通过数据分析获取有购买需求的用户并对其推荐可能喜欢的产品。业务模块介绍地址库维护：爬虫+人工（人工分析地址规则。爬虫按规则爬取，并将爬取的结果进行分类）。注：此部分一般由专门部门负责，不属于大数据业务处理。数据处理：通过MapReduce处理数据（数据过滤、匹配、统计计算）算法分析：用spark mlib算法库实现算法业务（...

2019-09-26 21:15:24 886 1

原创《SparkStreaming 4》--flume + kafka + SparkStreaming、streaming里使用DataFrame和SQL、DStream缓存、检查点机制

flume + kafka + SparkStreaming1.首先演示案例 linux学过的知识点监控文件tail -F 文件名另一个窗口中往文件中添加数据tail -F qqq.txtecho "abcdfs" >> qqq.txt模拟WEB服务器产生日志的过程：流的机制是先写到缓存中，一定大小之后再写到磁盘上，所以flu...

2019-08-18 23:30:10 385

原创《SparkStreaming 3》--网页流量降序、网页错误统计、user-agent的访问量、DStreams输出操作、

案例5：网页流量统计,按网页流量降序排序运行结果:Time: 1554516690000 ms-------------------------------------------(/forum.php,98471)(/ctp080113.php,27788)(/thread-1497558-1-300.html,15492)(/thread-720562-2-1.html,148...

2019-08-18 22:38:26 506

原创《SparkStreaming 2》--UpdateStateByKey操作、spark-submit提交、网站日志案例（禁止爬虫、transform和join连接、网站的UV访问数、窗口操作PV）

UpdateStateByKey操作(按照key更新状态)其它案例都是之前spark用到过的,以下是特殊RDD(之前案例统计的是5秒内的总次数，并不是wordcount的总次数,此Rdd可以统计整个流流过的内容的wordcount总次数)该updateStateByKey操作允许您在使用新信息不断更新时保持任意状态。要使用它，您必须执行两个步骤。定义状态 - 状态可以是任意数据...

2019-08-18 22:19:31 729

原创《SparkStreaming 1》--静态数据和流数据、SparkStreaming的简介、离散流DStream、SparkStreaming实现单词统计案例、监控目录、自定义接收器

静态数据和流数据·近年来，在Web应用、网络监控、传感监测等领域，兴起了一种新的数据密集型应用——流数据，即数据以大量、快速、时变的流形式持续到达流数据具有如下特征：·数据快速持续到达，潜在大小也许是无穷无尽的·数据来源众多，格式复杂·数据量大，但是不十分关注存储，一旦经过处理，要么被丢弃，要么被归档存储·注重数据的整体价值，不过分关注个别数据·数据顺序颠倒，或者不完整，...

2019-08-18 13:55:04 3069

原创《Kafka 4》--Flume与Kafka的集成

Flume与Kafka集成 1.需求：监控{/home/hyxy/tmp/flume/logs}目录下的access.log文件，将此文件的实时数据sink到Kafka；通过Kafka的消费者消费来自Flume采集的数据； 2.编写Flume Agent exec-kafka.conf a1.sources=s1 ...

2019-08-17 23:10:18 149

原创《Kafka 3》--Kafka的API操作（API实现Producer、实现Producer向指定分区生产数据、API实现Consumer）

回顾： Kafka“推拉”模式 1.Kafka选择由producer向broker push消息并由consumer从broker pull消息。 push模式的目标是尽可能以最快速度传递消息; pull模式则可以根据consumer的消费能力以适当的速率消费消息Kafka API实现Producer $>kafka-console-pr...

2019-08-17 23:09:10 469

原创《Kafka 2》--kafka分区与hadoop分区的联系、Partition分区和broker数目的关系、kafka配置信息、消息的确认机制

按照分区进行存储数据 kafka的分区和hadoop分区类似 8.创建主题：创建名为“my-topichyxy”的主题，并设置其分区为2，复本为2 $>kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 2 --partitions 2 --topic my-topichyxy...

2019-08-17 23:05:58 6612 1

原创《Kafka 1》--几种传统的消息通信方式、Kafka消息队列相关概念、Kafka的安装、单节点--单broker集群、单节点--多broker集群、多节点--多broker集群

Kafka 在流式计算中，Kafka一般用来缓存数据，spark streaming通过消费Kafka的数据进行计算。 Apache Kafka是一个开源消息系统，由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 Kafka最初是由LinkedIn开发，并于2011年初开源。2012年10月从Apache Incubator毕业...

2019-08-17 22:59:12 518

原创《Flume 2》--Flume案例测试

一、收集socket端数据，并显示到logger端1.在linux中安装netcat工具，用户开启Socket客户端：切换至root下 $>su root nc安装命令 $>yum install -y nc 切换至hyxy用户下，模拟聊天室： ...

2019-08-11 23:30:27 528

原创《Flume 1》--Flume的简介与安装

Flume日志采集系统（flume的翻译叫水槽:它就是管道输送） http://flume.apache.org/releases/content/1.6.0/FlumeUserGuide.html 【官方网址】Flume事件被定义为具有字节有效负载和可选字符串属性集的数据流单元。Flume代理是一个（JVM）进程，它承载事件从外部源流向下一个目标（跃点）的组件。...

2019-08-11 22:01:51 154

原创《SparkSQL 4》--Spark内存分配

【Spark内存分配详解.pdf】在 Spark 1.5 版本及以前，Spark 采用静态内存管理模型。Spark 1.6 版本推出以后，Spark 采用了统一内存管理模型。------静态内存管理： Spark 在一个 Executor 中的内存分为三块，一块是 execution 内存，一块是 storage 内存，一块是 other 内存。1....

2019-08-11 21:30:50 615

原创《SparkSQL 3》--SparkSQL on Hive环境搭建、thriftServer Beeline 连接Hive

前言：Hive:数据在hdfs上,元数据在mysql中启动hive,确保hive环境1)zkServer.sh start2)start-dfs.sh3)start-yarn.sh4)启动mysql服务 root>service mysqld start5）hive hive>show databases;6)从shell中运行HiveSe...

2019-08-11 20:57:18 485

原创《SparkSQL 2》--自定义创建DataFrame（StructType）、加载Json文件、parquet格式、CSV格式（以及解决乱码的问题）

加载外部数据源 users.txt:anne 22 NYjoe 39 COalison 35 NYmike 69 VAmarie 27 ORjim 21 ORbob 71 CAmary 53 NYdave 36 VAdude 50 CA 通过自定义方式创建DataFrame： 1.从原来的RDD创建一个Row格式的RDD 2.创建...

2019-08-11 17:16:22 1785

原创《SparkSQL 1》--SparkSQL简介、RDD与DataFrame、搭建SparkSQL环境、创建DF、DataFrame常用操作、DataSet、SparkSQL的执行计划和执行流程

引言：给定一个包含用户基本信息（如姓名、年龄等）的数据集，请统计相同姓名的用户的平均年龄? SparkRDD实现: val data = sc.textFile("/data/input.txt").split("\t") data.map(x=>(x(0),(x(1).toInt,1))) .reduceByK...

2019-08-11 13:10:15 582

原创《Spark 8》--Spark案例之数字排序、键值对平均值、二次排序、Top10、单表关联、Pagerank算法、自定义分区

1.数字排序数据： D:\测试数据\排序\ sortFile1内容为： sortFile2内容为： 2 5956 32 ...

2019-08-11 10:39:02 891

原创《Spark 7》--降水量案例、spark-submit部署应用、Spark 共享变量、Spark调优

降水量案例：计算俄罗斯100多年的降水总量，并列出降水量最多的十年，并显示排序号结果： (1,(1966,114478.89999999496)) (2,(1981,113176.20000000035)) (3,(1978,111155.00000000023)) (4,(1990...

2019-08-06 23:23:20 437

原创《Spark 6》--Spark的缓存机制（cache 和 persist）、检查点（checkpoint）机制、以及二者的联系与区别

缓存：cache / persist 1.spark的缓存级别参照【org.apache.spark.storage.StorageLevel.scala】在persist()中可以指定一个StorageLevel,当StorageLevel为MEMORY_ONLY时就是cache. ...

2019-08-06 22:43:31 1240

原创《Spark 5》--RDD 的行动操作

行动操作：惰性求值：【RDD的特性】------------------------------------------------------------------------------------------------------------------- 在RDD行动操作之前，不触发计算。转换操作和创建操作、控制操作均为惰性的；只有行动操作可触发Job。...

2019-08-06 22:11:33 265

原创《Spark 4》--RDD 的转换操作

转换操作： 0.参考网站：http://homepage.cs.latrobe.edu.au/zhe/ZhenHeSparkRDDAPIExamples.html#intersection $> spark-shell --master spark://master:7077 http://master:8080/ 1.map、flatMap、di...

2019-08-05 23:58:55 589

原创《Spark 3》--集群模式相关概念、Spark运行机制、Spark提交过程、SparkContext

集群模式的相关概念： 1.集群遵循主(Master)-从(Worker)机构：在不同的集群管理器模式下，Master和Worker映射的内容有所不同在Standalone模式下：主【Master守护进程】和从【Worker守护进程】在on Yarn模式下：主【ResourceManager守护进程】和从【Nodemanager守护进程】...

2019-08-04 23:46:20 629

原创《Spark 2》--Maven搭建Spark应用程序、创建RDD时分区个数（部分源码解析）、RDD的说明、RDD分区的首选位置、依赖关系

1.构建独立应用，采用Maven搭建Spark应用程序： a. 1.新建spark的project项目构建maven项目 2.本地仓库seting修改右边compile (每次创建项目本地仓库都需要修改) 3.File -->Project Structure..选择+ -->lib 选scala -->Dep...

2019-08-04 23:19:22 322

原创《Spark 1》--Spark 的简介、spark的 local 模式以及 Cluster 模式（standalone、on yarn、mesos）

Spark 介绍行业广泛使用Hadoop来分析他们的数据集。原因是Hadoop框架基于一个简单的编程模型（MapReduce），它支持可扩展，灵活，容错和成本有效的计算解决方案。这里，主要关注的是在处理大型数据集时在查询之间的等待时间和运行程序的等待时间方面保持速度。Spark由Apache Software Foundation引入，用于加速Hadoop计算软件过程。 ...

2019-08-04 22:33:07 511

原创《Scala 6》--IDEA配置maven、Akka、Actor、序列化、远程互相发消息、类的定义、trait、

1.maven安装及搭建： a.下载maven3.3.9版本。解压至H:\jarBao 将m2放到解...

2019-07-29 22:56:46 1094 1

原创《Scala 5》--scala实现World Count

wordcount案例：【map是将每一个元素进行输出】scala> val l = List(1,2,3,4,5,6,7,8)l: List[Int] = List(1, 2, 3, 4, 5, 6, 7, 8)scala> l.map((x:Int) => x+1)res9: List[Int] = List(2, 3, 4, 5, 6, 7, 8, 9)...

2019-07-29 22:51:11 228

原创《Scala 4》--Scala的集合操作大全

集合操作：def ++[B](that: GenTraversableOnce[B]): Array[B] 【++】合并集合，并返回一个新的数组，新数组包含左右两个集合对象的内容。 val a = Array(1,2,3) val b = Array(3,4,5) val c = a ++ ...

2019-07-28 22:08:46 333

原创《Scala 3》--函数式编程

函数式编程：函数式编程的特点函数式编程核心价值在于多核编程。 1）参数私有 val，没有线程安全问题，这样就为分布式高并发提供了支持 2）把函数做为参数 3）把函数的返回值作为参数定义:在js中方法和函数比较模糊。scala中的函数和方法不同，函数在scala中是一等公民。格...

2019-07-28 22:06:46 264

原创《Scala 2》--IDE安装scala插件、伴生类和伴生对象、scala闭包、scala字符串、Scala数组、Scala迭代器、Scala类和对象、Scala继承、抽象类、模式匹配、异常、读写

IDE安装scala插件：IDEA全称InteliJ IDEA,支持Java、Kotlin、Groovy、Scala等语言，能够实现智能编码。相比于Eclipse来说，界面UI更现代化，代码提示补充等功能更智能。IntelliJ IDEA的在线注册码生成页面 http://idea.iteblog.com新的License server地址为：http://idea.iteblog...

2019-07-28 22:01:03 265

原创《Scala 1》--Scala的简介、Windows运行环境安装、Scala数据类型、Scala基本语法、函数定义、集合的遍历、循环的3种方式、数组、List集合(Set、Map)的相关操作、

Scala简介: hadoop生态圈--->java spark生态圈--->scala 1.scala是面向对象的、面向函数的基于静态类型的编程语言。 ----静态语言（强类型语言）：静态语言是在编译时变量的数据类型即可确定的语言，多数静态类型语言要求在使用变量之前必须声明数据类型。例如：C...

2019-07-28 20:00:56 281

原创《Hive 8》--Hive的调优策略

hive调优：可以使用没有特殊设置的Hive，但如果想要了解Hive的属性，那么可以通过简单的设置来提升作业的性能。●分区:HiveQL通过Where子句设置条件来提取所需数据。由于Hive要访问文件，因此如果到特定日期的表中提取数据，那么会引用相关表对应文件夹中的所有文件。通常在这种情况下要使用分区，分区会根据经常使用的某些条件(日期、时间、国家编码)进行细分，在表下形成物理文件夹心...

2019-07-21 10:16:19 187

原创《Hive 7》--hive综合案例：用户画像

用户画像：---------------------------------------------------------------------------------------------------------------------------用户id 下单时间修改日期地址 ...

2019-07-21 10:13:03 887

原创《Hive 6》--hive的3中特殊数据类型、ORDER BY和SORT BY、索引、存储格式、UDF

hive中比关系型数据库中多了一些特殊的类型：1)array:数组是相同类型的，下标从0开始 array01('英语','化学','物理') array01[1] --->'化学' 传统关系型数据库中： name like1 like2 like3 like4 like5 张三足球汽车读书喝茶...

2019-07-20 21:39:12 1181

原创《Hive 5》--可视化工具DbVisualizer连接hive、hive表的修改、hive向管理表装载数据

可视化工具连接hive 搭建HiveServer2： 0.stop-all.sh 停目服务再进行配置 1.在hive-site.xml中，追加配置如下内容：  <property> <name>hive...

2019-07-20 21:37:39 2020

空空如也

空空如也