![](https://img-blog.csdnimg.cn/20190918140037908.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
BigData
文章平均质量分 96
大数据
♪-Interpretation
不积硅步,无以至千里
展开
-
Linux
1. 计算机硬件软件体系1.1. 冯 诺依曼体系结构计算机处理的数据和指令一律用二进制数表示顺序执行程序计算机硬件由运算器、控制器、存储器、输入设备和输出设备五大部分组成1.2. 计算机硬件组成输入设备输入设备用来将人们熟悉的信息形式转换为机器能够识别的信息形式常见的有键盘,鼠标等输出设备输出设备可以将机器运算结果转换为人们熟悉的信息形式打印机输出,显示器输出等存储器存储器用来存放数据和程序RAM(random access memory)即随机存储原创 2022-04-27 17:29:04 · 494 阅读 · 0 评论 -
Shell编程
1. Shell编程概述1.1. Shell名词解释KernelLinux内核主要是为了和硬件打交道Shell命令解释器(command interpreter)Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。shell两大主流:sh:Bourne shell(sh) ,Solaris,hpu.原创 2022-04-28 09:46:43 · 33 阅读 · 0 评论 -
Nginx
1. Nginx简介Nginx是一款轻量级的Web 服务器/反向代理服务器http://nginx.org/http://nginx.org/en/download.html占有内存少,并发能力强官方测试nginx能够支撑5万并发链接,并且CPU、内存等资源消耗却非常低,运行非常稳定。Tengine淘宝基于Nginx研发的web服务器http://tengine.taobao.org/http://tengine.taobao.org/book/2. 使用场景2.1. 高并发场景原创 2022-04-28 10:10:05 · 31 阅读 · 0 评论 -
ZooKeeper
ZooKeeper原创 2022-03-04 10:44:04 · 2101 阅读 · 0 评论 -
Hadoop-HDFS
Hadoop 3.1.2原创 2022-03-10 17:27:02 · 7 阅读 · 0 评论 -
Hadoop-Mapreduce
Hadoop-Mapreduce1. 扑克牌问题假如你有2000副四大名著主题扑克牌。现在将他们全部混合在一起,然后从中随机抽出一部分丢掉,现在要求你统计出每种名著分别有多少张?统计扑克牌人数不限(20人)2. MapReduce设计理念map–>映射(key value)reduce–>归纳mapreduce必须构建在hdfs之上一种大数据离线计算框架在线:实时数据处理离线:数据处理时效性没有在线那么强,但是相对也需要很快得到结果mapreduce不会原创 2022-03-15 15:47:46 · 6 阅读 · 0 评论 -
Hadoop-Hive
Hive 3.1.2Hive是基于 Hadoop 的一个【数据仓库工具】,可以将结构化和半结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能1. Hive的基本概念1.1. Hive简介Hive本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据存储,说白了hive可以理解为一个将SQL转换为MapReduce的任务的工具,甚至更近一步可以说hive就是一个MapReduce客户端思考:计算文件user.txt中张三出现几次,使用mapreduc原创 2022-03-22 11:16:45 · 11 阅读 · 0 评论 -
Hadoop-DBeaver
1. DBeaver1.1. 介绍DBeaver是一种通用数据库管理工具,适用于需要以专业方式使用数据的每个人;适用于开发人员,数据库管理员,分析师和所有需要使用数据库的人员的免费的多平台数据库工具使用DBeaver,您可以像在常规电子表格中一样处理数据,基于来自不同数据存储的记录创建分析报告,并以适当的格式导出信息。对于高级数据库用户,DBeaver建议使用功能强大的SQL编辑器,大量的管理功能,数据和模式迁移的能力,监视数据库连接会话等。开箱即用的DBeaver支持80多个数据库。支持所有流行原创 2022-03-27 00:46:31 · 79 阅读 · 0 评论 -
Hadoop-HBase
HBase 2.2.51. HBase介绍BigTale:http://blog.csdn.net/accesine960/archive/2006/02/09/595628.aspx1.1. HBase简介Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。利用Hadoop HDFS作为其文件存储系统,利用Zookeeper作为其分布式协同服务主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库)1.2. HBase优点容量大原创 2022-03-28 17:13:35 · 8 阅读 · 0 评论 -
Hadoop-Phoenix
Apache Phoenix 5.1.01. 官网介绍官网 : http://phoenix.apache.org/Phoenix是构建在HBase上的一个SQL层,能让我们用标准的JDBC APIs而不是HBase客户端APIs来创建表,插入数据和对HBase数据进行查询。Phoenix完全使用Java编写,作为HBase内嵌的JDBC驱动。Phoenix查询引擎会将SQL查询转换为一个或多个HBase扫描,并编排执行以生成标准的JDBC结果集。Apache Phoenix是使用Apac原创 2022-03-29 10:44:21 · 13 阅读 · 0 评论 -
数据仓库Data Warehouse
数据抽取确定数据源,需要确定从哪些源系统进行数据抽取定义数据接口,对每个源文件及系统的每个字段进行详细说明确定数据抽取的方法:是主动抽取还是由源系统推送?是增量抽取还是全量抽取?是按照每日抽取还是按照每月抽取?数据清洗主要将不完整数据、错误数据、重复数据进行处理数据转换空值处理:可捕获字段空值,进行加载或替换为其他含义数据,或数据分流问题库数据标准:统一元数据、统一标准字段、统一字段类型定义数据拆分:依据业务需求做数据拆分,如身份证号,拆分区划、出生日期、性别等。原创 2024-04-30 14:45:52 · 1690 阅读 · 0 评论 -
电商日志项目(一)
浏览器信息分析以及地域信息分析其实就是在用户基本信息分析的基础上添加浏览器和地域这个维度信息,其中浏览器信息我们可以通过浏览器的window.navigator.userAgent来进行分析,地域信息可以通过nginx服务器来收集用户的ip地址来进行分析,也就是说pageview事件也可以满足这两个模块的分析。本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。原创 2024-04-30 14:55:33 · 1060 阅读 · 2 评论 -
Kafka
Kafka1. 异步通信原理1.1. 观察者模式观察者模式(Observer),又叫发布-订阅模式(Publish/Subscribe)定义对象间一种一对多的依赖关系,使得每当一个对象改变状态,则所有依赖于它的对象都会得到通知并自动更新。一个对象(目标对象)的状态发生改变,所有的依赖对象(观察者对象)都将得到通知。现实生活中的应用场景京东到货通知《鸡毛信》1.2. 生产者消费者模式传统模式生产者直接将消息传递给指定的消费者耦合性特别高,当生产者或者消费者发生原创 2022-04-18 10:37:17 · 401 阅读 · 0 评论