- 博客(12)
- 资源 (1)
- 收藏
- 关注
原创 **使用HTML+Nginx+ngx_kafka_module+Kafka做日志收集
使用Kafka做日志收集。需要收集的信息:1、用户ID(user_id)2、时间(act_time)3、操作(action,可以是:点击:click,收藏:job_collect,投简历:cv_send,上传简历:cv_upload)4、对方企业编码(job_code)1、HTML可以理解为拉勾的职位浏览页面2、Nginx用于收集用户的点击数据流,记录日志access.log3、将Nginx收集的日志数据发送到Kafka主题:tp_individual架构:HT.
2021-06-24 11:19:31 265
原创 数据仓库工具 hive的入门(九)Hive调优策略
**Hive命令实战操作之 – Hive调优策略提示:本文章内容取自来源: 拉勾教育大数据高薪训练营文章目录前言HQL操作之 -- Hive调优策略第 1 节 架构优化执行引擎优化器分区表分桶表文件格式第 2 节 参数优化第 3 节 SQL优化列裁剪和分区裁剪sort by 代替 order bygroup by 代替 count(distinct)group by 配置调整join 基础优化调整 Map 数对于小文件采用的策略是合并调整 Reduce 数第 4 节 优化小结小结前言提示:本文
2021-06-06 21:11:30 641 1
原创 数据仓库工具 hive的入门(八)元数据管理与存储
**Hive命令实战操作之元数据管理与存储提示:本文章内容取自来源: 拉勾教育大数据高薪训练营文章目录前言HQL操作之--DQL命令第 1 节 Metastore1.1 metastore三种配置方式第 2 节 HiveServer2第 3 节 HCatalog第 4 节 数据存储格式前言提示:本文章对于初学者准备,希望对大家有所帮助。如果有什么建议和疑问,请留言给我,我会不断完成完善。HQL操作之–DQL命令第 1 节 MetastoreMetadata即元数据。元数据包含用Hive
2021-06-06 20:21:01 972 2
原创 数据仓库工具 hive的入门(七)HQL操作之--DML命令
**Hive命令实战操作之 – DML命令提示:本文章内容取自来源: 拉勾教育大数据高薪训练营文章目录前言HQL操作之--DML命令第 1 节 Hive 事务第 2 节 Hive 事务操作示例前言提示:本文章对于初学者准备,希望对大家有所帮助。如果有什么建议和疑问,请留言给我,我会不断完成完善。HQL操作之–DML命令数据操纵语言DML(Data Manipulation Language),DML主要有三种形式:插入(INSERT)、删除(DELETE)、更新(UPDATE)。事务(
2021-06-06 19:51:25 302
原创 数据仓库工具 hive的入门(六) sql练习题
题目1:t1.dat文件内容2;zhangsan;book,TV,code;beijing:chaoyang,shagnhai:pudong3;lishi;book,code;nanjing:jiangning,taiwan:taibei4;wangwu;music,book;heilongjiang:haerbin要求:创建表t1和加载数据;题目2:连续7天登录的用户ulogin.dat数据:-- uid dt status(1 正常登录,0 异常)1 2019-07-11 11 2
2021-06-06 13:11:52 354
原创 数据仓库工具 hive的入门(五)HQL操作之--函数
**HQL操作之–函数提示:本文章内容取自来源: 拉勾教育大数据高薪训练营文章目录前言HQL操作之--函数第 1 节 系统内置函数日期函数字符串函数数学函数条件函数UDTF函数第 2节 窗口函数(重点)over 关键字partition by子句order by 子句排名函数序列函数前言提示:本文章对于初学者准备,希望对大家有所帮助。如果有什么建议和疑问,请留言给我,我会不断完成完善。HQL操作之–函数第 1 节 系统内置函数-- 查看系统自带函数show functions;-
2021-06-05 19:30:29 689 3
原创 数据仓库工具 hive的入门(四)HQL操作之--DQL命令
**Hive命令实战操作之 – DQL命令@DQL – Data Query Language 数据查询语言提示:本文章内容取自来源: 拉勾教育大数据高薪训练营文章目录前言HQL操作之--DQL命令第 1 节 基本查询第 2 节 where子句第 3 节 group by子句第 4 节 表连接第 5 节 排序子句5.1 全局排序(order by)5.2 内部排序(sort by)前言提示:本文章对于初学者准备,希望对大家有所帮助。如果有什么建议和疑问,请留言给我,我会不断完成完善。HQ
2021-06-05 19:04:50 272
原创 数据仓库工具 hive的入门(三)HQL操作之--数据操作
**Hive命令实战操作之 – 数据操作提示:本文章内容取自来源: 拉勾教育大数据高薪训练营文章目录前言HQL操作之--数据操作1、数据导入1.1、装载数据(Load)1.2、插入数据(Insert)1.3、创建表并插入数据(as select)1.4、使用import导入数据2 、 数据导出2.1、将查询结果导出到本地2.2、 将查询结果格式化输出到本地2.3、将查询结果导出到HDFS2.4、dfs 命令导出数据到本地2.5、hive 命令导出数据到本地小结前言提示:本文章对于初学者准备,希
2021-06-03 22:24:15 466 2
原创 数据仓库工具 hive的入门(二)HQL操作之 -- DDL命令
Hive命令实战操作摘要提示:本文章内容取自来源: 拉勾教育大数据高薪训练营前言提示:本文章对于初学者准备,希望对大家有所帮助。如果有什么建议和疑问,请留言给我,我会不断完成完善。第一节:HQL操作之 – DDL命令概念: DDL(data definition language),主要的命令有CREATE、ALTER、DROP等。DDL主要是用在定义、修改数据库对象的结构 或 数据类型。1.1、数据库操作Hive有一个默认的数据库default,在操作HQL时,如果不明确的指定要使用
2021-06-03 21:52:15 377
原创 数据仓库工具 hive的入门(一)hive搭建
数据仓库工具 – Hive文章目录数据仓库工具 -- Hive前言第一部分 Hive概述第 1 节 Hive产生背景第 2 节 Hive的优缺点Hive的优点Hive的缺点第 3 节 Hive架构第二部分 Hive安装与配置第 1 节 环境配置第 2 节 Hive安装配置2.1、MySQL安装1、删除MariaDB2、安装依赖3、安装MySQL4、启动数据库5、查找root密码和修改 root 口令5.1、 进入MySQL,使用前面查询到的口令5.2 、设置口令强度;将root口令设置为12345678;
2021-05-31 22:35:48 781 5
原创 Hadoo入门
@Hadoo入门Hadoop框架核心说起hadoop,我们需要先了解为什么要用hadoop?这个时代被称为数据时代。大大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产文章目录Hadoop框架核心Hadoop的基础Hadoop的环境搭建第一节 搭建环境准备:第二节 集群规划第三节 安装Hadoop1.解压jdk和hadoop安装包。2.添加haddop环境变量到/etc/prof
2021-05-28 21:56:03 193
原创 linux 三剑客(grep、sed、awk)之sed
三剑客(grep、sed、awk)之sed学习讲解Sed 简介sed 是一种新型的,非交互式的编辑器。它能执行与编辑器 vi 和 ex 相同的编辑任务。sed 编辑器没有提供交互式使用方式,使用者只能在命令行输入编辑命令、指定文件名,然后在屏幕上查看输出。 sed 编辑器没有破坏性,它不会修改文件,除非使用 shell 重定向来保存输出结果。默认情况下,所有的输出行都被打印到屏幕上。sed 工作过程sed 编辑器逐行处理文件(或输入),并将输出结果发送到屏幕。 sed 的命令就是在 vi和
2020-10-28 15:49:21 127
uos系统x86-pxe安装.txt
2020-04-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人