自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 收藏
  • 关注

原创 【【第04阶段-机器学习深度学习篇-1-深度学习基础-基本概念】

1 基本概念1 基本概念训练集,测试集,特征值,监督学习,非监督学习,半监督学习,分类,回归2 概念学习人类学习概念:鸟,车,计算机定义:概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数3 例子学习 “享受运动" 这一概念:小明进行水上运动,是否享受运动取决于很多因素样例天气温度湿度风力水温预报享受运动1晴暖普通强暖一样是2晴暖大强暖一样是3雨冷大强暖变化否4晴暖大强冷变化是。

2025-01-09 19:01:31 426

原创 【第04阶段-机器学习深度学习篇-1-深度学习基础-深度学习介绍】

深度学习是基于机器学习延伸出来的一个新的领域,由以人大脑结构为启发的神经网络算法为起源加之模型结构深度的增加发展,并伴随大数据和计算能力的提高而产生的一系列新的算法。

2025-01-09 10:30:35 458

原创 【第04阶段-机器学习深度学习篇-1-深度学习基础-机器学习介绍】

第04阶段-机器学习深度学习篇-1-基础进阶强化-9G。

2025-01-09 10:21:14 181

原创 【第03阶段-算法基础提高篇】

各位码友同志可以自行前往网上,搜索相关视频学习,如果需要我后期进行更新,请点赞+留言,抱拳!!

2025-01-08 23:21:50 93

原创 【第02阶段-高等数学篇】

各位码友同志可以自行前往网上,搜索相关视频学习,如果需要我后期进行更新,请点赞+留言,抱拳!!

2025-01-08 22:37:26 101

原创 【第01阶段-基础必备篇-第二部分--Python之基础】07 常用内置模块

在真正做项目时,我们会使用别人已经开发好的模块,这样就不必从零开发项目了,还可以加快开发速度。这些模块可能是Python官方提供的,也可能是第三方开发的。Python官方提供的模块,就叫作“内置模块”。

2025-01-08 21:16:07 882

原创 【第01阶段-基础必备篇-第二部分--Python之基础】06 异常处理

很多公司为了提高代码的可重用性,自已编写了一些Python类库,其中自己编写了一些异常类。实现自定义异常类,需要继承Exception类或其子类,之前我们遇到的ZeroDivisionError和ValueError异常都属于Exception的子类。

2025-01-08 20:24:52 384

原创 【第01阶段-基础必备篇-第二部分--Python之基础】05 类与对象

Python中的数据类型都是类,我们可以自定义类,即创建一种新的数据类型。定义小汽车(Car)类的代码如下:小汽车(Car)类继承了object类,object类是所有类的根类,在Python中任何一个类(除object外)都直接或间接地继承了object,直接继承object时(object)部分的代码可以省略。

2025-01-05 22:33:14 754

原创 【第01阶段-基础必备篇-第二部分--Python之基础】04 函数

自定义函数的语法格式如下:以英文半角冒号结尾由于定义函数时的参数不是实际数据,会在调用函数时传递给它们实际数据,所以我们称定义函数时的参数为形式参数,简称形参:称调用函数时传递的实际数据为实际参数,简称实参。你可以将形参理解为在函数中定义的变量。

2025-01-04 22:14:14 895

原创 【第01阶段-基础必备篇-第二部分--Python之基础】03 容器类型的数据

Python内置的数据类型如序列(列表、元组等)、集合和字典等可以容纳多项数据,我们称它们为容器类型的数据。

2025-01-02 23:28:18 548

原创 【第01阶段-基础必备篇-第二部分--Python之基础】02 运算符与程序流程控制

如果a为十进制数178,则~a为十进制数-179;在Python中只有while语句,没有do-while语句。本节先介绍break和continue语句,对于return语句,将在后面的章节中介绍。用于结束本次循环,跳过循环体中尚未执行的语句,接着进行终止条件的判断,以决定是否继续循环。用于比较两个表达式的大小,其结果是布尔类型的数据,即True或False。在循环体正常结束时会执行else语句,如果发生中断,则不运行else语句。:+(正号)和-(负号),例如:+a还是a,-a是对a的取反运算。

2024-03-26 19:13:34 824 2

原创 【第01阶段-基础必备篇-第二部分--Python之基础】01 介绍、变量、数据类型

高级语言:Python Java PHP C# Go Ruby C++ ... => 字节码低级语言:C 汇编 => 机器码PHP类:适用于写网页吗,局限性。Python Java:既可以写网页,也可以写后台功能。— Python 执行效率低,开发效率高。

2024-03-25 22:35:11 1118 2

原创 04Hadoop分布式文件系统HDFS(HDFS)

大数据技术之Hadoop(HDFS)

2022-06-04 10:50:33 603

原创 02Linux操作系统(三)--shell

第1章 Shell概述Linux与shell的关系Shell 中文意思贝壳,寓意类似内核的壳。Shell是指一种应用程序,这个应用程序提供了一个界面,用户通过这个界面访问操作系统内核的服务。Shell 是一个用 C 语言编写的程序,它是用户使用 Linux 的桥梁。Shell 既是一种命令语言,又是一种程序设计语言。Shell 脚本(shell script)是一种为 shell 编写的脚本程序。常说的shell通常都是指 shell 脚本,但shell和shell script是两个不同的概念。通常

2022-05-27 17:18:06 1051

原创 07数据导入Sqoop

第1章 Sqoop简介Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。

2022-05-26 00:06:07 523

原创 04Hadoop分布式文件系统HDFS(入门)

第1章 Hadoop概述1.1 Hadoop是什么1.2 Hadoop发展历史(了解)1.3 Hadoop三大发行版本(了解)Hadoop三大发行版本:Apache、Cloudera、Hortonworks。Apache 版本最原始(最基础)的版本,对于入门学习最好。2006Cloudera内部集成了很多大数据框架,对应产品CDH 。2008Hortonworks文档较好,对应产品HDP 。2011Hortonworks现在已经被Cloudera公司收购,推出新的品牌CDP 。

2022-05-25 17:29:46 692

原创 02 Linux操作系统(二)

用户管理命令useradd添加用户语法:useradd [选项] 用户名passwd修改密码命令语法:passwd [选项] [用户名]用户密码:生产环境中,用户密码长度8位以上,设置大小写加数字加特殊字符,要定期更换密码。qwhA1/j=userdel(user delete)删除用户 -r 删除账号时同时删除宿主目录(remove)权限管理三种基本权限r 读权限(read)w 写权限(write)x 执行权限 (execute)权限说明所有者 所属组 其他人第

2022-05-24 10:57:35 286

原创 02 Linux操作系统(一)

Linux操作系统1 Linux简介UNIX与Linux发展史Unix在1969年,美国贝尔实验室的肯汤普森在DEC PDP-7机器上开发出了UNIX系统。Linux出现于1991年,是由芬兰赫尔辛基大学学生李纳斯·托瓦兹(Linus Torvalds)和后来加入的众多爱好者共同开发完成 。Linux介绍Linux是一种自由和开放源码的操作系统,存在着许多不同的Linux发行版本,但它们都使用了Linux内核。Linux内核网站:www.kernel.org基于内核,再增加一些桌面,应用程

2022-05-23 19:47:25 682

原创 01安装虚拟机

vmware / virualboxvm => virtual machine1 vmware => n vmredhat / ubuntu / centos7(基于redhat)###新建虚拟机步骤#####1、在电脑中先创建好安装的文件夹vm-env文件下装的是虚拟机工具文件vm-data文件下放置数据文件#2、创建一个文件夹比如single01#3、打开虚拟机,点击新建虚拟机,选择自定义安装,点击下一步如下操作,按图片顺序进行,不再进行文字描述,比较简单。

2022-05-16 09:59:01 151

原创 大数据知识目录

第一阶段:安装虚拟机第二阶段:Linux操作系统第三阶段:zookeeper分布式协调服务框架第四阶段:Hadoop分布式文件系统HDFS第五阶段:Hadoop分布式计算Mapreduce和资源管理第六阶段:数据仓库Hive第七阶段:分布式数据仓库Hbase第八阶段:日志采集Flume第九阶段:分布式搜索Elasticsearch第十阶段:缓存数据库Redis第十一阶段:分布式语言Scala第十二阶段:分布式计算框架Spark第十三阶段:大数据任务调度系统Azkaban第十四阶段:

2022-05-16 09:46:01 344

原创 Linux(Centos7)取消密码复杂度及长度限制

(1)编辑密码验证策略vim /etc/pam.d/system-authpassword requisite pam_pwquality.so try_first_pass local_users_only retry=3 authtok_type= minlen=6 ucredit=1 lcredit=1 ocredit=1 dcredit=1(2)修改用户xiao的密码注:输入一次密码:123456,提示“无效的密码: 密码未通过字典检查 - 过于简单化/系统化”,不用管,继续输入密码:

2021-12-04 19:27:52 4032

原创 ElasticSearch原理+实战知识点

今天为大家带来流计算领域经常使用的组件 ElasticSearch,本文通过原理+实战操教程带领大家快速学会 ElasticSearch 搜索引擎,以下内容全部经过实战操作,可以根据文档进行学习~大纲如下:1 ElasticSearch 概述1.1 全文搜索引擎小伙伴们经常使用 google 或者百度进行搜索内容,在输入框中输入关键字,这个时候,网站会将包含 关键字 的所有网页返回,大家有没有想过,为什么输入关键字就可以查到结果呢? 同时网站上返回的页面内容大多都是一些 非结构化 的文本数据,

2021-11-30 18:56:08 2272

原创 Flink实时计算topN热榜

topN的常见应用场景,最热商品购买量,最高人气作者的阅读量等等。1. 用到的知识点1.Flink创建kafka数据源;2.基于 EventTime 处理,如何指定 Watermark;3.Flink中的Window,滚动(tumbling)窗口与滑动(sliding)窗口;4.State状态的使用;5.ProcessFunction 实现 TopN 功能;2. 案例介绍通过用户访问日志,计算最近一段时间平台最活跃的几位用户topN。1.创建kafka生产者,发送测试数据到kafka;2

2021-11-30 00:04:12 2179 2

转载 彻底解决Hive小文件问题

最近发现离线任务对一个增量Hive表的查询越来越慢,这引起了我的注意,我在cmd窗口手动执行count操作查询发现,速度确实很慢,才不到五千万的数据,居然需要300s,这显然是有问题的,我推测可能是有小文件。我去hdfs目录查看了一下该目录:发现确实有很多小文件,有480个小文件,我觉得我找到了问题所在,那么合并一下小文件吧:insert into test select * from table distribute by floor (rand()*5);这里使用distribute by进

2021-11-29 23:30:33 857

原创 flink 提交程序

flink提交程序有两种方式:1、Standalone HA2、Flink on yarn首先结合例子先介绍第一种方法:#Standalone HApackage cn.wcimport org.apache.flink.api.java.utils.ParameterToolimport org.apache.flink.streaming.api.scala._object StreamWordCount01 { def main(args: Array[String]): Un

2021-08-28 22:12:09 425

原创 lunix重新分配root 和 home 空间内存

查看虚拟机磁盘分布[root@data ~]# df -lh文件系统 容量 已用 可用 已用% 挂载点devtmpfs 4.7G 0 4.7G 0% /devtmpfs 4.7G 0 4.7G 0% /dev/shmtmpfs 4.7G 13M 4.7G 1% /runtmpfs

2021-08-17 09:30:34 452

原创 sqoop创建job出现的一系列问题解决方法

1、一种是会报空指针错误如图:出现这种情况有两种可能,第一种是缺少依赖包:cp /opt/software/mysql-connector-java-5.1.31.jar /opt/install/sqoop/lib/cp /opt/software/commons-lang-2.6.jar /opt/install/sqoop/lib/cp /opt/software/java-json.jar /opt/install/sqoop/lib/第二种是/sqoop/lib/下面多了hive-ex

2021-08-07 23:17:52 762

原创 02-taildir source

------------------------------------taildir source ------------------------------------1、内容查询====================================[root@singlelucky flume]# head -10000 prolog.log>tail01/prologhead10000.log[root@singlelucky flume]# ls tail01prologhea

2021-07-14 18:36:45 148

原创 01-spooldir

-------------------------------------- spooldir -----------------------------------------1、创建cnfvim flume_spooldir_file_hdfs.cnf2、配置信息# 组件说明a1.sources = s1a1.channels = c1a1.sinks = k1# 初始化数据源a1.sources.s1.type = spooldira1.sources.s1.spoo

2021-07-14 18:32:54 162

原创 flume 190 INSTALL

#1、解压和改名tar -zxvf /opt/download/hadoop/apache-flume-1.9.0-bin.tar.gz -C /opt/software/mv /opt/software/apache-flume-1.9.0-bin /opt/software/flume190#2、配置cd /opt/software/flume190/confmv flume-env.sh.template flume-env.shexport JAVA_HOME=/opt/softwa

2021-07-14 18:27:27 113

原创 sqoop的表的导入

#------ hdfs -> mysql ------create table sqp_order(create_date date,user_name varchar(20),total_volume decimal(10,2));sqoop export \--connect jdbc:mysql://singlelucky:3306/test \--username root \--password kb12kb12 \--table sqp_order \-m 1 \

2021-07-11 20:30:33 299

原创 SQOOP 1.4.6 INSTALL

#1、版本支撑1.4.6|7 => hadoop 2.X + hive 1.X + hbase 1.X => hadoop 3.1.3 + hive 3.1.2 + hbase 2.3.5(not support)#2、操作类型:参考方向为RDBMS -import -> hadoop(hdfs|hive|hbase) -export -> RDBMS(mysql|oracle|...) #3、sqoop146安装 #解压和改名 tar -zxvf /opt/d

2021-07-11 20:19:50 142

原创 hbase 表结构

#命名空间:namespace => databaselist_namespace #查看所有命名空间列表create_namespce 'NS_NAME' #创建命名空间drop_namespace 'NS_NAME' #删除命令空间#数据表:namespace:tablelist_namespace_tables 'NS_NAME' #查看指定命名空间下的所有列表 list #查看当前hbase中的所有表 create 'NS_NAM

2021-07-11 11:51:44 362

原创 hbase235 INSTALL

#hbase安装#解压和改名 tar -zxvf /opt/download/hadoop/hbase-2.3.5-bin.tar.gz -C /opt/software/ mv /opt/software/hbase-2.3.5-bin.tar.gz /opt/software/hbase235 cd /opt/software/hbase235/conf vim hbase-env.sh # export JAVA_HOME=/opt/software/jdk180 # ex

2021-07-11 11:47:26 85

原创 zookeeper357 install

#0、概念角色: leader learner(follower observer) client状态: looking leading following选举: 过半机制,先启动先当头leader#1、zookeeper安装#解压和改名 tar -zxvf /opt/download/hadoop/apache-zookeeper-3.5.7-bin.tar.gz -C /opt/software/ mv /opt/software/apache-zookeeper-3.5.7-

2021-07-11 11:43:59 80

原创 hive拉链表

#拉链表: org.apache.hadoop.hive.ql.io.AcidoutputFormat或者bucketedcreate table groupbyorder (buytime date,name string,pay decimal (10,2))row format delimitedfields terminated by ','lines terminated by '\n'stored as textfilelocation '/kb12/hive/groupby

2021-07-11 11:39:15 280

原创 hive优化(数据倾斜)

#hive优化(数据倾斜)#问题描述: 倾斜 小文件join大文件 内容倾斜 JOBS多 join union sub_query count(distinct) 建议使用group by,因为在hive底层中,自带对group by 进行优化 #解决方案: 建模 分层=>轻量聚合 分区=>避免数据交换 压缩=>减少体量 配置优化 合理减少job,并行无依赖job,增加jvm重用 合理控制mappe

2021-07-10 22:47:23 153 4

原创 创建maven工程

#udf#创建maven工程#pom.xml <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-exec</artifactId> <version>3.1.2</version> </dependency> #创建继承自UDF的自定义类 import org.apache.hadoop,hive.ql.exe

2021-07-10 22:45:34 131

原创 hive 数据类型、表结构和函数

#hive 数据类型 java mysql hive 字符 char[]/String char(n)/varchar(n) string数值 byte/short/int/long tinyint/smallint/int/bigint int/bigint BigInteger decimal(37,18) decimal(38,18) float/double BigDecimal布尔 boolean bi

2021-07-10 22:38:53 702

原创 hive 操作

#7、hive执行流程#逻辑计划 #Antlr Antlr => AST #another tool for language recognition #D:\teaching\notes\kb12\system_install\hadoop\apache\apache-hive-3.1.2-src\ql\src\java\org\apache\hadoop\hive\ql\parse #Hive.g => HiveLexer.g Select

2021-07-10 22:29:52 133

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除