- 博客(17)
- 资源 (2)
- 收藏
- 关注
原创 安装Jupyter Lab
资源管理器中浏览到希望作为文件存储的目录,选择空白处,在按下。等待网站启动后,将自动打开浏览器,并且展现。等待网站启动后,将自动打开浏览器,并且展现。包时,将会从阿里云下载,速度会增快。包时,将会从阿里云下载,速度会增快。在终端中运行下列命令以安装必要的。依次运行下列命令以安装必要的。右键,然后选择【点击此处打开。运行安装程序,接受默认安装。多次,即可关闭网站服务。文件夹下创建一个名为。以管理员权限打开一个。文件夹下创建一个名为。在命令行中,连续按下。
2024-01-10 17:01:31 1189
原创 6.Hive优化-SQL优化
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,如果union all的部分个数大于2,或者每个union部分数据量大,应该拆成多个insert into 语句,实际测试过程中,执行时间能提升50%尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段。对历史库的计算经验 (这项是说根据不同的使用目的优化使用方法)可以使用中间表来完成复杂的逻辑。
2023-08-17 18:30:00 102 1
原创 5.Hive优化-数据倾斜
Hive在进行join时,按照join的key进行分发,而在join左边的表的数据会首先读入内存,如果左边表的key相对分散,读入内存的数据会比较小,join任务执行会比较快。数据倾斜主要表现在,map/reduce程序执行时,reduce节点大部分执行完毕,但是有一个或者几个reduce节点运行很慢,导致整个程序的处理时间很长,这是因为某一个key的条数比其他key多很多(有时是百倍或者千倍之多),这条Key所在的reduce节点所处理的数据量比其他节点就大很多,从而导致某几个节点迟迟运行不完。
2023-08-17 14:10:59 89 1
原创 2.Hive UDF
UDF:进来一个出去一个,row mapping。是row级别操作开发。创建UDF函数 udf123。4.2拷贝到Linux上。添加jar包到hive中。evaluate方法。
2023-08-17 14:09:29 85 1
原创 3.Hive UDTF
UDTF(User-Defined Table-Generating Functions)用来解决输入一行输出多行(one-to-many maping)的需求。(4)初始化完成后会调用process()方法,对传入的参数进行处理,可以通过forward()方法把结果返回。(3)UDTF首先会调用initialize()方法,此方法返回UDTF的返回行的信息(返回个数,类型)。(2)实现initialize(),process(),close()三个方法。4.2拷贝到Linux上。分割爱好字段,多行显示。
2023-08-17 14:08:40 53 1
原创 maven关联Spark
- 设置false后是去掉 MySpark-1.0-SNAPSHOT-jar-with-dependencies.jar 后的 “-jar-with-dependencies” -->-- 在maven项目中既有java又有scala代码时配置 maven-scala-plugin 插件打包时可以将两类代码一起打包 -->file->Porject Structure->Artifacts->绿色的加号->JAR->from modules...-- 指定hadoop-client API的版本 -->
2023-08-17 14:05:12 171 1
原创 更改Maven源
添加?<><>-- mirror<mirror></mirror>--><><>alimaven</><></><></><>central</></><><>uk</><>central</><></><></></><><>CN</><></><></><>central</></><><>nexus</><></><></><>central。
2023-08-17 14:03:45 1249 1
原创 2.spark集群部署
(2)standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;(4)on mesos(集群模式): 运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算。(3)on yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算。(1)local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程。
2023-08-17 14:02:50 55 1
原创 1.Saprk原理
此外,Spark还支持SQL查询,流式计算,图计算,机器学习等。Spark 引进了弹性分布式数据集 RDD (Resilient DistributedDataset) 的抽象,它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则可以根据“血统”(即允许基于数据衍生过程)对它们进行重建。MapReduce 中计算结果需要落地,保存到磁盘上,这样势必会影响整体速度,而 Spark 支持 DAG 图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。
2023-08-17 14:02:04 78 1
原创 第二章:hadoop安装
无需任何守护进程,所有的程序都运行在同一个JVM上执行。在独立模式下调试MR程序非常高效方便。所以一般该模式主要是在学习或者开发阶段调试使用。Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。注意:在首次启动时要对文件系统进行格式化。Hadoop守护进程运行在一个集群上。设置启动时防火墙的关闭状态。,配置的环境变量才生效。
2023-08-17 13:59:18 52 1
原创 第二章:hadoop安装
Hadoop守护进程运行在本地机器上,模拟一个小规模的集群,换句话说,可以配置一台机器的Hadoop集群,伪分布式是完全分布式的一个特例。Hadoop的安装,安装hadoop运行环境配置,了解运行模式:本地模式与安装、伪分布式模式与安装、完全分布式模式与安装。--配置yarn的resourcemanager地址-->--指定hadoop运行产生的文件的存储目录-->--配置mapreduce运行在yarn上-->--配置reduce的获取方式-->--指定副本的数量-->--配置历史服务器-->
2023-08-07 09:27:25 100
原创 第一章:hadoop介绍
介绍数据的来源,数据量大规模,因此,我们存储大规模的数据,出现分布式存储集群。在早期,数据是通过调查问卷的方式进行,但互联网的兴起,数据的调查不需要问卷方式,可以通过用户的操作行为来记录并进行统计,且并数据是大规模的存储在存储服务器集群中。à HDFS存储原理。电子商务企业获得精准的数据分析,可以更好地了解用户的需求,制定合理的营销策略,从而给用户推广更感兴趣的产品,提高营销成功率。在用户画像的基础上,银行可以根据用户的年龄、资产规模、理财偏好等,对用户群进行精准定位,分析出潜在的金融服务需求。
2023-08-04 13:49:11 84 1
原创 JavaScript基础知识学习笔记(适合懂得一定开发的人员学习,都是与java不同的一些小知识点)
一、JS简介(注意以后的代码中会省略<!DOCTYPE html> 这3个标签,如Demo1所示)Demo1:document.writeHTML代码:JavaScript能够直接写入HTML输入流中document.write(" This is a heading");document.write(" This
2015-07-23 11:21:32 516
转载 JDBC深度封装的工具类 (具有高度可重用性)
JDBC深度封装的工具类 (具有高度可重用性)(2012-10-06 23:58:50)转载▼标签:jdbc工具类高度重用性杂谈分类:JavaSE首先介绍一下Dbutils: CommonDbutils是操作数据库的组件,对传统操作数据库的类进行二次封装,可以把结果集转化成List。 补充一下,传统操作数据
2014-08-24 23:36:33 513
转载 Eclipse常用快捷键总结
Eclipse快捷键,熟悉快捷键可以帮助开发事半功倍,节省更多的时间来用于做有意义的事情。Ctrl+1 快速修复(最经典的快捷键,就不用多说了)Ctrl+D: 删除当前行Ctrl+Alt+↓ 复制当前行到下一行(复制增加)Ctrl+Alt+↑ 复制当前行到上一行(复制增加)Alt+↓ 当前行和下面一行交互位置(特别实用,可以省去先剪切,再粘贴了)Alt+↑ 当前行和上面一行
2014-08-22 15:34:44 358
原创 java笔记心得2
一、java不同于c语言,它是一种面向对象的语言二、类的定义[修饰符1,修饰符2.。]class类名{//类体;}类名:遵循标识符的命名规则及习惯2、类中的内容:包括:属性和方法(1)属性定义:[修饰符1,修饰符2]数据类型 属性名[=赋值](2)方法定义:[修饰符1,修饰符2.。。]返回值类型 方法名称【参数列表】{。。。}3.构造器(也叫构造方
2014-08-22 14:20:34 548
原创 java笔记心得1
1.虚拟机jvm作用:跨平台使用:编译器:javac→将源代码编译.class文件解释器:java→将.class文件解释为机器语言2.垃圾回收器1.自动清理垃圾,程序员无法干预2.清理垃圾不是及时的,只有在垃圾回收器空闲时候才会清理3.执行垃圾回收器的方法:System.gc();
2014-08-21 12:36:45 375
linux环境编译源码\hadoop-2.7.2-src.tar.gz
2023-08-02
hadoop各种环境编译后jar包.tar.gz
2023-08-02
Google.Android.SDK开发范例大全
2014-08-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人