自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 问答 (1)
  • 收藏
  • 关注

原创 Flume架构详细刨析

flume从入门到精通,本文介绍flume常用的Source,channel,sink类型,帮助你快速提升对flume的认识和理解。

2022-02-08 23:40:01 2249 1

原创 数据处理之pandas库

什么是pandasPandas是一个强大的分析结构化数据的工具集,基于NumPy构建,提供了高级数据结构和数据操作工具,它是使Python成为强大而高效的数据分析环境的重要因素之一。pandas索引操作1.Series和DataFrame中的索引都是index对象[1].创建Series对象pd1 = pd.Series(range(5),index=['a','b','c','d','e'])pd1[2] 创建DataFrame对象pd2 = pd.DataFrame(np.random.

2022-01-24 19:34:58 3270

原创 Kafka架构深入

Kafka架构Kafka工作流程及文件存储机制Kafka中消息是以topic进行分类的,生产者生产消息,消费者消费消息,都是面向topic的。而topic是逻辑上的概念,并没有真实存在,真实存在的式topic下的partition,是一个物理概念,每一个partition对应于一个log文件,用于存储producer生产的数据,producer生产的数据会不断追加到该log文件的末端,每条数据均有与之对应的offset。而消费者组中每一个消费者,都会实时记录自己的消费offset,解决发生故障时,出现数

2022-01-19 22:20:13 3149 2

原创 Hadoop大数据组件——HDFS

HDFS的优缺点1.优点1.高容错性:数据可字宗保存多个副本,通过增加副本的形式,提高容错性。2.适合处理大数据:数据规模可达到GB,TB甚至是PB级的大数据。文件规模可达到百万。3.可构建在廉价机器上:通过多副本机制,提高可靠性。2.缺点1.不适合低延时数据的访问:毫秒级的存储数据时难以实现的。2.无法高效对大量小文件进行存储。小文件存储的寻址时间会超过读取时间,违反了HDFS的设计目标。同时数据块占用大量内存,而NameNode内存有限。3.不支持并发写入,文件随即修改。一个人间只能读

2022-01-05 22:16:50 801

原创 Sqoop实现MySQL到HBase数据库的传输

MySQL数据库表展示,表名test4先在HBase创建一张表,创建如下执行以下命令sqoop import --connect jdbc:mysql://192.168.42.1:3306/dsj?serverTimezone=UTC–username root -P–table test4–hbase-table mysql_Hbase–column-family stu_info–hbase-create-table–hbase-row-key id-m 1参数解读–con

2021-12-16 22:42:45 2266

原创 MapReduce离线计算---中国大学排名统计

基于MapReduce的中国大学排名统计整体思路① FileInpuFormat读取数据② Mapper阶段对数据简单处理③ 序列化实现自定义排序④ partition分区处理⑤ Reducer写出数据⑥ 主类设置具体实现如下Driver主类,包括加载jar包路径,设置Mapper、Reducer类,输出类型,partition分区设置,文件输入输出路径等,注意Partition分区时设置的Reduce个数要与分区个数一致,多于或者少于均会报错,导致MapReduce程序停止。publi

2021-11-27 22:26:44 517 2

原创 数据分析之Numpy库的使用

Numpy基本用法NumPy ndarray 对象- numpy.array(object, dtype = None, copy = True, order = None, subok = False, ndmin = 0)- 参数说明 名称 描述P object 数组或嵌套的数列 dtype 数组元素的数据类型,可选 copy 对象是否需要复制,可选 order 创建数组的样式,C为行方向,F为列方向,A为任意方向(默认) subok 默认返

2021-07-30 16:20:33 248 1

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除