大数据
yeyu_xing
╔══╗ ♪
║██║ ♫
║ ( ● ) ♫
╚══╝♪ ♪
展开
-
Java连接Hbase实现增删改查
一、导入maven依赖<dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>2.2.6</version></dependency><dependency> <groupId>org.apache.hbase</groupId&原创 2021-03-10 00:11:35 · 233 阅读 · 1 评论 -
Python与Java操作Spark
一、Python操作Spark测试数据如下:"id","name","money""1","aaa","900""2","bbb","1000""3","ccc","1000""5","ddd","1000""6","ddd","1000"安装pyspark用于操作,findspark查找配置1、RDDimport findsparkfindspark.init()from pyspark.sql import SparkSessionsparkSession = Spark原创 2021-03-08 17:19:04 · 1705 阅读 · 2 评论 -
MapReduce05——分区
1、有words.txt文件内容如下,其中以制表符分割,需求:利用mapreduce按照性别分区Smith maleAlice femaleTony maleDoris female2、分析map阶段:(1)、mapreduce逐行读取文件,得到每行的值(2)、以制表符分割后,姓名为key,性别为value输出reduce阶段:(1)、直接输出即可自定义分区类:package com.qujiuge.partition;import org.apache.hadoop.io.T原创 2021-02-21 00:56:10 · 437 阅读 · 1 评论 -
MapReduce04——自定义排序之倒序
1、有words.txt文件内容如下,其中以制表符分割1 Smith3 Alice2 Tom4 Tony2、分析(1)、定义实体类实现WritableComparable接口,重写compareTo方法package com.qujiuge.sort_;import org.apache.hadoop.io.WritableComparable;import java.io.DataInput;import java.io.DataOutput;import java.io.IO原创 2021-02-21 00:20:20 · 490 阅读 · 0 评论 -
MapReduce03——默认排序
1、有words.txt文件内容如下,其中以制表符分割1 Smith3 Alice2 Tom4 Tony2、分析map阶段(1)、mapreduce逐行读取文件,得到每行的值(2)、以制表符分割后,以序号为key,名字为value直接输出即可(3)、输出后,map会自动排序reduce阶段(1)、直接输出,利用reduce的排序3、创建maven工程后,添加如下依赖<dependencies> <dependency>原创 2021-02-20 20:27:13 · 523 阅读 · 0 评论 -
MapReduce02——删除有缺失值的记录
1、有words.txt文件内容如下,其中以制表符分割1 xiaoming 182 xiaohong 173 xiaoli4 xiaowang 202、分析map阶段(1)、mapreduce逐行读取文件,得到每行的值(2)、首先判断该行不是空字符串(3)、满足以制表符分割后,长度必须大于3(4)、将整行当做key输出reduce阶段(1)、map阶段将相同的key聚合在一起,但value为空(2)、直接输出key即可3、创建maven工程后,添加如下依赖<depend原创 2021-02-20 19:11:06 · 1672 阅读 · 0 评论 -
MapReduce01——词频统计
1、有words.txt文件内容如下,其中以制表符分割Python JavaJavaCPythonC Python2、分析map阶段1、进行非空和长度等于0的判断,确保读取到每行数据没有问题2、mapreduce会一行一行地读取文件,读取后将其以制表符分割,就能得到一个字符串数组3、遍历字符串数组,将其以<key, value>的形式输出,value为1。输出后mapreduce会将相同的key合并在一起reduce阶段1、因为map阶段将相同的key聚合在一起,所以键原创 2021-02-16 21:32:52 · 1342 阅读 · 0 评论