- 博客(6)
- 收藏
- 关注
原创 Hive 基本概念
1.什么是HiveHive:由Facebook开源用于解决海量结构化日志的数据统计工具。Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是:将HQL转化成MapReduce程序。(1)Hive处理的数据存储在HDFS(2)Hive分析数据底层的实现是MapReduce(3)执行程序运行在Yarn上2. Hive的优缺点(1)操作...
2021-11-06 15:21:34 73
原创 MapReduce---WordCount案例
需求: 统计文档中每个单词出现次数代码编写:WordCountMapper:package com.mhy.mapreduce.wordcount;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import .
2021-10-29 19:23:42 78
原创 Zookeeper 作用及原理
Zookeeper 分布式服务框架是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。一、作用 1. 命名服务 在zookeeper的文件系统里创建一个目录,即有唯一的path。在我们使用tborg无法确定上游程序的部署机器时即可与下游程序约定好path,通过path即能互相探索发现。 2. 配置管理 程序总是需要配置的,如果程序分散...
2021-10-22 16:22:55 950
原创 Python 爬虫 KFC官网之北京市门店信息
运行代码:# 1 页# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname# POST# "cname": "北京",# "pid": "",# "pageIndex": "1",# "pageSize": "10"# 2 页# http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=cname# POST# "cname": "北京",# "pid".
2021-10-14 20:18:05 277
原创 爬虫--Spiders
爬虫原理:Web网络爬虫系统的功能是下载网页数据,为搜索引擎系统提供数据来源。很多大型的网络搜索引擎系统都被称为基于 Web数据采集的搜索引擎系统,比如 Google、Baidu。由此可见Web 网络爬虫系统在搜索引擎中的重要性。网页中除了包含供用户阅读的文字信息外,还包含一些超链接信息。Web网络爬虫系统正是通过网页中的超连接信息不断获得网络上的其它网页。正是因为这种采集过程像一个爬虫或者蜘蛛在网络上漫游,所以它才被称为网络爬虫系统或者网络蜘蛛系统,在英文中称为Spider或者Craw...
2021-09-24 10:57:23 276
原创 Hadoop-HDFS
HDFS的概述HDFS:Hadoop Distributed File System ,Hadoop分布式文件系统。主要用来解决海量数据的存储问题。HDFS中的角色HDFS是主从结构的,有一个主节点和多个从节点,主节点叫NameNode,从节点叫DataNode。NameNode:是主节点,是大当家。管理元数据,响应客户端的读写请求,配置副本策略,管理HDFS的名称空间。SecondaryNameNode:相当于一个二当家,分担主节点NameNode的工作量,用于NameNode的冷
2021-09-17 10:10:13 50
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人