_a_0_-CSDN博客

原创计算HBase指定表中所有用户的平均年龄写入到HDFS中

HBase表中的数据是通过上一篇博客导入的：从HDFS读取文件中的数据写入到HBase的表中import java.io.IOException;import java.util.List;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.conf.Configured;import org.apa...

2018-04-01 18:07:55 398

原创读取HDFS文件中的数据写入到HBase的表中

核心：Our_Reducer继承TableReducer.准备工作：将数据文件上传到HDFS ：hadoop fs -mkdir -p /student/inputhadoop fs -put /student.txt /student/input在HBase中创建相关的表（可以通过命令也可以通过代码）：create 'users', 'info'MR代码：import java.io.IOE...

2018-04-01 18:00:46 11015 4

原创 Python爬虫学习---------根据分类爬取豆瓣电影的电影信息

代码的入口：if __name__ == '__main__': main()#! /usr/bin/python3# -*- coding:utf-8 -*-# author：Sirius.Zhaoimport jsonfrom urllib.parse import quotefrom urllib.request import urlopenfrom urllib.req...

2018-04-01 17:46:57 3259

原创 HBase分页查询---指定PageNumber和PageSize

问题：通过指定的页码和每页记录的条数来进行分页查询。分析问题：要实现分页查询，因为查询的是一个范围，所以使用Scan的查询方式。然后还使用PageFilter，这样能够获取指定数量的记录。那么问题来了，要使用scan的方式进行区间查询那么startRow是什么？？？所以现在将问题转换成了求每一页的startRow ！！！当我们使用scan查询又没有指定StartRow的时候，结...

2018-04-01 17:27:15 11243 1

原创 Python爬虫学习---------使用beautifulSoup4爬取名言网

爬取名言网top10标签对应的名言，并存储到mysql中，字段（名言，作者，标签）#! /usr/bin/python3# -*- coding:utf-8 -*-from urllib.request import urlopen as openfrom bs4 import BeautifulSoupimport reimport pymysqldef find_top_t...

2018-03-28 21:43:15 575

原创 Python爬虫学习---------爬取足球直播吧五大联赛积分榜

使用BeautifulSoup4解析爬取足球直播吧五大联赛积分榜信息；#! /usr/bin/python3# -*- coding:utf-8 -*-from urllib.request import urlopenfrom urllib.request import quotefrom bs4 import BeautifulSoupimport timeimport reim...

2018-03-28 18:55:58 5341

转载 HBase原理二

HBase读的实现通过前文的描述，我们知道在HBase写时，相同Cell(RowKey/ColumnFamily/Column相同)并不保证在一起，甚至删除一个Cell也只是写入一个新的Cell，它含有Delete标记，而不一定将一个Cell真正删除了，因而这就引起了一个问题，如何实现读的问题？要解决这个问题，我们先来分析一下相同的Cell可能存在的位置：首先对新写入的Cell，它会存在于MemS...

2018-03-28 18:46:40 173

转载 HBase原理一

HBase架构组成HBase采用Master/Slave架构搭建集群，它隶属于Hadoop生态系统，由一下类型节点组成：HMaster节点、HRegionServer节点、ZooKeeper集群，而在底层，它将数据存储于HDFS中，因而涉及到HDFS的NameNode、DataNode等，总体结构如下：（图片中有一处错误，Hlog不应该是一个HRegion一个，而是应该一个HRegionServe...

2018-03-28 18:37:31 193

转载数据写入流程解析

感谢博主范欣欣的经典博文，博主就职于网易杭州研究院后台技术中心数据库技术组，专注于HBase的开发运维，热衷于MySQL等相关数据库技术。博主地址：http://hbasefly.com/众所周知，HBase默认适用于写多读少的应用，正是依赖于它相当出色的写入性能：一个100台RS的集群可以轻松地支撑每天10T的写入量。当然，为了支持更高吞吐量的写入，HBase还在不断地进行优化和修正，这篇文章结...

2018-03-28 15:53:12 1030

转载建表语句解析

感谢博主范欣欣的经典博文，博主就职于网易杭州研究院后台技术中心数据库技术组，专注于HBase的开发运维，热衷于MySQL等相关数据库技术。博主地址：http://hbasefly.com/像所有其他数据库一样，HBase也有表的概念，有表的地方就有建表语句，而且建表语句还很大程度上决定了这张表的存储形式、读写性能。比如我们熟悉的MySQL，建表语句中数据类型决定了数据的存储形式，主键、索引则很大程...

2018-03-28 15:35:59 894

原创 Beautiful Soup4.2文档

Beautiful Soup 4.2.0 文档Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.这篇文档介绍了BeautifulSoup4中所有主要特性,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要...

2018-03-27 14:54:03 193

转载爬虫中使用正则表达式

为什么要学正则表达式实际上爬虫一共就四个主要步骤：明确目标 (要知道你准备在哪个范围或者网站去搜索)爬 (将所有的网站的内容全部爬下来)取 (去掉对我们没用处的数据)处理数据（按照我们想要的方式存储和使用）我们在昨天的案例里实际上省略了第3步，也就是"取"的步骤。因为我们down下了的数据是全部的网页，这些数据很庞大并且很混乱，大部分的东西使我们不关心的，因此我们需要将之按我们的需要过滤和匹配出来...

2018-03-27 14:18:51 892

原创 ZooKeeper基础简介

CAP 理论1、一致性（Consistency ）（C））：在分布式系统中的所有数据备份，在同一时刻是否同样的值。（等同于所有节点访问同一份最新的数据副本）2、可用性（Availability ）（A））：在集群中一部分节点故障后，在一定时间内，集群整体是否还能响应客户端的读写请求。（对数据更新具备高可用性）3、分区容错性（Partition tolerance ）（P））：以实...

2018-03-25 10:02:12 900

转载海量数据问题处理方案

第一部分、十道海量数据处理1、海量日志数据，提取出某日访问百度次数最多的那个IP。　　此题，在我之前的一篇文章算法里头有所提到，当时给出的方案是：IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。　　再详细介绍下此方案：首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映...

2018-03-23 15:00:40 207

原创 Hadoop HA集群搭建

/**hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。最新的hadoop-2.6.5又增加了YARN HA注意：apache提供的hadoop-2.6.5的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装hadoop-2.6.5就需要重新在64操作系统上重新编译（建议第一次安装用32位的系统，我...

2018-03-23 11:02:22 303

原创 HDFS练习7-----读取某个指定文件的某个block块的信息

问题重现：读取某个指定文件的某个block块的信息import java.io.File;import java.io.FileOutputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.FSDa...

2018-03-23 08:03:52 1351

原创 MapReduce练习----求共同好友

求所有两两用户之间的共同好友A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K以上是数据：A:B,C,D,F,E,O表示：B,C,D,E,F,O是A用户的好友。首先求每一个人是哪些人的共同好...

2018-03-23 08:03:37 704

原创 MapReduce练习-----互粉好友对

数据：A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K求哪些人两两之间是互粉好友，形如：A的好友有B，B的好友有A 。那么A和B就是互粉好友。思路：对每一行数据进行组合输出（perso...

2018-03-23 08:03:26 753

原创 HDFS练习6-----删除某个路径下特定类型的文件，比如class类型文件，比如txt类型文件

问题重现：删除某个路径下特定类型的文件，比如class类型文件，比如txt类型文件import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;...

2018-03-22 20:33:27 593

原创 HDFS练习5-----删除指定目录下的所有的空文件和空文件夹（包含子文件夹下的内容）

问题重现：删除指定目录下的所有的空文件和空文件夹（包含子文件夹下的内容）import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.LocatedFile...

2018-03-22 20:29:11 3471

原创小程序1-----统计出一个给定数组的蓄水总量（把数组的每个位置的数看是做地势高低）

问题还原：统计出一个给定数组的蓄水总量（把数组的每个位置的数看是做地势高低）比如：int[] intArray = [4,3,2,5,6,4,4,7]能蓄水：[0,1,2,0,0,2,2,0] 所以总量是：7通过拆分思想把数组切成很多个 01数组，统计每个01数组中的合法0的总个数即可（见下面的图解）如图示：浅红色阴影的部分为蓄水量；代码：/** * 作者： MZH：http://blog.cs...

2018-03-22 20:25:17 588

原创 HDFS练习4-----统计 HDFS 整个文件系统中的不足指定数据块大小的数据块的比例

问题还原：统计 HDFS 整个文件系统中的不足指定数据块大小的数据块的比例比如指定的数据块大小是 128M，总数据块有 100 个，不是大小为完整的 128M 的数据块有5 个，那么不足指定数据块大小的数据块的比例就为 5%。注意：千万注意考虑不同文件的指定数据块大小可能不一致，所以千万不能用默认的 128M一概而论。import org.apache.hadoop.conf.Configurat...

2018-03-22 19:06:26 883

原创 HDFS练习3-----统计出 HDFS 文件系统中的平均副本数（副本总数/总数据块数）

问题还原：编写程序统计出 HDFS 文件系统中的平均副本数（副本总数/总数据块数）比如：总共两个文件，一个文件 3个数据块，每个数据块 3 个副本，第二个文件 2 个数据块，每个文件 2 个副本，最终的平均副本数 = （3*3 + 2*2）/（3+2）= 2.8import org.apache.hadoop.conf.Configuration;import org.apache.hadoop...

2018-03-22 18:48:34 1121

原创 HDFS练习2-----统计出 HDFS 文件系统中的平均数据块数（数据块总数/文件总数）

问题还原：编写程序统计出 HDFS 文件系统中的平均数据块数（数据块总数/文件总数）比如：一个文件有 5 个块，一个文件有 3 个块，那么平均数据块数为 4如果还有一个文件，并且数据块就 1 个，那么整个 HDFS 的平均数据块数就是 3import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLoc...

2018-03-22 18:33:50 1726

原创 HDFS练习1-----统计出 HDFS 文件系统中文件大小小于 HDFS 集群中的默认块大小的文件占比

问题还原：编写程序统计出 HDFS 文件系统中文件大小小于 HDFS 集群中的默认块大小的文件占比比如：大于等于 128M 的文件个数为 98，小于 128M 的文件总数为 2，所以答案是 2%import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache....

2018-03-22 18:17:40 2385 2

原创 ZooKeeper小练习

问题重现：1、级联查看某节点下所有节点及节点值2、删除一个节点，不管有有没有任何子节点3、级联创建任意节点4、清空子节点import java.util.HashMap;import java.util.List;import java.util.Map;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper....

2018-03-22 16:21:50 381

原创 HDFS杂记

学习摘要：学习阶段，有不对的地方请指出，不胜感激。/**HDFS:分布式文件系统，主要是用来解决海量数据的存储问题；思想：分而治之。应用：为其他分布式计算框架提供数据存储服务；重点概念：数据块/副本、负载均衡、心跳机制、副本存放策略、元数据/元数据管理、安全模式、机架感知等等。HDFS的设计思路：1、大文件被切割成小文件，使用分而治之的思想让很多服务器对同一个文件进行联合管理。2、...

2018-03-22 08:13:14 367

原创 MapReduce杂记

学习摘要：学习阶段，又不对的地方请指出，不胜感激。/**MapReduce 程序编写规范：1、用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行 MR 程序的客户端)2、Mapper 的输入数据是 KV 对的形式（KV 的类型可自定义）3、Mapper 的输出数据是 KV 对的形式（KV 的类型可自定义）4、Mapper 中的业务逻辑写在 map()方法中...

2018-03-22 07:57:42 326

原创电影评分次数Top10问题

问题还原：求被评分次数最多的10部电影，并给出评分次数（电影名，评分次数）ratings.dat用户ID，电影ID，评分，评分时间戳1::1193::5::978300760movies.dat电影ID，电影名字，电影类型2::Jumanji (1995)::Adventure|Children's|Fantasy数据地址：链接：https://pan.baidu.com/s/1qj7R...

2018-03-21 21:46:55 3102

转载 mysql存储过程

转载：http://www.cnblogs.com/xiaoxi/p/6398347.html点击打开链接一、存储过程基本用法1、创建存储过程MySQL中，创建存储过程的基本形式如下：CREATE PROCEDURE 存储过程名 (参数列表)BEGIN SQL语句代码块END 其中参数列表的形式如下：[IN|OUT|INOUT] param_nam...

2017-10-22 15:00:29 389

转载 mysql 索引

转载：http://www.cnblogs.com/xiaoxi/p/5688912.html点击打开链接对于任何DBMS，索引都是进行优化的最主要的因素。对于少量的数据，没有合适的索引影响不是很大，但是，当随着数据量的增加，性能会急剧下降。如果对多列进行索引(组合索引)，列的顺序非常重要，MySQL仅能对索引最左边的前缀进行有效的查找。例如：假设存在组合索引idx(c1,c2)，查询...

2017-10-22 14:58:37 349

转载 Spring系列之AOP实现的两种方式

转载：http://www.cnblogs.com/xiaoxi/p/5981514.html点击打开链接AOP常用的实现方式有两种，一种是采用声明的方式来实现（基于XML），一种是采用注解的方式来实现（基于AspectJ）。首先复习下AOP中一些比较重要的概念：Joinpoint（连接点）：程序执行时的某个特定的点，在Spring中就是某一个方法的执行。Pointc

2017-10-22 14:33:11 413

转载 Spring系列之bean的使用

转载：http://www.cnblogs.com/xiaoxi/p/5850095.html点击打开链接一、Bean的定义bean id="userDao" class="com.dev.spring.simple.MemoryUserDao"/>这是一个最简单的 Bean 定义。它类似于调用了语句：MemoryUserDao userDao = new Memo

2017-10-22 14:30:41 230

转载 Spring系列之beanFactory与ApplicationContext

转载：http://www.cnblogs.com/xiaoxi/p/5846416.html点击打开链接一、BeanFactoryBeanFactory 是 Spring 的“心脏”。它就是 Spring IoC 容器的真面目。Spring 使用 BeanFactory 来实例化、配置和管理 Bean。BeanFactory：是IOC容器的核心接口，它定义了IOC的基本功能

2017-10-22 14:18:06 150

转载 Spring系列之依赖注入的方式

转载：http://www.cnblogs.com/xiaoxi/p/5865330.html点击打开链接一、依赖注入方式对于spring配置一个bean时，如果需要给该bean提供一些初始化参数，则需要通过依赖注入方式，所谓的依赖注入就是通过spring将bean所需要的一些参数传递到bean实例对象的过程，spring的依赖注入有3种方式：·使用属性的set

2017-10-22 14:15:42 132

转载 Spring系列之谈谈对Spring IOC的理解

转载：http://www.cnblogs.com/xiaoxi/p/5930736.html学习过Spring框架的人一定都会听过Spring的IoC(控制反转) 、DI(依赖注入)这两个概念，对于初学Spring的人来说，总觉得IOC 、DI这两个概念是模糊不清的，是很难理解的，今天和大家分享网上的一些技术大牛们对Spring框架的IOC的理解以及谈谈我对Spring Ioc的理解。一

2017-10-22 14:12:43 177

转载 Spring系列之Spring常用注解总结

转载：http://www.cnblogs.com/xiaoxi/p/5935009.html传统的Spring做法是使用.xml文件来对bean进行注入或者是配置aop、事物，这么做有两个缺点：1、如果所有的内容都配置在.xml文件中，那么.xml文件将会十分庞大；如果按需求分开.xml文件，那么.xml文件又会非常多。总之这将导致配置文件的可读性与可维护性变得很低。2、在开发中

2017-10-22 14:09:26 164

转载 Spring系列之AOP

转载：http://www.cnblogs.com/xiaoxi/p/5945707.html一、什么是AOPAOP（Aspect-OrientedProgramming，面向方面编程），可以说是OOP（Object-Oriented Programing，面向对象编程）的补充和完善。OOP引入封装、继承和多态性等概念来建立一种对象层次结构，用以模拟公共行为的一个集合。当我们需要为分散

2017-10-22 13:58:22 179