2018年03月__a_0_

12月 05月 04月 03月

原创 Python爬虫学习---------使用beautifulSoup4爬取名言网

爬取名言网top10标签对应的名言，并存储到mysql中，字段（名言，作者，标签）#! /usr/bin/python3# -*- coding:utf-8 -*-from urllib.request import urlopen as openfrom bs4 import BeautifulSoupimport reimport pymysqldef find_top_t...

2018-03-28 21:43:15 575

原创 Python爬虫学习---------爬取足球直播吧五大联赛积分榜

使用BeautifulSoup4解析爬取足球直播吧五大联赛积分榜信息；#! /usr/bin/python3# -*- coding:utf-8 -*-from urllib.request import urlopenfrom urllib.request import quotefrom bs4 import BeautifulSoupimport timeimport reim...

2018-03-28 18:55:58 5342

转载 HBase原理二

HBase读的实现通过前文的描述，我们知道在HBase写时，相同Cell(RowKey/ColumnFamily/Column相同)并不保证在一起，甚至删除一个Cell也只是写入一个新的Cell，它含有Delete标记，而不一定将一个Cell真正删除了，因而这就引起了一个问题，如何实现读的问题？要解决这个问题，我们先来分析一下相同的Cell可能存在的位置：首先对新写入的Cell，它会存在于MemS...

2018-03-28 18:46:40 173

转载 HBase原理一

HBase架构组成HBase采用Master/Slave架构搭建集群，它隶属于Hadoop生态系统，由一下类型节点组成：HMaster节点、HRegionServer节点、ZooKeeper集群，而在底层，它将数据存储于HDFS中，因而涉及到HDFS的NameNode、DataNode等，总体结构如下：（图片中有一处错误，Hlog不应该是一个HRegion一个，而是应该一个HRegionServe...

2018-03-28 18:37:31 193

转载数据写入流程解析

感谢博主范欣欣的经典博文，博主就职于网易杭州研究院后台技术中心数据库技术组，专注于HBase的开发运维，热衷于MySQL等相关数据库技术。博主地址：http://hbasefly.com/众所周知，HBase默认适用于写多读少的应用，正是依赖于它相当出色的写入性能：一个100台RS的集群可以轻松地支撑每天10T的写入量。当然，为了支持更高吞吐量的写入，HBase还在不断地进行优化和修正，这篇文章结...

2018-03-28 15:53:12 1030

转载建表语句解析

感谢博主范欣欣的经典博文，博主就职于网易杭州研究院后台技术中心数据库技术组，专注于HBase的开发运维，热衷于MySQL等相关数据库技术。博主地址：http://hbasefly.com/像所有其他数据库一样，HBase也有表的概念，有表的地方就有建表语句，而且建表语句还很大程度上决定了这张表的存储形式、读写性能。比如我们熟悉的MySQL，建表语句中数据类型决定了数据的存储形式，主键、索引则很大程...

2018-03-28 15:35:59 894

原创 Beautiful Soup4.2文档

Beautiful Soup 4.2.0 文档Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.Beautiful Soup会帮你节省数小时甚至数天的工作时间.这篇文档介绍了BeautifulSoup4中所有主要特性,并且有小例子.让我来向你展示它适合做什么,如何工作,怎样使用,如何达到你想要...

2018-03-27 14:54:03 193

转载爬虫中使用正则表达式

为什么要学正则表达式实际上爬虫一共就四个主要步骤：明确目标 (要知道你准备在哪个范围或者网站去搜索)爬 (将所有的网站的内容全部爬下来)取 (去掉对我们没用处的数据)处理数据（按照我们想要的方式存储和使用）我们在昨天的案例里实际上省略了第3步，也就是"取"的步骤。因为我们down下了的数据是全部的网页，这些数据很庞大并且很混乱，大部分的东西使我们不关心的，因此我们需要将之按我们的需要过滤和匹配出来...

2018-03-27 14:18:51 892

原创 ZooKeeper基础简介

CAP 理论1、一致性（Consistency ）（C））：在分布式系统中的所有数据备份，在同一时刻是否同样的值。（等同于所有节点访问同一份最新的数据副本）2、可用性（Availability ）（A））：在集群中一部分节点故障后，在一定时间内，集群整体是否还能响应客户端的读写请求。（对数据更新具备高可用性）3、分区容错性（Partition tolerance ）（P））：以实...

2018-03-25 10:02:12 900

转载海量数据问题处理方案

第一部分、十道海量数据处理1、海量日志数据，提取出某日访问百度次数最多的那个IP。　　此题，在我之前的一篇文章算法里头有所提到，当时给出的方案是：IP的数目还是有限的，最多2^32个，所以可以考虑使用hash将ip直接存入内存，然后进行统计。　　再详细介绍下此方案：首先是这一天，并且是访问百度的日志中的IP取出来，逐个写入到一个大文件中。注意到IP是32位的，最多有个2^32个IP。同样可以采用映...

2018-03-23 15:00:40 207

原创 Hadoop HA集群搭建

/**hadoop2.0已经发布了稳定版本了，增加了很多特性，比如HDFS HA、YARN等。最新的hadoop-2.6.5又增加了YARN HA注意：apache提供的hadoop-2.6.5的安装包是在32位操作系统编译的，因为hadoop依赖一些C++的本地库，所以如果在64位的操作上安装hadoop-2.6.5就需要重新在64操作系统上重新编译（建议第一次安装用32位的系统，我...

2018-03-23 11:02:22 303

原创 HDFS练习7-----读取某个指定文件的某个block块的信息

问题重现：读取某个指定文件的某个block块的信息import java.io.File;import java.io.FileOutputStream;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLocation;import org.apache.hadoop.fs.FSDa...

2018-03-23 08:03:52 1353

原创 MapReduce练习----求共同好友

求所有两两用户之间的共同好友A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K以上是数据：A:B,C,D,F,E,O表示：B,C,D,E,F,O是A用户的好友。首先求每一个人是哪些人的共同好...

2018-03-23 08:03:37 704

原创 MapReduce练习-----互粉好友对

数据：A:B,C,D,F,E,OB:A,C,E,KC:F,A,D,ID:A,E,F,LE:B,C,D,M,LF:A,B,C,D,E,O,MG:A,C,D,E,FH:A,C,D,E,OI:A,OJ:B,OK:A,C,DL:D,E,FM:E,F,GO:A,H,I,J,K求哪些人两两之间是互粉好友，形如：A的好友有B，B的好友有A 。那么A和B就是互粉好友。思路：对每一行数据进行组合输出（perso...

2018-03-23 08:03:26 753

原创 HDFS练习6-----删除某个路径下特定类型的文件，比如class类型文件，比如txt类型文件

问题重现：删除某个路径下特定类型的文件，比如class类型文件，比如txt类型文件import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;...

2018-03-22 20:33:27 593

原创 HDFS练习5-----删除指定目录下的所有的空文件和空文件夹（包含子文件夹下的内容）

问题重现：删除指定目录下的所有的空文件和空文件夹（包含子文件夹下的内容）import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.LocatedFile...

2018-03-22 20:29:11 3471

原创小程序1-----统计出一个给定数组的蓄水总量（把数组的每个位置的数看是做地势高低）

问题还原：统计出一个给定数组的蓄水总量（把数组的每个位置的数看是做地势高低）比如：int[] intArray = [4,3,2,5,6,4,4,7]能蓄水：[0,1,2,0,0,2,2,0] 所以总量是：7通过拆分思想把数组切成很多个 01数组，统计每个01数组中的合法0的总个数即可（见下面的图解）如图示：浅红色阴影的部分为蓄水量；代码：/** * 作者： MZH：http://blog.cs...

2018-03-22 20:25:17 590

原创 HDFS练习4-----统计 HDFS 整个文件系统中的不足指定数据块大小的数据块的比例

问题还原：统计 HDFS 整个文件系统中的不足指定数据块大小的数据块的比例比如指定的数据块大小是 128M，总数据块有 100 个，不是大小为完整的 128M 的数据块有5 个，那么不足指定数据块大小的数据块的比例就为 5%。注意：千万注意考虑不同文件的指定数据块大小可能不一致，所以千万不能用默认的 128M一概而论。import org.apache.hadoop.conf.Configurat...

2018-03-22 19:06:26 883

原创 HDFS练习3-----统计出 HDFS 文件系统中的平均副本数（副本总数/总数据块数）

问题还原：编写程序统计出 HDFS 文件系统中的平均副本数（副本总数/总数据块数）比如：总共两个文件，一个文件 3个数据块，每个数据块 3 个副本，第二个文件 2 个数据块，每个文件 2 个副本，最终的平均副本数 = （3*3 + 2*2）/（3+2）= 2.8import org.apache.hadoop.conf.Configuration;import org.apache.hadoop...

2018-03-22 18:48:34 1121

原创 HDFS练习2-----统计出 HDFS 文件系统中的平均数据块数（数据块总数/文件总数）

问题还原：编写程序统计出 HDFS 文件系统中的平均数据块数（数据块总数/文件总数）比如：一个文件有 5 个块，一个文件有 3 个块，那么平均数据块数为 4如果还有一个文件，并且数据块就 1 个，那么整个 HDFS 的平均数据块数就是 3import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.BlockLoc...

2018-03-22 18:33:50 1726

原创 HDFS练习1-----统计出 HDFS 文件系统中文件大小小于 HDFS 集群中的默认块大小的文件占比

问题还原：编写程序统计出 HDFS 文件系统中文件大小小于 HDFS 集群中的默认块大小的文件占比比如：大于等于 128M 的文件个数为 98，小于 128M 的文件总数为 2，所以答案是 2%import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache....

2018-03-22 18:17:40 2385 2

原创 ZooKeeper小练习

问题重现：1、级联查看某节点下所有节点及节点值2、删除一个节点，不管有有没有任何子节点3、级联创建任意节点4、清空子节点import java.util.HashMap;import java.util.List;import java.util.Map;import org.apache.zookeeper.CreateMode;import org.apache.zookeeper....

2018-03-22 16:21:50 381

原创 HDFS杂记

学习摘要：学习阶段，有不对的地方请指出，不胜感激。/**HDFS:分布式文件系统，主要是用来解决海量数据的存储问题；思想：分而治之。应用：为其他分布式计算框架提供数据存储服务；重点概念：数据块/副本、负载均衡、心跳机制、副本存放策略、元数据/元数据管理、安全模式、机架感知等等。HDFS的设计思路：1、大文件被切割成小文件，使用分而治之的思想让很多服务器对同一个文件进行联合管理。2、...

2018-03-22 08:13:14 369

原创 MapReduce杂记

学习摘要：学习阶段，又不对的地方请指出，不胜感激。/**MapReduce 程序编写规范：1、用户编写的程序分成三个部分：Mapper，Reducer，Driver(提交运行 MR 程序的客户端)2、Mapper 的输入数据是 KV 对的形式（KV 的类型可自定义）3、Mapper 的输出数据是 KV 对的形式（KV 的类型可自定义）4、Mapper 中的业务逻辑写在 map()方法中...

2018-03-22 07:57:42 327

原创电影评分次数Top10问题

问题还原：求被评分次数最多的10部电影，并给出评分次数（电影名，评分次数）ratings.dat用户ID，电影ID，评分，评分时间戳1::1193::5::978300760movies.dat电影ID，电影名字，电影类型2::Jumanji (1995)::Adventure|Children's|Fantasy数据地址：链接：https://pan.baidu.com/s/1qj7R...

2018-03-21 21:46:55 3102