大数据存储(分布式或非分布式)
文章平均质量分 66
yuyi_000
这个作者很懒,什么都没留下…
展开
-
开始玩hadoop10 高可用(HA)配置;Hadoop2.6+HA+Zookeeper3.4.6+Hbase1.0.0
应用地址在http://blog.csdn.net/onepiecehuiyu/article/details/45271493这一块我觉得大大超出了我对hadoop 难度的预期;额,我这里转了别人的一篇高可用的配置方法:我觉得手头要有这么多台机器,也不是很容易啊(虚拟机的话怎么主机性能也要跟上才行啊 。。。只有以后有机会去公司里玩玩了)core-site.xml<!-转载 2015-07-07 17:43:11 · 880 阅读 · 0 评论 -
面试,一点小心得
昨天去百度面试:人家问爬虫download下来的picture 全部放到一个文件夹,因为文件夹的文件数目是受限的,所以问下有没有其他办法存啊?我不知道文件夹下的文件数目是受限的啊?所以说还没考虑那么多。查看了一些资料,一般是不会发生文件数目超过的情况的。引文根目录受限范围是 32000 其他目录文件数目是不受限的。但是受到总文件数目的控制,inodes;原创 2015-10-11 21:47:23 · 508 阅读 · 1 评论 -
weibocatch mysql 和 mongodb 还原
mysql -u root -p weibocatchmongodb 的恢复比较奇怪,要先用一个终端脸上mongodb 然后用另一个新终端执行如下命令mongorestore -d weibocatch --drop /mysqlbackup/mongobackup/20150924-09/weibocatch/--drop 表示要先删掉原来的文档。在进行恢复,否则就会有键值id的原创 2015-09-26 12:48:54 · 424 阅读 · 0 评论 -
常用sql 各种连接的区别和细分
转自:http://www.cnblogs.com/jinianjun/archive/2011/11/08/2240525.html首先划分一下,连接分为三种:内连接、外连接、交叉连接 内连接(INNER JOIN): 分为三种:等值连接、自然连接、不等连接 外连接(OUTER JOIN): 分为三种: 左转载 2015-11-19 15:40:32 · 761 阅读 · 0 评论 -
mapreduce里的shuffle 里的 sort merge 和combine
转自http://www.aboutyun.com/thread-7078-1-1.html 的hyj 版主信息旨在分享。感谢about 云论坛。补充:个人理解 在map结束的收尾工作 和 在reduce 开始的取数据 工作里 都有 merge 和 combine 工作。区别是对应单一的map 还是对应不同的mapmap里还有partition(选择reducer) 和 s转载 2015-11-28 15:08:19 · 4130 阅读 · 1 评论 -
尝试参加阿里云 天池 大赛 (看看odps到底封装的多好)1,本地跑通了。2、把mr程序上传到御膳房
额,听说odps是封装hadoop上的二次开发。。。试试download下来项目到eclipse 里 出现的第一个错误是: 错误: 找不到或无法加载主类 my.group.mapreduce.JobLauncher这个比较简单,因为自己手贱点了maven clean 然后 要重新install 一下对应的包然后本地运行第一个jobluncher的时候,出现st原创 2015-11-30 18:02:03 · 1801 阅读 · 1 评论 -
mysql mongodb PostgreSQL运用技能
也有一段时间没有更新了。。。现在想想还是有点疲惫了。。。mongodb --》 文档型数据库,json串,没什么好特别的把mongodb 查询结果保存在bin目录下的csv 文件./mongoexport --host "IP:port" -u "user_name" -p "pass_word" -d database -c collection--csv -o s原创 2016-01-27 14:22:00 · 1058 阅读 · 0 评论 -
Hadoop中的一些基本操作
转自:http://my.oschina.net/kevin701/blog/228684这个如果用在公司里部署的 hadoop 环境 把 -fs 改成 -dfs 先粗略说一下“hadoop fs”和“hadoop dfs”的区别:fs是各比较抽象的层面,在分布式环境中,fs就是dfs,但在本地环境中,fs是local file system,这个时候dfs不可用。转载 2016-01-27 17:42:34 · 603 阅读 · 0 评论 -
开始玩hadoop3--准备装hadoop(ubuntu)环境变量解释
因为网上的教程很多都转载的,有的说hadoop官网只放出了32位的,所以要运行到64位的机器上必须要在本地重新编译src的那个压缩但是也有的说现在hadoop为了适应64位的大趋势,从2.5开始就开始放出64位的了,直接使用不带src的那个压缩文件就可以了我不放心,所以找来了一篇可以识别hadoop到底是多少位的操作的方法:我在官网上两个压缩包都下载了,先看看不带src的是不是64原创 2015-06-29 23:08:29 · 944 阅读 · 0 评论 -
Hbase总结(十)Hhase性能调优
转自:http://blog.csdn.net/lifuxiangcaohui/article/details/39994617因官方Book Performance Tuning部分章节没有按配置项进行索引,不能达到快速查阅的效果。所以我以配置项驱动,重新整理了原文,并补充一些自己的理解,如有错误,欢迎指正。配置优化zookeeper.session.timeout默转载 2016-04-25 20:11:12 · 520 阅读 · 0 评论 -
HBase总结(十一)hbase Java API 介绍及使用示例
转自:http://blog.csdn.net/lifuxiangcaohui/article/details/39997205几个相关类与HBase数据模型之间的对应关系java类 HBase数据模型HBaseAdmin 数据库(DataBase)HBaseConfigurationHTable 表(Table)HTableDescriptor 列族(Column转载 2016-04-25 20:28:05 · 550 阅读 · 0 评论 -
HBase总结(十二)Java API 与HBase交互实例
转自:http://blog.csdn.net/lifuxiangcaohui/article/details/39997391HBase提供了Java Api的访问接口,掌握这个就跟Java应用使用RDBMS时需要JDBC一样重要import java.io.IOException;import org.apache.hadoop.conf.Configuration;转载 2016-04-25 20:31:16 · 352 阅读 · 0 评论 -
重拾hadoop hbase知识
哎,最近连连失利啊。hadoop集群启动jps查看后没有DATANODE经常会遇到这样的情况,hadoop的datanode启动一阵子后,突然一会又down掉了这样的现象主要原因是多次format namenode 造成namenode 和datanode的clusterID不一致。方法:建议查看datanode上面的log信息。解决办法:删除data/hadoop/c原创 2016-04-20 00:37:43 · 363 阅读 · 0 评论 -
hadoop 2.6 安装 spark 1.4.0
下载scala 2.10.4 安装scala 解压:tar -zxvf scala.xxx.tgz 配置环境变量:我的在/etc/bash.bashrc加到之前配置的后面就可以了。测试scala 就用 scala -version接着安装spark 下载 spark-1.4.0-bin-hadoop2.6 tgz 包 然后解压到用户目录cd conf 目录cp原创 2016-07-11 22:29:18 · 561 阅读 · 0 评论 -
在hadoop 里安装 sqoop 并把mysql数据导入hdfs
hadoop 2.6.0sqoop:sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz然后把sqoop 解压。这里解压发生的问题是,找不到目标目录tar -xzvf XXXXX -C ~/ 大写-C 不要忘记加上。配置环境变量:sudo nano /etc/bash.bashrc 加上SQOOP_H原创 2016-07-23 00:59:13 · 1348 阅读 · 0 评论 -
LVM 存储系统里 命令行 lv vg pv 的关系
partprobe --扫描新增的硬盘fdisk -l --查看 磁盘信息。pvcreate /dev/sdb --把新挂载的硬盘 创建 pvvgcreate vg-data /dev/sdb -- 创建新的vg 叫vg datalvcreate -l 100%VG -n lv-data vg-data -- 创建新的 lv 把所有的vg 划给原创 2016-07-13 17:00:10 · 2551 阅读 · 0 评论 -
linux 物理硬盘资源管理
这篇只讲怎么查询和统计,至于怎么分区,我也不会,回头我会了在写。先修知识:介绍2种分区表:MBR分区表:(MBR含义:主引导记录)所支持的最大卷:2T (T; terabytes,1TB=1024GB)对分区的设限:最多4个主分区或3个主分区加一个扩展分区。GPT分区表:(GPT含义:GUID分区表)支持最大卷:18EB,(E:exabytes,1EB=1024TB原创 2016-07-14 23:24:43 · 567 阅读 · 0 评论 -
mongodb常用操作
查看全部数据表> useChatRoomswitched to dbChatRoom> showcollectionsAccountChatsystem.indexessystem.users 创建数据表>db.createCollection("Account"){"ok":1} >db.createCollection("Test",{cap转载 2015-10-23 18:44:24 · 400 阅读 · 0 评论 -
python爬虫补充章,在总控节点那台机器上安装mongodb和redis数据库 都是非apt方法
因为发现爬虫爬取出来的数据如果按照表结构划分后存储,不仅麻烦而且非常大的冗余干脆试试用这样的非关系数据库来试试存储效果如何。这里我不打算用redis 进行比较,因为他是内存数据库,他擅长的领域应该是缓存和少量数据的统计归类(做这个的还有另外一大家伙memcache),redis 以后相配合 其他应用提高效率的。这里相比较的主要是mongodb和mysql 的性能差,就特定指的是这样原创 2015-08-04 21:45:20 · 808 阅读 · 0 评论 -
开始玩hadoop2--把三台同网段的机器免登陆连起来(ubuntu)
我用的ubuntu系统 一台桌面版(master),另外两台是在windows下用虚拟机模拟的两台服务器版(slave)(master) luis h5 192.168.1.113(slave) luis1 h1 192.168.1.115(slave) luis2 h2 192.168.1.116windows admin h3 192.168.1.102wind原创 2015-06-28 20:06:31 · 678 阅读 · 0 评论 -
开始玩hadoop4--装hadoop(ubuntu14.04,hadoop-2.6.0,最后还是屈服了java7)
这个过程真的很折磨人啊………………………………两台ubuntu server 和一台 ubuntu desktop至于为什么要用一个桌面的ubuntu ,是因为我是新手,确实有时候命令不是很熟悉,比如下载hadoop 这种工作,我还是十分喜欢在浏览器里点来点去。其实我觉得功能没差。补充:译注:递归地创建目录mkdir -p letter/import原创 2015-06-30 20:32:30 · 965 阅读 · 0 评论 -
开始玩hadoop1--装java(ubuntu)
Ubuntu上安装 lamp+ phpmyadmin后再也没做任何今天开始学习hadoop ;试着安装了一下从装java开始 java -version 看看机子上有没有 #肯定没有sudo apt-get install default-jre sudo apt-get install default-jdk#默认的应该都是最新的,你也可不安装最新的#但原创 2015-06-27 15:11:57 · 508 阅读 · 0 评论 -
开始玩hadoop 11 --Hbase 入门 shell基础命令
查看HBASE 状态是60010 端口集群启动后,运行./hbase shell 命令查看状态 :status 查看版本:version创建表:create ‘member’,‘member_id’,‘address’,‘info’(后面三个叫列族,后面会包含多列,多列的集合)查看表信息:list查看表结构(列族):describe xxx删除列族:alter ‘mem原创 2015-07-07 21:42:26 · 405 阅读 · 0 评论 -
开始玩hadoop12--hbase设计和解决方案
有固定模式或者固定数学模型---与---速度量大的瓶颈----Hbase天生就是面向时间戳的查询基于行键查询异常快速,最近的数据被放到内存里,和可能都不会有很多的io操作分布式化解负荷 模式设计:浏览记录,中抽取最近访问的五个item行键:userid列族和列:book :bookid充分利用分布式,可以用reverse key 和 hash 等技巧原创 2015-07-07 22:13:53 · 520 阅读 · 0 评论 -
开始玩hadoop13--pig (latin)和Hive
pig 是雅虎贡献给 Apache基金会的pig(客户端)--》pig latin--》mapreduce--》cluster基于stream 流的数据流操作流程 方式 运行程序sql --hive---mapreduce ---cluster桶对应的reducer--- 更快。pig 和 hive 的--UDF原创 2015-07-07 23:30:09 · 568 阅读 · 0 评论 -
开始玩hadoop5--装hadoop(ubuntu14.04,hadoop-2.6.0,补充配置)
这里h5是master 的ip h1 和 h2 是slaves 的ip因为之前看的教程一直都都1.* 的版本,后来在网上才看到2.*的版本,才发现很多内容其实如果没有该文件,根本不用再建,因为已经淘汰用不上了。这里把内容再修改的内容重新归类一下实际在2.*之后用的是yarn 框架。(虽然目前我也不知道这个是个什么东西)但是要改动的文件如下:①~/原创 2015-07-01 10:26:19 · 680 阅读 · 0 评论 -
开始玩hadoop6--装hadoop(ubuntu 和 hadoop 2.6.0 的奇怪错误)
我觉得这篇帖子是我写的最重要的一篇帖子了。哈哈,肯定能帮上你不少忙。我真的是愁了两天多,全部通宵,一点一点实验出的经验,绝无虚假,我都有亲自做过。心好痛,对新手就是一种折磨啊。对我这种强迫症就是要把我逼上绝路啊。经过上一篇补充配置后,其实差别就在于===>我的前一篇的配置应该是hadoop版本2.*之前的,但是后面的补充配置是hadoop 版本 2.*以后的所以无论原创 2015-07-02 11:16:32 · 577 阅读 · 0 评论 -
开始玩hadoop7--hadoop 2.6.0 在eclipse里安装(第一个map程序)
经过之前的步骤,我的ubuntu环境全部搭建完毕我的建议是安全起见,每次不用hadoop 的时候,从namenode里把hadoop停掉;./sbin/stop-dfs.sh./sbin/stop-yarn.sh用的时候在把它重新启动;bin/hadoop fs -put input/ /porrylee // input is old path /porry原创 2015-07-04 17:07:21 · 1007 阅读 · 0 评论 -
开始玩hadoop8--hadoop 2.6.0实战(第一个reduce程序,ubuntu 14.04)倒排索引
前面的几次我已经把hadoop所有的过程都说了,现在正式进入学习章节现在试着写一个reduce 程序测试数据在:13599999999 1008613899999999 12013944444444 1380013800013722222222 1380013800018800000000 12013722222222 1008618944444444原创 2015-07-05 08:39:39 · 592 阅读 · 0 评论 -
开始玩hadoop14 ---从sql 关系数据库和 hadoop 之间的数据交换---Sqoop
Sqoop---apache 基金会sql-to-hdfs 工具利用jdbc 连接关系型数据库Sqoop 的获取archive.cloudera.com -- 做过一些改动的hadoop包 方便使用Sqoop 依赖 hadoop包(hadoop-core-xxx.xxx.jar),导入不同的关系型数据库,依赖不同的数据库连接类型包(mysql-co原创 2015-07-18 09:53:23 · 587 阅读 · 0 评论 -
生产环境下的hadoop 配置实战
成百上千的hadoop集群维护方式:(技巧)不维护每台机器的hosts 文件,取而代之的是建立一台dns 服务机,维护服务机来间接维护hosts ,dns 服务机系统用 bind软件 来配置数目巨大的ssh 的配置会是一件非常麻烦,非常容易出错的事情;取代方案是NFS(网络文件系统),windows 网络邻居的协议采用samba ,linux 也支持,mnt 到对应原创 2015-07-18 09:52:28 · 513 阅读 · 0 评论 -
python 爬虫1 开始,先拿新浪微博开始
刚刚开始学。目的地是两个,一个微博,一个贴吧存入的话,暂时还没想那么多,先存到本地文件夹吧ubuntu14.04 python 自带,安装了一个beautifulsoup 的 解析器 ,这里我装的是新版本,不是apt-get自带的版本#安装版本4apt-get install python-bs4 python-bs4-doc开始import原创 2015-07-26 23:10:17 · 1137 阅读 · 0 评论 -
mysql 的分库分表操作
转自:http://wentao365.iteye.com/blog/1740874 刘文涛 前辈和转自 http://my.oschina.net/ydsakyclguozi/blog/199498 博客这里讲的是理论。路由机制和同步机制一般写在业务逻辑代码里和使用一些成熟的mysql 框架和插件(amoeba,Cobar) 解决。单库单表 单库单表是最常见转载 2015-08-02 10:54:56 · 2725 阅读 · 1 评论 -
mysql 的job 设置
创建eventCreate event ***On scheduleEvery 5 minuteStarts now()DoBeginCall proc();End或者不想用存储过程的,可以直接写create event e_1 on schedule every 1 second do insert into test3.test原创 2015-08-02 11:37:37 · 539 阅读 · 0 评论 -
开始玩hadoop15--补充一点笔记(手抄)
原创 2015-07-24 09:13:45 · 320 阅读 · 0 评论 -
开始玩hadoop9--最后步骤(简单安装Hbase 和 zookeeper 的入门)
这里还是用之前的配置:hadoop 2.6.0 和 ubuntu 14.04 今天突然出现了一点小状况,我有一台机器vmware 里的 ubuntu server 怎么都连不上了检查原因尽然是 没有连上网,ifconfig 里也没有对应ip只有inet 6 address 网上说要重新分配一下地址才好使(sudo dhclient),可是我试过以后并没用没办法,选择vmwa原创 2015-07-07 17:21:06 · 596 阅读 · 0 评论