![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
泪-_-很累
这个作者很懒,什么都没留下…
展开
-
Hadoop第三讲
集群测试 1. 进行简单的测试 dfs表示是对分布式文件系统进行操作;-put是将当前系统的目录放到Hadoop系统的文件系统的相应目录中。第二条命令中的字符”\”是多余的 2. 运行wordcount程序,测试上面放进分布式文件系统中的文件,即相当于提交MapReduce的作业,是Java程序。 3. 检查程序运行结果 查看结果文件是在part-文件中,为原创 2015-06-16 18:01:18 · 671 阅读 · 0 评论 -
Hadoop第一讲
haoop思想之源:Google google搜索引擎、Gmail,安卓,原创 2015-06-12 13:05:04 · 585 阅读 · 0 评论 -
Hadoop第二讲
参考资料:Hadoop实战等三种运行模式: 1.单机模式:安装简单,仅仅用于调试 2.伪分布式模式:在单个节点上同时启动namenode,datanode、jobtracker、tasktracker、secondary namenode等5个进程,模拟分布式运行的各个节点。 3. 完全分布式模式:正常的Hadoop集群,有多个节点构成。(至少是3个,一个Master,2个Slaves,保证冗原创 2015-06-12 13:04:21 · 552 阅读 · 0 评论 -
Hadoop第十讲
Hadoop与关系数据库交换数据 文本转换方案(转换为CSV,文本等文件)自写Java程序(用JDBC读关系数据库中的数据用Hadoop的API写入)Sqoop(SQL-to-HDFS工具)厂商提供的解决方案 Hadoop-0.20.2下使用Sqoop: 配置文件 Sqoop命令选项原创 2015-07-02 12:36:26 · 741 阅读 · 0 评论 -
hadoop第九讲
Hadoop流:最简单的M-R 具体可以参见Hadoop权威指南的第二章,主要是为了非java程序员方便使用。下面使用的是ruby脚本 Hive 数据仓库工具,可以把Hadoop的原始结构化数据变成Hive中的表。支持一种与SQL几乎完全相同的语言HiveQL,除了不支持更新、索引和事务,几乎SQL的其他特征都支持。可以看成是SQL到Map-Reduce的映射器。提供shell,JD原创 2015-07-01 18:11:33 · 667 阅读 · 0 评论 -
Hadoop第八讲
Pig Latin 子项目致力于降低hadoop的复杂性。Pig可以看做是hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作。Pig方便不熟悉Java的用户,使用一种较为简便的类似SQL的面向数据流的语言pig latin进行数据处理。Pig latin可以进行排序,过滤 ,求和,分组,关联等操作,还可以自定义函数,这是一种面向数据分析处理的轻量级脚本语言. Pig可以看做是原创 2015-06-30 18:51:49 · 627 阅读 · 0 评论 -
Hadoop第七讲(2)
什么情况下使用hbase? 成熟的数据分析主题,查询模式(查询语句固定)已经确立并且不轻易改变;传统关系数据库已经无法承受的负荷,高速插入,大量读取;适合海量,但同时也是简单的 操作(例如key-value) 场景1:浏览历史(列出前5个最近浏览的图书) 关系数据库的困难:简单的事情只要上了量就会变得无比的复杂。order by 消耗很多性能。大量发生,但又无法分布式 处理。顾客需要原创 2015-06-30 12:24:12 · 564 阅读 · 0 评论 -
Hadoop第七讲(1)
HBase的安装:单机模式 下载安装包,修改conf/hbase.env.sh,设置环境变量。注意hbase需要和hadoop的版本兼容,一般根据hadoop的版本号,然后用baidu、google搜索一下兼容的版本,最后再去下载相应的版本即可。编辑hbase-site.xml进行配置启动hbase,验证Hmaster已经启动进入shell HBase的安装:伪分布模式(需要和HDFS原创 2015-06-29 12:44:42 · 449 阅读 · 0 评论 -
Hadoop第六讲
Hadoop第六讲原创 2015-06-26 18:49:08 · 563 阅读 · 0 评论 -
Hadoop第五讲
Hadoop 的API开发步骤 需要将hadoop/contrib/hadoop-0.20.2-eclipse-plugin.jar添加到eplipse的安装目录的plugin目录中,然后重启eclipse即可。在重启eclipse之后需要在preference->Hadoop Map/Reduce选项中设置Hadoop的安装目录即可。原创 2015-06-18 12:55:00 · 822 阅读 · 0 评论 -
Hadoop第四讲
MapReduce的编程模型 如何使用MapReduce使用集群处理几百GB的问文件数据? 首先将数据放到HDFS文件系统中(被均分到不同的节点中),然后使用map操作,则每一个数据节点就会对本地的数据进行计算得到(key, value)的值,这样数据就能够被处理。然后通过shuffle操作(先进行排序,然后合并相同的key后形成的结果value用list表示,使用shuffle是为了减少通信连原创 2015-06-17 13:04:19 · 718 阅读 · 0 评论 -
Hadoop第十一讲-搜索推荐
案例1:(Search Suggestion)在搜索引擎中打入字的时候会提示常用的搜索,并且显示最常搜索的几个推荐给用户。 采用virtual box模拟Linux集群,要是有任务时就在虚拟机中运行这些任务。使用eclipse进行Hadoop的开发前面有讲到这里不再叙述。 首先建立一个web项目并且导入struts相关jar包,并且添加相应的过滤器到web.xml中。使得该web项目能够运行。原创 2015-07-06 12:53:54 · 807 阅读 · 0 评论