hadoop学习笔记--第十一天 经过前一段的学习,对hadoop算是有了一个第一印象。 这几天忙,就随便搞搞。 主要收获为: 一,调试代码时,出现错误 java.io.IOException: Type mismatch in value from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.
hadoop学习笔记--第十天--增减删除节点 增加节点1、新增加节点192.168.203.1132、配置无密码rsh,将namenode节点/home/hdpuser/.ssh/authorized_keys拷贝同113的同等目录下,并设置.ssh目录权限为700,authorized_keys权限为6003、则namenode的slaves文件中,增添新机器的hostname4、在/etc/hosts中增添新机器hostn
hadoop学习笔记--第九天--Report Counter 可以在程序中定义不同的计数器,分别累计特定事件的发生次数。对于同一作业所有任务的相同计数器,Hadoop会自动对他们求和,以反映整个作业的情况。 在Map以及reduce方法中,有一个reporter对象。例如以下代码红色字体部分: public static class MapClass extends MapReduceBase implements
hadoop学习笔记--第八天--MapReduce基础编程 初识MapReduce,本能的想到了datastage orchestrate并行引擎(partition,collection),很亲切,核心思想看起来差不多。只不过orchestrate中包含了各种partition、collection的具体method。但总体还是分为两类,以均匀分布为主旨的方法以及KEY值相关的方法(保证KEY相同在相同分区)。 从《Hadoop in Acti
hadoop学习笔记--第七天--编程读写HDFS 虽然并不打算使用JAVA深入的开发Mapreduce程序,但经过这几日的了解,总觉得,如果不写几段MapReduce程序,也许真的不能很好理解HADOOP的一些思想。用PIG或Hive时,很多时候,察觉不到HDFS的存在。 从网上找了一段读写HDFS的代码,来自《HADOOP实战》一书。因为之前没有任何JAVA编程的基础,所以今天的目标更多是搭建一个JAVA的开发环境,能够将COPY的代
hadoop学习笔记-第六天-初步接触Hive hadoop的东西玩的有点儿上瘾了,睡觉睡不着。对于一个写代码自娱自乐的销售来说,这几天折腾HADOOP的时间有点儿多了。 Hive是建立在hadoop基础上的数据仓库软件包,其目标用户仍然是习惯了SQL的数据分析师,他们需要在HADOOP规模的数据上做既系查询、汇总和数据分析,因为是建立在HADOOP基础上,所以它仍然设计用于处理低延迟与批量类型的作业。故而它并不会直接取代传统的S
hadoop学习笔记-第六天-学习Pig Latin 一个准备工作先做了一个测试。用于“分布式存储“。1、通过shell创建按了一个152M的文件,具体shell如下:for k in $( seq 1 1500000 )do echo -e "$k\twudi$k\ttest$k\tabcd$k\t$k" >> tt.txt 2>&1 echo -e "$k\twudi$k\ttest$k\tabcd$k\t$k" >>
hadoop学习笔记-第五天-重新修复全集群环境 基本配置记录 之前虽然看起来全集群配置好了,但在后续的学习测试中(例如PIG),发现还是会有各种报错。切换到伪集群模式正常,怀疑和全集群环境的配置有关系。今天重新折腾一番。 放弃之前从各个网络环境查到的资料(之前的配置文件其实是个“融合”版),到官网http://hadoop.apache.org/docs/r2.2.0/hadoop-project-dist/hadoop-c
hadoop学习笔记-第四天-PIG环境搭建 安装配置pig 0.12.01、下载pig 0.12.02、直接解压,配置环境变量export JAVA_HOME=/usr/java/jdk1.7.0_45export HADOOP_HOME=/home/hdpuser/hadoop-2.2.0export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoopexport PATH=$PATH:$H
hadoop学习笔记-第三天-搭建集群 hadoop可分为: 1、本地(单机)模式,默认情况 2、伪分布模式,是在单节点上运行“集群” 3、全分布模式 单机模式在昨天的测试中已经测过,不再记录。全分布模式配置过程记录: 1、准备两台虚拟机,网络可以互相连接,/etc/hosts文件如下127.0.0.1 localhost.localdomain loc
hadoop学习笔记-第二天-动手编译hadoop 昨天从官网下的介质,运行第一个程序时,有如下警告信息:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable 发现是本地库不能正常加载,从网上找了一些资料,总结起来对于我这个以学习为目的,
hadoop学习笔记-第一天-从安装开始 这些年做销售有点儿吃老本了。之前做数据算是和hadoop有那么点儿缘分,莫名玩上nutanix,才发现缘分也许不止那么一点点。 就从word count开始运行第一个程序吧。 1、linux虚拟机一台,我用了SUSE11 2、现在HADOOP介质 ,下了2.2.0版本,http://mirrors.cnnic.cn/apache/hadoop/common/
DB2在linux下的安装于配置 环境:DB2 V9.1 ,RHLinux AS4 update 2(ip 192.168.43.4)一、安装DB2以及DB2实例1. 解压缩安装介质tar -xzf db2_v9_ese_linux_32.tar.gz2. 找到解压缩后的目录,找到db2setup.sh,执行安装 ./db2setup.sh,用root安装3. 按
Linux守护进程的编程方法 Linux守护进程的编程方法 守护进程(Daemon)是运行在后台的一种特殊进程。它独立于控制终端并且周期性地执行某种任务或等待处理某些发生的事件。守护进程是一种很有用的进程。Linux的大多数服务器就是用守护进程实现的。比如,Internet服务器inetd,Web服务器httpd等。同时,守护进程完成许多系统任务。比如,作业规划进程crond,打印进程lpd等。
linux/unix下的ODBC编程 使用unixODBC提供的ODBC API进行编程: 在进行编程之前,我们来看一下ODBC API中的常用数据类型与我们在C语言中使用的数据类型的对应关系: 类型标识符 ODBC数据
Linux/Unix下ODBC的配置 UNIX下ODBC的配置的可以通过/usr/bin目录下的ODBCConfig来完成,当然,这需要桌面环境的支持。还有一个用来辅助ODBC配置和产看数据的工具是DataManager。如果你用过Windows平台下的ODBC配置,那么LINUX下的和它几乎一样,区别只是windows写注册表,而linux写文件。 通常,我更乐意手动完成这种配置。这需要以下几个步骤: 编
Linux/Unix下ODBC的安装 原理 ODBC 是Open Database Connect 即开放数据库互连的简称,它是由Microsoft 公司于1991 年提出的一个用于访问数据库的统一界面标准,是应用程序和数据库系统之间的中间件。它通过使用相应应用平台上和所需数据库对应的驱动程序与应用程序的交互 来实现对数据库的操作,避免了在应用程序中直接调用与数据库相关的操作,从而提供了数据库的独立性。
ORA-12516错误的处理 解决过程:1、查看当前会话数、processes和sessions值,发现session数和2个参数的值已经非常逼近SQL*Plus: Release 10.2.0.1.0 - Production on 星期一 10月 9 15:50:21 2006Copyright (c) 1982, 2005, Oracle. All rights reserved.SQL> conn / as
oracle中得字符集 一、什么是oracle字符集 Oracle字符集是一个字节数据的解释的符号集合,有大小之分,有相互的包容关系。ORACLE 支持国家语言的体系结构允许你使用本地化语言来存储,处理,检索数据。它使数据库工具,错误消息,排序次序,日期,时间,货币,数字,和日历自动适应本地化语言和平台。 影响oracle数据库字符集最重要的参数是NLS_LANG参数。它的格式如下: NLS_LANG = lang
ORACLE中的日志 Redo Log 除了与表空间联系紧密的数据文件外, Oracle还有另一个与其相关的称作Online Redo Log的操作系统文件。Redo Log也称作事务日志( Transaction Log),Orcle在这些特殊的操作系统文件中记录针对数据库进行的修改操作或事务。对数据库所做的所有修改工作都在内存中进行, Oracle这样的处理主要是出于性能方面的考虑,因为在磁盘I/O 中操