大数据笔记
spark、hadoop和storm产品体系使用、二次开发、运维的原始笔记
无人境域
开发技术工具型软件制造匠人
展开
-
hadoop2.x整合手册【4】---mahout0.9安装部署与测试
基本过程和http://blog.csdn.net/xqj198404/article/details/9619265的一致 需要在bin目录下的mahout文件的头部添加原创 2014-06-05 11:11:29 · 1151 阅读 · 0 评论 -
hadoop2.x整合手册【3】---编译sqoop的jar以及client的api调用
sqoop1.99.3的下载包没有提供sqoopclient的jar,需要使用maven自己编译打包。原创 2014-05-26 14:20:18 · 1712 阅读 · 0 评论 -
hadoop2.x整合手册【2】---sqoop1.9.x安装与部署
sqoop1.9简介 此版本的sqoop分为服务器和客户端两个部分,原创 2014-05-23 17:23:18 · 1344 阅读 · 0 评论 -
hadoop2.x整合手册【1】--hadoop2.x安装与配置
hadoop2.x整合手册【1】--hadoop2.x安装与配置原创 2014-05-21 15:54:21 · 976 阅读 · 0 评论 -
待分析数据数值化
常用的一些数据,如地区、关键词、url网址,这些需要进入到数据挖掘系统中进行处理,而由于算法常用会采用距离计算的方式进行采用,这些数据需要从字符数据转换为数值数据,并且逻辑化。 通常建立一个有自递增字段的表,然后将数据去重填充进去,就得到了数值化的数据了 但是这样的数据基本会有一个问题,就是各个数值之间其实基本是不存在逻辑上的关联的,所以在做一些向量化分析的时候得到的数据往往很诡异或者和现实压原创 2013-12-26 14:45:09 · 1014 阅读 · 0 评论 -
mahout中canopy算法应用于广告点击用户类别识别
canopy算法基本思想如下: 将数据集向量化得到一个线性集合后放入内存,选择两个距离阈值:T1和T2,其中T1 > T2,T1和T2的值可以用交叉校验来确定;从线性集合中任取一点P,用低计算成本方法快速计算点P与所有Canopy之间的距离(如果当前不存在Canopy,则把点P作为一个Canopy),如果点P与某个Canopy距离在T1以内,则将点P加入到这个Canopy;如果点P曾经与某个原创 2013-12-20 18:13:14 · 1273 阅读 · 0 评论 -
基于命令行的mahout软件0.8版本Canopy算法分析的数据处理流程
mahout聚类分析的数据准备分为以下三个步骤: 从数据库提炼你需要处理的数据的字段依据提炼的数据处理为vectors将处理后的vectors数据保存为SequenceFile格式原创 2013-12-10 18:36:06 · 1377 阅读 · 0 评论 -
对mahout与hadoop的调用关系分析,以及建立统一化平台的思路
mahout的bin目录下mahout文件的执行程序的代码 if [ "$MAHOUT_JOB" = "" ] ; then echo "ERROR: Could not find mahout-examples-*.job in $MAHOUT_HOME or $MAHOUT_HOME/examples/target, please run 'mvn install' to crea原创 2013-11-21 17:37:54 · 2202 阅读 · 0 评论 -
hbase编程demo
1.在Buildpath添加需要引起用的jar,hbase的软件lib文件下的所有jar 2.创建好一个列名为:c1,c2的表,表名:hbase_table1 import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.hbase.HBaseConfi原创 2013-09-30 16:12:42 · 2323 阅读 · 0 评论 -
hadoop日志【7】----Task process exit with nonzero status of 65
处理一个13个字段的数据 然后实验用的hadoop集群果然频频出现状况 Task process exit with nonzero status of 65 相似的问题:http://blog.csdn.net/ustbyolanda/article/details/10221599 看来4G内存的虚拟机集群配置果然不够用的 处理的还仅仅是18M的数据~~~~原创 2013-12-18 21:03:28 · 1543 阅读 · 0 评论 -
hadoop日志【6】----mahout的速度
今天测试mahout的数据提取和处理 结果很郁闷了一下 数据提炼很快,半个小时不到完成了,就处理为vector的了 但是开始使用canopy算法分析就不行了 整整一个小时才跑了4% 而以前相同的数据使用hive进行数据逻辑处理接近一个小时都处理完了 而且小集群的五台机器全部性能消耗达到了100%,一路的全线彪红 这种计算密集型的东东用目前的机器配置有点低了原创 2013-12-11 16:24:30 · 1029 阅读 · 0 评论 -
hadoop日志【5】----存储迁移之后
集群使用的是一台实体加5台虚拟(分布在两台实体机上) 后来实体机的存储不够用了,就把虚拟机转移到了网络存储上 然后就悲剧了 性能急剧下降 是实体机网卡的瓶颈造成的 原来在实体机的时候,虚拟机在进行hadoop运算时只需要走一个相互间的通信 然而,在迁移到网络存储以后,则多了一个过程,既要进行相互间的通信,还多了一个网络存储的过程,编程了如下 虚拟机A==》A的网络存储==》虚原创 2013-08-08 10:05:17 · 933 阅读 · 0 评论 -
hadoop日志【4】----50G数据
以前测试的数据量最大的才8G左右,而且还是在sqlserver中的数据量 一般运行都在30分钟左右 而sqlserver运行同样的逻辑更快,最多8分钟 决定测试一下能体现hadoop集群优越性的数据量 然后就搞了一个50G的数据表 果然效果明显,sqlserver运行一次需要至少5个小时,hadoop跑完一个流程则需要2个半小时,看来30G是自己使用的硬件在两种方案上的临界点了原创 2013-07-31 10:05:16 · 1259 阅读 · 0 评论 -
hadoop日志【3】---进度不动的reduce过程
集群的slave由于意外原因在运行过程中突然关机过两台 结果这两台存放hadoop日志的路径权限竟然全部变成root的,hadoop无法保存日志,异常不断 修改了文件权限,然后重新跑任务 结果跑到20%的时候又不动了 根据经验,要吗是slave中的防火墙把hdfs的端口给堵了造成文件无法在slave间复制,要吗就是又是日志保存出问题,导致无法正常生成task 查看了一下负责reduce的原创 2013-07-25 18:27:09 · 1804 阅读 · 0 评论 -
hadoop日志【2】
采用了nohup以后,今天再看hive和sqoop的服务就没有问题了原创 2013-07-23 09:57:03 · 774 阅读 · 0 评论 -
hadoop日志【1】--hive服务和sqoop服务运行
周五下班时将hive服务和sqoop服务打开了 想看看周一是否还运行 结果今天来到一看果然不运行了,看来过了会话时间进程就同时被杀掉了,采用普通的方式果然还是和会话绑定在一起了 研究了一下会话的问题,采用daemon进程即可原创 2013-07-22 10:32:00 · 929 阅读 · 0 评论 -
基于storm和hadoop的广告系统研究【5】
数据关联分析原创 2013-12-25 11:26:53 · 1065 阅读 · 0 评论 -
基于storm和hadoop的广告系统研究【4】
接上文:上文 (3)系统编码实现原创 2013-12-13 18:12:07 · 1149 阅读 · 0 评论 -
基于storm和hadoop的广告系统研究【3】
二、基于用户分析的计算广告 基于用户分析的计算广告是直接寻找广告与用户的一致性,当前用户分析主要从IP、注册资料、服务器日志、Cookie、历史数据、浏览器行为等方面切入,其代表性的广告形式为电子商务个性化推荐广告。而基于用户分析的根本目的是确定用户的兴趣以及购买行为的特点。而进行这样的分析需要一些基础性的数据,如用户兴趣分类库、购买行为模型。需要先从理论上明确用户的大致轮廓,进行数据范围的界定原创 2013-10-12 17:45:21 · 1426 阅读 · 0 评论 -
基于storm和hadoop的广告系统研究【2】
文中所有实现方案全部基于storm、hadoop以及nosql等开源技术 计算广告学概念:点击此处 计算广告的运作系统主要包括广告算法、广告、语境、受众(用户)四个方面,针对这四个方面当下的广告形式可归纳为三类:基于文本分析、基于用户分析和基于用户参与。 一、基于文本分析 这种形式最常见的就是浏览的网页内容的与广告主题的匹配,比如看关于诺基亚1020自拍神器的测评文章,同时网页的广原创 2013-10-11 16:05:18 · 1311 阅读 · 0 评论 -
基于storm和hadoop的广告系统研究【1】
需要的基础概念: 1.按效果付费:详细概念点击此处 2.竞价排名:详细概念点击此处 按照上面的两个概念的详细内容,那么系统就至少需要面对以下的问题: 1.高并发,要求相应时间短 2.高并发情况下广告客户金额计算正确性 3.用户访问页面内容与广告的内容高匹配度 解决方案: A B C 序号原创 2013-10-10 17:41:00 · 1971 阅读 · 0 评论 -
hive0.11安装与配置
将原来的hive0.10的配置文件拷贝到0.11的conf下,然后将mysql中的hive库清掉 运行hive,结果 Unable to instantiate org.apache.hadoop.hive.metastore.HiveMetaStoreClient 仔细看看异常创建不了到mysql的连接。 用用户直接登录mysql,没问题,那就是缺少连接器了 仔细对比一下,原来是少了m原创 2013-09-29 16:06:17 · 3518 阅读 · 2 评论 -
hadoop1.1.2升级1.2.1
运行命令:bin/hadoop namenode -upgrade 进入升级信息展示 然后就是漫长的数据升级,140G的数据升级了十几个小时到现在还没完成~~~原创 2013-09-27 10:20:11 · 945 阅读 · 2 评论 -
hadoop 1.1.2和 hive 0.10 和hbase-0.94.10-security整合
1.复制jar包,拷贝hbase-0.94.10-security.jar,hbase-0.94.10-security-tests.jar,zookeeper-3.4.5.jar,protobuf-java-2.4.0a.jar到hive/lib下,删掉lib下面旧版的jar包。 没有做网上资料所说的向hadoop拷贝jar和配置文件的动作,不过只有hbase有了一个下面的错误在60000上原创 2013-09-24 15:08:15 · 2228 阅读 · 0 评论 -
hbase配置
在已有hadoop和zookeeper的集群上安装hbase 两个主要配置文件的内容 conf/hbase-env.sh # #/** # * Copyright 2007 The Apache Software Foundation # * # * Licensed to the Apache Software Foundation (ASF) under one # * or mor原创 2013-09-22 17:36:59 · 1212 阅读 · 0 评论 -
hbase与storm的冲突
在原来的hadoop集群上安装hbase,由于使用的现有的zookeeper,配置文件写错了,就修改了配置文件,停止服务。 结果发现有问题了,集群上安装的还有storm的集群,而且使用的也是同一套zookeeper。 在hbase服务停止的时候storm的进程虽然也在运行,但是从storm的webUI界面上监控不到几个节点了。 而监控机器性能的ganglia也有两个节点也是出现同样的问题,g原创 2013-09-22 15:45:28 · 2425 阅读 · 0 评论 -
Storm VS Hadoop
序号 Storm Hadoop remark 1 实时或者接近实时,适合急脾气的工程师 有最小计算时间(原生hadoop,不是各种各公司改装版的),喜欢钻探的工程师有福了 2 集群内存计算,网络直传数据 hdfs传递数据,不同阶段的数据会在机器间通过存储转移 3 擅长对数据流中的每一个数据及时处理,但是进入系统的数据间不能有任何的逻辑前后关原创 2013-09-05 14:39:38 · 1667 阅读 · 1 评论 -
centos6.4上安装storm0.82
centos 6.4版本下安装storm0.82 如果无法联网,使用文件安装请在这里寻找更新源 base源 文件列表 1.首先安装libtool,否则autogen的脚本无法运行yum install libtool 2.安装libuuid-devel,否则报错yum install libuuid-devel 3.先安装zeromq的2.1.4版本,注意,如果有co原创 2013-08-28 12:21:58 · 3663 阅读 · 0 评论 -
centos6.4上zookeeper3.4.5安装与基础设置
1.下载zookeeper的3.4.5版本的tar.gz包 zookeeper.apache.org 2.解压缩,然后进入conf文件夹,复制zoo_sample.cfg为zoo.cfg。 需要修改 dataDir=自己定义的路径 在文件末尾追加代码 server.1=机器名或ip.2888.3888 server.2=机器名或ip.2888.3888 server.3=机器名或i原创 2013-08-28 11:22:37 · 2006 阅读 · 0 评论 -
hadoop集群安装与配置--hadoop自动化安装脚本
基于expect进行hadoop的自动化安装 但是,无法做到完全自动化和环境适应 暂且记录下来 思路:将集群中所有服务器具有sudo权限的账户、ip、密码保存在文件cluster.txt中 格式: IP%密码%服务器名 ...... 以install.sh作为总脚本调用多个分脚本,并发送setfirewall.py、sethosts.sh、setprofile.py、setssh.p原创 2013-07-19 11:28:58 · 1056 阅读 · 0 评论 -
hadoop集群安装与配置--sqoop服务调用
一、基于thrift生成java服务端代码和C#端代码 thrift接口代码:文件名称sqoopthrift.thrift namespace java com.javabloger.gen.code service SqoopThrift{ string CreateTable(1:string host, 2:string database, 3:string userName, 4原创 2013-07-19 10:48:01 · 1364 阅读 · 0 评论 -
hadoop集群安装与配置--c#调用hive的thrift服务
1.在hadoop.client上开始运行hive的thrift服务,命令如下 bin/hive --service hiveserver 2.通过NuGet安装hive的c#客户端,项目地址如下 https://bitbucket.org/vadim/hive-sharp/ 3.c#调用服务demo代码 int port = 10000;//注意hadoop.client服务器上防原创 2013-06-17 11:46:29 · 3298 阅读 · 0 评论 -
hadoop集群安装与配置--sqoop安装
1. Sqoop安装在hadoop.client上 2. 复制一份sqoop-env-template.sh,命名为sqoop-env.sh 3. 修改sqoop-env.sh的内容: export HADOOP_COMMON_HOME=/home/hadoopuser/hadoop export HADOOP_MAPRED_HOME=/home/hadoop原创 2013-06-17 09:54:27 · 2288 阅读 · 2 评论 -
hadoop集群安装与配置---hive安装与配置
1. hive安装在hadoop.client上 2. 解压缩安装在/home/hadoopuser下 3. 配置 (1) 复制一份hive-env.sh.template,取消.template后缀 (2) 更改hive-env.sh的内容: HADOOP_HOME=/home/hadoopuser/hadoop (3) 复制一份hiv原创 2013-06-17 09:48:02 · 4145 阅读 · 0 评论 -
hadoop集群安装与配置
硬件 五台服务器,一台master,三台slave,一台集群client网络设置 机器名 IP 备注 Hadoop.mater ip1 Master,Namenode Hadoop.slave1 ip2 Slave Hadoop.slave2 i原创 2013-06-17 09:44:29 · 1137 阅读 · 0 评论