大数据
文章平均质量分 77
wtq1993
专注于机器学习,深度学习
展开
-
python numpy 快速处理数据
1,广播:对形状不同的数组的运算采取的操作。但是这个输入的数组中必须有一个某轴长度为1,或者缺少了一个维度(这个时候会自动的在shape属性前面补上1)。例如:>>> import numpy as np>>> a=np.arange(10,50,10).reshape(-1,1)>>> a.shape(4, 1)>>> b=np.arange(0,4)>>> barr转载 2016-05-03 17:51:13 · 474 阅读 · 0 评论 -
MapReduce应用实例
1.各个部门的总工资如何进行问题分析的?2.各个部门的总工资处理流程是怎样的?3.个部门的人数和平均工资又是如何得到的?4.个部门的人数和平均工资代码如何实现?案例所用包全部下载:链接: http://pan.baidu.com/s/1sjNyDIX 密码:游客,如果您要查看本帖隐藏内容请回复1、环境说明部署节点操作系统为CentOS,防原创 2016-05-17 19:53:57 · 5917 阅读 · 10 评论 -
Mongo索引
一、索引基础: MongoDB的索引几乎与传统的关系型数据库一模一样,这其中也包括一些基本的优化技巧。下面是创建索引的命令: > db.test.ensureIndex({"username":1}) 可以通过下面的名称查看索引是否已经成功建立: > db.test.getIndexes() 删除索引的命令是: > db.test.dro转载 2016-04-24 12:15:42 · 324 阅读 · 0 评论 -
HDFS详解
本文用到了查看hadoop源码,关于hadoop源码导入Eclipse方式见第一期一、HDFS的背景介绍随着数据量越来越大, 在 一个操作系统管辖的范围存不下了, 那么就 分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。 学术一点的定义就是: 分布式文件系统是一种允许文件通过网络在多台主机上分享的 文件的系统原创 2016-06-28 09:04:27 · 994 阅读 · 0 评论 -
Hive 元數據詳細介紹
本文介绍一下Hive元数据中重要的一些表结构及用途,以Hive0.13为例。文章最后面,会以一个示例来全面了解一下,Hive的元数据是怎么生成和存储的。13.1 存储Hive版本的元数据表(VERSION)该表比较简单,但很重要。VER_IDSCHEMA_VERSIONVERSION_COMMENTID主键Hive版本转载 2016-08-17 22:30:59 · 780 阅读 · 0 评论 -
运行hadoop jar 报错java.lang.RuntimeException: java.lang.ClassNotFoundException: xxxxMapper及mapreduce执行
最近做hadoop集群试验,用的hadoop1.0.2,遇到这么个问题,将写好的jar包,放到linux上后,执行hadoop jar hadoopTest.jar test.XXXCount input output 后,运行时,会报下面的警告WARN mapred.JobClient: No job jar file set. User classes may not be原创 2016-08-21 21:31:40 · 2891 阅读 · 0 评论 -
hive on spark VS SparkSQL VS hive on tez
hive on spark VS SparkSQL VS hive on tez前一篇已经弄好了SparkSQL,SparkSQL也有thriftserver服务,这里说说为啥还选择搞hive-on-spark:SparkSQL-Thriftserver所有结果全部内存,快是快,但是不能满足查询大量数据的需求。如果查询几千万的数据,SparkSQL是搞不定的。而hive-o原创 2016-09-04 23:06:33 · 8178 阅读 · 1 评论 -
SparkSQL与Hive on Spark的区别与联系
简要介绍了SparkSQL与Hive on Spark的区别与联系一、关于Spark简介在Hadoop的整个生态系统中,Spark和MapReduce在同一个层级,即主要解决分布式计算框架的问题。架构Spark的架构如下图所示,主要包含四大组件:Driver、Master、Worker和Executor。Spark特点Spark可以部署在转载 2016-09-05 16:37:55 · 6175 阅读 · 0 评论 -
hive與hadoop交互過程
Hive有三种用户接口:cli (Command line interface)bin/hive或bin/hive –service cli命令行方式(默认)hive-server/hive-server2bin/hive –service hiveserver 或bin/hive –service h原创 2016-08-26 20:11:34 · 1277 阅读 · 0 评论 -
集体智慧和协同过滤
首页最新文章经典回顾开发设计IT技术职场业界极客创业访谈在国外伯乐在线 >首页 > 所有文章 > IT技术 > 协同过滤(CF)算法详解和实现协同过滤(CF)算法详解和实现2016/06/24 · IT技术 · 协同过滤, 推荐系统, 算法分享到:8数据结构探险—栈篇转载 2016-09-08 16:58:24 · 901 阅读 · 0 评论 -
CDH 安装中遇到的问题
1. 界面上显示检测不到JDK或者命令行中执行hadoop命令找不到JAVA_HOME,这时要在 /etc/sudoers/ 中加入Defaults env_keep+=JAVA_HOME。在新建/etc/default/bigtop-utils 在其中加入 export JAVA_HOME=java的路径,再source 刷新一下。原创 2016-11-11 12:01:14 · 2131 阅读 · 0 评论 -
知觉图-消费者对于某些品牌偏好的形象化表述
什么是知觉图 知觉图是消费者对某一系列产品或品牌的知觉和偏好的形象化表述。目的是尝试将消费者或潜在消费者的感知用直观的、形象化的图像表达出来。特别是用在产品、产品系列、品牌的定位方面,也会用于描述企业与竞争对手的相对位置方面。 知觉图显示各品牌在消费者心中印象的差异。 坐标轴代表消费者评价品牌的特征因子,上图上各点对应市场上的主要品牌,它在图中位置代表消费者对其在各原创 2016-05-25 23:09:58 · 9620 阅读 · 0 评论 -
写mapreduce时的注意点
reduce的输出为《LongWriteble,FloatWritable》时会使其得不到执行,可以通过设置job.setCombinerClass(ClassPriorReducer.class);来使其得以执行。Hadoop中的数据类型转化为java类型时对于Text调用toString()方法,对于其他类型则调用get()方法,java类型转化为Hadoop类型调用had原创 2016-03-28 21:09:29 · 798 阅读 · 0 评论 -
How to running hadoop mapreduce on tachyon
一、修改Hadoop配置文件1.修改core-site.xml文件添加如下属性,让MapReduce作业可以使用Tachyon文件系统作为输入和输出 fs.tachyon.impl tachyon.hadoop.TFS2.配置hadoop-env.sh在hadoop-env.sh文件开头添加Tachyon客户端jar包路径的环境变量。export HADOOP_C原创 2016-01-18 09:47:34 · 436 阅读 · 0 评论 -
大数据应用的几个典型例子
时至今日互联网每天新增的数据量达2.5*10^18字节,而全球90%的数据都是在过去的两年间创造出来的。举个直观的例子来说明一下互联网的数据量:假设大西洋里每一升海水代表一个字节的数据,那么整个大西洋存储的数据也只能到2010年就满了。从外行的角度看来大数据是个挺了不起的东西,它也确实了不起,不过有一个前提就是我们能够有效地处理数据。怎样从海量数据中找出有用的信息才是最重要的。原创 2016-01-23 18:02:51 · 23568 阅读 · 1 评论 -
2015中国大数据大会--大数据安全分会内容介绍
【BDTC 2015】大数据安全分论坛:数据驱动安全大数据云计算BDTCBDTC2015阿里巴巴腾讯奇虎360明略数美摘要:12月10-12日,2015中国大数据技术大会在京盛大开幕,在12日上午的大数据安全分论坛上,来自阿里巴巴、腾讯、奇虎360、启明星辰、中移软件、明略数据、数美公司等7位安全专家就大数据安全话题展开主题分享。2015年12月10-12日,由中国原创 2016-01-28 09:37:50 · 3952 阅读 · 0 评论 -
几种等等概率抽样方法
在统计建模过程中往往会使用到采样技术,通过样本来反映总体特征。关于采样,目前主要有两大类抽样技术,即等概率抽样和非等概率抽样,而在实际应用中,等概率抽样是最常见的,下面就讲讲等概率抽样中的几种抽样技术。一、简单随机抽样简单随机抽样(SRS)是我们经常接触到的抽样方法,比如摸彩或抽奖,或办公室需要有人出公差去送数据时用抽签决定人选。SRS的特色是母群体中的每一个体都有相同的机会被选中原创 2016-03-03 11:47:19 · 13353 阅读 · 0 评论 -
machine-learning学习资料汇总
Brief History of Machine Learning》http://www.erogol.com/brief-history-machine-learning/介绍:这是一篇介绍机器学习历史的文章,介绍很全面,从感知机、神经网络、决策树、SVM、Adaboost到随机森林、Deep Learning.译文http://www.almosthuman.cn/2016/0原创 2016-03-03 11:57:10 · 1723 阅读 · 0 评论 -
随机森林vsGBDT
随机森林 VS Gradient Boost Decision Tree (2012-12-01 16:05:09)转载▼决策树这种算法有着很多良好的特性,比如说训练时间复杂度较低,预测的过程比较快速,模型容易展示(容易将得到的决策树做成图片展示出来)等。但是同时,单决策树又有一些不好的地方,比如说容易over-fitting(过度拟合),虽然有一些方法,如剪枝可以减少这种原创 2016-02-03 19:11:43 · 1168 阅读 · 0 评论 -
根据模型中的参数数量判断需要的训练数据的数量
训练数据的特性和数量是决定一个模型性能好坏的最主要因素。一旦你对一个模型输入比较全面的训练数据,通常针对这些训练数据,模型也会产生相应的结果。但是,问题是你需要多少训练数据合适呢?这恰恰取决于你正在执行的任务、最终想通过模型实现的性能、现有的输入特征、训练数据中含有的噪声、已经提取的特征中含有的噪声以及模型的复杂性等等诸多因素。所以,发现所有这些变量相互之间有何联系,如何工作的方法即是通过在数量不原创 2016-02-25 20:57:00 · 17395 阅读 · 1 评论 -
Hadoop面试题答案带分析
1. 下面哪个程序负责 HDFS 数据存储。答案C datanodea)NameNodeb)Jobtrackerc)Datanoded)secondaryNameNodee)tasktracker2. HDfS 中的 block 默认保存几份? 答案A默认3分a)3 份b)2 份c)1 份d)不确定3. 下列哪个程序通常与 Nam原创 2016-02-25 20:59:04 · 2948 阅读 · 0 评论 -
MapReduce处理多个不同的出入文件
MultipleInputs类指定不同的输入文件路径以及输入文化格式现有两份数据phone123,good number124,common number125,bad numberuserzhangsan,123lisi,124wangwu,125现在需要把user和phone按照phone number连接起来。得到下面的结果zhangsan,123原创 2016-03-25 21:45:06 · 3311 阅读 · 0 评论 -
mapreduce中的setup()与cleanup()的使用
hadoop中的MapReduce框架里已经预定义了相关的接口,其中如Mapper类下的方法setup()和cleanup()。setup(),此方法被MapReduce框架仅且执行一次,在执行Map任务前,进行相关变量或者资源的集中初始化工作。若是将资源初始化工作放在方法map()中,导致Mapper任务在解析每一行输入时都会进行资源初始化工作,导致重复,程序运行效率不高!cleanup原创 2016-03-27 11:24:43 · 7661 阅读 · 1 评论 -
shuffle 过程map与reduce交换数据过程的关键
Shuffle描述着数据从map task输出到reduce task输入的这段过程。 个人理解:map执行的结果会保存为本地的一个文件中:只要map执行 完成,内存中的map数据就一定会保存到本地文件,保存这个文件有个过程 叫做spilll(溢写),如果需要对map的执行结果做 combine 也是在这个时候(溢写执行的时候,写入磁盘之前)做的reduce怎么接受数据:原创 2016-04-10 09:26:10 · 2035 阅读 · 0 评论 -
安装Apache Kylin时遇到的问题
一:当在ubuntu下执行check_env.sh时遇到问题:KYLIN_HOME is set to /usr/local/apache-kylin-1.5.4.1-bin cat: invalid option -- '1' Try 'cat --help' for more information. -mkdir: Not enough arguments: expected 1 but原创 2016-11-08 21:59:32 · 6196 阅读 · 1 评论