- 博客(57)
- 收藏
- 关注
转载 spark出现task不能序列化错误的解决方法 org.apache.spark.SparkException: Task not serializable
出现“task not serializable"这个错误,一般是因为在map、filter等的参数使用了外部的变量,但是这个变量不能序列化。特别是当引用了某个类(经常是当前类)的成员函数或变量时,会导致这个类的所有成员(整个类)都需要支持序列化。解决这个问题最常用的方法有:如果可以,将依赖的变量放到map、filter等的参数内部定义。这样就可以使用不支持序列化的类;如果
2015-11-17 10:17:52 2579
转载 机器学习相关数据库(转)
KDD杯的中心,所有的数据,任务和结果。UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库。UCI机器学习数据库。AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。生物测定数据,在 虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的,有21个生物测定数据集(有效/无效的化合物)可供下载。加拿大开放数据,许多政
2015-09-08 14:35:31 451
转载 map数据与Jason数据
http://www.mkyong.com/java/how-to-convert-java-map-to-from-json-jackson/
2015-07-31 16:19:30 489
原创 maven调入依赖包
刚开始接触使用maven,很多内容都不熟悉,目前只能遇到什么问题解决什么问题,今天遇到的问题是1. Maven包的引入问题Maven包的引入分为两种,一种是本地的依赖包,另一种是引入外部依赖包(1) 引入本地依赖包:mvn install:install-file -Dfile=jar路径groupId=相应的groupId-DartifactId=openservices
2015-07-27 10:21:41 486
原创 .chm文件打开显示找不到网址
因为.chm文件在ntfs文件系统中会被锁定,就会无法显示,只需要找到文件,右键->属性->解除锁定就可以打开文件。
2015-07-24 09:26:31 1058
转载 hive建表等操作
--创建数据库create database if not exists sopdmcomment ‘this is test database’with dbproperties(‘creator’=’gxw’,’date’=’2014-11-12’) --数据库键值对属性信息location ‘/my/preferred/directory’;
2015-07-23 20:16:53 456
转载 hadoop mapred(hive)执行目录 文件权限问题
看到一篇文章,觉得非常有用,转载一下,以后可能用得着,下面是原文的地址。http://blog.csdn.net/azhao_dn/article/details/6921398在配置其他linux用户使用hive 的cli客户端时,发现该用户没有对/tmp目录的写权限,于是将/tmp目录下权限设置为777:bin /hadoop fs -chmod -R 777 /tmp,然而第二
2015-07-23 14:22:02 1476
原创 ERROR YarnScheduler: Lost executor 7 on quickstart.cloudera: remote Akka client disassociated
出现原因是存储分配不够,多分配一个就会解决。
2015-07-23 13:51:39 1585
转载 google相关包引入报错
import com.google.common.base.Charsets;import com.google.common.base.Preconditions;import com.google.common.collect.ImmutableMap;import com.google.common.collect.Iterables;报错,找不到这些类解决:
2015-07-15 08:48:01 5711
转载 hive基本命令操作
创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表,结构与其他一样hive> create table n
2015-07-09 14:22:07 360
转载 hive基本命令操作
创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string创建一个新表,结构与其他一样hive> create table n
2015-07-09 14:21:11 485
转载 Akka简介
我们相信编写出正确的具有容错性和可扩展性的并发程序太困难了。这多数是因为我们使用了错误的工具和错误的抽象级别。Akka就是为了改变这种状况 而生的。通过使用Actor模型我们提升了抽象级别,为构建正确的可扩展并发应用提供了一个更好的平台。在容错性方面我们采取了“let it crash”(让它崩溃)模型,人们已经将这种模型用在了电信行业,构建出“自愈合”的应用和永不停机的系统,取得了巨大成功。Ac
2015-07-08 17:18:34 375
转载 spark on yarn
spark on yarn 的支持两种模式1)yarn-cluster:适用于生产环境;2)yarn-client:适用于交互、调试,希望立即看到app的输出Yarn-cluster和yarn-client的区别在于appMaster:yarn appMaster,每个yarn app实例有一个appMaster进程,是为app启动的第一个container;负责从ResourceMa
2015-07-08 16:41:56 425
转载 详细探究Spark的shuffle实现
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop Ma
2015-07-08 15:33:21 493
转载 当触发一个RDD的action后DAGScheduler的动作
当触发一个RDD的action后,以count为例,调用关系如下:org.apache.spark.rdd.RDD#countorg.apache.spark.SparkContext#runJoborg.apache.spark.scheduler.DAGScheduler#runJoborg.apache.spark.scheduler.DAGScheduler#submitJobor
2015-07-08 14:30:20 434
转载 Running the Cloudera Training VM in VirtualBox(转)
找了很久相关的知识是搜另一个东西发现这个博客,炒鸡有用~~~~~Cloudera’s Training VM is one of the most popular resources on our website. It was created with VMware Workstation, and plays nicely with the VMware Player for Window
2015-07-03 15:34:01 467
转载 VBoxManage命令详解技术文章
VBoxManage [-v|-version] 显示virtualbox的版本号VBoxManage -nologo 隐藏logoVBoxManage -convertSettings 允许自动转换设置文件VBoxManage -convertSettingsBackup 允许自动转换设置文件,并在转换前作备份VBoxMan
2015-07-03 15:10:27 534
转载 weka初步一
Weka是来之新西兰怀卡托大学的一款开源软件,主要是数据挖掘方面的一些算法的集合。这款软件大概是当前数据挖掘领域最好的开源软件了,当然国外还有其它一些组织维护的有自己的开源软件,但是只有这款软件应用是比较广泛的了。具体关于weka的信息可以到官网去查看http://www.cs.waikato.ac.nz/ml/weka/ ,软件的下载也可大家到官网去。我是从weka3.4一直用到现在的3.6
2015-07-02 15:21:27 453
转载 oozie 入门
oozie概述:oozie能干什么oozie格式:怎么用oozieoozie执行:怎么运行oozie oozie概述:oozie是基于hadoop的调度器,以xml的形式写调度流程,可以调度mr,pig,hive,shell,jar等等。主要的功能有Workflow: 顺序执行流程节点,支持fork(分支多个节点),join(合并多个节点为
2015-07-02 15:00:10 1044
原创 spark的相关基础知识
spark是java的微型web框架, 一个spark的java小代码的网址是:http://www.tuicool.com/articles/iQVZnm7 其代码是:package com.hq; 2 3 /** 4 * User: hadoop 5 * Date: 2014/10/10 0010 6 * Time: 19:26 7 */ 8
2015-07-02 14:56:13 354
原创 hadoop基础知识
刚开始入职,被分配到数据分析平台组,入职第一天,不了解相关知识,学习hadoop相关基础知识。 hadoop 是作为一个集群,为分布式计算结构提供便利,使用户并不需要了解底层结构就可以来实现分布式的相关实现。Hadoop有两种实现,第一种是重点在存储的HDFS,其优势是容错率高,能耗低,采用数据流的方式来访问数据;另一种是重点在于计算的MapReduce,其包括Map跟Reduce两个部
2015-07-01 17:09:30 471
转载 C++中的namespace
namespace中文意思是命名空间或者叫名字空间,传统的C++只有一个全局的namespace,但是由于现在的程序的规模越来越大,程序的分工越来越细,全局作用域变得越来越拥挤,每个人都可能使用相同的名字来实现不同的库,于是程序员在合并程序的时候就会可能出现名字的冲突。namespace引入了复杂性,解决了这个问题。namespace允许像类,对象,函数聚集在一个名字下。本质上讲n
2015-03-30 09:02:59 368
转载 #include<cstdio>
在新的C++标准中,生成新头文件的方法仅仅是将现有C++头文件名中的.h去掉。例如,变成了,变成了,等等。对于C头文件,采用同样的方法,但在每个名字前还要添加一个c。所以C的变成了,变成了,等等。 旧的C++头文件是官方所反对使用的(即,明确列出不再支持),但旧的C头文件则没有(以保持对C的兼容性)。 下面是C++头文件的现状:
2015-03-30 08:42:15 2946
转载 linux定时任务
定时任务|Cron简述:定时任务,顾名思义定时执行的任务,windows一般称为“计划任务”,windows7-》程序-》附件-》计划任务程序也能实现这么一个功能,但是貌似没杀人用,windows server有没有人用就不太清楚了,Linux定时任务是一个非常强大的东东,一般用来服务器日常备份或者实现某些服务器程序逻辑,比如游戏中00:00某些数据归零,或者每月清理僵尸号等等。言归正传,
2014-08-27 14:51:47 516
转载 c语音中数据类型存放位置
C四个 C++五个一.在c中分为这几个存储区1.栈 - 由编译器自动分配释放2.堆 - 一般由程序员分配释放,若程序员不释放,程序结束时可能由OS回收3.全局区(静态区),全局变量和静态变量的存储是放在一块的,初始化的全局变量和静态变量在一块区域,未初始化的全局变量和未初始化的静态变量在相邻的另一块区域。-程序结束释放4.另外还有一个专门放常量的地方
2014-07-29 15:25:58 509
转载 wifi无线信号传输衰减和距离的关系公式[室内定位]
无线通信距离的计算 一、dBm dBmV dBuV换算关系 dBm=10log(Pout/1mW),其中Pout是以mW为单位的功率值 dBmV=20log(Vout /1mV),其中Vout是以mV为单位的电压值 dBuV=20log(Vout /1uV),其中Vout是以uV为单位的电压值 换算关系: Pout=Vout×V
2014-05-21 22:48:22 3846
转载 AGPS定位基本原理浅析
位置服务已经成为越来越热的一门技术,也将成为以后所有移动设备(智能手机、掌上电脑等)的标配。随着人们对BLS(Based Location Serices,基于位置的服务)需求的飞速增长,无线定位技术也越来越得到重视。AGPS(Assisted GPS,A-GPS,网络辅助GPS)定位技术结合了GPS定位和蜂窝基站定位的优势,借助蜂窝网络的数据传输功能,可以达到很高的定位精度和很快的定位速
2014-05-20 16:54:25 705
转载 GPS定位基本原理浅析
位置服务已经成为越来越热的一门技术,也将成为以后所有移动设备(智能手机、掌上电脑等)的标配。而定位导航技术中,目前精度最高、应用最广泛的,自然非GPS莫属了。网络上介绍GPS原理的专业资料很多,而本文试图从编程人员的角度出发,以一种程序员易于理解的方式来简单介绍一下GPS定位的基本原理,希望对做GPS开发的朋友有所启发。当然,本文并没有涉及具体的开发方面的技术。一、GPS定位数学模
2014-05-20 16:53:06 686
转载 GSM蜂窝基站定位基本原理浅析
位置服务已经成为越来越热的一门技术,也将成为以后所有移动设备(智能手机、掌上电脑等)的标配。随着人们对BLS(Based Location Serices,基于位置的服务)需求的飞速增长,无线定位技术也越来越得到重视。GSM蜂窝基站定位,以其定位速度快、成本低(不需要移动终端上添加额外的硬件)、耗电少、室内可用等优势,作为一种轻量级的定位方法,也越来越常用。本文简单介绍一下各种基于GSM蜂
2014-05-20 16:51:37 538
转载 memcpy拷贝内存内容
memcpy() -- 拷贝内存内容相关函数: bcopy(),memccpy(), memmove(), strcpy(), strncpy()表头文件: #include 定义函数: void *memcpy(void *dest, const void *src, size_t n)函数说明: memcpy()用来拷贝src所指的内存内容前n个字节到des
2014-04-15 10:29:06 722
转载 memset用法
功 能 将s所指向的某一块内存中的每个字节的内容全部设置为ch指定的ASCII值, 块的大小由第三个参数指定,这个函数通常为新申请的内存做初始化工作, 其返回值为指向S的指针。[编辑本段]用 法 void *memset(void *s, int ch, unsigned n);[编辑本段]程序例 #include
2014-04-15 10:24:40 429
转载 Client does not support authentication protocol问题解决办法
mysql4.1以上版本连接时出现Client does not support authentication protocol问题解决办法 shell> mysqlClient does not support authentication protocol requestedby server; consider upgrading MySQL client官方的说
2014-04-11 08:53:19 1913
原创 汇编 统计字符个数
实验四要做的是:分类统计字符的个数实验要求:1.接收从用户键入的一串字符(不超过80,用回车结束)。2.按字母,数字,其他字符分类进行计数,然后将结果存入以letter,digit,和other为名的存储单元中。模块1 main 为总控模块输入:从键盘输入一串字符输出:显示每类数据的数目功能:根据输入的字符,若某类数据出现一次则其所对应的存储单元中的数增加1.可以将数
2013-11-12 22:06:08 5803 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人