自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

xiaohang20103的专栏

有时候,你需要出去走一走,呼吸一下新鲜空气,然后提醒自己,你是谁,想成为什么样的人。

  • 博客(96)
  • 资源 (1)
  • 收藏
  • 关注

转载 Spark环境搭建-转自徽沪一郎

Apache Spark源码走读之2 -- Job的提交与运行欢迎转载,转载请注明出处,徽沪一郎。概要本文以wordCount为例,详细说明spark创建和运行job的过程,重点是在进程及线程的创建。实验环境搭建在进行后续操作前,确保下列条件已满足。下载spark binary 0.9.1安装scala安装sbt安装java启动spark-she

2015-04-07 21:56:59 756

转载 Spark学习第一天-转自徽沪一郎

Apache Spark源码走读之1 -- Spark论文阅读笔记欢迎转载,转载请注明出处,徽沪一郎。楔子源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读之前,如果想要快速对Spark的有一个整体性的认识,阅读Mat

2015-04-07 21:54:56 760

转载 HIVE和HBASE区别

Hive是為簡化編寫MapReduce程序而生的,使用MapReduce做過數據分析的人都知道,很多分析程序除業務邏輯不同外,程序流程基本一樣。在這種情況下,就需要Hive這樣的用戶編程接口。Hive本身不存儲和計算數據,它完全依賴於HDFS和MapReduce,Hive中的表純邏輯表,就是些表的定義等,也就是表的元數據。使用SQL實現Hive是因為SQL大家都熟悉,轉換成本低,類似作用的Pig就

2013-08-19 20:28:36 747

转载 MapReduce的执行机制

Hadoop.MapReduce作业任务当我们只用几行代码就可以运行一个MapReduce作业时,我们是否知道其实里面隐藏着大量的执行细节.本文就是来揭示一个Hadoop运行作业的执行细节.运行MapReduce作业的过程将包含以下四个实体1. 客户端.提交hadoop作业2. 分布式文件系统(一般为HDFS),3. JobTracker.协调作业的运行4. Tas

2013-08-09 21:39:12 682

转载 apt-get 命令详解(中文),以及实例

一,什么的是apt-get高级包装工具(英语:Advanced Packaging Tools,简称:APT)是Debian及其衍生发行版(如:ubuntu)的软件包管理器。APT可以自动下载,配置,安装二进制或者源代码格式的软件包,因此简化了 Unix系统上管理软件的过程,apt-get命令一般需要root权限执行,所以一般跟着sudo命令。它根yum ,pacman,installpkg等

2013-08-06 20:20:00 3210

转载 grep的使用方法

grep 命令grep (globalsearch regular expression(RE) and print out theline,全面搜索正则表达式并把行打印出来)是一种强大的文本搜索工具grep的工作方式是这样的,它在一个或多个文件中搜索字符串模板。如果模板包括空格,则必须被引用,模板后的所有字符串被看作文件名。搜索的结果被送到屏幕,不影响原文件内容。

2013-08-06 20:04:13 764

转载 hadoop权威指南mapreduce的一个程序

横向扩展  前面介绍了MapReduce针对少量输入数据是如何工作的,现在我们开始鸟瞰整个系统以及有大量输入数据时数据是如何处理的。为了简单起见,到目前为止,我们的例子都只是用了本地文件系统中的文件。然而,为了实现横向扩展(scaling out),我们需要把数据存储在分布式文件系统中,一般为HDFS (详见第3章),由此允许Hadoop将MapReduce 计算移到存储有部分数据的各台机

2013-08-05 22:12:52 885

转载 java中substring的用法和charAt()的用法

java中substring的用法str=str.substring(int beginIndex);截取掉str从首字母起长度为beginIndex的字符串,将剩余字符串赋值给str;str=str.substring(int beginIndex,int endIndex);截取str中从beginIndex开始至endIndex结束时的字符串,并将其赋值给str;以下

2013-08-05 21:54:33 6128

转载 vi编辑器的使用

vi编辑器是所有Unix及Linux系统下标准的编辑器,它的强大不逊色于任何最新的文本编辑器,这里只是简单地介绍一下它的用法和一小部分指令。由于对Unix及Linux系统的任何版本,vi编辑器是完全相同的,因此您可以在其他任何介绍vi的地方进一步了解它。Vi也是Linux中最基本的文本编辑器,学会它后,您将在Linux的世界里畅行无阻。1、vi的基本概念  基本上vi可以分为三种状态,

2013-08-05 09:00:54 508

转载 Oracle和MySql之前的区别

1.  Oracle是大型数据库而Mysql是中小型数据库,Oracle市场占有率达40%,Mysql只有20%左右,同时Mysql是开源的而Oracle价格非常高。2. Oracle支持大并发,大访问量,是OLTP最好的工具。 3. 安装所用的空间差别也是很大的,Mysql安装完后才152M而Oracle有3G左右,且使用的时候Oracle占用特别大的内存空间和其他机器性能。 4

2013-08-02 22:09:58 626

转载 Core-site.xml配置

Core-site.xml配置http://hi.baidu.com/bjwyl66/item/83c5acf58d44fa25743c4c89http://www.juziku.com/sunlightcs/wiki/5989.htm配置hadoopHadoop的配置文件在早期版本中都放在同一个文件里hadoop-site.xml,在新版本中hadoop把配置文件做了区分

2013-07-30 10:43:40 13467

转载 Hadoop操作HDFS命令

Hadoop操作HDFS命令如下所示:hadoop fs查看Hadoop HDFS支持的所有命令hadoop fs –ls列出目录及文件信息hadoop fs –lsr循环列出目录、子目录及文件信息hadoop fs –put test.txt /user/sunlightcs将本地文件系统的test.txt复制到HDFS文件系统的/user/sun

2013-07-29 09:21:20 786

转载 XM验证

http://www.w3school.com.cn/xml/xml_dtd.asp拥有正确语法的 XML 被称为“形式良好”的 XML。通过 DTD 验证的 XML 是“合法”的 XML。-------------------------------------------------------------------------------形式良好

2013-07-23 11:30:03 868

转载 XML 元素

http://www.w3school.com.cn/xml/xml_elements.asp---------------------------------------------------------------------------------------------------------XML 文档包含 XML 元素。------------------------

2013-07-23 11:23:04 606

转载 XML语法规则

------------------------------------------------------------------------------------------------------------------XML 的语法规则很简单,且很有逻辑。这些规则很容易学习,也很容易使用。--------------------------------------------

2013-07-23 10:56:58 461

转载 XML树结构

------------------------------------------------------------------------------------------------------------------------------------------------XML 文档形成了一种树结构,它从“根部”开始,然后扩展到“枝叶”。----------------

2013-07-23 10:49:28 554

转载 XML用途

-------------------------------------------------------------------------------------------------------------------------------------------------XML 应用于 web 开发的许多方面,常用于简化数据的存储和共享。---------------

2013-07-23 10:26:19 466

转载 XML简介

http://www.w3school.com.cn/xml/xml_intro.aspXML 被设计用来传输和存储数据。HTML 被设计用来显示数据。--------------------------------------------------------------------------------------------------------------

2013-07-23 10:18:23 511

转载 20个数据库设计最佳实践

本文介绍了数据库设计方面的20个最佳实践:  1、使用明确、统一的标明和列名,例如 School, SchoolCourse, CourceID。  2、数据表名使用单数而不是复数,例如 StudentCourse,而不是StudentCourses。  3、数据表名不要使用空格。  4、数据表名不要使用不必要的前缀或者后缀,例如使用School,而不是TblSch

2013-07-17 09:37:33 447

转载 hadoop

原文地址:淘宝(大数据库应用)作者:小杰第一部分、mapreduce模式与hadoop框架深入浅出架构扼要         想读懂此文,读者必须先要明确以下几点,以作为阅读后续内容的基础知识储备:Mapreduce是一种模式。Hadoop是一种框架。Hadoop是一个实现了mapreduce模式的开源的分布式并行编程框架。    所以,你现在

2013-07-17 09:28:53 581

转载 激励员工的方法

每个人的成长、成功都离不开鼓励,就企业而言,鼓励就是给员工锻炼、证明自己能力的机会。在鼓励的作用下,员工会认识到自己的潜力,并不断发展各种能力,成为生活中的成功者。就管理者而言,鼓励员工可以为自己树立良好的个人威信,使上下级关系更为融洽,沟通更为便捷,也能够提高员工的工作效率。如果管理者都能用鼓励的办法领导员工,那么,企业的管理水平势必会上一个新的台阶。    激励时的态度。有这样一个公式

2013-07-14 21:49:17 846

转载 MBA最全的面试训练

1.肖伯纳的名言:“你有一个苹果,我有一个苹果,你和我交换以后每人只有1个苹果,你有一个思想,我有一个思想,我们交换之后各自有两个思想。”谈谈你对这句话的看法。这句话体现了知识经济时代知识与信息的重要性和特殊性,思想的交换能产生乘数效应,不同思想的交换更能激发创新,新经济条件下应该鼓励。但要具备鉴别好坏的能力。  2.谈谈你对航空公司机票打折的利与弊的看法。  利:消费者受益,促使

2013-07-14 21:42:06 539

转载 数据分析师的几种阶段

前段时间在微博上看到一张某集团的数据分析师职位层级表,由于表格太大,在网页上显得字体太小,很难看清楚,因此我将它简化处理成如下两张表格,分为层级1和层级2:从表中可以看出,专家级的数据分析在分析方法的要求方面与资深数据分析师是相同的,层级2与层级1的能力差别主要体现在业务分析能力、管理能力和影响力等方面。要从“使命必达”的助理数据分析师,成长为“独挡一面”的数据分析专家,其中必然需

2013-07-12 16:33:48 1733

转载 面试技巧:26个面试经典问题回答

1、请你自我介绍一下自己好吗?    回答提示:一般人回答这个问题过于平常,只说姓名、年龄、爱好、工作经验,这些在简历上都有。其实,企业最希望知道的是求职者能否胜任工作,包括:最强的技能、最深入研究的知识领域、个性中最积极的部分、做过的最成功的事,主要的成就等,这些都可以和学习无关,也可以和学习有关,但要突出积极的个性和做事的能力,说得合情合理企业才会相信。企业很重视一个人的礼貌,求职者要

2013-07-10 09:16:38 1070

转载 喜欢的句子

1 我的世界不允许你的消失,不管结局是否完美.    No matter the ending is perfect or not, you cannot disappear from my world.  2 爱情是一个精心设计的谎言    Love is a carefully designed lie.  3 承诺常常很像蝴蝶,美丽的飞盘旋然后不见    Prom

2013-07-09 22:01:49 528

转载 数学之美系列二十一:布隆过滤器(Bloom Filter)

在日常生活中,包括在设计计算机软件时,我们经常要判断一个元素是否在一个集合中。比如在字处理软件中,需要检查一个英语单词是否拼写正确(也就是要判断它是否在已知的字典中);在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上;在网络爬虫里,一个网址是否被访问过等等。最直接的方法就是将集合中全部的元素存在计算机中,遇到一个新元素时,将它和集合中的元素直接比较即可。一般来讲,计算机中的集合是用哈希表(hash

2013-07-09 11:21:17 679

转载 数学之美系列二十二:由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

当然,学过信息论的人都知道,只要多截获一些情报,统计一下字母的频率,就可以解破出这种密码。柯蓝道尔在他的“福尔摩斯探案集”中“跳舞的小人”的故事里已经介绍了这种小技巧。在很长时间里,人们试图找到一些好的编码方法使得解密者无法从密码中统计出明码的统计信息,但是,基本上靠经验。有经验的编码者会把常用的词对应成多个密码, 使得破译者很难统计出任何规律。比如,如果将汉语中的“是”一词对应于唯一一个编码

2013-07-09 10:41:54 1366

转载 数学之美系列十七:闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

自从有了搜索引擎,就有了针对搜索引擎网页排名的作弊(SPAM)。以至于用户发现在搜索引擎中排名靠前的网页不一定就是高质量的,用句俗话说,闪光的不一定是金子。搜索引擎的作弊,虽然方法很多,目的只有一个,就是采用不正当手段提高自己网页的排名。早期最常见的作弊方法是重复关键词。比如一个卖数码相机的网站,重复地罗列各种数码相机的品牌,如尼康、佳能和柯达等等。为了不让读者看到众多讨厌的关键词,聪明一点的

2013-07-09 10:31:48 672

转载 数学之美十四:谈谈数学模型的重要性

[注:一直关注数学之美系列的读者可能已经发现,我们对任何问题总是在找相应的准确的数学模型。为了说明模型的重要性,今年七月份我在 Google 中国内部讲课时用了整整一堂课来讲这个问题,下面的内容是我讲座的摘要。]在包括哥白尼、伽利略和牛顿在内的所有天文学家中,我最佩服的是地心说的提出者托勒密。虽然天文学起源于古埃及,并且在古巴比伦时,人们就观测到了五大行星(金、木、水、火、土)运行的轨迹,

2013-07-09 09:35:07 773

转载 数学之美系列七:信息论在信息处理中的应用

我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然语言处理中的应用。先看看信息熵和语言模型的关系。我们在系列一中谈到语言模型时,没有讲如何定量地衡量一个语言模型的好坏,当然,读者会很自然地想到,既然语言模型能减少语音识别和机器翻译的错误,那么就拿一个语音识别系统或者机器翻译软件来试试,好的语言模型必然导致错误率较低。这种想法是对的,而且今天的语音识别和机器翻译也是这么做的。但

2013-07-08 20:34:36 653

转载 数学之美系列六:图论和网络爬虫 (Web Crawlers)

[离散数学是当代数学的一个重要分支,也是计算机科学的数学基础。它包括数理逻辑、集合论、图论和近世代数四个分支。数理逻辑基于布尔运算,我们已经介绍过了。这里我们介绍图论和互联网自动下载工具网络爬虫 (Web Crawlers) 之间的关系。顺便提一句,我们用 Google Trends来搜索一下“离散数学”这个词,可以发现不少有趣的现象。比如,武汉、哈尔滨、合肥和长沙市对这一数学题目最有兴趣

2013-07-08 20:27:38 909

翻译 数学之美系列四:怎样度量信息?

信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”(shāng) 的概念,才解决了对信息的量化度量问题。一条信息的信息量大小和它的不确定性有直接的关系。比如说,我们要搞清楚一件非常非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有

2013-07-08 17:06:27 601

转载 数学之美系列三:隐含马尔可夫模型在语言处理中的应用

前言:隐含马尔可夫模型是一个数学模型,到目前为之,它一直被认为是实现快速精确的语音识别系统的最成功的方法。复杂的语音识别问题通过隐含马尔可夫模型能非常简单地被表述、解决,让我不由由衷地感叹数学模型之妙。自然语言是人类交流信息的工具。很多自然语言处理问题都可以等同于通信系统中的解码问题 -- 一个人根据接收到的信息,去猜测发话人要表达的意思。这其实就象通信中,我们根据接收端收到的信号去分析、

2013-07-08 16:52:57 616

转载 数学之美系列二:谈谈中文分词

数学之美系列二:谈谈中文分词 一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学”就不能被分成两个词。而在语音识别中,“北京大学”一般是被分成两个词。因此,不同的应用,应该有不同的分词系统。谈谈中文分词-----统计语言模型在中文处理中的一个应用 上回我们谈到利用统计语言模型进行语言处理,由于模型是建立在词的基础上的,对于中日韩等语言,首先需

2013-07-08 16:34:07 954

转载 数学之美系列一:统计语言模型

http://www.kuqin.com/math/20071204/2798.html系列一: 统计语言模型 (Statistical Language Models)Google 的使命是整合全球的信息,所以我们一直致力于研究如何让机器对信息、语言做最好的理解和处理。长期以来,人类一直梦想着能让机器代替人来翻译语言、识别语音、认识文字(不论是印刷体或手写体)和进行海量文献的自动检索,这

2013-07-08 16:10:25 747

转载 任务并行编程模型

来自文章《任务并行编程模型研究与进展》---软件学报       并行编程模型是底层体系结构与上层应用程序之间的桥梁, 向上隐藏并行处理器的细节, 提供给程序员并行表达的方法; 向下充分利用硬件资源、高效且正确地完成应用需求. 任务划分、任务映射、数据分布、通信和同步是设计并行编程模型时需要考虑的 5 个关键要素。任务并行编程模型主要关注共享存储的平台, 数据分为共享和私有两种存储属性, 通过

2013-07-08 14:26:07 1372

转载 计算机几大学报

计算机核心期刊排名及投稿信息  2010-09-01 22:39:21|  分类:机器学习 |  标签:|字号大中小 订阅计算机核心期刊排名及投稿信息" href="http://smthome.info/blog/?p=61" type=scrollover rel=bookmark jQuery1283351820578="18"2010-04-29 1:5

2013-07-08 10:18:43 4039

转载 什么是算法

算法(Algorithm)是一系列解决问题的清晰指令,也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。如果一个算法有缺陷,或不适合于某个问题,执行这个算法将不会解决这个问题。不同的算法可能用不同的时间、空间或效率来完成同样的任务。一个算法的优劣可以用空间复杂度与时间复杂度来衡量。  算法可以理解为有基本运算及规定的运算顺序所构成的完整的解题步骤。或者看成按照要求设计好的有限的确切

2013-07-03 21:27:11 827

转载 Groovy&Grails

摘要  Java Web应用程序框架是企业Java得以成功的重要原因之一。人们怀疑如果没有Apache Struts框架Java EE是否能够如此成功。虽然底层编程语言很重要,但通常是框架使编程语言成为引人注目的中心的。如果您经常访问讨论论坛,就会注意到Ruby语言和Ruby On Rails框架之间也是这种情况。Ruby已经出现十多年了,然而只是在Ruby On Rails框架流行之后,

2013-07-01 14:41:18 775 1

转载 java框架

Java框架(Spring、Struts、Hiberbate)简介StrutsStruts是一个基于Sun J2EE平台的MVC框架,主要是采用Servlet和JSP技术来实现的。Struts框架可分为以下四个主要部分,其中三个就和MVC模式紧密相关:   1、模型(Model),本质上来说在Struts中Model是一个Action类(这个会在后面详细讨论),开发者通过其实现

2013-06-30 09:22:34 540

java虚拟机

这是一本深入理解JAVA虚拟机的书,很高请也很全面

2013-08-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除