2014年12月_wishchin

转载使用Storm实现实时大数据分析！

随着数据体积的越来越大，实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视，为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。

2014-12-28 18:24:39 876

原创 ML的BD框架-Hadoop.Mahout.Strom.Spark/GraphLab

AI发展的方法论进展缓慢，大数据已然崛起，随着存储和计算能力价格的降低，分布式ML框架蓬勃发展，各种繁荣不断出现......GraphLab将数据抽象成Graph结构，将算法的执行过程抽象成Gather、Apply、Scatter三个步骤。其并行的核心思想是对顶点的切分，以下面的例子作为一个说明。

2014-12-28 18:23:51 1424 1

转载开发者建站免费.或者.收费空间

2013年十大免费云空间排行榜-给开发者建站用的免费云主机：云空间也可以叫做云平台，是以云计算技术而开发的网络服务平台，云计算平台可以划分为3类：以数据存储为主的存储型云平台，以数据处理为主的计算型云平台以及计算和数据存储处理兼顾的综合云计算平台。

2014-12-28 18:20:53 1486

转载使用heroku进行免费分布式运算.Vs.AWS

Heroku这是一个老牌的免费云空间了，无限流量和无限容量，但是它的受欢迎程度远不如OpenShift空间。部落直到今天才介绍Heroku免费空间也是有原因的，就是Heroku不支持PHP，数据库只有大小5MB。

2014-12-28 18:20:42 2078

转载 JVM上的下一个Java——Scala

然而，了解一下就可以，不要跟在被人的屁股后面，被人怀有其他目的的人，给搞的晕头撞向。让那些熟悉Scala的人自己去嗨吧！Scala是一种针对 JVM 将函数和面向对象技术组合在一起的编程语言。Scala编程语言近来抓住了很多开发者的眼球。它看起来像是一种纯粹的面向对象编程语言，而又无缝地结合了命令式和函数式的编程风格。Scala的名称表明，它还是一种高度可伸缩的语言。

2014-12-28 18:19:01 1433

转载僧多粥少？还原 OpenStack 的真实“钱景”

451 Research发布了OpenStack的收入分析预测，指出OpenStack市场的收入规模2014年约8.83亿美元，2018年将增长至33亿美元，年复合增长率高达40%。但是,如今市场上已经有数十家“OpenStack公司”，他们靠什么盈利？

2014-12-28 18:16:26 714

转载 OpenStack、KVM、Docker——Docker之后还需要OpenStack吗？

正确看待OpenStack、KVM、Docker的方式应该是: OpenStack用于管理整个数据中心，KVM和Docker作为相应的补充，KVM用于多租户的计算资源管理，Docker Container用于应用程序的打包部署。

2014-12-28 18:14:26 4042

转载 OpenStack、Docker、KVM被评为最火的云开源项目

导读：最近调查显示OpenStack被认为是最流行的开源项目，Docker第二，KVM第三。OpenStack只有四年历史，Docker只有2年历史但却已经是历史上发展最快最受欢迎的项目之一。

2014-12-28 18:12:05 4062

转载基于物品的协同过滤ItemCF的mapreduce实现

基于物品的协同过滤ItemCF数据集字段：1． User_id: 用户ID2． Item_id: 物品ID3． preference:用户对该物品的评分算法的思想：1．建立物品的同现矩阵A，即统计两两物品同时出现的次数

2014-12-28 18:10:46 1590 1

转载 2014 Container技术大会：未来Linux Container会是PaaS平台的核心

不应错过2014 Container技术大会的九大理由。 Docker官方人员再次来到北京，首次向中国布道Docker技术................

2014-12-28 18:07:22 853

互联网的发展导致了信息爆炸。面对海量的信息，如何对信息进行刷选和过滤，将用户最关注最感兴趣的信息展现在用户面前，已经成为了一个亟待解决的问题。推荐系统可以通过用户与信息之间的联系，一方面帮助用户获取有用的信息，另一方面又能让信息展现在对其感兴趣的用户面前，实现了信息提供商与用户的双赢。基于物品的协同过滤推荐算法案例在TDW Spark与MapReudce上的实现对比，相比于MapReduce，TDW Spark执行时间减少了66%，计算成本降低了40%。

2014-12-28 18:05:25 854

原创互联网的大数据神话——NoSQL

对强一致性的要求放松，是因为互联网的分布式特性，使数据一致性的要求水平不得不降低，而对于用户来说是可以接受的。更重要的一点：知名的互联网企业，除了其业务经营与发展以外，他们同时拥有最强的、最庞大的IT研发支持体系。为了满足其业务的需要，他们都在公共开源的基础上进行了大量的研发工作：开源能满足的，就采用拿来主义，不能满足需求的，就自行研发。互联网企业在基础设施的投入上占有极大的成本份额，致使其不能完全依赖专门IT企业服务，否则会导致成本剧增，与其说互联网企业其实是IT企业也不为过。

2014-12-28 18:05:07 724

转载 IAAS: IT公司去IOE-Alibaba系统构架解读

摘要：从IOE时代，到Hadoop与飞天并行，再到飞天单集群5000节点的实现，阿里一直摸索在技术衍变的前沿。这里，我们将从架构、性能、运维等多个方面深入了解阿里基础设施。

2014-12-28 18:02:59 1072

转载八种Docker容器开发模式解析

8种容器开发模式：The SharedBase Container(s) Docker鼓励“继承”；2. SharedVolume Dev Container；3. Dev ToolsContainer；4.Test In ADifferent Environment containers；5. BuildContainer；6. Installation Container；7. Default-Service-In-A-Box Containers；8. Infrastructure / Glue Co

2014-12-28 17:48:00 729

转载 3亿Docker容器部署的挑战及应对方案

IronWorker是一个面向开发者的任务队列服务，开发人员可以在不设置和管理任何基础设施的基础上，调度执行大规模的任务。几个月前，Iron开始试用Docker，如今其内部已经部署了3亿多个Docker容器，本文中分享了IronWorker在使用基于Docker的基础架构时，遇到的挑战、解决方法，以及其中的收获。

2014-12-28 17:47:13 917

转载 Docker的特性解析

1.文件系统隔离：进程运行完全独立 2.资源隔离：进程分配不同资源。3.网络隔离：进程拥有IP地址。4.写时复制。5.日志记录。6.变更管理：文件系统变更提交到新映像中，并可重复使用以创建更多的容器。无需使用模板或手动配置。7.交互式Shell：Docker可以分配一个虚拟终端并关联到任何容器的标准输入上，例如运行一个一次性交互shell。

2014-12-28 17:45:59 1269

原创 Docker的官网在线--中文教程

docker正式版已经推出，做的改动非常多，以前版本的docker翻译已经不能用了，所以现在重新开始希望有兴趣的朋友一起加入！这个简介还是比较人性化，并且资料页比较丰富！

2014-12-28 17:44:56 7112

转载 ***快速理解Docker - 容器级虚拟化解决方案

云计算可以认为包括以下几个层次的服务：基础设施即服务（IaaS），平台即服务（PaaS）和软件即服务（SaaS）。简单的说Docker是一个构建在LXC之上的,基于进程容器(Processcontainer)的轻量级VM解决方案.Docker近几年已经成为IAAS服务的事实标准，得到几乎所有顶级国家大厂和国内厂商的支持！

2014-12-28 17:32:38 878

原创三维重建：深度相机方案对比-KinectFusion的基本原理（尺度）

KinectFusion算法原理依据2011年发表的Fusion重建的论文，主要重建方法为TSDF算法，并在GitHub上开源了相关代码，可以直接编译使用。论文：https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/kinectfusion-uist-comp.pdf；...

2014-12-27 16:04:19 7121 1

原创 ES: 机器学习、专家系统、控制系统的数学映射

机器学习维基定义：机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律，并利用规律对未知数据进行预测的算法，专业术语为“模型”。专家系统维基定义：可以看作是一类具有专门知识和经验的计算机智能程序系统，一般采用人工智能中的知识表示和知识推理技术来模拟通常由领域专家才能解决的复杂问题。一般来说，专家系统=知识库+推理机。

2014-12-06 15:53:45 4275 1

转载 ML大杂烩:**常见机器学习算法公式梳理

找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个。本文写出常见데机器学习데公式表示：1.朴素贝叶斯；2. 决策树；3.Logisitic回归；4. 线性回归； 5.KNN算法；6. SVM算法； 7.Boosting算法； 8. 聚类公式； 9. 10. pLSA 浅语义分析-SVD分解； 11.LDA-隐式狄利克雷; 12. GBDT ；13. 正则化； 14.离群点检测； 15.EM算法； 16. Apriori关联分析; 17.F

2014-12-05 16:31:50 7206

原创算法设计之—直接遍历/穷举法、贪心算法、动态规划、回溯法、EM方法

算法是对完成特定问题的程序执行序列描述，表象为从问题初始状态到问题结束状态的所有路径之中寻找可行路径，若无先验经验，根据执行方式不同可以划分为无规则和有规则（启发式）方法。无规则方法为穷举，改进方法为递推和迭代；有规则方法有分治、贪心、动态规划、分支定界法等。穷举法：适用于解决极小规模或者复杂度线性增长，而线性规模不会很大的状态。 ...

2014-12-01 13:59:48 15543 2

原创算法设计之—常用算法之-分支界定法

在进行机器学习特诊选择的时候，一种不需要进行遍历仍能取得最优解的方法为分支定界（branch and bound）法。这是一种自顶向下的方法，即从包含所有候选特征开始，逐步去掉不被选择的特征。此种方法具有回溯的过程，能够考虑所有可能的特征组合。分支定界法：原理：分支界定法就是带剪枝技巧的搜索策略，通过预判和估算，一旦发现某个子解空间已经不可能存在可行解时，...

2014-12-01 13:59:35 2137

wishchinYang的专栏