自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

我相信......

爱就一个字

  • 博客(11)
  • 资源 (3)
  • 收藏
  • 关注

翻译 地铁译:Spark for python developers ---Spark与数据的机器学习

机器学习可以从数据中得到有用的见解. 目标是纵观Spark MLlib,采用合适的算法从数据集中生成见解。对于 Twitter的数据集, 采用非监督集群算法来区分与Apache
Spark相关的tweets . 初始输入是混合在一起的tweets。 首先提取相关特性, 然后在数据集中使用机器学习算法 , 最后评估结果和性能.

2016-05-30 09:11:27 12873 1

原创 NoSQL 与大数据

概览一下大数据项目中可以使用的数据存储技术,展示如何使用以及它们的区别。先理解一下NoSQL领域中各种不同的技术:key/value, 列存储,文档型和graph 图存储,然后聚焦于Couchbase 和 ElasticSearch,

2016-05-25 22:17:59 36806 2

翻译 地铁译:Spark for python developers ---Spark的数据戏法

聚焦在 Twitter 上关于Apache Spark的数据, 这些是准备用于机器学习和流式处理应用的数据。 重点是如何通过分布式网络交换代码和数据,获得 串行化, 持久化 , 调度和缓存的实战经验 。 认真使用 Spark SQL, 交互性探索结构化和半结构化数据. Spark SQL 的基础数据结构是
Spark dataframe, Spark dataframe 受到了

2016-05-21 20:31:30 15990

原创 架构大数据分析应用

这是《Scalable Big Data Architecture》一书的翻译笔记和读书札记,融入自己的部分观点 ….典型使用场景....大数据生态系统.....

2016-05-18 21:19:50 17478 3

翻译 地铁译:Spark for python developers ---构建Spark批处理和流处理应用前的数据准备

从GitHub收集有关Apache Spark的信息, 在Twitter上检查相关的tweets, 使用 Meetup从更广泛的开源社区得到更多Spark 相关感受。 
本章中, 我们将概览各种信息和数据源,理解他们的结构,从批处理到流处理介绍数据处理流水线,要点如下: 
+ 从批处理到流处理介绍......

2016-05-17 06:54:45 15364

原创 一样的“Too many open files”,不一样的阿里云和青云

现象系统服务准备在青云上线,突然间发现服务时断时续,登陆服务器,查看日志,原来是‘Too many open files‘,... 青云和阿里云的解决方案不同....

2016-05-14 22:04:45 5975

翻译 地铁译:Spark for python developers --- 搭建Spark虚拟环境 4

Spark 同时可以建立在虚拟化的基础上,例如Vagrant 和Docker, 这样的虚拟化环境很容易部署到各种云服务上,例如AWS。Vagrant的虚拟化环境为了创建Python和Spark 环境......

2016-05-11 21:12:30 4031

翻译 地铁译:Spark for python developers --- 搭建Spark虚拟环境3

在VirtualBox 上建Ubantu虚机,安装Anaconda,Java 8,Spark,IPython Notebook,以及和Hello world 齐名的wordcount 例子程序.....

2016-05-10 20:18:44 22225

翻译 地铁译:Spark for python developers --- 搭建Spark虚拟环境2

这一段,主要是 Spark 的基本概念,以及Anaconda的基本组成。数据密集型应用利用可扩展的分布处理框架在大规模商业集群上分析PB级的数据. Hadoop 是第一个map-reduce的开源实现. Hadoop 依赖的分布式存储框架叫做 HDFS......Spark 是一个面向大规模数据处理的快速、分布式、通用的分析计算引擎. 主要不同于Hadoop的特点在于.....

2016-05-09 20:37:47 5462

翻译 地铁译:Spark for python developers --- 搭建Spark虚拟环境1

一个多月的地铁阅读时光,阅读《Spark for python developers》电子书,不动笔墨不看书,随手在evernote中做了一下翻译,多年不习英语,自娱自乐。周末整理了一下,发现再多做一点就可基本成文了,于是开始这个地铁译系列。为开发搭建一个独立的虚拟环境,通过Spark和Anaconda提供的PyData 库为该环境补充能力。 这些库包括Pandas,Scikit-Learn, Blaze,

2016-05-08 20:16:02 5901

原创 MongoDB 命令速查表

MongoDB 一个面向文档可扩展的高性能开源数据库,典型的应用场景有网页数据,缓存,代替文档存储等。命令的记忆和使用是一门基本功,这里准备了速查表,可以做案头手册。

2016-05-04 13:55:02 10567 2

萃智(TRIZ)文摘

来自中国萃智网,对TRIZ的基本介绍,扫盲没有问题

2009-09-10

计算机世界1000期特稿——信息革命的流金岁月

历史也是一种解释。 时间可能是宇宙中惟一一个义无反顾的前行者,它只有一个向前的方向,因此,时间也就成了这个宇宙中最冷酷的标尺。人是最复杂的动物,有着最丰富的情感,有时坚强,有时懦弱,有时勇往直前,有时瞻前顾后。所以,人就成了时间最驯服的奴隶。时间的冷酷加上人类的情感决定了人总会追溯过去,而且会用无数的“假设”和“如果”去玩味过去的记忆。媒体是天生的“记录者”,因此就更乐于帮助人们唤起对往事的回忆,而且还会有意识地把对过去的理解延伸到对未来的判断,虽然这些判断在未来大多会沦为笑谈。

2008-11-24

Internet Email协议开发指南

POP3,IMAP4,STMP等等协议的程序开发实现

2008-10-29

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除