2015年06月_张某人ER

转载 ODPS技术架构及应用实践

原文链接：http://www.csdn.net/article/2014-10-20/2822184作者张云远，李妹芳初识ODPSODPS是分布式的海量数据处理平台，提供了丰富的数据处理功能和灵活的编程框架，主要的功能组件有如下几个。Tunnel服务：数据进出ODPS的唯一通道，提供高并发、高吞吐量的数据上传和下载服务。SQL：基于SQL92并进行了本

2015-06-30 19:09:20 572

原创使用excel进行数据挖掘（3）----类别检测

本文使用excel演示数据挖掘中的类别检测功能。

2015-06-23 10:28:06 2318

原创使用excel进行数据挖掘（2）----分析关键影响因素

使用excel，演示分析关键因素功能。在数据挖掘，机器学习中，常常需要对数据间的影响因素进行分析。

2015-06-12 12:14:08 5746

转载大数据预测分析的四个关键因素

转载地址：http://www.ctocio.com/bigdata/7129.html大数据预测分析（Big Data Predictive Analytics）可谓是大数据的圣杯，也是众多数据分析人士的终极梦想。谁不想帮助企业做出英明的业务决策、卖出更多商品和服务、让客户更开心同时避免灾难的发生呢？但是预测分析同时也是一个极端困难的任务，实施成功的预测分析有赖于以下四大

2015-06-12 12:05:41 4241

转载并发模型

原文地址：并发编程虽不是新的概念，最近却逐渐热门起来。一些编程语言，如Erlang、Haskell、Go、Scala、Clojure，也因对并发编程提供了良好的支持，而受到广泛关注。并发编程复兴的主要驱动力来自于所谓的“多核危机”。正如摩尔定律①所预言的那样，芯片性能仍在不断提高，但相比加快CPU的速度，计算机正在向多核化方向②发展。正如Herb Sutter所说，“免

2015-06-11 10:21:18 3046

原创使用excel进行数据挖掘（1）

使用excel进行数据挖掘（1）在配置环境后，可以使用excel进行数据挖掘。环境配置问题可参阅：http://blog.csdn.net/xinxing__8185/article/details/46445435使用的数据样例 DMAddins_SampleData.xlsx，其下载地址：http://download.csdn.net/detail/xinxing__8185

2015-06-11 09:14:04 9169 1

原创使用Microsoft excel 2007 进行数据分析---环境配置

使用Microsoft excel 2007 进行数据分析---环境配置。使用前需要安装SQL server 2008 data mining Add-ins for Microsoft excel office 2007这个插件。同时需要安装SQL server analysis services，并运行该服务。Analysis services包含在Microsoft server软件中。

2015-06-10 18:48:11 6460

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。Hadoop的框架最核心的设计就是：HDFS和MapRedu

2015-06-10 17:33:08 1218

转载 Hadoop概述

原文地址：http://blog.csdn.net/kkdelta/article/details/7696025hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算.Hadoop框架中最核心设计就是：HDFS和MapReduce.HDFS提供了海量数据

2015-06-10 17:31:36 570

原创数据挖掘的含义、应用、常见任务等知识点汇总

数据挖掘这一术语所指的范围非常广泛，从即席式查询、基于规则的通知或透视图分析，到政府的监听计划。在本书中，数据挖掘是一个过程，使用自动方法分析数据，以便找到隐藏的模式。提到这种数据挖掘时，常常使用其他术语，例如计算机学习，数据库中的知识发现或者预测分析。

2015-06-07 06:45:39 2464

转载 [网络编程] Linux网络编程经典书籍

首先要说讲述TCP/IP的书很多，其中有3泰书很全。分别是《TCP/IP详解》三卷本，《用TCP/IP进行网际互连》三卷本，《TCP/IP指南》+《IPv6》四卷本其中TCP/IP详解的作者还写了另外2本经典著作，《Unix环境高级编程》，《Unix网络编程》作者W.Richard Stevens个人网站 http://www.kohala.com/

2015-06-06 17:15:51 1823

转载 [综合面试] 牛人整理分享的面试知识：操作系统、计算机网络、设计模式、Linux编程，数据结构总结

基础篇：操作系统、计算机网络、设计模式一：操作系统1. 进程的有哪几种状态，状态转换图，及导致转换的事件。2. 进程与线程的区别。3. 进程通信的几种方式。4. 线程同步几种方式。(一定要会写生产者、消费者问题，完全消化理解)5. 线程的实现方式. (也就是用户线程与内核线程的区别)6. 用户态和核心态的区别。7. 用户栈和内核栈的区

2015-06-06 17:14:18 601

转载后台开发笔试知识点汇总

linux和os:netstat ：显示网络状态tcpdump：主要是截获通过本机网络接口的数据，用以分析。能够截获当前所有通过本机网卡的数据包。它拥有灵活的过滤机制，可以确保得到想要的数据。ipcs：检查系统上共享内存的分配ipcrm：手动解除系统上共享内存的分配（如果这四个命令没听说过或者不能熟练使用，基本上可以回家，通过的概率较小 ^_^ ，这四个命令

2015-06-06 17:09:23 927

翻译 MapReduce: Simplified Data Processing on Large Clusters 中文翻译 4

3实现MapReduce接口可能有许多不同的实现.根据环境进行正确的选择.例如,一个实现对一个共享内存较小的机器是合适的,另外的适合一个大NUMA的多处理器的机器,而有的适合一个更大的网络机器的集合.这部分描述一个在Google广泛使用的计算环境的实现:用交换机连接的普通PC机的大机群.我们的环境是:1.Linux操作系统,双处理器,2-4GB内存的机器.2.普通的网络硬件,每个机

2015-06-06 16:36:29 1531

转载 BP算法浅谈（Error Back-propagation）

原文地址：http://blog.csdn.net/pennyliang/article/details/6695355最近在打基础，大致都和向量有关，从比较基础的人工智能常用算法开始，以下是对BP算法研究的一个小节。本文只是自我思路的整理，其中举了个例子，已经对一些难懂的地方做了解释，有兴趣恰好学到人工智能对这块不能深入理解的，可以参考本文。因为大

2015-06-06 16:29:48 752

张某人ER的技术博客 ==学习&&分享==