自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(34)
  • 资源 (20)
  • 收藏
  • 关注

原创 VMware下Linux虚拟机安装VMware tools完整过程

点击VMware最上面的“虚拟机”菜单选项,并选择下拉菜单中的“安装 VMware Tools”,这时VMware Tools镜像会自动加载复制VMwareTools-8.8.4-743747.tar.gz到桌面,打开终端并转到桌面,cd Desktop解压:tar xzvf VMwareTools-8.8.4-743747.tar.gz转到解压出来的目录:cd vmware-

2013-12-25 17:37:17 6468 1

转载 统计学和数据挖掘区别

1. 简介  统计学和数据挖掘有着共同的目标:发现数据中的结构。事实上,由于它们的目标相似,一些人(尤其是统计学家)认为数据挖掘是统计学的分支。这是一个不切合实际的看法。因为数据挖掘还应用了其它领域的思想、工具和方法,尤其是计算机学科,例如数据库技术和机器学习,而且它所关注的某些领域和统计学家所关注的有很大不同。   统计学和数据挖掘研究目标的重迭自然导致了迷惑。事实上,有时候还导

2013-12-23 20:54:55 1615

转载 R语言中的机器学习包

机器学习是计算机科学和统计学的边缘交叉领域,R关于机器学习的包主要包括以下几个方面: 1)神经网络(Neural Networks): nnet包执行单隐层前馈神经网络,nnet是VR包的一部分(http://cran.r-project.org/web/packages/VR/index.html)。 2)递归拆分(Recursive Partitioning): 递归拆分利用树

2013-12-23 09:19:01 1724

转载 海量数据处理面试题集锦

十七道海量数据处理面试题与Bit-map详解作者:小桥流水,redfox66,July。前言    本博客内曾经整理过有关海量数据处理的10道面试题(十道海量数据处理面试题与十个方法大总结),此次除了重复了之前的10道面试题之后,重新多整理了7道。仅作各位参考,不作它用。    同时,程序员编程艺术系列将重新开始创作,第十一章以后的部分题

2013-12-22 10:10:06 985

转载 十道海量数据处理面试题与十个方法大总结

第一部分、十道海量数据处理面试题  1、海量日志数据,提取出某日访问百度次数最多的那个IP。  此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。  再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多

2013-12-22 10:08:28 890

转载 Hadoop 新 MapReduce 框架 Yarn 详解

Hadoop MapReduceV2(Yarn) 框架简介原 Hadoop MapReduce 框架的问题对于业界的大数据存储及分布式处理系统来说,Hadoop 是耳熟能详的卓越开源分布式文件存储及处理框架,对于 Hadoop 框架的介绍在此不再累述,读者可参考 Hadoop 官方简介。使用和学习过老 Hadoop 框架(0.20.0 及之前版本)的同仁应该很熟悉如下的原 Ma

2013-12-18 21:42:21 1172

转载 探索推荐引擎内部的秘密—深入推荐引擎相关算法 - 聚类(第 3 部分)

智能推荐大都基于海量数据的计算和处理,然而我们发现在海量数据上高效的运行协同过滤算法以及其他推荐策略这样高复杂的算法是有很大的挑战的,在面对解决这个问题的过程中,大家提出了很多减少计算量的方法,而聚类无疑是其中最优的选择之一。 聚类 (Clustering) 是一个数据挖掘的经典问题,它的目的是将数据分为多个簇 (Cluster),在同一个簇中的对象之间有较高的相似度,而不同簇的对象差别较大。

2013-12-18 13:02:13 1308

转载 探索推荐引擎内部的秘密—深入推荐引擎相关算法 - 协同过滤(第 2 部分)

本系列的第一篇为读者概要介绍了推荐引擎,下面几篇文章将深入介绍推荐引擎的相关算法,并帮助读者高效的实现这些算法。 在现今的推荐技术和算法中,最被大家广泛认可和采用的就是基于协同过滤的推荐方法。它以其方法模型简单,数据依赖性低,数据方便采集 , 推荐效果较优等多个优点成为大众眼里的推荐算法“No.1”。本文将带你深入了解协同过滤的秘密,并给出基于 Apache Mahout 的协同过滤算法的高效

2013-12-18 13:00:27 1119

转载 探索推荐引擎内部的秘密—推荐引擎初探(第1部分)

随着 Web 技术的发展,使得内容的创建和分享变得越来越容易。每天都有大量的图片、博客、视频发布到网上。信息的极度爆炸使得人们找到他们需要的信息将变得越来越难。传统的搜索技术是一个相对简单的帮助人们找到信息的工具,也广泛的被人们所使用,但搜索引擎并不能完全满足用户对信息发现的需求,原因一是用户很难用恰当的关键词描述自己的需求,二是基于关键词的信息检索在很多情况下是不够的。而推荐引擎的出现,使用户获

2013-12-18 12:58:46 879

转载 R语言时代,你要怎样画地图?

不知道各位平常有没有过需要画地图的需求,有的时候需要在地图上标出特定位置的数据表现或者一些数值,然而怎么实现?这里主要介绍下在R语言中绘制地图的个人琢磨的思路。绘制地图步骤有三:你得需要绘制地图;(约等于废话)你得有要绘制地图的地理信息,经纬度啊,边界啊等等;你得利用2的数据在R中画出来。以上步骤中,目前最关键的是2,一旦2的数据有了,在R中不就是把它们连起来嘛

2013-12-16 20:05:59 5994

转载 历届博客之星获奖博客分享

时间如水,岁月如歌,转眼间将走过2013年,这一年CSDN博客帮助无数人记录着自己的成长、分享经验心得、助力中国程序员一起进步前行。回顾2013,CSDN博客频道作为中国 IT行业最具影响力的博客平台,举办"2013年度博客之星"评选活动,为我们广大博主提供充分展示自我风采、发掘博客新星的机会。回顾我自己在CSDN上写博客(ithomer)的四年多时间,有幸

2013-12-15 18:28:51 1011

转载 2014趋势预测,大数据将成主流

摘要:年底将至,各界都在对2014年的技术趋势进行预测,2013中国大数据技术大会上发布了《大数据热点问题与发展趋势》&《大数据白皮书》,本文是ZDNet对2014年大数据技术发展的预测。本文的预测来自一组分析行业的公司,包括一个企业软件公司(TIBCO,Spotfire的制造商),一个公开上市的商业智能公司(Tableau),一个分析应用平台的初创公司(Alteryx),一个主流的N

2013-12-13 21:37:43 1038

原创 Linux中 “there are stopped jobs”问题的解决方案

在Linux的shell中输入exit或者logout命令是有时会出现“there are stopped jobs”,这是由于按下Ctrl+Z之后使程序或者进程被挂起。可以使之激活或者在后台运行。在shell中输入命令jobs可以查看停止进程列表输入命令jobs -l显示停止进程的详细列表可以通过如下命令杀死或者激活停止的进程:杀死:kill %1(%1是将要被杀死的

2013-12-13 16:07:50 21783 2

原创 数据分析资源汇总(持续更新中)

数据分析经典图书大全:http://www.itongji.cn/hao/book.html应用matlab做数据分析:http://pan.baidu.com/s/1F0f5OMIT python:http://pan.baidu.com/s/1EemWa数据分析微博达人大全:http://www.itongji.cn/hao/weibo.html

2013-12-12 17:07:01 1215

转载 数据分析能力的8个等级

并非所有的分析方法作用都相同。和大多数软件解决方案一样,你会发现分析方法的能力也存在差异,从简单明了的到高级复杂。下面我们按照不同分析方法所能给人带来的智能程度,把分析能力划分为8个等级。1. 固定报表 回答: 发生了什么?什么时候发生的?示例:月度或季度财务报表我们都见过报表,它们一般是定期生成,用来回答在某个特定的领域发生了什么。从某种程度上来说它们是有用的,但

2013-12-12 16:41:22 1502

转载 Python的中文识别问题解决办法

来自网络:Python的中文问题解决办法python 的 eclips教程环境后写了一个测试程序。结果出现这样的错误:SyntaxError: Non-ASCII character 'xbd' in file E:workspacemakeUpdatafilesIndexsrcmakeIndex.py on line 12, but no encoding d

2013-12-11 11:34:24 6925

转载 数据挖掘在企业中应用的四种途径

数据激增是当今社会的一大特性,如何有效的利用数据挖掘方法,从海量信息中提取出有用的模式和规律而不仅仅是“望洋兴叹”,已经成为人们迫切的需求。企业应该将数据挖掘视为一大法宝,利用它将数据转化为商业智能,提高企业的核心竞争力。从投资的角度来看,如果对数据研究所支付的费用少于研究成果所带来的价值,数据挖掘就值得去做。正如修行的省悟过程一样,要将数据挖掘引入公司,并非只有一种途径。我们的最终目的是解决

2013-12-10 10:23:25 2843

转载 数据挖掘方面的资源、期刊、会议的网址集合

JournalsACM TKDD    http://tkdd.cs.uiuc.edu/DMKD    http://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDE    http://www.ieee.org/organizations/pubs/tran

2013-12-10 10:16:47 1056

转载 python操作excel

xlrd是专门用来在python中读取微软execel的模块,可以自己直接下载安装,也可以通过包管理器安装。官方资料:下载地址:http://pypi.python.org/pypi/xlrd官网地址:http://www.python-excel.org/文档地址:https://secure.simplistix.co.uk/svn/xlrd

2013-12-09 19:38:29 1001

转载 安装python Matplotlib 库绘图工具流程

Matplotlib的安装matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。Matplotlib的安装可以参见 官网链接 http://matplotlib.org/users/installing.html下面总结步骤如下:windows 平台上 下载.exe格式 直接安装。1,

2013-12-09 15:51:34 1239

原创 Python各种安装模块下载地址(持续更新……)

最近一次更新:2013-12-09nltk-2.0.4:https://pypi.python.org/pypi/nltknumpy-1.7.0:http://sourceforge.net/projects/numpy/files/NumPy/1.7.0/matplotlib:http://matplotlib.org/downloads.htmlPyYAML-3.10:

2013-12-09 15:45:28 8243

原创 Python模块的安装和卸载流程

安装:1. cmd打开命令提示窗口,在命令提示窗口中进入setup.py文件所在目录,执行python setup.py install2. 如果提示“python 不是内部或外部命令,也不是.....”,则将Python程序的安装主目录添加到环境变量path中3. 之后将原来的命令提示窗口关闭并重新进入,按照步骤1操作即可完成模块的安装卸载:已知的是手动删除安装的

2013-12-09 15:21:02 7062

原创 VMware Network Adapter VMnet1和VMnet8 未识别的网络的解决方法

VMware Network Adapter VMnet1和VMnet8 被防火墙认定为未识别的网络并将其阻隔,无法使用端口映射,虚拟机的80端口无法传入,数据包只能出不能入。且公用网络被限制不能修改为家庭或工作网络。解决办法:1,进入注册表[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\Class\{4D36E972-E3

2013-12-08 11:17:47 4972 1

转载 VMware模拟机CentOS的网络设置

一、VMware提供了两个虚拟的网络连接,VMnet1和VMnet8,安装VMware后,系统中会出现这两个网络连接。如果没有这两个网络连接,说明VMware安装不正确。二、CentOS通过VMnet1或VMnet8进行网络通信。在CentOS中,“Virtual Machine Settings”--"Network Adapter"项目下,如果选择“Host-only: A priva

2013-12-08 09:49:21 1310

原创 用WinSCP实现CentOS Linux和本地操作系统文件传输

1.先将网络适配器中的VMnet1和Vmnet8启动,如下图红色部分所示2.在windows操作系统下进入命令提示行输入窗口,并输入ipconfig,如下图所示VMnet1的IP地址为192.168.137.13.本地连接属性设置如下图所示4.虚拟机中网络适配器选择Host-only,如下图所示5.之后将虚拟机的CentO

2013-12-07 20:02:32 5149

转载 hadoop集群环境搭建笔记

Hadoop安装笔记1.本次安装的是hadoop集群环境,使用的是vmware虚拟机和centos等,安装步骤在博客内这篇文件中:http://blog.csdn.net/huoyunshen88/article/details/8938289我使用同网段不同集群安装的虚拟机,保证每个虚拟机如图本机一样可以相互通信。由于我安装了一次centos,所以其他机器的虚拟机

2013-12-07 16:23:41 853

转载 winscp 远程管理centos服务器文件教程

Linux上经常会经常需要编辑文件,特别是Linux VPS/服务器安装好系统之后配置环境会需要修改很多的配置文件等,对于常用Linux的基本上都能够熟练使用vi或者nano等SSH下面的文件编辑工具,但是对于新接触VPS或者服务器的Linux新手来说还是稍微有些难度的,今天介绍一款适合新手或者懒人使用的Windows上管理远程Linux VPS/服务器上文件的工具 - winscp。一、

2013-12-07 14:25:04 3536

原创 VMware下的CentOS Linux系统中安装VMTools详细流程

我用的VMware版本是VMwareWorkstation 8,VMware里面装的linux系统是CentOS 5.10。1. 必须以ROOT身份进入CentOs 2. 进入linux系统,然后按下 CTRL+ALT组合键,进入主操作系统,点击VMware菜单栏中的VM菜单下的”Install VMware Tools”。 3.     这时在CentOS下弹出一个文件夹窗口,将里面

2013-12-07 14:06:09 2343

原创 VMware workstation8中安装CentOS Linux无法上网的解决方法

流程如下:1)点击 VM->Settings Hardware选项卡下面 2)点击Network Adapter 设置如下图所示,首先我们在虚拟机中将网络配置设置成NAT,3、进入Windows操作系统,然后右键点击我们的电脑,进入到管理界面  计算机-> 管理->服务和应用程序->服务,找到如下服务进程VMAuthdService, VMnet DHCP , VM

2013-12-07 10:04:51 1450

转载 2014年度大数据十大发展趋势

1.数据资源化    这一候选发展趋势得到了委员们最多的关注。数据的资源化是指大数据在企业、社会和国家层面成为重要的战略资源。2014年大数据将成为新的战略制高点,是大家抢夺的新焦点;大数据将不断成为机构的资产,成为提升机构和公司竞争力的有力武器。    2.大数据隐私问题    大数据对于隐私将是一个重大挑战,现有的隐私保护法规和技术手段难于适应大数据环境,个

2013-12-05 08:37:00 1544

转载 使用Mahout搭建推荐系统之入门篇3-Mahout源码初探

用意: 希望了解Mahout中数据的存储方式, 它如何避免java object带来的冗余开销。学完知识,要进行些实战去分析数据。花了些时间看了看Mahout的源码和官方资料,记录下自己的一些收获。文字写了很多, 有点啰嗦了, 但是这些东西都是我这段时间学习推荐系统的一些感悟,希望感兴趣的朋友可以耐心看看,指点指点。一、Mahout内容补充     1.

2013-12-04 15:33:30 1315

转载 使用Mahout搭建推荐系统之入门篇1-搭建REST风格简单推荐系统

用意: 网络上有很多关于使用mahout搭建推荐系统的文章,但是还没有一个从建立推荐系统原型至部署到简单服务器的完整教程. 虽然部分朋友对推荐系统很感兴趣, 但是因hadoop的复杂而却步.  同时对于那些没有任何Web开发经验的朋友来说, 一个完整的小型推荐系统可以很大的激发学习的兴趣和动手的冲动. 我觉得动手的冲动比看书的冲动要重要的多.     原型分为两个系列 : JAVA原型和P

2013-12-04 15:32:41 1395 1

转载 R语言 RStudio快捷键

控制台功能Windows & LinuxMac移动鼠标到控制台Ctrl+2Ctrl+2控制台清屏Ctrl+LCommand+L移动鼠标至第一行HomeCommand+Left移动鼠标至最后一行EndCommand+Right历史

2013-12-04 10:37:30 4348

转载 Python正在取代R 成为数据科学界新宠

摘要:R是数据科学家历来选择的编程语言,但它正在迅速地让位给Python。最大原因是:Python更通用且相对容易学习,而R需要掌握复杂的编程环境。R:不是真正的语言人们学习R很困难的一部分原因是,它并不是一种真正的编程语言。John Cook是一位R专家,他曾说:“R是一个做统计的交互环境,不是一种真正的编程语言。把R看做包含有编程语言的交互环境会更有帮助。”但正如B

2013-12-03 09:50:07 1204

The Google file system(免积分下载)

The Google file system,一个分布式文件系统,隐藏下层负载均衡,冗余复制等细节,对上层程序提供一个统一的文件系统API接口

2014-01-04

CentOS下Hadoop-0.20.2集群配置文档 免积分下载

CentOS下Hadoop-0.20.2集群配置文档 免积分下载

2013-12-05

HMM最佳学习范例

遇到这一篇文档之前没有碰到过能把“隐马尔科夫模型”讲的这么清晰透彻的,HMM学习最佳范例做到了

2013-11-18

集体智慧编程(源代码)

集体智慧编程书中所有章节的源代码,请注意代码为Python编写!

2013-11-03

新浪微博数据集

一个新浪新浪微博内容数据集的压缩包,进行数据挖掘分析只用。

2013-10-30

自学Matlab必备的60个程序代码

matlab自学必备利器,这些源代码看懂用自己实践一遍之后,以后上手其他的就容易多了!

2012-10-28

matlab在矩阵中的应用

matlab最强大的地方就是对矩阵的运算能力强,课件对这一强大基本的功能做了基础的介绍!

2012-10-28

matlab基础课件

对matlab的使用做了一些基础性的介绍,看完之后基本上算是入门了!

2012-10-28

《MATLAB程序设计教程》源代码

对matlab的使用做了一下入门性的介绍,并包含大部分常用的源代码!

2012-10-28

visio 2007指南

这是微软发布的官方visio指南,清新简洁,pdf的,一共37页,几个小时就能把visio搞的差不多。

2012-08-23

visio教程(pdf版)

visio教程,完整清新pdf版呈上,基本上可以在短时间内快速掌握visio基本技能!

2012-08-23

现代无线通信

西蒙 赫金的现代无线通信的中文版,经典程度就不解释了

2012-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除