- 博客(62)
- 收藏
- 关注
原创 廖雪峰Python教程学习笔记
廖雪峰写了一个Python教程,比较基础,文风也比较口语化,阅读学习体验都不错,推荐给需要者。本博文记录阅读该教程的一些总结和遇到的问题。1. 在dict和set中使用tuple事实证明将元组放入set。如果元祖中包含可变元素,报错。不然则将元祖中所有元素加入set。对于dict也是如此,看下面的例子:>>> n = (1,[2,3]) #元组中包含可变
2015-10-18 16:39:00
6225
原创 How to use function in Python(Reship)
Python中的函数(一) 接触过C语言的朋友对函数这个词肯定非常熟悉,无论在哪门编程语言当中,函数(当然在某些语言里称作方法,意义是相同的)都扮演着至关重要的角色。今天就来了解一下Python中的函数用法。一.函数的定义 在某些编程语言当中,函数声明和函数定义是区分开的(在这些编程语言当中函数声明和函数定义可以出现在不同的文件中,比如C语言),但是在Python中,函数声明和...
2014-10-18 11:18:28
436
原创 Using Python to write Hadoop MapReduce program(Reship)
转载自:http://isilic.iteye.com/blog/1750271 使用 Python 编写 Hadoop MapReduce 程序 以前写 Hadoop 的 MapReduce 程序时,使用的是 Java ,利用 Java 写起来是轻车熟路,没有问题,但是使用 Java 很明显的一个弊端就是每次都要编码、打包、上传、执行,还真心是麻烦,想要更加简单的使用 ...
2014-10-11 12:52:37
287
原创 Brief introduction to LASSO (Reship)
使用数理统计模型从海量数据中有效挖掘信息越来越受到业界关注。在建立模型之初,为了尽量减小因缺少重要自变量而出现的模型偏差,通常会选择尽可能多的自变量。然而,建模过程需要寻找对因变量最具有强解释力的自变量集合,也就是通过自变量选择(指标选择、字段选择)来提高模型的解释性和预测精度。指标选择在统计建模过程中是极其重要的问题。Lasso算法则是一种能够实现指标集合精简的估计方法。 Tibshir...
2014-10-09 13:48:24
294
原创 Recognize (multi)collinearity in a regression model
The kappa() function can help. Here is a simulated example:> set.seed(42)> x1 <- rnorm(100)> x2 <- rnorm(100)> x3 <- x1 + 2*x2 + rnorm(100)*0.0001 # so x3 approx a li...
2014-10-05 19:59:18
287
原创 Bitwise and Bit Shift Operators in Java
按位与运算符(&)参加运算的两个数据,按二进制位进行“与”运算。运算规则:0&0=0; 0&1=0; 1&0=0; 1&1=1; 即:两位同时为“1”,结果才为“1”,否则为0例如:3&5 即 0000 0011 & 0000 0101 = 0000 0001 因此,3&5的值得...
2014-10-05 10:34:08
277
原创 Error Collections in Java
本文记录遇到的各种Java报错提示。 1.Cannot make a static reference to the non-static field 无法在静态方法中引用非静态变量 。public class Test { byte aa; short bb; int cc; long dd; double ee; float ff; boolean...
2014-10-04 11:34:57
177
原创 What is the difference between data types and literals in Java?
最近学习Java,看的是Oracle的官方Tutorials,其中有一个单词“literals”经常遇到,但总不能正确对应到专业的中文术语。于是Google了一下,发现Stackoverflow上有一帖子讨论了这个问题:What is the difference between data types and literals in Java? 看罢,才恍然明白,原来literals就是...
2014-10-02 16:09:54
270
转载 简单区分Vmware的三种网络连接模式(bridged、NAT、host-only)
摘要: 简单区分Vmware的三种网络连接模式(bridged、NAT、host-only)最近一段时间开始接触linux,为了学习方便就在vware上安装了CentOS,下面是转载的有关vmware连接网络的三种模式的区别(在此非常感谢原创作者的分享)Vmware在安装时默认安装了两块虚拟网卡,VMnet1和VMnet8,另外还有VMnet0。这些虚拟
2014-01-14 15:22:45
924
原创 R的几种编辑器的选择与配置
http://jekyll.math.byuh.edu/other/howto/notepadpp/这个网站提供了R的几种编辑器的特性描述、安装方法、配置、使用方法,对于学习R的人来说帮助很大。比如npp2R,TinnR等等。慢慢琢磨吧。
2013-12-07 23:24:27
6488
1
转载 notepad如何设置背景
本文转载自:http://blog.csdn.net/fly542/article/details/7101118经常试用notepad++看代码,白色的背景连续看的时间长了眼睛很容变花,所以找了相关的设置选项,分享给大家具体设置步骤如下: 然后如下设置 这样前景色背景色已经发生改变了哟,下面再修改下选
2013-12-07 10:00:15
1491
原创 java学习
本博文为学习高淇老师java视频的笔记。1.不仅要学习java的语法,更要深入到内存结构、分析JDK源代码。高手都拥有好的习惯,打好基础是关键。2.所有代码现场手敲,真实展现代码编写过程。3.第一季98集,主要讲解java编程基础,通过游戏项目提高编程能力。打基础的,比较重要。4.编程语言怎么学?找准一门语言,精通它。。。各种语言之间都是有渊
2013-12-06 21:57:50
899
原创 近期learning task
最近感觉很busy,但又没感觉到到底在忙what,所以有必要画一点时间来理清自己的mind,分清什么是important和immediate的,所以做了下面的list,来督促自己learning。1. Java。(求入门)。2. thesis。(important and immediate)。3. R。(近期是ggplot2)。4. hadoop。(java熟悉时
2013-12-06 16:07:06
838
转载 主成分分析和因子分析十大不同点
主成分分析和因子分析无论从算法上还是应用上都有着比较相似之处,本文结合以往资料以及自己的理解总结了以下十大不同之处,适合初学者学习之用。1.原理不同主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主
2013-11-29 20:31:53
3073
原创 生成带权重随机数
想生成10个随机1-100的整数,有权重,请问怎么生成(权重例如产生5的概率是1/30,产生76的概率是1/100).pp[5]sample(1:100,10,prob=p)sample(1:100,10,replace=TRUE,prob=p)
2013-11-26 16:47:06
1513
原创 问题临时记录
--------------2013/11/22---------关于max.print的疑问library(ggplot2)options(max.print=99999)getOption("max.print")diamonds为什么我设置的是99999的maxprint,显示的却只有9999行观测?----------------
2013-11-23 10:33:06
768
原创 画散点图练习
问题来自:http://zhidao.baidu.com/question/680266505858712212.html?quesup2&oldq=1&sort=6&qq-pf-to=pcqq.c2c在看别人的论文的时候出现的这种图不知道是怎么画的,已知的部分数据还有要画的散点图在下面的截图中,跪求高手指点一下!解答用R画了一下,大致差不多。
2013-11-17 19:33:44
4586
原创 批量转换为因子变量
居住地、婚姻状况、教育水平……等名义变量,要转换为因子类型的,有么有批量转换方法?而不是逐条 PhoneData$居住地 ……
2013-11-13 20:46:49
5554
1
转载 文件(夹)操作范例注释
rm(list=ls())path = 'C:/' #在R语言中进行文件(夹)操作setwd(path)cat("file A\n", file="A") #创建一个文件A,文件内容是'file A','\n'表示换行,这是一个很好的习惯cat("file B\n", file="B") #创建一个文件Bfile.append("A", "B") #将文件B的内容附到A内容
2013-11-13 18:59:58
1018
原创 读取sav文件失败
用spss.get函数读取 e:/RTempData/Telephone.sav文件失败,尝试了一些参数的修改也没成功,mark一下。
2013-11-07 22:14:53
3895
1
转载 关于spss显示“试图连接远程服务器失败”的问题以及解决方法
注:最简单的办法就是关闭防火墙之后再打开SPSS,一试就成功!当然如果不用SPSS了,记得打开SPSS,这样保险一点! 前几天在windows7上装spss v18.0,但是打开之后却出现了下面的问题: 经过一番折腾原来是ESET NOD 32惹的祸,spss的正版验证采用了网络正版验证方式,每次开启spss要首先连接远程服务器来验证软件授权,但
2013-11-07 22:12:04
28849
原创 保存GUI设置
新装了R 3.0.2,发现字体太小了,于是通过“编辑”菜单打开GUI进行设置,字体大小选为12,然后关闭了R。等我再打开R的时候,发现字体大小还是默认的10,前面的设置并没有保存。怎么办呢?下面是一种解决方法:打开“~/etc”文件夹(~代表安装目录),打开Console文件,修改里面的字体大小,保存后关闭,然后再重启R,发现设置就成功地保存啦!其他
2013-11-07 16:41:20
1424
原创 RStudio错误提示:“R session had a fatal error”
如题,之前一直可以正常使用RStudio,最近一段时间比较忙,没有用RStudio,再次打开时,就提示“R session had a fatal error”,这是为什么呢?下面的解决方法好像都不管用:① 电脑可能安装了多个版本的R,把其他的卸载掉,保留一个版本的R就行了。————我试了的,不管用。以前我也是两个版本的R同时存在,但RStudio正常使用。② 你的R和RStu
2013-11-07 15:27:45
18574
1
原创 R变成中文界面?
如题,第一次按照R的默认安装,一直点击下一步,安装后发现R的界面都是英文的。如何变成中文的呢?一种解决方法是:卸载R,重新安装,安装的时候勾选“language translation message”、选择“自定义安装”,然后根据需要选择设置,安装完成后就是中文的了。
2013-11-07 15:22:43
40754
4
原创 MDI和SDI
MDI(Multiple Document Interface)就是所谓的多文档界面,与此对应就有单文档界面 (SDI), 它是微软公司从Windows 2.0下的Microsoft Excel电子表格程序开始引入的,Excel电子表格用户有时需要同时操作多份表格,MDI正好为这种操作多表格提供了很大的方便,于是就产生了MDI程序。
2013-11-07 15:18:59
3726
转载 凸集与凸包
凸集:http://zh.wikipedia.org/wiki/%E5%87%B8%E9%9B%86凸包:http://wiki.mbalib.com/wiki/%E5%87%B8%E5%8C%85
2013-10-30 12:22:12
2192
原创 学习记录(一)
1. R是一个非常灵活的平台,是专用于探索、展示和理解数据的语言。2. 以数据科学家的角度学习R,思考如何才能成功地处理、分析和理解数据,包括:* 获取数据(从各种数据源将数据导入程序);* 整理数据(编码缺失值、修复或删除错误数据、将变量转换成更方便的格式);* 注释数据(以记住每段数据的含义);* 总结数据(通过描述性统计量了解数据的概况);* 数据可视化(一图
2013-10-29 16:12:56
1664
转载 Holdout 验证
常识来说,Holdout 验证并非一种交叉验证,因为数据并没有交叉使用。 随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。 一般来说,少于原本样本三分之一的数据被选做验证数据。更多请见:交叉验证
2013-10-16 10:03:10
8753
原创 【AA】SQL学习笔记(二)
1.复合主键也就是任何一个字段都不能唯一标识一行数据,只有构成“复合主键”的所有字段组合起来才能唯一标识这一行数据。 2.索引的优缺点虽然索引可以提高数据查询的速度,但是任何事物都是双刃剑,它也有一些缺点: 索引占据一定磁盘空间,就像有按笔画查找的目录的书会比没有这种目录的书页数要多一些。 索引减慢了数据插入和删除的速度。因为每次插入和删除的时候都需要更新索引,一个
2013-10-15 19:36:57
847
转载 如何理解sql中的schema
我相信很多人接触这些概念的时候一头雾水。要把这些概念理清楚真不是件容易的事,哪像原始社会,只要能分清楚什么能吃什么不能吃就行了。 但是我始终坚信,每一个概念的产生必然是因为碰到了无法解决的问题。换句话说,如果没有它,必然会导致某些问题难以解决。所以我想从这个角度切入,希望能把这几个复杂而暧昧的多角关系从最实用的角度来阐述清楚。 数据库对象。首先,数据库对象是比较容易懂的。所有的表,
2013-10-15 18:40:26
7082
转载 Oracle 11g安装图文攻略
文章来源:http://www.2cto.com/database/201208/150620.html呵呵,花了一个多小时,左右把11g安装折腾好了。其中折腾SQL Developer 花了好长时间,总算搞定了。好了,先总结下安装步骤,希望给后面的童鞋提高安装效率。呵呵。一、Oracle 下载注意Oracle分成两个文件,下载完后,将两个文件解压到同一目录下即
2013-10-15 11:07:22
702
转载 什么是bootstrap?
Bootstrap又称自展法,是用小样本估计总体值的一种非参数方法,在进化和生态学研究中应用十分广泛。例如进化树分化节点的自展支持率等。Bootstrap的思想,是生成一系列bootstrap伪样本,每个样本是初始数据有放回抽样。通过对伪样本的计算,获得统计量的分布。例如,要进行1000次bootstrap,求平均值的置信区间,可以对每个伪样本计算平均值。这样就获得了1000个平均值。对着
2013-10-08 16:15:33
1796
原创 【AA】问题搜集
topic1.缺失值的处理方法有哪些?请查看:缺失值处理topic2.什么是异常值?如何判断异常值?处理异常值的方法有哪些?异常值是指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值。异常值的判断方法请见:异常值侦查异常值的处理方法请见:异常值处理的常用方法
2013-09-23 09:59:42
764
转载 异常值处理的常用方法
(1)直接将该条观测删除在SPSS软件里有2种不同的删除方法,整条删除和成对删除。当然,这种方法简单易行,但缺点也很明显,首先我们经常会遇到的情况是观测值很少,这种删除会造成样本量不足,其次,直接删除的观测很多,也可能会改变变量的原有分布,从而造成统计模型不够稳定。 (2)暂且保留,待结合整体模型综合分析 通常我们观测到的异常值,有时在对于整个模型而言,其
2013-09-23 09:59:08
21140
转载 异常值侦查
Spss中异常值检查方法:检查异常值方法1: 最常用的方法就是对变量进行排序,这也是最简单的方法。排序后对照最大值和最小值、全距等统计量可以看出数据的离群状况。检查异常值方法2: 散点图的优势就在于直观的呈现两两变量间的关系,尤其在两变量间的线性关联比较强的时候,如果有离群值,图形侦察的结果会很明显,不过(也包括矩阵散点等图形)其局限在于,其本质还是变量
2013-09-23 09:54:48
1762
原创 缺失值处理
缺失值是指在数据采集与整理过程中丢失的内容。一般情况下,数据都是以关系型表的方式采集的,如下表是某次调查中一些受访者的基本情况见本文最后的表格。 如果在表格中,某一个数据采集时无法获得,就会出现缺失值,例如在上表中“张三”的性别和“赵六”的年龄就出现了缺失。缺失值的处理一般有两种方式,一是删除对应的记录,例如在上例中,如果张三的性别没有记录,出现缺失,则将张三的所有信息全部
2013-09-23 09:38:53
2316
原创 【AA】回归学习总结
topic1.变量间的关系有哪些?变量间的关系大体上有两类:①函数关系:y = f(x);②非确定性关系:y = ax1 + bx2 + t (t为随机扰动项).topic2.回归与相关有何区别?1.回归中,y依赖于x;相关分析中,y与x的地位一样。2.回归中,y是随机变量,x是确定性变量;相关分析中,y与x都是随机变量。3.用途不一样,回归不仅可以探索变量之间
2013-09-21 19:21:46
2217
原创 【AA】统计学习总结
Chapter1.描述性统计量计算过程1.什么是随机试验?试举例说明。满足以下 三个条件的试验称为随机试验: 1. 可以重复进行; 2. 不能预知结果 ;3. 知道所有可能的情况。随机试验的例子有:1 .投硬币,掷骰子 ;2 .射击命中; 3 .身高、体重 。2.什么叫做样本空间?什么叫做样本?样本空间就是特定随机试验所有可能结果所组成的集合。样本空间又叫做总体。样
2013-09-19 22:03:16
2585
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人