关于set.seed()

最新推荐文章于 2024-03-24 14:37:37 发布

Yuli_Derek

最新推荐文章于 2024-03-24 14:37:37 发布

阅读量7.9k

点赞数 4

分类专栏：其他文章标签： R Algorithm 数据分析 random

本文链接：https://blog.csdn.net/yuli_dai/article/details/18949221

版权

其他专栏收录该内容

5 篇文章 0 订阅

订阅专栏

最近在上Stanford的公开课Statistic Learning，用到的语言是R。之前有接触过R，很多人也推荐用它来做数据分析，因为很方便，包也很多，做可视化也非常赞。

看书的时候看到了set.seed()这么个function，大概知道是怎么个回事，但是不太清楚相关算法的细节，而且以前用random的时候也没有想那么多(计算机是如何产生随机数的，它的算法是怎么样的，只是觉得理所当然，随手拿来用)，于是上网查了下。

书中的原文：

Sometimes we want our code to reproduce the exact same set of random numbers; we can use theset.seed()function to do this. Theset.seed()function takes an (arbitrary) integer argument.

> set.seed(1)

> rnorm (4)

> set.seed(1)

> rnorm (4)

首先讲一下为什么要用到seed(设置种子)：

因为计算机其实并不能产生真正的随机数，准确的讲它所产生的是伪随机数。计算机只是模拟随机过程，用算法来模拟进而得到结果。当然如果想要拿到真正的随机数，可以外接物理随机数发生器，然后将其产生的信号转换为随机值。

如果你不设种子，计算机会用系统时钟来作为种子，如果你要模拟什么的话，每次的随机数都是不一样的，这样就不方便你研究，如果你事先设置了种子，这样每次的随机数都是一样的，便于重现你的研究，也便于其他人检验你的分析结果。

随机数产生原理,通常有两种方法 :

1.平方取中法
1）从一个n位数x开始，称为种子
2）将它平方得到一个2n位数（必要时前面加0）
3）取中间的n位数做为下一个随机数
这种方法有一个缺点就是产生的随机数会趋向0

2.线性同余法 http://en.wikipedia.org/wiki/Linear_congruential_generator

选择三个整数a,b,c，给定初始种子X(0)

按下列规则生成数列
X(n+1)=( a * X(n) + b )mod(c)
线性同余法的一个例子：
取a=1, b=3, c=5
那么 X[n+1] = (X[n] + 3) mod 5
生成的数列为：
种子数列
0 3, 1, 4, 2, 0, 3, 1, 4, 2, 0, ....

1 4, 2, 0, 3, 1, 4, 2, 0, 3, 1, ....

2 0, 3, 1, 4, 2, ...

因此我们可以看到这种方式产生的随机数会出现循环，但是只要我们把c取得足够大就可以保证不会在我们运算中出现循环。很多计算机都是利用这个原理产生随机数的。只要把c值取得很大，一般就不会出现循环。

对于每个种子，所得到的数列看起来都是随机的（每个数值出现的频率都是相同的）。而一旦种子给定，每次调用随机数函数，函数都会根据上次得到的数列的某个值，计算出数列的下一个值并返回回来。因此只要设定了相同的种子，就能得到一样的随机数列。这么做的好处在于，比如你在做研究的时候代码中有用到随机数据，当别人也想实现你的算法来验证和比较结果的时候，相同的可重复使用的数据就很重要了。

再举个例子，学生可以取他们的名字作为seed(char2seed，TeachingDemos Package)，这样每个学生都有他们自己唯一的数据库。而这时老师也可以产生相同的数据库，进而对学生进行grading。

Yuli_Derek

关注

4
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
关于set.seed()

最近在上Stanford的公开课Statistic Learning，用到的语言是R。之前有接触过R，很多人也推荐用它来做数据分析，因为很方便，包也很多，做可视化也非常赞。看书的时候看到了set.seed()这么个function，大概知道是怎么个回事，但是不太清楚相关算法的细节，而且以前用random的时候也没有想那么多(计算机是如何产生随机数的，它的算法是怎么样的，只是觉得理所当然，随手拿
复制链接

扫一扫

专栏目录