sas学习笔记(二)merge的用法

1.首先看merge的功能介绍:merge语句将来自两个或多个SAS数据集的观测值连接为单个观测值。

2.一对一合并:将来自两个或多个SAS数据集的观测值合并为新数据集中的单个观测值。语法是直接使用merge语句,不带by。SAS将merge语句中指定的所有数据集中的第一个观测值合并为新数据集中的第一个观测值,将所有数据集中的第二个观测值合并为新数据集中的第二个观测值,依此类推。在一对一合并中,新数据集中的观测数等于merge语句中指定的最大数据集中的观测数。

举例。首先制作两个数据集testa和testb:

 通过不带by的merge语句进行合并:

data test1_1;
	merge testa(in=a) testb(in=b);
	ina=a;
	inb=b;
run;
data test1_2;
	merge testb(in=b) testa(in=a);
	ina=a;
	inb=b;
run;

 

此时merge语句是通过行数依次进行连接,不进行匹配,新数据集的观测数为最大数据集testb的观测数。同时两个数据集在merge语句中出现的顺序不同也得到不同的结果,可以看出merge语句是以第二个数据集为基准进行合并的。

这种合并方式要求数据集事先被处理和排序好,否则会得到混乱的结果。

3.匹配合并:根据公共变量的值,将两个或多个SAS数据集的观测值合并为新数据集中的单个观测值。新数据集中的观测数是所有数据集中每个by组的最大观测数之和。merge语句不会在多对多匹配合并中产生笛卡尔积。相反,当至少一个数据集中的by组中存在观察值时,它执行一对一合并。当从一个数据集中读取了by组中的所有观测值,并且在另一个数据集中还有更多的观测值时,SAS执行一对多合并,直到所有by组观测值都被读取。

举例。还是上面的数据集testa和testb

data test2_1;
	merge testa(in=a) testb(in=b);
	by name;
	ina=a;
	inb=b;
run;

data test2_2;
	merge testb(in=b) testa(in=a);
	by name;
	ina=a;
	inb=b;
run;

得到按照name变量的匹配的新数据集,merge语句中的数据集出现顺序决定了同名变量domain的覆盖方式,也是以第二个数据集为准。

4.in=option的用法.

首先看in= option的功能介绍:创建一个布尔变量,该变量指示数据集是否为当前观测提供了数据。在data步中,如果数据集对当前观测值提供了数据,则变量的值为1。否则,该值为0。

适用范围: 适用于SET,MERGE,MODIFY和 UPDATE操作,在数据集名称后的括号中指定IN= data set选项。IN=变量的值在data步中有效,此变量不包括在正在创建的SAS数据集中,需要分配一个新变量。

  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
SAS中的merge语句用于将两个数据集按照共同的变量连接起来,创建一个新的,合并后的数据集。下面是merge语句的使用方法: 1. 确定要合并的数据集:需要先确定要合并的两个数据集,并且它们都需要有至少一个共同的变量。 2. 排序:为防止合并后的数据集出现混乱,需要先按照共同变量对两个数据集进行排序。 3. 创建新的数据集:使用merge语句创建一个新的合并后的数据集,将合并后的结果存储在新的数据集中。 4. 编写merge语句:在SAS程序中使用merge语句,语法如下: ``` data newdataset; merge dataset1 dataset2; by commonvariable; run; ``` 5. 解释merge语句:上面的代码中,newdataset是一个新的数据集名称,dataset1和dataset2是要合并的两个数据集的名称,commonvariable是两个数据集共同的变量名称。merge语句将dataset1和dataset2按照by子句中指定的共同变量进行合并,结果存储在新的数据集newdataset中。 需要注意的是,如果两个数据集中的共同变量名称不同,那么需要使用rename语句将其中一个数据集的变量名称更改为另一个数据集中的名称。另外,如果两个数据集中的共同变量存在缺失值,那么任何一方的缺失值都将不会出现在合并后的数据集中。 下面是一个具体的例子: 假设有两个数据集,employee和salary,它们都有一个共同的变量employeeid,我们要将它们合并成一个新的数据集newdataset,按照employeeid进行连接。 代码如下: ``` data employee; input employeeid name $ age gender $; datalines; 1 Alice 25 F 2 Bob 30 M 3 Charlie 35 M 4 Dave 40 M 5 Eva 45 F ; run; data salary; input employeeid salary; datalines; 1 50000 2 60000 3 70000 4 80000 ; run; data newdataset; merge employee salary; by employeeid; run; proc print data=newdataset; run; ``` 运行结果如下: ``` employeeid name age gender salary 1 Alice 25 F 50000 2 Bob 30 M 60000 3 Charlie 35 M 70000 4 Dave 40 M 80000 5 Eva 45 F . ```

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值