PROC SQL介绍
SQL(Structured Query Language——结构化查询语言),是用于检索和更新数据的一种标准化语言
SQL在SAS中通过PROC SQL来实现
数据处理 | SAS术语 | SQL术语 |
---|---|---|
文件 file | SAS数据集 SAS data set | 表 table |
记录 record | 观测 observation | 行 row |
字段 field | 变量 variable | 列 column |
主要功能:
- 检索、查询数据,管理SAS数据集(表)
- 添加或修改表中的数据
- 添加、修改或删除表中的行
- 创建表和视图
- 链接多张表(表中可以不包含相同的列名)
- 生成报告
PROC SQL过程
- 不需要RUN语句来结束过程,而是用QUIT
- 自动执行,QIUT只表示过程结束
- SELECT语句中的变量顺序非常重要
- WHERE语句在SELECT语句之前执行
- ORDER BY的使用技巧用:数字代替SELECT中的变量顺序。
- GROUP BY需要配合汇总函数使用,如果没有汇总函数,那么与ORDER BY 相同
常用汇总函数:avg,mean,count,freq,n,css,cv,max,min,miss,range,std,sum等等
SQL语法,SQL过程:
PROC SQL <options>;
statements;
QUIT;
SQL的基本机构:
PROC SQL;
CREATE TABLE sas-data-set AS
SELECT variable_1,variable_2,...variable_n
FROM table_1|view_1,table_2|view_2,...table_n|view_n
WHERE expression
GROUP BY variable_1,variable_2,...variable_n
ORDER BY variable_1,variable_2,...variable_n;
QUIT;
SELECT语句:
功能:检索并显示数据
注意:
-
一个proc sql过程包括一个或多个SELECT语句。
-
SELECT语句必须包括SELECT子句和FROM子句。
-
用逗号分隔多个列。(*表示所有列)
-
可以指定现有列,也可以创建列。
选项:FEEDBACK
将SELECT子句中指定的列显示在日志中。
关键字:AS,DISTINCT
AS:定义别名。输出的列标题为别名。遵循SAS的命名规则。
DISTINCT:消除重复行。应用于SELECT子句中的所有列。
FROM子句:
功能:选择一个或多个源表或视图
注意:多个表用逗号分隔开
按条件筛选和生成新变量:
PROC SQL;
SELECT empid,jobcode,salary,
salary*.66 AS Bonus
FROM sasuser.payrollmaster
WHERE salary<32000
ORDER BY jobcode DESC, salary,4;/*4代表SELECT中的第4个 Bonus变量*/
QUIT;
链接两个表,并使用不同表中的相同名称变量
PROC SQL;
SELECT salcomps.empid,lastname,
newsals.salary,newsalary
FROM sasuser.salcomps,sasuser.newsals
WHERE salcomps.empid=newsals.empid
ORDER BY lastname;
QUIT;
使用group by 生成汇总数据
PROC SQL;
SELECT membertype,
milestraveled AS TotalMiles
FROM sasuser.frequentflyers
GROUP BY membertype;
QUIT;
以上均生成HTML报表,使用一下代码生成数据集
PROC SQL;
CREATE VIEW work.miles AS
SELECT membertype,
SUM(milestraveled) AS TotalMiles
FROM sasuser.frequentflyers
GROUP BY membertype;
QUIT;