查找重复值和删除重复值，排序——PROC SORT 过程

最新推荐文章于 2025-01-08 23:49:45 发布

Miya_o00

最新推荐文章于 2025-01-08 23:49:45 发布

阅读量1w

点赞数

分类专栏： SAS技能——认证备考

本文链接：https://blog.csdn.net/weixin_44450031/article/details/106819195

版权

SAS技能——认证备考专栏收录该内容

36 篇文章

订阅专栏

基本格式：

DATA = data-set 对哪个数据集进行排序

OUT = data-set 把排序后的数据输出到指定数据集中，此时原数据依然保留。
如果不加该选项，排序后的数据集将覆盖原有数据集，这样就找不回原数据了

PROC SORT <DATA = data-set> <OUT = data-set> <nouniquekey> <nodupkey>;
    BY <descending> variable-list;
RUN;

选项nouniquekey——输出重复值

PROC SOORT DATA=sasusser.xb nouniquekey out=rep;//把输出的重复值保存到数据集rep中
    BY name gender;
PROC PRINT DATA=rep;
RUN;

选项nodupkey——输出唯一值（删除重复值）

重复值中关于重复的定义：by后面跟的变量是否全部相同

PROC SOORT DATA=sasusser.xb nodupkey out=norep;//把输出的唯一值保存到数据集norep中
    BY name gender;
PROC PRINT DATA=norep;
RUN;

BY语句：

指定排序变量，可以指定多个
descending：表示降序排序，默认按升序排序。
排序遇到缺失值，按最小值处理

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Miya_o00

关注关注

0
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
打赏
打赏
打赏举报

举报

专栏目录

Linux学习总结（60）——Linux系统常用命令速查手册

科技D人生

09-23

1539

一、系统信息 arch#显示机器的处理器架构(1) uname-m#显示机器的处理器架构(2) uname-r#显示正在使用的内核版本 dmidecode-q #显示硬件系统部件-(SMBIOS/DMI) hdparm-i/dev/hda #罗列一个磁盘的架构特性 hdparm-tT/dev/sda #在磁盘上执行测试性读取操作 cat/proc/cpuinfo #显示CPUinfo的信息 cat/proc/interr...

dpdk代码分析——内存初始化

lingshengxiyou的博客

08-19

509

dpdk 是 intel 开发的x86芯片上用于高性能网络处理的基础库，业内比较常用的模式是linux-app模式，即利用该基础库，在用户层空间做数据包处理，有了这个基础库，可以方便地在写应用层的网络包处理高性能程序，目前该库已经开源。...

参与评论您还未登录，请先登录后发表或查看评论

SAS|proc sort(排序)&proc transpose(转置)

WYMei_529

06-22

7614

proc sort排序和proc transpose转置

SAS 中的Order By - Proc Sort

热门推荐

I think so I am

06-10

2万+

1.排序proc sortproc sort在按数据集中某一个变量或几个变量的升序或降序将记录重新排列，并把结果保存在输出数据集中，如果不另外指定输出数据集，则覆盖输入数据集。在data步和proc步某些操作中，当需要用到by语句时，一般都需要源数据集按照by语句中的变量事先排序，这里就需要用到proc sort。(1)语法格式PROC SORT collating-sequence-opti

PROC SORT

weixin_30443075的博客

12-27

1189

PROC SORT DATA=输入数据集 <OUT=输出数据集><选项>; BY 关键变量; RUN; PROC SORT 语法如上，其中在尖括号中的可以不出现，也不会报错。选项中常用的有两种NODUPKEY和NOUNIQUEKEY。功能可以由字面意思帮助记忆，NO-没有，DUP-重复，KEY-关键变量，，，合起来就是数据集中指定的关键变量不...

【SAS BASE】PROC SORT

weixin_30666943的博客

07-24

522

1 PROC SORT DATA=data-set 2 OUT=neat 3 NODUPKEY 4 DUPOUT=extraobs; 5 BY variable-1 variable-2 ... variable-n; 6 RUN; 备注：若不指定OU...

SAS中的排序语句proc sort

yanrui3333的博客

04-08

1万+

SAS中的排序语句proc sort 常用写法适用情况每日一问常用写法 proc sort data=DataBase out=NewDataBase nodupkey; by _all_;run; 适用情况如果可以覆盖原数据集，可以直接省略 out 步 nodupkey 需要和后面的 by 语句一起使用，并且给 by 后面的变量排序后，仅根据by变量剔重如果原数据集已经排序，...

MySQL —— explain 查看执行计划与 MySQL 优化

longool的博客

11-17

2085

可能存在的问题：在 sort_buffer 中，因为是把所有字段都取出，所以有可能取出的数据的总大小超出了 sort_buffer 的容量，导致每次只能去 sort_buffer 容量大小的数据，进行排序（创建 tmp 文件，多路合并），排完再取 sort_buffer 容量大小，再排……索引嵌套循环连接是基于索引进行连接的算法，索引是基于内层表的，通过外层表匹配条件直接与内层表索引进行匹配，避免和内层表的每条记录进行比较，从而利用索引的查询减少了对内层表的匹配次数，优势极大的提升了 join的性能。

应急响应——Windows / Linux 排查笔记

最新发布

未完成的歌~的博客

01-08

793

SSH 登录尝试的日志一般保存在 /var/log/auth.log (Ubuntu/Debian) 或 /var/log/secure (CentOS/RHEL) 文件中。通过这条Web访问日志，我们可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器的情况下访问了你网站的哪个页面，是否访问成功。默认编写的 crontab 文件会保存在（/var/spool/cron/用户名，例如：/var/spool/cron/root）如果某个 IP 的失败尝试次数特别多，可能是在进行暴力破解。

Shell实战——系统巡检

swadian2008的博客

08-25

1186

SAS中的Order By - Proc Sort

weixin_30377461的博客

07-19

917

SAS中的Order By - Proc Sort 1.排序proc sort proc sort在按数据集中某一个变量或几个变量的升序或降序将记录重新排列，并把结果保存在输出数据集中，如果不另外指定输出数据集，则覆盖输入数据集。在data步和proc步某些操作中，当需要用到by语句时，一般都需要源数据集按照by语句中的变量事先排序，这里就需要用到proc sort。 (1)...

SAS 执行proc sort 语句报：磁盘内存不足解决办法

暮雨听轩的专栏

04-02

9356

在执行 proc sort data=test ;by a b;run; 时，test数据集有1150万数据 139个变量，结果执行期间报磁盘不足：解决办法如下： proc sort data= test tagsort sortsize=2000m out=test1(compress=yes); by a b ; run; sortsize= ：用以指定可用最大内存的大小，等号后...

SAS学习（4）——重复数据处理的方法整理

weixin_49282401的博客

10-30

1万+

最近遇到数据中出现重复数据，需要剔除出只出现一次的数据，在讨论过程中发现不止一种方法可以解决问题，在这里将想到的所有方法做一整理，如果有新方法欢迎大家补充。简单编一个示例数据集： data a1; input record_id b1 b2; datalines; 1 2 3 1 1 3 1 2 5 2 3 6 3 2 7 6 7 4 5 3 2 5 8 9 ; run; （1）proc freq 具体代码如下： proc freq data=a1 noprint; table record

SAS中nodup（noduprec刚学的）与nodupkey你会用吗

weixin_56551289的博客

03-27

1369

这俩到底啥区别呢，且从实例走起，之前我脑子里记的是nodupkey按by值去重，只有有by值相同的，就保留一条，nodup去重所有，今天又查了查，大致是这样的意思，但是有新的认识，新的认识，**********************一句话总结，the difference between nodup and nodupkey in proc sort******同时他不能跨行比较（感觉这点特别不好，实际应用中我们肯定是去除所有完全重复的，哪怕你在哪一行，我是不care的）

SAS应用入门学习笔记4

CCH2024的专栏

02-09

2195

SAS应用入门学习笔记

SAS data步的操作技能点_2（去重）

peilin.li

02-25

3043

1、删除主键有重复的行 nodupkey 只要BY主键的值相等，不管其他值是否相等，一律删除 data test3; input id1 $ id2 $ extra ; cards; aa ab 3 aa ab 3 aa ab 2 aa ab 1 ; p...

SAS：查重

weixin_38337955的博客

07-12

386

SAS查找重复记录

SAS数据清洗和加工

Christina

07-25

2719

1.数据合并 1）利用set语句进行纵向合并，用法格式为： data 数据集； set 数据集1（数据集选项）数据集2（数据集选项）…； run; 数据集选项：set 数据集1（in=临时变量1）set数据集2（in=临时变量2）…； set数据集1（rename=（原名1=新名1…））数据集2（rename=（原名1=新名1…））…； ...

SAS数据集-排序-SORT

c573489167的博客

04-14

1万+

SORT语句数据集中的变量进行排序，升序或降序排列，将排序后数据集存放到新的数据集或替换原数据集，通过SORT语句实现。数据集合并或更新，需先进行排序。 PROC SORT OPTIONS; BY [descending] Variables; RUN; 其中OPTIONS包括： DATA 数据集，需排序数据集名称，缺省为最近数据集； OUT 输出数据集名称，排序后将新的数据集需指明输出位置...