- 博客(23)
- 收藏
- 关注
原创 20160527 数据分析与SAS9 对考生成绩进行频率分析
利用分析家模块对第19名考生的成绩进行频率分析检查各科分数的频率分布:1 在分析家模块打开成绩数据集test0527_12 统计--描述性统计--频数统计--除了序号全选为input是指分析变量的显示顺序:无格式、格式化取值、在数据集中的顺序、频率降序plot是指设置条形图参数:水平显示、垂直显示table是指设置输出频率:输出频数频数百分比及累积、频数累积频数、频数及百分比、
2016-05-27 17:02:10 642
原创 20160527 数据分析与SAS8 数据转置
使用分析家模块对数据集进行行列转换:打开数据集test0527--数据--转置--左侧变量列表中选择全部--transpose--OK
2016-05-27 16:35:18 490
原创 20160527 数据分析与SAS7 筛选数据集
使用分析家模块进行数据集的筛选:分析家模块--打开数据集test0527--设置为数据集编辑模式--菜单栏中数据--过滤--取数据子集--选择体重列D--Operators选择GE 左侧选择constant enter value----constant为50 表示选出体重大于50的数据若要恢复原数据集,则数据--过滤--无
2016-05-27 16:24:55 1154
原创 20160527 数据分析与SAS6 新建逻辑库与数据集
1 新建逻辑库SAS资源管理器窗口下点击工具栏中的新建逻辑库按钮--名称为mylib 引擎为默认 选中启动时启用 路径为逻辑库的物理地址C:\mylib-建库完毕2 新建数据集(方法一)视图-资源管理器-右击mylib选择新建-能够创建目录、查询、表-选择表,可以在表中保存数据 新建数据集(方法二) 使用分析家模块建立数据集左上角命令行中输入analyst
2016-05-27 16:11:16 784
原创 20160527 数据分析与SAS5 对数据集中的数据进行排序
1菜单栏中:解决方案-分析-实验设计-分析家模块但是9.2似乎没有分析家模块,在左上角命令行中输入analyst可以调出这个模块 2打开文件-刚才新建的数据集(browse为数据集浏览状态)菜单栏中:将当前数据集状态更改为可以编辑编辑-mode-编辑模式 3调出排序对话框:菜单栏中:数据-排序可将左侧的变量指定为排序变量sort by,可以对sort by中
2016-05-27 15:13:54 630
原创 20160526 数据分析与SAS4 用于绘图的程序步GCHART(统计图)与GPLOT(散点图)
一、GCHART统计图绘制data mydb..ht;infile 'C:\mydb\test2.txt';input x @@;proc gchart data=mydb.ht;vbar x/levels=4;run;
2016-05-26 16:24:50 1310
原创 20160525 数据分析与SAS2 逻辑库
1 逻辑库是指SAS的数据库,就是硬盘里的一个目录,表就是目录中的一个文件,目录中的表叫做数据集,这些表直接用记事本打开就是二进制码。2 如何建逻辑库: libname mydb 'C:\mydb'; F8或点击运行3 word逻辑库是临时库4 SAS的变量就是列今天终于装成功了,开心~
2016-05-25 17:32:34 326
原创 20160524 数据分析与SAS1 数据模型
今天开始看视频来学习SAS,在这里记录看视频的一些心得与笔记:数据模型共六层: 3统计分析、查询,观察数据状态,如通过平均值、方差、count()、排序等。 2数据仓库层,存放准备用来进行数据分析的数据,数据仓库产品需要支持:OLTP(联机事务处理)指零散的在数据库中进行查询等,要求OLAP(联机分
2016-05-24 10:12:44 500
原创 20160512 GreenPlum13 查询自己建的表名
select * from pg_tables where schemaname = 'yb_user' order by tablename;
2016-05-12 16:33:43 2310
原创 20160512 GreenPlum12 字段类型变更
可以将工资由numeric转换成varchar类型,最好另起一张表:create table lianxi3 as select 部门,number,工资::varchar from lianxi distributed by(number);
2016-05-12 10:46:15 6842
原创 20160512 GreenPlum11 分布式的关联
分布式的关联有两种方式:单库关联和跨库关联单库关联指的是关联健和分布键一样,直接关联就行,不需要数据迁移跨库关联指的是关联键和分布健不一样,数据得先重分布后再进行单库关联,跨库关联有两个办法,例如inner join时,#select * from A,B where A.id=B.id' 其中A的关联键是分布键但是B的关联键不是分布键: 1 :将B按照i
2016-05-12 10:25:01 915
原创 20160512 GreenPlum10 SharedNothing架构、数据迁移
SharedNothing架构的特点是:底层数据完全不共享,每个Segment只有一部分数据,每一个节点都通过网络连接在一起。也就是各个处理单元都有自己独立的CPU、内存、硬盘,不存在共享资源,类似于MPP大规模并行处理模式,各节点独立处理自己的数据,处理完在上层进行汇总。 数据迁移:两张表进行关联时,如果关联的数据不在一个节点上,是关联不上的,需要将数据汇入一个节点上才能关联
2016-05-12 10:11:36 431
原创 20160511 GreenPlum9 索引
建立索引可以提高查询的速度: 普通查询:# create table lianxi2 as select * from lianxi1 distributed by(id);# select id,flag from lianxi2 where id=100; 索引查询:# create index lianxi2_index on lianxi2(id);#
2016-05-11 17:15:56 340
原创 20160511 GreenPlum8 数据倾斜对数据的影响
测试数据为: #drop table lianxi1; #create table lianxi1 as select a as id,round(random()) as flag,repeat('a',1024) as value from generate_series(1,5000000) a distributed by(id);
2016-05-11 17:05:10 838
原创 20160511 GreenPlum7 分区表
第一遍看书没太理解分区表,不知道是什么,暂且先这样记吧:这是在不同segment上数据的分布情况:#select gp_segment_id,* from lianxi;91 发展部 11 520090 发展部 10 520038 发展部 9 450043 销售部 4 480046 销售部 1 500040 发展部 7 420039 发展部 8 600044
2016-05-11 14:13:05 448
原创 20160511 GreenPlum6 分析函数之开窗函数、聚合函数与grouping sets用法
1 开窗函数 测试数据为: 部门 number 工资 发展部 8 6000 发展部 10 5200 销售部 1 5000 销售部
2016-05-11 13:41:50 3512 1
原创 20160510 GreenPlum5 常用函数
1 序列生成函数 生成多行数据 #select * from generate_series(6,10); ---6 7 8 9 10 可以创建测试表数据,很方便 #create table xh as select generate_series(1,100) as id,'erlonglong'::text as n
2016-05-10 14:28:15 1272
原创 20160509 GreenPlum3 基本语法
1 复制他表的结构,不指定分布健那么默认分布健和xh1一样 #create table xh(like xh1);2
2016-05-09 17:05:43 1457
原创 20160509 GreenPlum2 使用及解答
1 登录GP:通过图形界面的GUI,pgAdmin III。 2 数据分布:Master节点本身不存储数据,所有的数据拆分保存到每一个节点上 分布方式有两种: 指定分布健时,按照分布健的Hash值分布数据为哈希分布,计算Hash值,通过这个值路由到特定的Segment节点,语法为distributed by,如果
2016-05-09 16:57:13 233
原创 20160509 GreenPlum1 简介
1 数据管理解决方案:Teradate、GreenPlum、Hadoop Hive、Oracle Exadate、IBM Netteza等 2 使用GP的公司:纳斯达克、纽约证券交易所、Skype.FOX 、T-Mobile,中国的企业有:中信实业银行、东方航空公司、阿里巴巴、华泰保险、中国远洋 3 数据库类型: OLTP(On-Li
2016-05-09 15:57:38 352
原创 20160509 EXCELL学习1
1 使用拆分条冻结窗口 冻结行:选择A1-箭头变为等号与双向箭头时冻结第一行-视图-冻结窗格-冻结拆分窗格 冻结列:同行 2 如何一次插入多行 想插入几行,就想下选中几行 3 将多行数据插入到多行数据中 直接拖动会替换,按住shift再拖动 4 批量隔行插入标题行 创建辅助列-另起一列选前两格左对角线标1-选中这两格下拉则呈22334
2016-05-09 15:50:17 302 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人