xiaochuan1225-CSDN博客

原创 20160527 数据分析与SAS9 对考生成绩进行频率分析

利用分析家模块对第19名考生的成绩进行频率分析检查各科分数的频率分布：1 在分析家模块打开成绩数据集test0527_12 统计--描述性统计--频数统计--除了序号全选为input是指分析变量的显示顺序：无格式、格式化取值、在数据集中的顺序、频率降序plot是指设置条形图参数：水平显示、垂直显示table是指设置输出频率：输出频数频数百分比及累积、频数累积频数、频数及百分比、

2016-05-27 17:02:10 642

原创 20160527 数据分析与SAS8 数据转置

使用分析家模块对数据集进行行列转换：打开数据集test0527--数据--转置--左侧变量列表中选择全部--transpose--OK

2016-05-27 16:35:18 490

原创 20160527 数据分析与SAS7 筛选数据集

使用分析家模块进行数据集的筛选：分析家模块--打开数据集test0527--设置为数据集编辑模式--菜单栏中数据--过滤--取数据子集--选择体重列D--Operators选择GE 左侧选择constant enter value----constant为50 表示选出体重大于50的数据若要恢复原数据集，则数据--过滤--无

2016-05-27 16:24:55 1154

原创 20160527 数据分析与SAS6 新建逻辑库与数据集

1 新建逻辑库SAS资源管理器窗口下点击工具栏中的新建逻辑库按钮--名称为mylib 引擎为默认选中启动时启用路径为逻辑库的物理地址C:\mylib-建库完毕2 新建数据集（方法一）视图-资源管理器-右击mylib选择新建-能够创建目录、查询、表-选择表，可以在表中保存数据新建数据集（方法二）使用分析家模块建立数据集左上角命令行中输入analyst

2016-05-27 16:11:16 784

原创 20160527 数据分析与SAS5 对数据集中的数据进行排序

1菜单栏中：解决方案-分析-实验设计-分析家模块但是9.2似乎没有分析家模块，在左上角命令行中输入analyst可以调出这个模块 2打开文件-刚才新建的数据集（browse为数据集浏览状态）菜单栏中：将当前数据集状态更改为可以编辑编辑-mode-编辑模式 3调出排序对话框：菜单栏中：数据-排序可将左侧的变量指定为排序变量sort by,可以对sort by中

2016-05-27 15:13:54 630

原创 20160526 数据分析与SAS4 用于绘图的程序步GCHART（统计图）与GPLOT（散点图）

一、GCHART统计图绘制data mydb..ht;infile 'C:\mydb\test2.txt';input x @@;proc gchart data=mydb.ht;vbar x/levels=4;run;

2016-05-26 16:24:50 1310

原创 20160526 数据分析与SAS3 简单实例

实例1

2016-05-26 11:13:18 1072

原创 20160525 数据分析与SAS2 逻辑库

1 逻辑库是指SAS的数据库，就是硬盘里的一个目录，表就是目录中的一个文件，目录中的表叫做数据集，这些表直接用记事本打开就是二进制码。2 如何建逻辑库： libname mydb 'C:\mydb'; F8或点击运行3 word逻辑库是临时库4 SAS的变量就是列今天终于装成功了，开心~

2016-05-25 17:32:34 326

原创 20160524 数据分析与SAS1 数据模型

今天开始看视频来学习SAS，在这里记录看视频的一些心得与笔记：数据模型共六层： 3统计分析、查询，观察数据状态，如通过平均值、方差、count（）、排序等。 2数据仓库层，存放准备用来进行数据分析的数据，数据仓库产品需要支持：OLTP（联机事务处理）指零散的在数据库中进行查询等，要求OLAP（联机分

2016-05-24 10:12:44 500

原创 20160512 GreenPlum13 查询自己建的表名

select * from pg_tables where schemaname = 'yb_user' order by tablename;

2016-05-12 16:33:43 2310

原创 20160512 GreenPlum12 字段类型变更

可以将工资由numeric转换成varchar类型，最好另起一张表：create table lianxi3 as select 部门,number,工资::varchar from lianxi distributed by(number);

2016-05-12 10:46:15 6842

原创 20160512 GreenPlum11 分布式的关联

分布式的关联有两种方式：单库关联和跨库关联单库关联指的是关联健和分布键一样，直接关联就行，不需要数据迁移跨库关联指的是关联键和分布健不一样，数据得先重分布后再进行单库关联，跨库关联有两个办法，例如inner join时，#select * from A,B where A.id=B.id' 其中A的关联键是分布键但是B的关联键不是分布键： 1 ：将B按照i

2016-05-12 10:25:01 915

原创 20160512 GreenPlum10 SharedNothing架构、数据迁移

SharedNothing架构的特点是：底层数据完全不共享，每个Segment只有一部分数据，每一个节点都通过网络连接在一起。也就是各个处理单元都有自己独立的CPU、内存、硬盘，不存在共享资源，类似于MPP大规模并行处理模式，各节点独立处理自己的数据，处理完在上层进行汇总。数据迁移：两张表进行关联时，如果关联的数据不在一个节点上，是关联不上的，需要将数据汇入一个节点上才能关联

2016-05-12 10:11:36 431

原创 20160511 GreenPlum9 索引

建立索引可以提高查询的速度：普通查询：# create table lianxi2 as select * from lianxi1 distributed by(id);# select id,flag from lianxi2 where id=100; 索引查询：# create index lianxi2_index on lianxi2(id);#

2016-05-11 17:15:56 340

原创 20160511 GreenPlum8 数据倾斜对数据的影响

测试数据为： #drop table lianxi1; #create table lianxi1 as select a as id,round(random()) as flag,repeat('a',1024) as value from generate_series(1,5000000) a distributed by(id);

2016-05-11 17:05:10 838

原创 20160511 GreenPlum7 分区表

第一遍看书没太理解分区表，不知道是什么，暂且先这样记吧：这是在不同segment上数据的分布情况：#select gp_segment_id,* from lianxi;91 发展部 11 520090 发展部 10 520038 发展部 9 450043 销售部 4 480046 销售部 1 500040 发展部 7 420039 发展部 8 600044

2016-05-11 14:13:05 448

原创 20160511 GreenPlum6 分析函数之开窗函数、聚合函数与grouping sets用法

1 开窗函数测试数据为：部门 number 工资发展部 8 6000 发展部 10 5200 销售部 1 5000 销售部

2016-05-11 13:41:50 3512 1

原创 20160510 GreenPlum5 常用函数

1 序列生成函数生成多行数据 #select * from generate_series(6,10); ---6 7 8 9 10 可以创建测试表数据，很方便 #create table xh as select generate_series(1,100) as id,'erlonglong'::text as n

2016-05-10 14:28:15 1272

原创 20160510 GreenPlum4 SQL中求和相关语句的总结

2016-05-10 10:18:15 1561

原创 20160509 GreenPlum3 基本语法

1 复制他表的结构,不指定分布健那么默认分布健和xh1一样 #create table xh(like xh1);2

2016-05-09 17:05:43 1457

原创 20160509 GreenPlum2 使用及解答

1 登录GP：通过图形界面的GUI，pgAdmin III。 2 数据分布：Master节点本身不存储数据，所有的数据拆分保存到每一个节点上分布方式有两种：指定分布健时，按照分布健的Hash值分布数据为哈希分布，计算Hash值，通过这个值路由到特定的Segment节点，语法为distributed by，如果

2016-05-09 16:57:13 233

原创 20160509 GreenPlum1 简介

1 数据管理解决方案：Teradate、GreenPlum、Hadoop Hive、Oracle Exadate、IBM Netteza等 2 使用GP的公司：纳斯达克、纽约证券交易所、Skype.FOX 、T-Mobile，中国的企业有：中信实业银行、东方航空公司、阿里巴巴、华泰保险、中国远洋 3 数据库类型： OLTP（On-Li

2016-05-09 15:57:38 352

原创 20160509 EXCELL学习1

1 使用拆分条冻结窗口冻结行：选择A1-箭头变为等号与双向箭头时冻结第一行-视图-冻结窗格-冻结拆分窗格冻结列：同行 2 如何一次插入多行想插入几行，就想下选中几行 3 将多行数据插入到多行数据中直接拖动会替换，按住shift再拖动 4 批量隔行插入标题行创建辅助列-另起一列选前两格左对角线标1-选中这两格下拉则呈22334

2016-05-09 15:50:17 302 1

xiaochuan1225的博客