自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(23)
  • 收藏
  • 关注

原创 20160527 数据分析与SAS9 对考生成绩进行频率分析

利用分析家模块对第19名考生的成绩进行频率分析检查各科分数的频率分布:1 在分析家模块打开成绩数据集test0527_12 统计--描述性统计--频数统计--除了序号全选为input是指分析变量的显示顺序:无格式、格式化取值、在数据集中的顺序、频率降序plot是指设置条形图参数:水平显示、垂直显示table是指设置输出频率:输出频数频数百分比及累积、频数累积频数、频数及百分比、

2016-05-27 17:02:10 642

原创 20160527 数据分析与SAS8 数据转置

使用分析家模块对数据集进行行列转换:打开数据集test0527--数据--转置--左侧变量列表中选择全部--transpose--OK

2016-05-27 16:35:18 490

原创 20160527 数据分析与SAS7 筛选数据集

使用分析家模块进行数据集的筛选:分析家模块--打开数据集test0527--设置为数据集编辑模式--菜单栏中数据--过滤--取数据子集--选择体重列D--Operators选择GE 左侧选择constant enter value----constant为50 表示选出体重大于50的数据若要恢复原数据集,则数据--过滤--无

2016-05-27 16:24:55 1154

原创 20160527 数据分析与SAS6 新建逻辑库与数据集

1 新建逻辑库SAS资源管理器窗口下点击工具栏中的新建逻辑库按钮--名称为mylib 引擎为默认 选中启动时启用 路径为逻辑库的物理地址C:\mylib-建库完毕2 新建数据集(方法一)视图-资源管理器-右击mylib选择新建-能够创建目录、查询、表-选择表,可以在表中保存数据  新建数据集(方法二) 使用分析家模块建立数据集左上角命令行中输入analyst

2016-05-27 16:11:16 784

原创 20160527 数据分析与SAS5 对数据集中的数据进行排序

1菜单栏中:解决方案-分析-实验设计-分析家模块但是9.2似乎没有分析家模块,在左上角命令行中输入analyst可以调出这个模块 2打开文件-刚才新建的数据集(browse为数据集浏览状态)菜单栏中:将当前数据集状态更改为可以编辑编辑-mode-编辑模式 3调出排序对话框:菜单栏中:数据-排序可将左侧的变量指定为排序变量sort by,可以对sort by中

2016-05-27 15:13:54 630

原创 20160526 数据分析与SAS4 用于绘图的程序步GCHART(统计图)与GPLOT(散点图)

一、GCHART统计图绘制data mydb..ht;infile 'C:\mydb\test2.txt';input x @@;proc gchart data=mydb.ht;vbar x/levels=4;run;

2016-05-26 16:24:50 1310

原创 20160526 数据分析与SAS3 简单实例

实例1

2016-05-26 11:13:18 1072

原创 20160525 数据分析与SAS2 逻辑库

1 逻辑库是指SAS的数据库,就是硬盘里的一个目录,表就是目录中的一个文件,目录中的表叫做数据集,这些表直接用记事本打开就是二进制码。2 如何建逻辑库:  libname mydb 'C:\mydb';  F8或点击运行3 word逻辑库是临时库4 SAS的变量就是列今天终于装成功了,开心~

2016-05-25 17:32:34 326

原创 20160524 数据分析与SAS1 数据模型

今天开始看视频来学习SAS,在这里记录看视频的一些心得与笔记:数据模型共六层:                      3统计分析、查询,观察数据状态,如通过平均值、方差、count()、排序等。                    2数据仓库层,存放准备用来进行数据分析的数据,数据仓库产品需要支持:OLTP(联机事务处理)指零散的在数据库中进行查询等,要求OLAP(联机分

2016-05-24 10:12:44 500

原创 20160512 GreenPlum13 查询自己建的表名

select * from pg_tables where schemaname = 'yb_user' order by tablename;

2016-05-12 16:33:43 2310

原创 20160512 GreenPlum12 字段类型变更

可以将工资由numeric转换成varchar类型,最好另起一张表:create table lianxi3 as select 部门,number,工资::varchar from lianxi distributed by(number);

2016-05-12 10:46:15 6842

原创 20160512 GreenPlum11 分布式的关联

分布式的关联有两种方式:单库关联和跨库关联单库关联指的是关联健和分布键一样,直接关联就行,不需要数据迁移跨库关联指的是关联键和分布健不一样,数据得先重分布后再进行单库关联,跨库关联有两个办法,例如inner join时,#select * from A,B where A.id=B.id' 其中A的关联键是分布键但是B的关联键不是分布键:                1 :将B按照i

2016-05-12 10:25:01 915

原创 20160512 GreenPlum10 SharedNothing架构、数据迁移

SharedNothing架构的特点是:底层数据完全不共享,每个Segment只有一部分数据,每一个节点都通过网络连接在一起。也就是各个处理单元都有自己独立的CPU、内存、硬盘,不存在共享资源,类似于MPP大规模并行处理模式,各节点独立处理自己的数据,处理完在上层进行汇总。 数据迁移:两张表进行关联时,如果关联的数据不在一个节点上,是关联不上的,需要将数据汇入一个节点上才能关联

2016-05-12 10:11:36 431

原创 20160511 GreenPlum9 索引

建立索引可以提高查询的速度: 普通查询:# create table lianxi2 as select * from lianxi1 distributed by(id);# select id,flag from lianxi2 where id=100; 索引查询:# create index lianxi2_index on lianxi2(id);#

2016-05-11 17:15:56 340

原创 20160511 GreenPlum8 数据倾斜对数据的影响

测试数据为:   #drop table lianxi1;   #create table lianxi1 as select a as id,round(random()) as flag,repeat('a',1024) as value from generate_series(1,5000000) a distributed by(id);       

2016-05-11 17:05:10 838

原创 20160511 GreenPlum7 分区表

第一遍看书没太理解分区表,不知道是什么,暂且先这样记吧:这是在不同segment上数据的分布情况:#select gp_segment_id,* from lianxi;91 发展部 11 520090 发展部 10 520038 发展部 9 450043 销售部 4 480046 销售部 1 500040 发展部 7 420039 发展部 8 600044

2016-05-11 14:13:05 448

原创 20160511 GreenPlum6 分析函数之开窗函数、聚合函数与grouping sets用法

1 开窗函数   测试数据为:   部门            number           工资    发展部        8                      6000    发展部        10                    5200    销售部        1                      5000    销售部     

2016-05-11 13:41:50 3512 1

原创 20160510 GreenPlum5 常用函数

1 序列生成函数   生成多行数据   #select * from generate_series(6,10);      ---6   7   8   9   10   可以创建测试表数据,很方便   #create table xh as select generate_series(1,100) as id,'erlonglong'::text as n

2016-05-10 14:28:15 1272

原创 20160510 GreenPlum4 SQL中求和相关语句的总结

 

2016-05-10 10:18:15 1561

原创 20160509 GreenPlum3 基本语法

1 复制他表的结构,不指定分布健那么默认分布健和xh1一样    #create table xh(like xh1);2

2016-05-09 17:05:43 1457

原创 20160509 GreenPlum2 使用及解答

1 登录GP:通过图形界面的GUI,pgAdmin III。 2 数据分布:Master节点本身不存储数据,所有的数据拆分保存到每一个节点上   分布方式有两种:                                  指定分布健时,按照分布健的Hash值分布数据为哈希分布,计算Hash值,通过这个值路由到特定的Segment节点,语法为distributed by,如果

2016-05-09 16:57:13 233

原创 20160509 GreenPlum1 简介

1 数据管理解决方案:Teradate、GreenPlum、Hadoop Hive、Oracle Exadate、IBM Netteza等    2 使用GP的公司:纳斯达克、纽约证券交易所、Skype.FOX 、T-Mobile,中国的企业有:中信实业银行、东方航空公司、阿里巴巴、华泰保险、中国远洋     3 数据库类型:                  OLTP(On-Li

2016-05-09 15:57:38 352

原创 20160509 EXCELL学习1

1 使用拆分条冻结窗口   冻结行:选择A1-箭头变为等号与双向箭头时冻结第一行-视图-冻结窗格-冻结拆分窗格   冻结列:同行 2 如何一次插入多行   想插入几行,就想下选中几行 3 将多行数据插入到多行数据中   直接拖动会替换,按住shift再拖动 4 批量隔行插入标题行   创建辅助列-另起一列选前两格左对角线标1-选中这两格下拉则呈22334

2016-05-09 15:50:17 302 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除