第20期 学习者手册(SQL)
组队学习流程
1. 开营仪式
截止入群:12月12日 19:30(星期六)
开营仪式:12月12日 21:00(星期六)
本次开营仪式由两部分组成:“B站直播 + 群内组队”。B站直播主要介绍开源内容的整体框架。之后的群内组队,主要流程如下:
- 提前招募的队长或者希望成为队长的学习者先做自我介绍招募队员。
- 学习者自我介绍,大家相互认识,队长和队员自由组队。
- 组队建议5-10人。
- 组队后,由队长在《组队信息汇总表》中登记组队信息。
- 已组队的学习者按照【编号-队名-昵称】修改群名片,学习者编号见《学习者编号汇总表》,以截止入群后提供的数据为准。
- 助教会把《学习者编号汇总表》和《组队信息汇总表》发到学习群中。
自我介绍的模板如下:
- 【坐标】:杭州
- 【专业/职业】:大数据科学
- 【是否愿意作队长】:愿意
- 【兴趣爱好】:分析数据,写代码,打比赛。
- 【目标】:带领队伍坚持下来,和队员们一起学习成长!
提前招募队长的信息,我们会发布到论坛的对应板块中,以方便大家的组队。
2. 学前准备
- 了解学习输出的方式,选择适合自己的一种即可。
- 在CSDN、Github或简书平台上撰写技术博客。
- 在B站进行学习分享的直播。
- 了解通过问卷打卡的方法。在问卷的 “打卡链接” 处粘贴对应任务的技术博客或录播的网址即可,我们会邀请队长一起查看大家的学习分享。
- 按照【编号-队名-昵称】修改群昵称。
- 未按照规则修改群昵称的学习者在第一次打卡时会被清退。
- CSDN、Github、简书、B站等入坑指南自行搜索。
3. 学习过程
- 根据Datawhale提供的学习材料以自学为主。
- 遇到问题在论坛中讨论,这样可把这些问题和解决的方法记录下来,利人利己,方便大家查阅。
- 如何使用论坛:论坛基本功能使用教程
- 如何在论坛高效提问:如何在论坛上高效的提问(提问必看)
4. 结营仪式
- 根据各课程的完成情况来确定结营时间。
- 教辅人员会为本次的优秀学习者、优秀队长颁发相应的证书。
- 完成学习任务的学习者即可获得“结课证书”,并邀请大家进入Datawhale成员群。
- 我们会在Datawhale成员群开展一系列的活动,如读书会、自律计划、WhaleFace、WhalePaper等等,践行“和学习者一起成长”的愿景。
组队学习任务
学习任务正式开始时间:12月14日(星期一)
Task00/01:数据库环境搭建及初步了解(2天)
- 打卡截止:12月15日 23:59
- 开源内容:Task00:绪论 - 环境搭建
- 开源内容:Task01:初识数据库
- 打卡链接:https://shimo.im/forms/uIOovpWUfWcGQqO8/fill 58
- 打卡结果:https://shimo.im/sheets/5bqnrbb4Nvt2vLqy/MODOC/ 39
Task02:基础排序与查询(2天)
- 打卡截止:12月17日23:59
- 开源内容:Task02:基础查询与排序
- 打卡链接:https://shimo.im/forms/JqU7C9BeD1AVAZwz/fill 4
- 打卡结果:https://shimo.im/sheets/913JV77G8DCZWM3E/MODOC/ 5
Task03:复杂一点的查询(3天)
- 打卡截止:12月20日23:59
- 开源内容:Task03:复杂一点的查询
- 打卡链接:https://shimo.im/forms/Wy7JUsMJVuQGogCp/fill 1
- 打卡结果:https://shimo.im/sheets/NJkbE00ODNCr95qR/MODOC/ 2
Task04:集合运算(2天)
- 打卡截止:12月22日23:59
- 开源内容:Task04:集合运算
- 打卡链接:https://shimo.im/forms/6hb4tfvhIFoiDeqX/fill 1
- 打卡结果:https://shimo.im/sheets/m5kv9bbBlnC5PmqX/MODOC/
Task05:SQL高级处理(2天)
- 打卡截止:12月24日23:59
- 开源内容:Task05:SQL高级处理
- 打卡链接:https://shimo.im/forms/RMIUHj9trP0TvOfS/fill 2
- 打卡结果:https://shimo.im/sheets/KrkEVrrxNGSxE2AJ/MODOC/
Task06:综合练习(3天)
- 打卡截止:12月27日23:59
- 开源内容:Task06:综合练习
- 打卡链接:https://shimo.im/forms/HHNGB7xtQpsPZW7H/fill 2
- 打卡结果:https://shimo.im/sheets/B1Aw1yy4ret7Beqm/MODOC/ 2
关于打卡
打卡内容介绍:打卡,即任选CSDN、Github、简书、B站等平台,将自己的学习体会,输出成【学习分享】后,将分享的链接,填至问卷的 “打卡链接” 中相应的位置。
打卡要求:
- 打卡形式不限,可撰写学习笔记,包含自己运行代码;可记录重要知识,记录自己总结的学习体会;可直播分享自己的学习过程。
- 希望能有自己的理解,不要照搬学习文档。
- 每位同学需在打卡截止期前打卡,未按时打卡将会【被抱出群】。
以往优秀打卡示范见以下链接:
- https://mp.weixin.qq.com/s/IOlHIEIQhuIaubTeP4o39w 21
- https://mp.weixin.qq.com/s/wxUVHapEiPUV2LSBbEu5-g 3
- https://mp.weixin.qq.com/s/cXSRcMk_0t8RxSaKb0sHww 2
- https://mp.weixin.qq.com/s/fsT6rzpL5cuzh2usNjzzbA 4
关于教辅人员
- 主持开营和结营仪式。
- 督促大家完成打卡。
- 未打卡人员流出。
- 解答大家学习上的疑问。(但不要做伸手党哦,鼓励大家队内讨论和自行查找答案)
关于队长
- 队长手册:组队学习队长手册
Task01:初识数据库
本章主要对数据库进行基本介绍,考虑易用性及普及度,课程主要使用 MySql
进行介绍。
1.1 初识数据库
数据库是将大量数据保存起来,通过计算机加工而成的可以进行高效访问的数据集合。该数据集合称为数据库(Database,DB)。用来管理数据库的计算机系统称为数据库管理系统(Database Management System,DBMS)。
1.1.1 DBMS的种类
DBMS 主要通过数据的保存格式(数据库的种类)来进行分类,现阶段主要有以下 5 种类型.
-
层次数据库(Hierarchical Database,HDB)
-
关系数据库(Relational Database,RDB)
- Oracle Database:甲骨文公司的RDBMS
- SQL Server:微软公司的RDBMS
- DB2:IBM公司的RDBMS
- PostgreSQL:开源的RDBMS
- MySQL:开源的RDBMS
如上是5种具有代表性的RDBMS,其特点是由行和列组成的二维表来管理数据,这种类型的 DBMS 称为关系数据库管理系统(Relational Database Management System,RDBMS)。
-
面向对象数据库(Object Oriented Database,OODB)
-
XML数据库(XML Database,XMLDB)
-
键值存储系统(Key-Value Store,KVS),举例:MongoDB
本课程将向大家介绍使用 SQL 语言的数据库管理系统,也就是关系数据库管理系统(RDBMS)的操作方法。
1.1.2 RDBMS的常见系统结构
使用 RDBMS 时,最常见的系统结构就是客户端 / 服务器类型(C/S类型)这种结构(图 1-3)
1.2 初识 SQL
数据库中存储的表结构类似于excel中的行和列,在数据库中,行称为记录,它相当于一条记录,列称为字段,它代表了表中存储的数据项目。
行和列交汇的地方称为单元格,一个单元格中只能输入一条记录。
SQL是为操作数据库而开发的语言。国际标准化组织(ISO)为 SQL 制定了相应的标准,以此为基准的SQL 称为标准 SQL。
完全基于标准 SQL 的 RDBMS 很少,通常需要根据不同的 RDBMS 来编写特定的 SQL 语句,原则上,本课程介绍的是标准 SQL 的书写方式。
根据对 RDBMS 赋予的指令种类的不同,SQL 语句可以分为以下三类.
DDL
DDL(Data Definition Language,数据定义语言) 用来创建、删除或者修改存储数据用的数据库以及数据库中的表等对象。DDL 包含以下几种指令。
-
CREATE : 创建数据库和表等对象
-
DROP : 删除数据库和表等对象
-
ALTER : 修改数据库和表等对象的结构DML
DML
DML(Data Manipulation Language,数据操纵语言) 用来查询或者变更表中的记录。DML 包含以下几种指令。
-
SELECT :查询表中的数据
-
INSERT :向表中插入新数据
-
UPDATE :更新表中的数据
-
DELETE :删除表中的数据
DCL
DML(Data Control Language,数据控制语言) 用来确认或者取消对数据库中的数据进行的变更。除此之外,还可以对 RDBMS 的用户是否有权限操作数据库中的对象(数据库表等)进行设定。DCL 包含以下几种指令。
-
COMMIT : 确认对数据库中的数据进行的变更
-
ROLLBACK : 取消对数据库中的数据进行的变更
-
GRANT : 赋予用户操作权限
-
REVOKE : 取消用户的操作权限
实际使用的 SQL 语句当中有 90% 属于 DML,本书同样会以 DML 为中心进行讲解。
1.2.1 SQL的基本书写规则
- SQL语句要以分号( ; )结尾
- SQL 不区分关键字的大小写,但是插入到表中的数据是区分大小写的
- win 系统默认不区分表名及字段名的大小写
- linux / mac 默认严格区分表名及字段名的大小写
* 本教程已统一调整表名及字段名的为小写,以方便初学者学习使用。·· - 常数的书写方式是固定的
‘abc’, 1234, ‘26 Jan 2010’, ‘10/01/26’, ‘2010-01-26’…
- 单词需要用半角空格或者换行来分隔
SQL 语句的单词之间需使用半角空格或换行符来进行分隔,且不能使用全角空格作为单词的分隔符,否则会发生错误,出现无法预期的结果。
请大家认真查阅《附录1 - SQL 语法规范》,养成规范的书写习惯。
1.2.2 数据库的创建( CREATE DATABASE 语句)
语法:
CREATE DATABASE < 数据库名称 > ;
创建本课程使用的数据库
CREATE DATABASE shop;
1.2.3 表的创建( CREATE TABLE 语句)
语法:
CREATE TABLE < 表名 >
( < 列名 1> < 数据类型 > < 该列所需约束 > ,
< 列名 2> < 数据类型 > < 该列所需约束 > ,
< 列名 3> < 数据类型 > < 该列所需约束 > ,
< 列名 4> < 数据类型 > < 该列所需约束 > ,
.
.
.
< 该表的约束 1> , < 该表的约束 2> ,……);
创建本课程用到的商品表
CREATE TABLE product
(product_id CHAR(4) NOT NULL,
product_name VARCHAR(100) NOT NULL,
product_type VARCHAR(32) NOT NULL,
sale_price INTEGER ,
purchase_price INTEGER ,
regist_date DATE ,
PRIMARY KEY (product_id));
1.2.4 命名规则
- 只能使用半角英文字母、数字、下划线(_)作为数据库、表和列的名称
- 名称必须以半角英文字母开头
表1-3 商品表和 product 表列名的对应关系
1.2.5 数据类型的指定
数据库创建的表,所有的列都必须指定数据类型,每一列都不能存储与该列数据类型不符的数据。
四种最基本的数据类型
- INTEGER 型
用来指定存储整数的列的数据类型(数字型),不能存储小数。
- CHAR 型
用来存储定长字符串,当列中存储的字符串长度达不到最大长度的时候,使用半角空格进行补足,由于会浪费存储空间,所以一般不使用。
- VARCHAR 型
用来存储可变长度字符串,定长字符串在字符数未达到最大长度时会用半角空格补足,但可变长字符串不同,即使字符数未达到最大长度,也不会用半角空格补足。
- DATE 型
用来指定存储日期(年月日)的列的数据类型(日期型)。
1.2.6 约束的设置
约束是除了数据类型之外,对列中存储的数据进行限制或者追加条件的功能。
NOT NULL
是非空约束,即该列必须输入数据。
PRIMARY KEY
是主键约束,代表该列是唯一值,可以通过该列取出特定的行的数据。
1.2.7 表的删除和更新
- 删除表的语法:
DROP TABLE < 表名 > ;
- 删除 product 表
需要特别注意的是,删除的表是无法恢复的,只能重新插入,请执行删除操作时要特别谨慎。
DROP TABLE product;
- 添加列的 ALTER TABLE 语句
ALTER TABLE < 表名 > ADD COLUMN < 列的定义 >;
- 添加一列可以存储100位的可变长字符串的 product_name_pinyin 列
ALTER TABLE product ADD COLUMN product_name_pinyin VARCHAR(100);
- 删除列的 ALTER TABLE 语句
ALTER TABLE < 表名 > DROP COLUMN < 列名 >;
- 删除 product_name_pinyin 列
ALTER TABLE product DROP COLUMN product_name_pinyin;
ALTER TABLE 语句和 DROP TABLE 语句一样,执行之后无法恢复。误添的列可以通过 ALTER TABLE 语句删除,或者将表全部删除之后重新再创建。
【扩展内容】
- 清空表内容
TRUNCATE TABLE TABLE_NAME;
优点:相比drop``/``delete
,truncate
用来清除数据时,速度最快。
- 数据的更新
基本语法:
UPDATE <表名>
SET <列名> = <表达式> [, <列名2>=<表达式2>...];
WHERE <条件>; -- 可选,非常重要。
ORDER BY 子句; --可选
LIMIT 子句; --可选
使用 update 时要注意添加 where 条件,否则将会将所有的行按照语句修改
-- 修改所有的注册时间
UPDATE product
SET regist_date = '2009-10-10';
-- 仅修改部分商品的单价
UPDATE product
SET sale_price = sale_price * 10
WHERE product_type = '厨房用具';
使用 UPDATE 也可以将列更新为 NULL(该更新俗称为NULL清空)。此时只需要将赋值表达式右边的值直接写为 NULL 即可。
-- 将商品编号为0008的数据(圆珠笔)的登记日期更新为NULL
UPDATE product
SET regist_date = NULL
WHERE product_id = '0008';
和 INSERT 语句一样, UPDATE 语句也可以将 NULL 作为一个值来使用。
** 但是,只有未设置 NOT NULL 约束和主键约束的列才可以清空为NULL。**如果将设置了上述约束的列更新为 NULL,就会出错,这点与INSERT 语句相同。
多列更新
UPDATE 语句的 SET 子句支持同时将多个列作为更新对象。
-- 基础写法,一条UPDATE语句只更新一列
UPDATE product
SET sale_price = sale_price * 10
WHERE product_type = '厨房用具';
UPDATE product
SET purchase_price = purchase_price / 2
WHERE product_type = '厨房用具';
该写法可以得到正确结果,但是代码较为繁琐。可以采用合并的方法来简化代码。
-- 合并后的写法
UPDATE product
SET sale_price = sale_price * 10,
purchase_price = purchase_price / 2
WHERE product_type = '厨房用具';
需要明确的是,SET 子句中的列不仅可以是两列,还可以是三列或者更多。
1.2.8 向 product 表中插入数据
为了学习 INSERT
语句用法,我们首先创建一个名为 productins 的表,建表语句如下:
CREATE TABLE productins
(product_id CHAR(4) NOT NULL,
product_name VARCHAR(100) NOT NULL,
product_type VARCHAR(32) NOT NULL,
sale_price INTEGER DEFAULT 0,
purchase_price INTEGER ,
regist_date DATE ,
PRIMARY KEY (product_id));
基本语法:
INSERT INTO <表名> (列1, 列2, 列3, ……) VALUES (值1, 值2, 值3, ……);
对表进行全列 INSERT 时,可以省略表名后的列清单。这时 VALUES子句的值会默认按照从左到右的顺序赋给每一列。
-- 包含列清单
INSERT INTO productins (product_id, product_name, product_type, sale_price, purchase_price,regist_date) VALUES ('0005', '高压锅', '厨房用具', 6800, 5000, '2009-01-15');
-- 省略列清单
INSERT INTO productins VALUES ('0005', '高压锅', '厨房用具', 6800, 5000, '2009-01-15');
原则上,执行一次 INSERT 语句会插入一行数据。插入多行时,通常需要循环执行相应次数的 INSERT 语句。其实很多 RDBMS 都支持一次插入多行数据
-- 通常的INSERT
INSERT INTO productins VALUES ('0002', '打孔器', '办公用品', 500, 320, '2009-09-11');
INSERT INTO productins VALUES ('0003', '运动T恤', '衣服', 4000, 2800, NULL);
INSERT INTO productins VALUES ('0004', '菜刀', '厨房用具', 3000, 2800, '2009-09-20');
-- 多行INSERT ( DB2、SQL、SQL Server、 PostgreSQL 和 MySQL多行插入)
INSERT INTO productins VALUES ('0002', '打孔器', '办公用品', 500, 320, '2009-09-11'),
('0003', '运动T恤', '衣服', 4000, 2800, NULL),
('0004', '菜刀', '厨房用具', 3000, 2800, '2009-09-20');
-- Oracle中的多行INSERT
INSERT ALL INTO productins VALUES ('0002', '打孔器', '办公用品', 500, 320, '2009-09-11')
INTO productins VALUES ('0003', '运动T恤', '衣服', 4000, 2800, NULL)
INTO productins VALUES ('0004', '菜刀', '厨房用具', 3000, 2800, '2009-09-20')
SELECT * FROM DUAL;
-- DUAL是Oracle特有(安装时的必选项)的一种临时表A。因此“SELECT *FROM DUAL” 部分也只是临时性的,并没有实际意义。
INSERT 语句中想给某一列赋予 NULL 值时,可以直接在 VALUES子句的值清单中写入 NULL。想要插入 NULL 的列一定不能设置 NOT NULL 约束。
INSERT INTO productins (product_id, product_name, product_type, sale_price, purchase_price, regist_date) VALUES ('0006', '叉子', '厨房用具', 500, NULL, '2009-09-20');
还可以向表中插入默认值(初始值)。可以通过在创建表的CREATE TABLE 语句中设置DEFAULT约束来设定默认值。
CREATE TABLE productins
(product_id CHAR(4) NOT NULL,
(略)
sale_price INTEGER
(略) DEFAULT 0, -- 销售单价的默认值设定为0;
PRIMARY KEY (product_id));
可以使用INSERT … SELECT 语句从其他表复制数据。
-- 将商品表中的数据复制到商品复制表中
INSERT INTO productcopy (product_id, product_name, product_type, sale_price, purchase_price, regist_date)
SELECT product_id, product_name, product_type, sale_price,
purchase_price, regist_date
FROM Product;
- 本课程用表插入数据sql如下:
- DML :插入数据
STARTTRANSACTION;
INSERT INTO product VALUES('0001', 'T恤衫', '衣服', 1000, 500, '2009-09-20');
INSERT INTO product VALUES('0002', '打孔器', '办公用品', 500, 320, '2009-09-11');
INSERT INTO product VALUES('0003', '运动T恤', '衣服', 4000, 2800, NULL);
INSERT INTO product VALUES('0004', '菜刀', '厨房用具', 3000, 2800, '2009-09-20');
INSERT INTO product VALUES('0005', '高压锅', '厨房用具', 6800, 5000, '2009-01-15');
INSERT INTO product VALUES('0006', '叉子', '厨房用具', 500, NULL, '2009-09-20');
INSERT INTO product VALUES('0007', '擦菜板', '厨房用具', 880, 790, '2008-04-28');
INSERT INTO product VALUES('0008', '圆珠笔', '办公用品', 100, NULL, '2009-11-11');
COMMIT;
练习题
1.1
编写一条 CREATE TABLE 语句,用来创建一个包含表 1-A 中所列各项的表 Addressbook (地址簿),并为 regist_no (注册编号)列设置主键约束
表1-A 表 Addressbook (地址簿)中的列
1.2
假设在创建练习1.1中的 Addressbook 表时忘记添加如下一列 postal_code (邮政编码)了,请把此列添加到 Addressbook 表中。
列名 : postal_code
数据类型 :定长字符串类型(长度为 8)
约束 :不能为 NULL
1.3
编写 SQL 语句来删除 Addressbook 表。
1.4
编写 SQL 语句来恢复删除掉的 Addressbook 表。
学习笔记:https://www.jianshu.com/p/7fd3e7e3c611 48
参考笔记:http://datawhale.club/t/topic/477