Task01:初识数据库与SQL-天池龙珠计划SQL训练营 笔记

本笔记为阿里云天池龙珠计划SQL训练营的学习内容,链接为:https://tianchi.aliyun.com/specials/promotion/aicampsql

笔记:

数据库中存储的表结构类似于excel中的行和列,在数据库中,行称为记录,它相当于一条记录,列称为字段,它代表了表中存储的数据项目。

 

一、以下关于sql的相关操作需要我们在日常操作中熟练运用:

  • DDL

DDL(Data Definition Language,数据定义语言) 用来创建或者删除存储数据用的数据库以及数据库中的表等对象。DDL 包含以下几种指令。

  • CREATE : 创建数据库和表等对象

  • DROP : 删除数据库和表等对象

  • ALTER : 修改数据库和表等对象的结构

  • DML

DML(Data Manipulation Language,数据操纵语言) 用来查询或者变更表中的记录。DML 包含以下几种指令。

  • SELECT :查询表中的数据

  • INSERT :向表中插入新数据

  • UPDATE :更新表中的数据

  • DELETE :删除表中的数据

  • DCL

DCL(Data Control Language,数据控制语言) 用来确认或者取消对数据库中的数据进行的变更。除此之外,还可以对 RDBMS 的用户是否有权限操作数据库中的对象(数据库表等)进行设定。DCL 包含以下几种指令。

  • COMMIT : 确认对数据库中的数据进行的变更

  • ROLLBACK : 取消对数据库中的数据进行的变更

  • GRANT : 赋予用户操作权限

  • REVOKE : 取消用户的操作权限

二、当然,我们也必须知晓SQL的基本书写规则:

  • SQL语句要以分号( ; )结尾
  • SQL 不区分关键字的大小写,但是插入到表中的数据是区分大小写的
  • win 系统默认不区分表名及字段名的大小写
  • linux / mac 默认严格区分表名及字段名的大小写
  • 常数的书写方式是固定的

'abc', 1234, '26 Jan 2010', '10/01/26', '2010-01-26'…

  • 单词需要用半角空格或者换行来分隔

SQL 语句的单词之间需使用半角空格或换行符来进行分隔,且不能使用全角空格作为单词的分隔符,否则会发生错误,出现无法预期的结果。

三、数据库相关内容的创建:

数据库的创建( CREATE DATABASE 语句)

语法:

CREATE DATABASE < 数据库名称 > ;

 

表的创建( CREATE TABLE 语句)

语法:

CREATE TABLE < 表名 >
( < 列名 1> < 数据类型 > < 该列所需约束 > ,
  < 列名 2> < 数据类型 > < 该列所需约束 > ,
  < 列名 3> < 数据类型 > < 该列所需约束 > ,
  < 列名 4> < 数据类型 > < 该列所需约束 > ,
  .
  .
  .
  < 该表的约束 1> , < 该表的约束 2> ,……);

四、数据库中内容的命名规则 

 

  • 只能使用半角英文字母、数字、下划线(_)作为数据库、表和列的名称
  • 名称必须以半角英文字母开头

表1-3 商品表和 product 表列名的对应关系

五、认识不同的数据类型:

数据类型的指定

数据库创建的表,所有的列都必须指定数据类型,每一列都不能存储与该列数据类型不符的数据。

四种最基本的数据类型

  • INTEGER 型

用来指定存储整数的列的数据类型(数字型),不能存储小数。

  • CHAR 型

用来存储定长字符串,当列中存储的字符串长度达不到最大长度的时候,使用半角空格进行补足,由于会浪费存储空间,所以一般不使用。

  • VARCHAR 型

用来存储可变长度字符串,定长字符串在字符数未达到最大长度时会用半角空格补足,但可变长字符串不同,即使字符数未达到最大长度,也不会用半角空格补足。

  • DATE 型

用来指定存储日期(年月日)的列的数据类型(日期型)。

六、设置约束

约束的设置

约束是除了数据类型之外,对列中存储的数据进行限制或者追加条件的功能。

NOT NULL是非空约束,即该列必须输入数据。

PRIMARY KEY是主键约束,代表该列是唯一值,可以通过该列取出特定的行的数据。

 

七、表的删除与更新:

  • 添加列的 ALTER TABLE 语句(这个好像上课的时候没啥印象)
ALTER TABLE < 表名 > ADD COLUMN < 列的定义 >;

 

  • 删除列的 ALTER TABLE 语句(与上面的那一条同理)
ALTER TABLE < 表名 > DROP COLUMN < 列名 >;

ØALTER TABLE 语句和 DROP TABLE 语句一样,执行之后无法恢复。误添的列可以通过 ALTER TABLE 语句删除,或者将表全部删除之后重新再创建。

  • 清空表内容
TRUNCATE TABLE TABLE_NAME;

优点:相比drop``/``deletetruncate用来清除数据时,速度最快。

  • 数据的更新

基本语法:

UPDATE <表名>
SET <列名> = <表达式> [, <列名2>=<表达式2>...];  
WHERE <条件>;  -- 可选,非常重要。
ORDER BY 子句;  --可选
LIMIT 子句; --可选

使用 update 时要注意添加 where 条件,否则将会将所有的行按照语句修改

-- 修改所有的注册时间
UPDATE product
   SET regist_date = '2009-10-10';  
-- 仅修改部分商品的单价
UPDATE product
   SET sale_price = sale_price * 10
 WHERE product_type = '厨房用具';  

通过更新,可以实现NULL清空:

使用 UPDATE 也可以将列更新为 NULL(该更新俗称为NULL清空)。此时只需要将赋值表达式右边的值直接写为 NULL 即可。

-- 将商品编号为0008的数据(圆珠笔)的登记日期更新为NULL  
UPDATE product
   SET regist_date = NULL
 WHERE product_id = '0008';  

和 INSERT 语句一样, UPDATE 语句也可以将 NULL 作为一个值来使用。
**但是,只有未设置 NOT NULL 约束和主键约束的列才可以清空为NULL。**如果将设置了上述约束的列更新为 NULL,就会出错,这点与INSERT 语句相同。(非空约束和主键约束会阻碍NULL清空)

多列更新非常高效,值得记笔记:

多列更新

前一种写法可以得到正确结果,但是代码较为繁琐。可以采用合并的方法来简化代码。

-- 合并后的写法
UPDATE product
   SET sale_price = sale_price * 10,
       purchase_price = purchase_price / 2
 WHERE product_type = '厨房用具';  

 SET 子句中的列不仅可以是两列,还可以是三列或者更多。

八、向 product 表中插入数据

向 product 表中插入数据

为了学习INSERT语句用法,我们首先创建一个名为productins的表,建表语句如下:

CREATE TABLE productins
(product_id    CHAR(4)      NOT NULL,
product_name   VARCHAR(100) NOT NULL,
product_type   VARCHAR(32)  NOT NULL,
sale_price     INTEGER      DEFAULT 0,
purchase_price INTEGER ,
regist_date    DATE ,
PRIMARY KEY (product_id)); 

基本语法:

INSERT INTO <表名> (列1, 列2, 列3, ……) VALUES (值1, 值2, 值3, ……);  

对表进行全列 INSERT 时,可以省略表名后的列清单。这时 VALUES子句的值会默认按照从左到右的顺序赋给每一列。(每一次都输入表名后的列清单会非常麻烦)

-- 包含列清单
INSERT INTO productins (product_id, product_name, product_type, 
sale_price, purchase_price, regist_date) VALUES ('0005', '高压锅', '厨房用具', 6800, 5000, '2009-01-15');
-- 省略列清单
INSERT INTO productins 
VALUES ('0005', '高压锅', '厨房用具', 6800, 5000, '2009-01-15');  

原则上,执行一次 INSERT 语句会插入一行数据。插入多行时,通常需要循环执行相应次数的 INSERT 语句。其实很多 RDBMS 都支持一次插入多行数据

-- 通常的INSERT
INSERT INTO productins VALUES ('0002', '打孔器', 
'办公用品', 500, 320, '2009-09-11');
INSERT INTO productins VALUES ('0003', '运动T恤', 
'衣服', 4000, 2800, NULL);
INSERT INTO productins VALUES ('0004', '菜刀', 
'厨房用具', 3000, 2800, '2009-09-20');
-- 多行INSERT ( DB2、SQL、SQL Server、 PostgreSQL 和 MySQL多行插入)
INSERT INTO productins VALUES ('0002', '打孔器', 
'办公用品', 500, 320, '2009-09-11'),
('0003', '运动T恤', '衣服', 4000, 2800, NULL),
('0004', '菜刀', '厨房用具', 3000, 2800, '2009-09-20');  
-- Oracle中的多行INSERT
INSERT ALL INTO productins VALUES ('0002', '打孔器', '办公用品', 500, 320, '2009-09-11')
INTO productins VALUES ('0003', '运动T恤', '衣服', 4000, 2800, NULL)
INTO productins VALUES ('0004', '菜刀', '厨房用具', 3000, 2800, '2009-09-20')
SELECT * FROM DUAL;  
-- DUAL是Oracle特有(安装时的必选项)的一种临时表A。因此“SELECT *FROM DUAL” 部分也只是临时性的,并没有实际意义。  

INSERT 语句中想给某一列赋予 NULL 值时,可以直接在 VALUES子句的值清单中写入 NULL。想要插入 NULL 的列一定不能设置 NOT NULL 约束。

INSERT INTO productins (product_id, product_name, product_type, 
sale_price, purchase_price, regist_date) VALUES ('0006', '叉子', 
'厨房用具', 500, NULL, '2009-09-20');  

可以向表中插入默认值(初始值)。可以通过在创建表的CREATE TABLE 语句中设置DEFAULT约束来设定默认值。

CREATE TABLE productins
(product_id CHAR(4) NOT NULL,
(略)
sale_price INTEGER
(略)	DEFAULT 0, -- 销售单价的默认值设定为0;
PRIMARY KEY (product_id));  

好了,Task1的笔记就到这里啦,期待下一task的学习。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
以下是一个例子,展示如何使用TAR:SQL Guided Pre-Training来训练数据: 1.准备数据 首先,需要准备一个包含自然语言问题和对应的SQL查询的数据集。例如,以下是一个简单的数据集: | Question | SQL Query | | -------- | --------- | | What is the name of the employee with ID 123? | SELECT name FROM employees WHERE id=123 | | How much did the company earn in 2020? | SELECT SUM(revenue) FROM sales WHERE year=2020 | | Show me the customers who have made at least 3 purchases. | SELECT customer_name FROM sales GROUP BY customer_name HAVING COUNT(*)>=3 | 2.预处理数据 接下来,需要使用TAR:SQL Guided Pre-Training的预处理工具对数据进行处理。以下是一个示例代码: ``` from transformers import AutoTokenizer from tar.preprocessing import SQLDatasetProcessor tokenizer = AutoTokenizer.from_pretrained('microsoft/TAR-1.0-SQL-GPT2') processor = SQLDatasetProcessor(tokenizer=tokenizer) train_data = processor.process(file_path='train_data.csv') dev_data = processor.process(file_path='dev_data.csv') ``` 其中,`train_data.csv`和`dev_data.csv`是包含问题和SQL查询的数据集文件。 3.训练模型 接下来,可以使用TAR:SQL Guided Pre-Training来训练模型。以下是一个示例代码: ``` from transformers import AutoModelForSeq2SeqLM, TrainingArguments, Trainer from tar.configs import SQLConfig from tar.tasks import SQLTask model = AutoModelForSeq2SeqLM.from_pretrained('microsoft/TAR-1.0-SQL-GPT2') config = SQLConfig.from_pretrained('microsoft/TAR-1.0-SQL-GPT2') task = SQLTask(model=model, config=config) training_args = TrainingArguments( output_dir='./results', evaluation_strategy='steps', eval_steps=100, save_total_limit=10, learning_rate=1e-4, per_device_train_batch_size=2, per_device_eval_batch_size=2, num_train_epochs=10, weight_decay=0.01, push_to_hub=False, ) trainer = Trainer( model=task, args=training_args, train_dataset=train_data, eval_dataset=dev_data, ) trainer.train() ``` 此代码将使用TAR:SQL Guided Pre-Training来训练模型,使用训练数据集`train_data`和开发数据集`dev_data`。其中,`TrainingArguments`是训练参数,可以根据需要进行修改。 4.使用模型 最后,可以使用训练好的模型来进行文本到SQL查询的转换。以下是一个示例代码: ``` from transformers import AutoTokenizer from tar.tasks import SQLTask tokenizer = AutoTokenizer.from_pretrained('microsoft/TAR-1.0-SQL-GPT2') model = SQLTask.from_pretrained('results/checkpoint-1000') text = 'What is the name of the employee with ID 123?' inputs = tokenizer(text, return_tensors='pt') outputs = model.generate(inputs['input_ids']) sql_query = tokenizer.decode(outputs[0], skip_special_tokens=True) print(sql_query) ``` 此代码将使用训练好的模型`model`,将自然语言问题`text`转换为对应的SQL查询。结果将打印出来。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值