第一次完整完成一个项目,磕磕绊绊,就此梳理一下
一、原始数据概览
将数据导入navicat,创建一个练习表,设置字段名及类型
1、原始数据字段名称及类型
2、导入原始数据
导入结果如图
二、数据处理
1、添加新字段(日期列、销售额、天)
ALTER TABLE 练习表
ADD COLUMN dates DATE;
ALTER TABLE 练习表
ADD COLUMN 销售额 float;
ALTER TABLE 练习表
ADD COLUMN DAY varchar(2);
给新加列插入数据
update 练习表
set dates=substring(update_time,1,10)
update 练习表
set 销售额=price*sale_count
update 练习表
set DAY=substring(dates,9,10)
select * from 练习表 limit 10
结果如下
2、缺失值处理
select *
from 练习表
where update_time is NULL
or id is NULL
or title is NULL
or price is NULL
or sale_count is NULL
or comment_count is NULL
or 店名 is NULL
此时显示有2354条缺失值的
将有缺失值的都替换为0
UPDATE 练习表 set sale_count=0 WHERE sale_count is null
UPDATE 练习表 set comment_count=0 WHERE comment_count is null
3、重复值处理
SELECT update_time, id, title, COUNT(*) AS count
FROM 练习表
GROUP BY update_time, id, title
HAVING count(*) > 1
运行结果