song s-CSDN博客

原创 01

员工表dept_emp:薪水表salaries:求获取所有部门中员工薪水最高的相关信息，给出dept_no, emp_no以及其对应的salary，按照部门编号升序排列。1、错误做法select dept_no,emp_no,max(salary) as maxSalaryfrom(select d.*,s.salary from dept_emp d left join salaries son d.emp_no=s.emp_no) n group by dept_noorder b

2021-03-10 14:43:49 197

原创 16 连接查询

1、连接查询可以实现多个表的查询分为内连接和外连接外连接又分为左连接和右连接2、导入数据表1）、beauty表2）、boys表3、内连接查询两个表中符合条件的共有记录，两个表的交集SELECT g.name,b.boyName FROM beauty gInner join boys b On g.boyfriend_id=b.id ;4、左连接以左表为主根据条件查询右表数据，如果根据条件查询右表数据不存在使用null值填充SELECT g.name,b.boyName

2020-07-05 16:33:40 227

原创 15数据库设计

一.数据库设计1、数据库设计是将数据库中的数据实体及这些数据实体之间的关系,进行规划和结构化的过程.2、设计数据库的步骤1.需求分析阶段:分析客户的业务和数据处理需求.2.概要设计阶段:他主要就是绘制数据库的E-R图.3.详细设计阶段:应用数据库的三大范式进行审核数据库的结构.二、E-R模型1、E表示entry，实体，设计实体就像定义一个类一样，指定从哪些方面描述对象，一个实体转换为数据库中的一个表2、R表示relationship，关系，关系描述两个实体之间的对应规则，关系

2020-06-29 15:02:30 276

原创 statsmodels统计建模分析库（2） --时间序列模型

导入数据import pandas as pdimport numpy as npimport seaborn as sns #热力图import itertools import datetimeimport matplotlib.pyplot as pltimport statsmodels.api as sm from statsmodels.tsa.stattools import adfuller #ADF检验from statsmodels.stats.diagnostic i

2020-06-15 14:25:12 1515

原创 statsmodels统计建模分析库（1） --线性回归模型

import statsmodels.api as sm1、线性回归模型1.1 普通最小二乘#构建数据nsample = 100x = np.linspace(0, 10, 100)X = np.column_stack((x, x**2))beta = np.array([1, 0.1, 10])e = np.random.normal(size=nsample)X = sm.add_constant(X) #加入一列数据全为1y = np.dot(X, beta) + e#

2020-06-15 14:01:32 817

原创 14流程控制结构

一、流程控制结构顺序、分支、循环1.case结构语法：情况1：类似于switchcase 变量或表达式when 值1 then 语句1;when 值2 then 语句2;...else 语句n;end 情况2：case when 条件1 then 语句1;when 条件2 then 语句2;...else 语句n;end 应用在begin end 中或外面2 .if结构语法：if 条件1 then 语句1;elseif 条件2 then 语句2;....

2020-06-13 09:12:21 177

原创 13自定义函数

1、含义：一组预先编译好的SQL语句的集合，理解成批处理语句1、提高代码的重用性2、简化操作3、减少了编译次数并且减少了和数据库服务器的连接次数，提高了效率2、区别：存储过程：可以有0个返回，也可以有多个返回，适合做批量插入、批量更新函数：有且仅有1 个返回，适合做处理数据后返回一个结果3、创建语法CREATE FUNCTION 函数名(参数列表) RETURNS 返回类型BEGIN 函数体END；/*注意：1.参数列表包含两部分：参数名参数类型2.函数体：肯定会有

2020-06-13 09:06:11 155

原创 12存储过程

1、存储过程含义：一组预先编译好的SQL语句的集合，理解成批处理语句1、提高代码的重用性2、简化操作3、减少了编译次数并且减少了和数据库服务器的连接次数，提高了效率2、创建语法CREATE PROCEDURE 存储过程名(参数列表)BEGIN 存储过程体（一组合法的SQL语句）END #注意：/*1、参数列表包含三部分参数模式参数名参数类型举例：in stuname varchar(20)参数模式：in：该参数可以作为输入，也就是该参数需要调用方传入值o

2020-06-13 09:03:16 182

原创 11变量

变量1、系统变量：全局变量会话变量2、自定义变量：用户变量局部变量一、系统变量#1、查看所有系统变量show session variables;show global variables;#2、查看满足条件的部分系统变量show global|【session】 variables like '%char%';#3、查看指定的系统变量的值select @@global|【session】系统变量名;#4、为某个系统变量赋值#方式一：set global|【sess

2020-06-11 21:51:12 139

原创 10视图

视图含义：虚拟表，和普通表一样使用视图与表的区别创建语法的关键字是否实际占用物理空间使用视图create view只是保存了sql逻辑增删改查，只是一般不能增删改表create table保存了数据增删改查#案例：查询姓张的学生名和专业名SELECT stuname,majornameFROM stuinfo sINNER JOIN major m ON s.`majorid`= m.`id`WHERE s.`stuname` LIKE '张%'

2020-06-11 21:43:52 239

原创 09事务

事务：事务由单独单元的一个或多个SQL语句组成，在这个单元中，每个MySQL语句是相互依赖的。而整个单独单元作为一个不可分割的整体，如果单元中某条SQL语句一旦执行失败或产生错误，整个单元将会回滚。所有受到影响的数据将返回到事物开始以前的状态；如果单元中的所有SQL语句均执行成功，则事物被顺利执行。事务中一个或一组sql语句组成一个执行单元，这个执行单元要么全部执行，要么全部不执行。事务的特性：ACID原子性：一个事务不可再分割，要么都执行要么都不执行一致性：一个事务执行会使数据从一个一致状态切

2020-06-10 19:06:55 135

原创 08约束

约束为了保证数据的一致性和完整性，SQL规范以约束的方式对表数据进行额外的条件限制。列级约束只能作用在一个列上，跟在列的定义后面表级约束可以作用在多个列上，不与列一起，而是单独定义1、NOT NULL 约束非空约束用于确保当前列的值不为空值#创建 not null 约束：CREATE TABLE emp(id INT(10) NOT NULL,NAME VARCHAR(20) NOT NULL DEFAULT 'abc',sex CHAR NULL);#增加 not null 约束

2020-06-10 18:57:00 202

原创 07子查询

1、子查询：出现在其他语句中的select语句，称为子查询或内查询外部的查询语句，称为主查询或外查询分类：按子查询出现的位置： select后面：仅仅支持标量子查询 from后面：支持表子查询 where或having后面：★ 标量子查询（单行） √ 列子查询（多行） √ 行子查询 exists后面（相关子查询）表子查询按结果集的行列数不同：标量子查询（结果集只有一行一列）列子查询（结果集只有一列多行）行子查询（结果集有一行多列）

2020-06-09 17:06:02 162

原创 06增删改

use lianxi; #创建表CREATE table beauty(id VARCHAR(30),NAME VARCHAR(30),sex VARCHAR(30) ,borndate date,phone VARCHAR(30),photo VARCHAR(30),boyfriend_id VARCHAR(30));一、插入语句#方式一：经典的插入INSERT INTO beauty(id,NAME,sex,borndate,phone,photo,boyfriend_id)VALUES(

2020-06-09 16:57:34 282

原创 05系统函数

一、字符函数1.length 获取参数值的字节个数SELECT LENGTH('john');2.concat 拼接字符串SELECT CONCAT('Hello', 'World');3.改变大小写SELECT UPPER('john');SELECT LOWER('jOHn');4、截取从指定索引处后面所有字符SELECT SUBSTR('李莫愁爱上了陆展元',7) out_put;5、截取从指定索引处指定字符长度的字符SELECT SUBSTR('李莫愁爱上了陆展元',

2020-06-08 18:47:27 252 1

原创 04表数据统计

use lianxi;show tables;select * from customer; # 表中的所有记录SELECT id, age FROM customer; #选择特定的列#分组函数作用于一组数据，并对一组数据返回一个值SELECT sum(age) FROM customer; #求和SELECT avg(age) FROM customer; #求平均SELECT max(age) FROM customer; #最值SELECT count(*)

2020-06-08 18:41:36 146

原创 03表查询

#CREATE database lianxi; #创建数据库use lianxi; CREATE table customer(id VARCHAR(30),age int,name VARCHAR(30),birthday date); #创建表show tables;insert into customer(id ,age,name,birthday) values('01','18','小马','98-08-28');insert into customer(id ,a

2020-06-08 18:39:49 150

原创 02创建和管理库/表

show databases; #查看 mysql 中有哪些个数据库use jing_dong; #使用数据库#CREATE database 数据库名创建数据库show TABLES; #查看指定的数据库中有哪些数据表CREATE table customer(id VARCHAR(30),age int,name VARCHAR(30),birthday date); #创建表drop table表名 #删除表desc 表名 #查看表结构#一、库的管理#1

2020-06-07 20:57:30 145

原创 01数据库基本概念

数据库的概念1、DB：数据库（database）：存储数据的“仓库”。它保存了一系列有组织的数据。2、DBMS：数据库管理系统（Database Management System）。数据库是通过DBMS创建和操作的容器3、SQL：结构化查询语言（Structure Query Language）：专门用来与数据库通信的语言。SQL语言分类1、DML（Data Manipulation Language):数据操纵语句，用于添加、删除、修改、查询数据库记录，并检查数据完整性2、DDL（Dat

2020-06-07 20:00:54 188

原创语言处理---nltk

1、安装语料库import nltknltk.download()2、分词sentence = "Python is a widely used high-level programming language for general-purpose programming."tokens = nltk.word_tokenize(sentence) # 需要下载punkt分词模型print(tokens)3、词形处理3.1 词干提取(stemming)from nltk.stem.p

2020-05-17 15:21:58 300

原创 matlb---参数估计和假设检验

1、normfit函数求正态总体参数的最大似然估计和置信区间x = [15.14 14.81 15.11 15.26 15.08 15.17 15.12 14.95 15.05 14.87]; % 定义样本观测值向量% 调用normfit函数求正态总体参数的最大似然估计和置信区间% 返回总体均值的最大似然估计muhat和90%置信区间muci，% 还返回总体标准差的最大似然估计sigmahat和90%置信区间sigmaci[muhat,sigmahat,muci,sigma

2020-05-12 16:06:06 575

原创 matlb--数据文件读取与导出

1、importdata函数x = importdata('examp.txt')x.data % 查看读取的数值型数据x.textdata % 查看读取的文本数据2、load函数load examp02_01.txt % 用load函数载入文件examp02_01.txt中的数据load -ascii examp02_01.txt % 用-ascii选项强制以文本文件方式读取数据x1 = load('examp02_02.txt') % 用load函数载入

2020-05-12 15:45:07 291

原创 MATLB--层次分析法

1、层次分析法层次分析法是一种解决多目标的复杂问题的定性与定量相结合的决策分析方法。该方法将定量分析与定性分析结合起来，用决策者的经验判断各衡量目标之间能否实现的标准之间的相对重要程度，并合理地给出每个决策方案的每个标准的权数，利用权数求出各方案的优劣次序。2、应用例题经双方恳谈，已有三个单位表示愿意录用某毕业生。求该毕业生可能选择的单位。3、步骤运用层次分析法建模，大体上可按下面四个步骤进行：3.1建立递阶层次结构模型；最高层：这一层次中只有一个元素，一般它是分析问题的预定目标或理想结果，

2020-05-11 15:38:04 1434

原创 MATLB---方差分析

1、方差分析用数理统计分析试验结果、鉴别各因素对结果影响程度的方法1.1试验结果称为指标可以控制的条件称为因素或因子，因素所处的状态称为水平方差分析一般用的显著性水平是：取α = 0.01，拒绝 H0 ，称因素 A 的影响（或 A各水平的差异）非常显著；取α = 0.01，不拒绝 H0 ，但取α = 0.05 ，拒绝 H0 ，称因素 A 的影响显著；取α = 0.05 ，不拒绝 H...

2020-04-20 16:53:42 366

原创 MATLB----线性规划

1、线性规划线性规划问题是在一组线性约束条件的限制下，求一线性目标函数最大或最小的问题。2、Matlab 中规定线性规划的标准形式min cx Ax<=b;Aeq.x=beq;lb<=x<=ub3、基本函数形式linprog(c,A,b)，它的返回值是向量 x 的值。4、例子4.1、解下列线性规划问题c=[2,3,-5];a=[-2,5,1;1,3...

2020-04-17 19:10:18 218

原创数据爬虫---requests库

1、最基本的GET请求import requestsresponse = requests.get("http://www.baidu.com/")2、发送带header的请求模拟浏览器，欺骗浏览器，获取和浏览器一致的内容。url = "https://www.baidu.com/img/bd_logo1.png?where=super"headers = {'User-Agent'...

2020-04-14 19:56:17 132

原创 MATLB---数据预处理

1、创建数据%*****************产生加噪正弦波信号，绘制加噪波形图*************************t = linspace(0,2*pi,500)'; % 产生一个从0到2*pi的向量，长度为500y = 100*sin(t); % 产生正弦波信号% 产生500行1列的服从N(0,152)分布的随机数，作为噪声信号noise = normrnd(0,...

2020-04-13 19:56:39 321

原创机器学习---k-means聚类

1、聚类算法无监督学习算法，用于将相似的样本自动归到一个类别中。在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中。2、k-means apimodel=sklearn.cluster.KMeans(n_clusters=k)model.fit(x)model.predict(x)model.fit_predict(x)n_clusters:开始的聚类中心数量2.1...

2020-04-10 15:19:07 203

原创机器学习--朴素贝叶斯

1、贝叶斯公式拉普拉斯平滑系数2、apisklearn.naive_bayes.MultinomialNB(alpha=1.0)#alpha是拉普拉斯平滑系数3、伯努利贝叶斯伯努利模型和多项式模型是一致的，BernoulliNB需要比MultinomialNB多定义一个二值化的方法，该方法会接受一个阈值并将输入的特征二值化(1，0).当然也可以直接采用MultinomialNB，但...

2020-04-10 15:17:47 169

原创集成学习与随机森林

1、集成学习将几种机器学习技术组合成一个预测模型的元算法，以达到减小方差、偏差或改进预测的效果。集成学习生成多个分类器，各自独立地学习和作出预测。根据这些预测最后结合成组合预测。from sklearn.ensemble import VotingClassifiervoting_clf = VotingClassifier(estimators=[ ('log_clf', Log...

2020-04-09 17:11:59 141

原创机器学习---决策树

决策树(Decision Tree）是在已知各种情况发生概率的基础上，通过构成决策树来求取净现值的期望值大于等于零的概率，评价项目风险，判断其可行性的决策分析方法，是直观运用概率分析的一种图解法信息熵信息增益以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。基尼值...

2020-04-09 16:25:20 154

原创机器学习----支持向量机（SVM）

1、支持向量机是对线性和非线性数据进行分类的方法。使用一种非线性映射，把原训练数据映射到较高的维上，在新的维上，它搜索最佳分离超平面。使用到足够高维上的、合适的非线性映射，两个类的数据总可以被超平面分开。与其他模型相比，支持向量机不太容易过拟合。2、apifrom sklearn.svm import SVC model = SVC() model.fit(X,y)参数C: 惩罚...

2020-04-08 14:26:43 247

原创机器学习---逻辑回归

逻辑回归apifrom sklearn.linear_model import LogisticRegressionlog_reg = LogisticRegression()log_reg.fit(X_train, y_train)参数：solver可选参数:{‘liblinear’, ‘sag’, ‘saga’,‘newton-cg’, ‘lbfgs’}penalty：正则化的种...

2020-04-07 15:42:46 187

原创机器学习---主成分分析（PCA）

主成分分析是一种统计方法，通过正交变换将一组可能存在相关性的变量转换成一组线性不相关的变量，转换后的这组变量叫主成分。1、PCAsklearn.decomposition.PCApca=PCA(n_components=1)newData=pca.fit_transform(data)n_components: PCA算法中所要保留的主成分个数n，也即保留下来的特征个数n适用于数...

2020-04-06 14:32:09 348

原创机器学习---线性回归

1、线性回归APIfrom sklearn.linear_model import LinearRegressionmodel = LinearRegression()# 使用fit方法进行训练model.fit(x,y)model.coef_ #回归系数model.intercept_ model.predict(x)2、scikit-learn中的MSE和MAEfro...

2020-04-06 14:11:24 141

原创机器学习---常见步骤

1、分割数据集from sklearn.model_selection import train_test_splitX_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=666)2、评估模型2.1 score返回决定系数R^2。越接近1越好model.score(...

2020-04-05 16:29:59 167

原创机器学习 -----KNN算法

k近邻算法（kNN）在特征空间中，如果一个样本附近的k个最近(即特征空间中最邻近)样本的大多数属于某一个类别，则该样本也属于这个类别。1、knn算法APIfrom sklearn.neighbors import KNeighborsClassifier kNN_classifier = KNeighborsClassifier(n_neighbors=6) #定义k值，k=6kNN_...

2020-04-05 15:49:01 196

原创机器学习 --- 特征工程

特征工程特征工程就是一个把原始数据转变成特征的过程，这些特征可以很好的描述这些数据，并且利用它们建立的模型在未知数据上的表现性能可以达到最优（或者接近最佳性能）。从数学的角度来看，特征工程就是人工地去设计输入变量X。主要包括：Feature Selection（特征选择）、Feature Extraction（特征提取）和Feature construction（特征构造）。1、特征选择目...

2020-04-05 15:12:22 215

原创数据分析--部分操作

近日练习了几个数据分析的竞赛题目，其中有部分分析过程一直转不过弯（小白太菜了）。1、将某一列作为索引data =data.set_index('key')2、数据分割（提取日期中的月份）x='2017/1/1 9:05'print(x.split('/')[1])print(x.split('/')[2])print(x.split('/')[2].split(' ')) ##x...

2020-03-28 16:41:44 216

原创机器学习----特征预处理

特征预处理通过一些转换函数将特征数据转换成更加适合算法模型的特征数据的过程。特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到其它的特征。对数据进行标准化或者归一化可解决此类现象from sklearn.preprocessing import StandardScaler, MinMaxScaler, RobustS...

2020-03-16 17:54:52 489

空空如也

空空如也