SQL易混淆知识点
2.limit
select * from table limit 2,1;
//跳过2条取出1条数据,limit后面是从第2条开始读,读取1条信息,即读取第3条数据
select * from table limit 2 offset 1;
//从第1条(不包括)数据开始取出2条数据,limit后面跟的是2条数据,offset后面是从第1条开始读取,即读取第2,3条
select * from table limit 3;
//返回前3行
一个英文字母占一个字节,一个汉字占多少个字节?
GBK编码,一个汉字占两个字节。
UTF-16编码,通常汉字占两个字节,CJKV扩展B区、扩展C区、扩展D区中的汉字占四个字节(一般字符的Unicode范围是U+0000至U+FFFF,而这些扩展部分的范围大于U+20000,因而要用两个UTF-16)。
UTF-8编码是变长编码,通常汉字占三个字节,扩展B区以后的汉字占四个字节。
TCP最主要的特点:
**(1) 1)****TCP是面向连接的运输层协议。**应用进程之间的通信像“打电话”:通话前要先拨号建立连接,通话结束后要挂机释放链接。(A选项,面向连接)
**(2) 2)****每一条TCP连接只能有两个端点(endpoint),**点对点。(B选项,TCP只能提供点对点,不提供多播)
**(3) 3)****TCP提供可靠交付的服务。**无差错、不丢失、不重复,并且按序到达。(C选项)(D选项,TCP提供的是可靠交付,所以TCP首部开销会大;UDP协议只是尽最大努力交付,UDP的首部开销小)
**(4) 4)****TCP提供全双工通信。**双向通信.
(5) 5)****面向字节流。“面向字节流“的含义是:虽然应用程序和TCP的交互是一次一个数据块(大小不等),但TCP把应用程序交下来 的数据仅仅看成是一连串的无结构的字节流 。TCP并不知道所传送的字节流的含义
export: 设置环境变量
echo:查看是否成功
env:显示所有的环境变量
cat:用于连接文件并打印到标准输出设备上(文本输出命令)
set:显示所有本地定义的Shell变量
unset:清除环境变量
数据库事务四大特性:
1、原子性(Atomicity)
原子性是指事务包含的所有操作要么全部成功,要么全部失败回滚,因此事务的操作如果成功就必须要完全应用到数据库,如果操作失败则不能对数据库有任何影响。
2、 一致性(Consistency)
一致性是指事务必须使数据库从一个一致性状态变换到另一个一致性状态,也就是说一个事务执行之前和执行之后都必须处于一致性状态。
拿转账来说,假设用户A和用户B两者的钱加起来一共是5000,那么不管A和B之间如何转账,转几次账,事务结束后两个用户的钱相加起来应该还得是5000,这就是事务的一致性。
3、隔离性(Isolation)
隔离性是当多个用户并发访问数据库时,比如操作同一张表时,数据库为每一个用户开启的事务,不能被其他事务的操作所干扰,多个并发事务之间要相互隔离。
即要达到这么一种效果:对于任意两个并发的事务T1和T2,在事务T1看来,T2要么在T1开始之前就已经结束,要么在T1结束之后才开始,这样每个事务都感觉不到有其他事务在并发地执行。
4、持久性(Durability)
持久性是指一个事务一旦被提交了,那么对数据库中的数据的改变就是永久性的,即便是在数据库系统遇到故障的情况下也不会丢失提交事务的操作
linux的逻辑判断
-a,与
-o,或
!,非
Linux/Unix 的文件调用权限分为三级 : 文件拥有者、群组、其他。利用 chmod 可以藉以控制文件如何被他人所调用。
r 表示可读取,w 表示可写入,x 表示可执行,X 表示只有当该文件是个子目录或者该文件已经被设定过为可执行。
数字分别表示User、Group、及Other的权限。r=4,w=2,x=1若要rwx属性则4+2+1=7;若要rw-属性则4+2=6;若要r-x属性则4+1=5。
生成模型,就是生成(数据的分布)的模型;判别模型,就是判别(数据输出量)的模型。
生成式模型:
朴素贝叶斯
混合高斯模型
隐马尔科夫模型(HMM)
贝叶斯网络
Sigmoid Belief Networks
马尔科夫随机场(Markov Random Fields)
深度信念网络(DBN)
判别式模型:
K近邻(KNN)
线性回归(Linear Regression)
逻辑斯蒂回归(Logistic Regression)
神经网络(NN)
支持向量机(SVM)
高斯过程(Gaussian Process)
条件随机场(CRF)
CART(Classification and Regression Tree)
1、位(bit)
来自英文bit,音译为“比特”,表示二进制位。位是计算机内部数据储存的最小单位,11010100是一个8位二进制数。一个二进制位只可以表示0和1两种状态(21);两个二进制位可以表示00、01、10、11四种(22)状态;三位二进制数可表示八种状态(23)……。
2、字节(byte)
字节来自英文Byte,音译为“拜特”,习惯上用大写的“B”表示。
字节是计算机中数据处理的基本单位。计算机中以字节为单位存储和解释信息,规定一个字节由八个二进制位构成,即1个字节等于8个比特(1Byte=8bit)。八位二进制数最小为00000000,最大为11111111;通常1个字节可以存入一个ASCII码,2个字节可以存放一个汉字国标码。
UTF-8编码:一个英文字符等于一个字节,一个中文(含繁体)等于三个字节。中文标点占三个字节,英文标点占一个字节
Unicode编码:一个英文等于两个字节,一个中文(含繁体)等于两个字节。中文标点占两个字节,英文标点占两个字节
当使用梯度下降法寻求最优解时,很有可能走“之字型”路线(垂直等高线走),从而导致需要迭代很多次才能收敛;在梯度下降进行求解时能较快的收敛。
所以,使用梯度下降法求解最优解的模型,归一化就非常重要!knn,logistc回归,gbdt,xgboost,adaboost
还有一些模型是基于距离的,所以量纲对模型影响较大,就需要归一化数据,处理特征之间的权重问题,这样可以提高计算精度。比如,knn,svm,kmeans,k近邻,主成分分析;
神经网络对数据分布本无要求,但归一化可以加快训练数据;
那么不需要归一化处理的模型,决策树,随机森林。他们因为它们不关心变量的值,而是关心变量的分布和变量之间的条件概率
从使用技术上来分,可以分为四种类型:基于距离的分类方法、决策树分类方法、贝叶斯分类方法和规则归纳方法。基于距离的分类方法主要有最邻近方法;决策树方法有ID3、C4.5、VFDT等;贝叶斯方法包括朴素贝叶斯方法和EM算法;规则归纳方法包括AQ算法、CN2算法和FOIL算法。
引用于知乎专栏(https://zhuanlan.zhihu.com/p/26704628)
统计学习方法的经典研究主题包括:
- 线性回归模型
- 感知机
- k 近邻法
- 朴素贝叶斯法
- 决策树
- Logistic 回归于最大熵模型
- 支持向量机
- 提升方法
- EM 算法
- 隐马尔可夫模型
- 条件随机场