- 博客(34)
- 收藏
- 关注
原创 EM算法
应用EM算法有很多的应用,最广泛的就是GMM混合高斯模型、聚类、HMM等等EM算法Jensen不等式:设f是定义域为实数的函数,如果对于所有的实数x。如果对于所有的实数x,f(x)的二次导数大于等于0,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的,那么f是凸函数。如果只大于0,不等于0,那么称f是严格凸函数。Jensen不等式表述如下:如果f是凸函数,X是随机变量,那么:E[f(X)]>=f(E[X]),特别地,如果f是严格凸函数,当且仅当X是常量时,上式取等号。
2021-04-20 04:39:33 240
原创 聚类
分类K-means均值聚类层次聚类谱聚类层次聚类凝聚:AGNES分裂:DIANADBSCANDBSCAN以一个从未访问过的任意起始数据点开始。这个点的邻域是用距离ε(所有在ε距离的点都是邻点)来提取的。如果在这个邻域中有足够数量的点(根据 minPoints),那么聚类过程就开始了,并且当前的数据点成为新聚类中的第一个点。否则,该点将被标记为噪声(稍后这个噪声点可能会成为聚类的一部分)在这两种情况下,这一点都被标记为访问,允许存在噪声DBSCAN比其他聚类算法有一些优势。首先,它不需要一个
2021-04-13 17:15:12 182
原创 机器学习-SVM
SVM基本概念支持向量机(support vector machines,SVM)是一种二分类模型,它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。SVM 适合中小型数据样本、非线性、高维的分类问题。分类线性可分支持向量机SVM 将会寻找可以区分两个类别并且能使间隔(margin)最大的划分超平面。比较好的划分超平面,样本局部扰动时对它的影响最小、产生的分类结果最鲁棒、对未见示例的泛化能力最强
2021-04-06 04:26:47 223
原创 数据预处理
极端值处理KNN 决策树 对极端值不敏感可视化检验例如:信用卡额度过高,持卡人年龄过大缺失值处理完全随机随机完全非随机提升算法伪残差,拟合残差正则项决策树的复杂度可考虑叶节点数和叶权值超参数GBDTGBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。这就是Gradient Boosting在GBDT中的意义,GBDT可以用更少的feature,且避免过拟合。Boosting的最大好处在于,每一步的残差计算其实变相地增大了分错
2021-04-05 21:33:47 238
原创 决策树和随机森林
决策树条件熵信息增益信息增益比基尼指数经典算法决策树是一种基本的分类与回归方法,学习通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝条件熵H(X,Y)-H(X)信息增益和条件熵决策树容易发生过拟合,对于未测试数据的泛化能力较弱,剪枝和随机森林:极小化决策树整体的损失函数剪枝:父结点变成新的叶结点随机森林:信息增益使用信息增益选择特征的算法称为C3算法信息增益比特征A对训练数据集D的信息增益比gR(D, A)定义为其信息增益g(D, A)与训练集D的经验熵之比基尼指数基尼指数是
2021-03-23 02:46:23 128
原创 机器学习之线性回归
线性回归预测损失函数sklearn均方误差过拟合和欠拟合模型的保存和加载逻辑回归logisticRegressionUML 图表FLowchart流程图导出与导入导出导入损失函数最小二乘法梯度下降法sklearn封装好但有些过程看不到,参数在内部数据量大用SGD梯度下降均方误差mean_squared_error过拟合和欠拟合1.欠拟合在训练集和验证集表现都不好模型过于简单,增加数据特征2.过拟合在训练集表现好但验证集表现不好原因:特征过多;存在嘈杂特征,模型过于复杂解决:进
2020-12-20 17:10:03 85
原创 决策树和随机森林
决策树信息论基础 比特32支球队猜冠军信息熵信息增益得知一个特征后,减少的信息熵的大小ID3 C4.5 CART 基尼系数DecisionTreeClassifier(criterion=’ ',max_depth=None, random_state=None)优点简单的理解和解释 可视化缺点过拟合解决办法减枝随机森林随机森林集成学习方法多个模型进行预测...
2020-12-11 06:28:16 131
原创 机器学习之k近邻算法和朴素贝叶斯
相似的样本,特征之间的值相近!欧式距离,需要进行标准化处理实例:预测入住位置from sklearn.neighbors import KNeighborsClassifierfrom sklearn.preprocessing import StandardScalerfrom sklearn.feature_extraction.text import TfidfVectorizer特征值:row_id, x_y坐标,准确性,时间,目标值:place_id分类问题xy缩小我们用到d
2020-12-10 06:42:32 402
原创 数据降维
数据降维特征选择噪声:对预测结果有影响过滤式:方差 variancethresholddef var(): """ 特征选择-删除低方差的特征 :return: None """ var = VarianceThreshold(threshold=1.0) data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]) print(data) return N
2020-12-08 05:09:12 187
原创 机器学习(1)
Marvin Lee Minsky人工智能 机器学习 深度学习场景:机器写新闻人脸识别智能诊断信贷需求预测,店铺销量预测应用领域:自然语言处理图像识别传统预测框架tensorflow pytorch theano caffe2机器学习概述数据——规律——预测案例:AlphaGo智能客服,ET医疗,智慧城市 减少成本特征工程数据集文件csv,numpy多线程 释放GIL可用数据集1.Kaggle2.UCI :专业3.scikit-learn 数据量小结构组成:
2020-12-07 06:46:49 159
原创 2020-12-04
管理数据库SQLYOGPHPMyadmin数学函数库日期函数字符串函数库条件判断函数IF(EXPR,V1,V2)IFNULL(V1,V2)
2020-12-05 06:14:59 156
原创 MYSQL
排序ORDER BYLIMIT限制显示条数SELECT*FROM cms ORDER BY id DESC LIMIT5;UPDATE cms SET age=age+10 LIMIT 3;连接查询内连接INNER JOIN provinces AS pON u.proId=p.id;外连接LEFT JOINRIGHT JOIN外键保证数据完整性一致性,建立主表和副表的关系。相同的存储引擎,相似的数据类型,数字长度和是否有符号位必须相同。首先先创建索引。FOREIGN KEY(
2020-12-04 06:04:42 168
原创 MYSQL
测试自增长AUTO_INCREMENTCREATE TABLE IF NOT EXISTS user5(id SMALLINT KEY AUTO_INCREMENTusername VARCHAR(20));插入值,默认最大编号加一INSERT user5 VALUES(1,'KING')INSERT user5 VALUES(122,'KING')INSERT user5 VALUES(DEFAULT,'KING')INSERT user5 (username)VALUES('KIN
2020-12-03 05:12:03 130
原创 MYSQL数据库
数据库SQL语句规范数据类型查看引擎注释SQL语句规范help或\h–prompt 修改提示符\D 完整日期\d数据库\u当前用户名\h服务器名称规范:关键字与函数全部大写语句以分隔符结尾数据类型TINYINTSMALLINT()……CHAR()ENUM() 列举查看引擎SHOW ENGINES注释–编码方式 SET NAMES GBK...
2020-12-02 06:50:03 111
原创 时间序列(pandas)
1.时间序列的生成pd.date_range(start=“20201125”,periods=10,freq=“M”)注意索引词:periods 和 freq!!!import pandas as pdimport numpy as npdf2=pd.date_range(start="20201125",periods=10,freq="M")print(df2)C:\Users\zxh\Anaconda3\python.exe D:/PycharmProjects/MyTest/da
2020-11-26 06:50:41 113
原创 数据的合并与分组聚合
import pandas as pdimport numpy as npdf1=pd.DataFrame(np.ones(2,4),index=["A","B"],columns=list("abcd"))合并1.joindf1.join(df2)df2.join(df1)2.mergedf1.merge(df3,on=“a”)how=“inner/outer/left/right”分组聚合df=pd.read_csv()print(head(1))print(info())
2020-11-24 08:44:24 99
原创 Pandas的使用
字符串,时间序列data analysis toolseries一维,带标签的数组DataframeSeries的创建import pandas as pdpd.Series([ ])import pandas as pdt=pd.Series([1,2,31,12,3,4],index=list("abcdef"))print(t)print(type(t))#字典方法dic={"name":"zxh","age":"20","tel":"188"}t2=pd.Ser
2020-11-20 04:19:11 101
原创 numpy
数组创建np.array([1,2,3,])np.array(range(10))np.arange(10)输出数据类型print(t3.dtype)调整数据类型t3.astype(“int8”)保留小数round(random.random(),3)“%.2f”%random.random()数组的形状和计算t1.shape( )np.arange(24).reshape((2,3,4))两块,每块三个数组,每个数组里面四个t5.flatten( )读取本地数据和索引二维
2020-11-19 06:02:16 86
原创 matplotlib常用统计图
绘制散点图plt.scatter( )例,绘制气温散点图from matplotlib import pyplot as pltfrom matplotlib import font_managera = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]b = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,2
2020-11-18 06:27:01 97
原创 机器学习数据科学1
matplotlibx=range(2,26,2)y=[15,13,14,5,17,20,25,26,26,27,22,18]#设置图片大小plt.figure(figsize=(20,8))plt.plot(x,y)#图片保存plt.savefig("./t.png")#x刻度plt.xticks(x)plt.yticks(range(min(y),max(y)+1))plt.show()1.画图像并展示plt.plot()plt.show()2.设置横纵坐标plt.xt
2020-11-16 22:52:46 68
原创 矩阵
SVD奇异值分解A’ A => 奇异值PCA降维,选择特征值最大的维度各方向方差,方差占得比例Vandermonde行列式矩阵模型:状态转移概率只依赖前一个状态马尔科夫概率矩阵,平稳分布状态转移矩阵矩阵和向量乘法矩阵的秩矩阵等价 系数矩阵正交矩阵特征值和特征矩阵对角化正定矩阵,半正定QR分解求特征值向量求导...
2020-11-16 16:12:28 50
原创 机器学习与数学分析
机器学习Machine Learning分类有监督学习无监督学习强化学习实质根据给定数据预测问题建立模型f(xi,theta),建立损失函数L(theta),通过不断学习使损失函数的值不断减小。机器学习的几个方面:模型的选择,损失函数的选择,如何持续学习,调参一般流程数据收集——数据清洗——特征工程——数据建模机器学习方法模型选择EM算法 GMM与图像去均值ICA分析,带噪声的信号分离crawler爬取数据HMM分词,LDA主题分布...
2020-11-14 05:53:32 61
原创 shell程序
shell脚本程序:批量的linux命令集合可用任何文本编辑器编写,shell脚本通常以.sh为后缀名bash或shbin/bash1.变量名Last login: Wed Nov 11 09:42:42 2020 from 192.168.226.1[root@zxh ~]# name='zxh'[root@zxh ~]# echo namename[root@zxh ~]# echo ${name}zxh变量分环境变量,全局变量环境变量变全局:export+xx#!/bin
2020-11-13 03:53:49 67
原创 Linux系统管理
linux系统管理查看服务器情况unameuname -rcat /proc/cpuinfo#uname -r2.6.32-573.el6.x86_64[root@zxh ~]# cat /proc/cpuinfoprocessor : 0vendor_id : GenuineIntelcpu family : 6model : 142model name : Intel(R) Core(TM) i7-7500U CPU @ 2.70GHzstepping : 9microco
2020-11-11 18:06:28 60
原创 Linux基本命令
用户和组创建用户的时候,给我们分配一个用户组文件linux系统的文件类型:*文件 -*目录 d(文件夹)*连接 l文件权限-rw-rw-r–-表示文件类型,后面分为三组,表示文件权限1.文件权限分为:可读r,可写w,可执行xp.s. r=4 w=2 x=1 有时也可以用数字表示文件的归属:拥有者,组,其他人2.权限设置更改chmod g-w filenamechmod o-w filename或者用数字 chmod 664p.s.寻求帮助的命令: man+命令文件拷贝#
2020-11-11 08:06:30 42
原创 linux安装配置与基本命令
Linux基本环境大数据部署的系统虚拟化工具Linux系统命令Linux系统自动获取IP地址Linux基本命令远程连接工具(类比远程桌面连接)主机名与IP地址的映射大数据部署的系统支持Debian, Redhat, sles, ubuntu四种大数据部署的系统,企业中使用最多的是Redhat(CenOs)虚拟化工具1.安装VMWare虚拟机2.创建虚拟机3.CenOs 6.4操作系统4.导入安装好的虚拟机点击启动可打开虚拟机默认管理员用户名root 密码123456注:虚拟机上的系统可
2020-11-10 05:48:59 409 1
原创 opencv+python 二值化处理threshold()& adaptivethreshold()
全局阈值# 图像二值化 0白色 1黑色# 全局阈值def threshold_image(image): gray = cv.cvtColor(image, cv.COLOR_BGR2GRAY) cv.imshow("original", gray) ------------------------------------ ret, binary = cv.threshold(gray, 0, 255, cv.THRESH_BINARY | cv.THRESH_OTSU
2020-09-30 13:39:40 421
转载 python中dtype,type,astype的区别
python中dtype,type,astype的区别type()dtype()astype()函数名称用法type返回参数的数据类型dtype返回数组中元素的数据类型astype数据类型转换type()#type用于获取数据类型import numpy as npa=[1,2,3]print(type(a))#>>><class 'list'>b=np.array(a)print(type(b))#>>
2020-09-18 09:43:20 804
原创 OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.
OMP: Error #15: Initializing libiomp5md.dll, but found libiomp5md.dll already initialized.报错添加程序import osos.environ["KMP_DUPLICATE_LIB_OK"]="True"
2020-09-18 08:44:45 939
原创 os的两个函数 os.path.join和listdir
os的两个函数 os.path.join()和os.listdir()path.join路径拼接函数os.listdir()path.join路径拼接函数连接两个或更多的路径名组件1.如果各组件名首字母不包含’/’,则函数会自动加上2.如果有一个组件是一个绝对路径,则在它之前的所有组件均会被舍弃3.如果最后一个组件为空,则生成的路径以一个’/’分隔符结尾import osp1='home'p2='kit_CV'p3='os'path1=p1+p2+p3print(path1)path
2020-09-17 20:10:45 272
原创 argparse 命令行参数解析
argparse 命令行参数解析argparse是一个包,下有argumentparser类,然后通过argparse.ArgumentParser函数生成argparse对象,其中这个函数的description函数表示在命令行显示帮助信息的时候,这个程序的描述信息。之后我们通过对象的add_argument函数来增加参数。后面的default参数表示如果没提供参数,我们默认采用的值。parser = argparse.ArgumentParser(description='Resampling C
2020-09-16 21:16:33 153
转载 fit()函数参数
model.fit()函数参数含义fit( x, y, batch_size=32, epochs=10, verbose=1, callbacks=None,validation_split=0.0, validation_data=None, shuffle=True, class_weight=None, sample_weight=None, initial_epoch=0)x:输入数据。模型只有一个输入,x的类型是numpy array,如果模型有多个输入,那么x的类型应当为list,lis
2020-09-15 08:38:11 14224
原创 fit函数中verbose含义解释
model.fit()中verbose 的含义 dataset = LiverCTDataset(img_folder,transform=composed, verbose = True)verbose本意为冗长的verbose=True/False表示是/否展示详细信息model.fit 中的 verboseverbose:日志显示verbose = 0 为不在标准输出流输出日志信息verbose = 1 为输出进度条记录ver
2020-09-15 08:25:50 3996
原创 SyntaxError: (unicode error) ‘unicodeescape‘ codec can‘t decode bytes in position 2-3: tr
SyntaxError:'unicodeescape'code can't decode bytes in position 2-3:tr方法一:方法二:方法三:方法一:在‘path’前面加r方法二:改为双反斜杠方法三:改用正斜杠
2020-08-30 16:37:36 1218
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人