机器学习—算法及代码
文章平均质量分 59
SongpingWang
计算机视觉相关--程序语言相关
展开
-
SVM 实现mnist 手写数字图像识别
https://blog.csdn.net/qq_40369926/article/details/97687450原创 2020-07-24 13:57:14 · 8969 阅读 · 8 评论 -
向量与矩阵(点线距离与交点)
一、向量 二、矩阵与线性变换原创 2018-06-11 15:46:30 · 1860 阅读 · 0 评论 -
KNN—Kd树—BBF优化
一、KD树基本解释1.1、基础概念为了优化KNN的计算,使用KD树解决通过距离函数在高维矢量之间进行相似性检索的问题,快速而准确地找到查询点的近邻。索引结构中相似性查询:范围查询:给定查询点和查询距离阈值,从数据集中查找所有与查询点距离小于阈值的数据K近邻查询:给定查询点及正整数K,从数据集中找到距离查询点最近的K个数据,当K=1时,它就是最近邻查询。 &nb...原创 2018-08-02 14:34:34 · 1214 阅读 · 1 评论 -
KNN—数据归一化与参数优化_code
导入自带数据鸢尾花 —— 直接使用 KNN 方法训练GridSearchCV 参数优化 ——使用最佳参数训练对数据标准化(归一化) 并预测开发环境jupyter notebookfrom sklearn import preprocessing #数据标准化函数from sklearn import model_selectio...原创 2018-08-06 17:23:36 · 1525 阅读 · 0 评论 -
DecisionTree-决策树—参数优化_code
from sklearn import treefrom sklearn import model_selectionfrom sklearn.datasets import load_irisfrom sklearn.grid_search import GridSearchCVfrom sklearn.metrics import confusion_matrixfr...原创 2018-08-06 21:39:45 · 3759 阅读 · 1 评论 -
基于OpenCV、随机森林算法实现的图像分类识别系统
1 数据准备2 使用RGB颜色直方图做特征训练分类器2.1 计算RGB颜色直方图2.2 使用随机森林训练分类器2.3 评估随机森林分类器开发环境jupyter notebook import cv2import osimport pickle #持久化import numpy a...原创 2018-08-11 16:27:35 · 11450 阅读 · 6 评论 -
预测Titanic号上的乘客生存概率_04_分类模型评估和验证(ROC-AUC-KS)
1.通过学习曲线诊断偏差和方差数据感知绘制 学习曲线诊断偏差和方差图 运行环境jupyter notebookimport numpy as npimport pandas as pdfrom sklearn.model_selection import learning_curve #学习曲线from sklearn.model_se...原创 2018-09-21 22:43:19 · 1064 阅读 · 0 评论 -
预测Titanic号上的乘客生存概率_03_优化训练集
优化训练集—再次训练import numpy as npimport pandas as pdfrom sklearn import metricsfrom sklearn import model_selectionfrom sklearn.linear_model import LogisticRegressionfrom sklearn.svm import SVC,Linea...原创 2018-09-21 21:32:53 · 435 阅读 · 0 评论 -
预测Titanic号上的乘客生存概率_02_(LR_SVM_KNN_DTree_RF)
1. 导入数据,数据集拆分2. 训练并预测3. 使用其它模型训练import numpy as npimport pandas as pdfrom sklearn.linear_model import LogisticRegressionfrom sklearn import metricsfrom sklearn import model_s...原创 2018-08-05 22:44:33 · 851 阅读 · 0 评论 -
预测Titanic号上的乘客生存概率_01_code
step1: 数据感知step2: 数据清洗step3: 构建模型step4: 模型评估step5: 对新数据进行预测开发环境jupyter notebook import numpy as npimport pandas as pdfrom sklearn.linear_model import LogisticRegression ...原创 2018-09-21 21:28:09 · 433 阅读 · 0 评论 -
pyspark_mllib_classifier—(SVM)
SVM 二分类step1. 构建训练函数(DecisionTree)step2. 模型训练 与 评估step3 不同超参数组合,训练与评估,找到最佳模型step4 保存模型 加载模型-使用开发环境 jupyter notebook本项目基于:pyspark_mllib_classifier—(DecisionTree) 处理好的数据集1、创建p...原创 2018-09-21 22:30:49 · 1075 阅读 · 0 评论 -
pyspark_mllib_classifier—(DecisionTree)
一、创建pysparkSession运行环境二、获取数据集并格式化数据三、特征工程—提取特征四、DecisionTree 二分类step1. 构建训练函数(DecisionTree)step2. 模型训练 与 评估step3 不同超参数组合,训练与评估,找到最佳模型step4 保存模型 加载模型-使用开发环境 jupyter noteboo...原创 2018-08-01 19:20:46 · 1065 阅读 · 0 评论 -
pyspark_mllib_classifier—(LR)
LogisticRegression 二分类 step1. 构建训练函数 step2. 模型训练 与 评估 step3 不同超参数组合,训练与评估,找到最佳模型 step4 保存模型 加载模型-使用...原创 2018-09-21 22:32:41 · 589 阅读 · 0 评论 -
pyspark_ml_pipeline_DecisionTreeClassifier_RF
目录一、python入门 1.1 python入门基础–数据类型–循环控制–函数–OOP 1.2 python入门——练习题 1.3 python+csv/Excel——练习题 1.4 python爬虫 1.5 python爬虫——练习题二、MySQL 关系型数据库 2.1 MySQL数据库 2.2 pyMySQL操作...原创 2018-08-20 09:13:37 · 2046 阅读 · 0 评论 -
基于Kaggle的经典AI项目:预测房价系统
预测房价系统Kaggle 项目链接: http://www.kaggle.com/c/house-prices-adcvanced-regression-techniques/data一、 数据理解和整体探索1.1 数据理解 1.1.1 字段含义 1.1.2 字段整体探索1.2 整体探索 1.2.1 因变量分布探索 1.2.2 连续型自...原创 2018-06-09 17:28:27 · 2680 阅读 · 5 评论 -
基于Kaggle的经典AI项目一—数据理解与整体探索
1 数据整体理解2 数据探索2.1 因变量分布探索——分析 “房价”2.2 数值型自变量探索I :相关系数矩阵 (图如下)II :saleprice高相关变量 相关系数矩阵 (图如上)III :saleprice高相关变量 散点图2.3 分类型自变量探索2.3.1 一元方差分析2.3.2 重要变量可视化展示附:字段描述1 数据整体理解...原创 2018-09-21 22:24:43 · 1008 阅读 · 0 评论 -
基于Kaggle的经典AI项目二—数据清洗
1 数据类型 修改2 重复样本处理— 删除重复样本3 缺失值处理3.1 行列–缺失值>40%删除处理3.2 统一填充 缺失率少于1%的列3.3 相关性高的 连续型变量业务填充3.4 区分度高的分类型变量业务填充3.5 统一填充剩余变量4 连续型变量奇异值处理开发环境jupyter notebook import pandas...原创 2018-09-21 22:27:38 · 943 阅读 · 0 评论 -
基于Kaggle的经典AI项目三—特征转换、衍生
准备工作特征构造1.1 分类型变量—重分组1.2 分类型变量—one-hot编码2.1 连续型变量—非线性衍生2.2 连续型变量—简单组合2.3 连续型变量—正态转换开发环境jupyter notebookimport pandas as pdimport numpy as npimport seaborn as sns ...原创 2018-09-22 18:16:58 · 960 阅读 · 0 评论 -
基于Kaggle的经典AI项目四—特征筛选
1 方差筛选法2 高成对相关性去除3 Filter过滤法(有问题)4 Wrapper包装法 ( RFE—RandomForestRegressor 回归随机森林 )5 Embedded嵌入法 ( SelectFromModel=RandomForestRegressor )开发环境jupyter notebook import pandas ...原创 2018-09-21 22:41:31 · 1202 阅读 · 0 评论 -
基于Kaggle的经典AI项目五—模型训练
1 决策树回归DecisionTreeRegressor2 岭回归Ridge3 弹性网回归ElasticNet4 算法融合开发环境jupyter notebook%run "基于Kaggle的经典AI项目四—特征筛选.ipynb"train_y = train_num['SalePrice_log']train_X = train_num....原创 2018-09-22 17:50:01 · 741 阅读 · 0 评论 -
基于PySpark的航天日志分析(SQL分析)
1、导入PySpark包2、创建SparkSession实例对象3、读取数据(Schema()信息)读取数据方法1读取数据方法24、查看DataFrame数据信息(显示完整【列名】不省略)6、SparkSQL模块中,结构化数据分析:DSL和sQL(filter)7、分组聚合(groupBy Rename)8、可视化展示(SparkSQL中DataFrame转...原创 2018-09-21 21:18:50 · 1066 阅读 · 1 评论 -
基于Mahout、Spark Mlib实现的推荐系统——算法讲解
一、推荐算法推荐算法组成 推荐算法应用 社交推荐电影推荐 1.1 线性代数里的矩阵分解:1)ALS(Alternating Least Square交替最小二乘法)2)三角分解3) SVD(奇异值)分解4)QR分解5)Jordan分解6)满秩分解Mahout和sparkMLlib里面,就是特指使用 ALS 的一种推荐算法。 1.2 构造一个完整的推...原创 2018-09-22 18:00:08 · 2174 阅读 · 0 评论 -
基础算法图解
一、算法简介二、选择排序三、递归四、快速排序五、散列表六、广度优先搜索七、狄克斯特拉算法八、贪婪算法九、近似算法十、动态规划十一、K最近邻算法十二、其他...原创 2018-07-02 20:16:33 · 1961 阅读 · 1 评论 -
EM算法
二、算法流程直线式迭代优化的路径: 可以看到每一步都会向最优值前进一步,而且前进路线是平行于坐标轴的,因为每一步只优化一个变量。 这犹如在x-y坐标系中找一个曲线的极值,然而曲线函数不能直接求导,因此什么梯度下降方法就不适用了。 但固定一个变量后,另外一个可以通过求导得到,因此可以使用坐标上升法,一次固定一个变量, 对另外的求极值,最后逐步逼近极值。 ...原创 2018-07-11 17:50:01 · 1637 阅读 · 1 评论 -
PageRank算法
PageRank算法In:每个球代表一个网页;球的大小反应了网页的pagerank值的大小;Out:指向网页B和网页E的链接很多,所以B和E的pagerank值较高;虽然很少有网页指向C,但是最重要的网页B指向了C,所以C的pagerank值比E还要大。 (图1所示:)图2将网页之间的关系用转移矩阵 M 所示:(如上图) 如果一个网页有k条出链,那么跳转任意一个出链上的概率是...原创 2018-07-10 18:03:43 · 685 阅读 · 0 评论 -
最小二乘法—梯度下降专题
一、最小二乘法二、梯度下降优化简介2.1 牛顿法三、梯度下降优3.1—A 批量梯度下降法BGD3.1—B 随机梯度下降法SGD3.1—C 小批量梯度下降法 Mini-batch Gradient Descent3.2—A: Momentum3.2—B: Nesterov Momentum3.3—A: Adagrad3.3—B: Adadelta3.4 ...原创 2018-08-01 16:22:59 · 1206 阅读 · 0 评论 -
最大熵模型
1. 最大熵原理最大熵原理 是 概率模型学习的一个准则。 评价一个模型的好坏是根据熵的大小,熵大说明模型越好。因此可以理解,最大熵原理就是满足一定的约束条件下,选择熵最大的模型。 计算最大熵:两个前提问题:解决问题要满足一定约束不做任何假设,就是在约束外的事件发生概率为等概率举个栗子:(1)假设随机变量X有5个取值 {A,B,C,D,E};估计各个值概率P(A),P(B...原创 2018-07-19 16:28:46 · 438 阅读 · 0 评论 -
图像处理及算法
一、基本概念1.1 图像分类1.2 图像处理方法模拟图像处理: 也称光学图像处理,它是利用光学透镜或光学照相方法对模拟图像进行的处理,其实时性强、速度快、 处理信息量大、分辨率高,但是处理精度低,灵活度差,难有判断功能 。 数字图像处理: 即利用计算机对数字图像进行处理 ,它具有精度高、处理内容丰富、方法易变、灵活度高等优点。 但...原创 2018-08-02 09:32:39 · 3929 阅读 · 0 评论 -
SVM超平面推导
SVM模型是为求得使几何间隔最大的超平面:y=w⋅x+by=w·x+by = w·x+b 即求:Max:γ||w||    (对w,b参数)Max:γ||w||&amp原创 2018-09-02 11:56:12 · 1193 阅读 · 0 评论 -
R-CNN—双正则化参数的L2-SVM
一、前言二、SVM算法2.1 SVM 原型算法2.2 SVM 改进算法 L2—SVM三、Doupenalty-Gradient方法3.1 选取目标函数一、前言在单正则化SVM的基础上,提出双正则化参数的L2-SVM,获得它的对偶形式,从而确定最优化的目标函数,结合梯度下降形成:Doupenalty gradient(一种新的SVM...原创 2018-09-06 16:29:11 · 2559 阅读 · 0 评论 -
凸优化—SVD—PCA原理详情
一、凸优化一、凸优化   &amp原创 2018-07-09 20:02:36 · 2314 阅读 · 0 评论 -
最小二乘法—牛顿法
最小二乘法牛顿法(Newton’s method)牛顿法和梯度下降法的效率对比:牛顿法的优缺点总结:拟牛顿法最小二乘法牛顿法(Newton’s method)牛顿法是一种在实数域和复数域上近似求解方程的方法。方法使用函数f (x)的泰勒级数的前面几项来寻找方程f(x)=0的根。牛顿法最大的特点就在于它的收敛速度很快。具体步骤:首先,...原创 2018-09-17 20:28:50 · 3370 阅读 · 0 评论 -
python 读取TXT 文档进行词频统计
去除停用词#排除词库excludes = ['the','and','to','of','i','a','in','it','that','is', 'you','my','with','not','his','this','but','for', 'me','s','he','be','as','so','him','your']def g...原创 2018-09-13 20:37:43 · 13025 阅读 · 0 评论 -
BK树(Burkhard-Keller树)—离散度量空间的度量树
BK树构造就过程BK树,是一种基于树的数据结构,被设计于快速查找近似字符串匹配,比方说拼写纠错,或模糊查找,当搜索”aeek”时能返回”seek”和”peek”。 在定义BK树之前,我们需要预先定义一些操作。为了索引和搜索字典,我们需要一种比较字符串的方法。编辑距离( Levenshtein Distance)是一种标准的方法,它用来表示经过插入、删除和...原创 2018-09-09 17:29:28 · 3318 阅读 · 0 评论 -
自然语言处理(NLP)—分词-—word2vec
一、自然语言处理1.1 分词简介1.2 分词算法:三大类1.3 词特征表示1.4 分类算法二、案例2.1 Jieba分词2.2 词袋模型(Bag of Words)2.3 TF-IDF(词频-逆文档频率)开发环境jupyter notebook 一、自然语言处理 1.1 分词简介自动文本分类:给定分类体系,...原创 2018-08-08 22:18:20 · 3393 阅读 · 1 评论 -
自然语言(NLP)处理流程—IF-IDF统计—jieba分词—Word2Vec模型训练使用
一、数据感知—训练与测试数据 开发环境jupyter notebook一、数据感知—训练与测试数据# 查看训练数据train_data = pd.read_csv('data/sohu_train.txt', sep='\t', header=None, dtype=np.str_, encoding...原创 2018-09-21 21:54:17 · 2203 阅读 · 0 评论 -
基于NLP自然语言构建的文档自动分类系统(搜狐娱乐)—word2vec模型
1 加载数据2 计算每个文章的词向量3 训练分类器4 .训练与评估 开发环境jupyter notebook1 加载数据import numpy as npimport pandas as pd# 查看训练数据train_data = pd.read_csv('data/sohu_train.txt', sep='\t', header=Non...原创 2018-09-22 18:26:15 · 1062 阅读 · 2 评论 -
基于NLP自然语言构建的文档自动分类系统(搜狐娱乐)—word-of-bag模型
1 加载数据2 计算每个文章的词袋3 训练分类器4 模型效果评估5 模型保存6 对新文档预测开发环境jupyter notebook1 加载数据import numpy as npimport pandas as pd# 查看训练数据train_data = pd.read_csv('data/sohu_train.txt', sep='\...原创 2018-09-21 15:09:48 · 507 阅读 · 0 评论 -
卷积核——Roberts、Prewitt、Sobel、Lapacian、DoG、LoG算子
一、算子推导过程1.1 梯度和Roberts算子:1.2 Prewitt:1.3 Sobel算子1.4 Lapacian算子:图像处理卷积核——算子 在对图像的操作,我们采用模板对原图像进行卷积运算,从而达到我们想要的效果。而获取一幅图像的梯度就转化为:模板(Roberts、Prewitt、Sobel、Lapacian算子)对原图像进行卷积。 ...原创 2018-08-03 11:48:58 · 14224 阅读 · 0 评论 -
特征工程——特征转换
特征转换一、连续型变量 1.1 连续变量无量纲化无量纲化: 使不同规格尺度的数据转化统一规格尺度(将数据单位统一)无量纲化方法:标准化, 区间所方法 标准化: 将连续性变量转变为 均值0 标准差1 的变量 x′=x−x¯¯¯σx′=x−x¯σ{x}'=\frac{x-\overline{x}}{\sigma} 其中x¯¯¯x¯\overline{x}是...原创 2018-06-14 13:09:06 · 7825 阅读 · 1 评论