自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(124)
  • 收藏
  • 关注

原创 从写简历到谈薪资的最全教程

现在,很多毕业生甚至从业者,对写简历和面试往往比较茫然,每年都有朋友找我咨询简历和面试的方法,我也通过简历包装,传授面试技巧,通过面试总结和改进,让很多朋友都找到了满意的工作,在此分享一些相关的技巧。

2024-06-07 11:06:07 510

原创 CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variabl

pytorch报错:CUDA unknown error - this may be due to an incorrectly set up environment, e.g. changing env variable CUDA_VISIBLE_DEVICES after program start. Setting the available devices to be zero.解决方案:重新安装了cuda驱动和pytorch,问题解决,但是不知道为什么出现这样的错误,之前是可以用的,希望有

2021-07-22 17:54:58 1255

原创 深度学习基础之一个神经元

神经元  深度学习中最基础的概念:神经元,现在所流行的神经网络,几乎都是由神经元通过不同的方式组合而成的,一个完整的神经元主要由两部分组成,分别是线性函数和激励函数。  线性函数:     y = wX + b    线性函数的公式都是这样的表达方式,这里的x表示输入,y表示输出,w表示权重,b表示偏差。    输入:神经元处理之前的数据,x不一定是一个数,也可以是一个矩阵或者其他数据     输出:经过神经元处理之后的数据,输出的数据也可以是各种形式的数据,由输入数据和神经元决定    权重

2021-06-28 15:47:37 2306

原创 python+opencv做机器学习人脸识别

数据集和分类器都找不见了,可以自己下载。。。。。。代码是对的人脸识别人脸识别与图像识别的区别在于人脸识别需要识别出两个人的不同点. 眉间距离, 鼻子位置.眼睛位置等等…opencv的视频捕捉opencv提供了访问视频捕捉设备的API(摄像头), 从而获取图像帧."""demo10_vc.py 捕获视频"""import cv2 as cv# 获取视频采集设备 下标为0的摄像头videoCapture = cv.VideoCapture(0)# 获取采集到的第一张图片(第一帧)

2021-06-24 17:06:16 530

原创 python机器学习之物体识别

数据集找不见了,可以自己拍点。。。。。。代码是对的物体识别读取每个图片文件, 加载每个文件的特征值描述矩阵, 整理训练集, 与某个类别名绑定在一起.基于隐马模型, 对三个类别的特征值描述矩阵训练集进行训练, 得到3个隐马模型, 分别用于识别三个类别.对测试集分别进行测试, 取得分高的为最终预测类别."""物体识别"""import os import numpy as npimport hmmlearn.hmm as hlimport cv2 as cvdef search_f

2021-06-24 17:04:41 4432 2

原创 python+opencv做特征点检测

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s角点检测对一个图像执行角点检测, 可以检测出平直楞线的交汇点. (求亮度梯度方向改变的像素点的位置)# Harris角点检测器# gray: 灰度图像# 边缘水平方向,垂直方向亮度梯度值改变超过阈值7/5时即为边缘.# 边缘线方向改变超过阈值0.04弧度值即为一个角点.corners = cv.cornerHarris(gray, 7, 5, 0.04)

2021-06-23 11:34:23 754 2

原创 python+opencv的直方图均衡化

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s亮度提升opencv提供了直方图均衡化的方式实现亮度提升, 更有利于边缘识别与物体识别模型的训练.# 彩色图转灰度图gray = cv.cvtcolor(img, cv.COLOR_BGR2GRAY)# 直方图均衡化equalized_gray = cv.equalizeHist(gray)案例:"""直方图均衡化 """import cv2 as

2021-06-23 11:25:39 335

原创 python+opencv的边缘检测

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s边缘检测物体的边缘检测是物体识别的常用手段. 边缘检测常用亮度梯度方法, 通过识别亮度梯度变化最大的像素点从而检测出物体的边缘.# Canny边缘检测# 50: 水平方向上的阈值 240: 垂直方向上的阈值cv.Canny(img, 50, 240)案例:"""demo04_canny.py 边缘检测"""import cv2 as cvim

2021-06-23 11:22:46 234

原创 python+opencv图像处理

图像识别OpenCV基础  opencv是一个开源的计算机视觉库. 提供了很多图像处理的常用工具。opencv包含了大量的图像处理算法,还包括了大量的机器学习算法,之前说到的常用的分类,聚类的算法,opencv也是集成了的,另外opencv还有调用深度学习tensorflow模型的方法,这里只简单介绍opencv的一些基础用法,后面如果有时间可以专门针对opencv写一些博客。案例:图像的读取显示保存以及裁剪缩放"""opencv基础"""import numpy as npimport c

2021-06-23 11:19:02 507 1

原创 python做语音识别

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s语音识别语音识别可以实现通过一段音频信息(wav波) 识别出音频的内容.通过傅里叶变换, 可以将时间域的声音分解为一系列不同频率的正弦函数的叠加. 通过频率谱线的特殊分布, 建立音频内容与文本之间的对应关系, 以此作为模型训练的基础.语音识别梅尔频率倒谱系数(MFCC) 描述了与声音内容密切相关的13个特殊频率所对应的能量分布. 那么我们就可以使用梅尔频率倒谱系

2021-06-23 11:02:16 5007 2

原创 python利用NLP实现电影推荐

情感分析分析语料库中movie_reviews文档, 通过正面及负面评价进行自然语言训练, 实现情感分析."""demo08_movie_reviews.py 电影推荐"""import nltk.corpus as ncimport nltk.classify as cfimport nltk.classify.util as cuimport numpy as np# 存储正面数据pdata = []# 读取语料库中movie_reviews文件夹中的pos文件夹# 把每个文件

2021-06-23 10:24:52 390

原创 python实现自然语言处理之文本分词

自然语言处理(NLP)Siri工作流程: 1. 听 2. 懂 3.思考 4. 组织语言 5.回答语音识别自然语言处理 - 语义分析业务逻辑分析 - 结合场景 上下文自然语言处理 - 分析结果生成自然语言文本语音合成自然语言处理自然语言处理的常用处理过程:先针对训练文本进行分词处理(词干提取, 原型提取), 统计词频, 通过词频-逆文档频率算法获得该词对整个样本语义的贡献, 根据每个词对语义的贡献力度, 构建有监督分类学习模型. 把测试样本交给模型处理, 得到测试样本的语义类别.

2021-06-23 10:24:34 1937

原创 python自然语言处理之文本分类

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s文本分类(主题识别)读取20news文件夹, 每个文件夹的文件夹名作为类别标签, 文件夹中的没有文件作为样本, 构建tfidf矩阵, 交给朴素贝叶斯模型训练.自定义测试样本, 测试每句话的主题属于哪一类别."""主题识别读取20news文件夹, 每个文件夹的文件夹名作为类别标签, 文件夹中的没有文件作为样本, 构建tfidf矩阵, 交给朴素贝叶斯模型训练.

2021-06-23 10:24:04 629

原创 python自然语言处理之词袋模型

词袋模型  文本分词处理后, 若需要分析文本语义, 需要把分词得到的结果构建样本模型, 词袋模型就是由每一个句子为一个样本, 单词在句子中出现的次数为特征值构建的数学模型.The brown dog is running. The black dog is in the black room. Running in the room is forbidden.The brown dog is running.The black dog is in the black room.Running i

2021-06-23 10:23:36 2604

原创 python实现自然语言处理之词干提取和词性还原

词干提取import nltk.stem.porter as ptimport nltk.stem.lancaster as lcimport nltk.stem.snowball as sb# 波特词干提取器 (偏宽松)stemmer = pt.PorterStemmer()# 朗卡斯特词干提取器 (偏严格)stemmer = lc.LancasterStemmer()# 思诺博词干提取器 (偏中庸)stemmer = sb.SnowballStemmer('english'

2021-06-23 10:23:08 3353

原创 python+sklearn实现简单推荐引擎模型

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s推荐引擎目的: 把用户最需要的内容找到并推荐给用户.针对不用的业务需求, 一般情况下推荐流程:根据当前用户信息, 寻找相似用户根据相似用户的行为, 选择推荐内容.对推荐内容进行重要性排序, 最终推荐给用户.针对不同推荐业务场景都需要分析相似样本. 统计相似样本可以基于欧式距离分数.(也可以基于皮氏距离分数)欧式距离分数=11+欧式距离欧式距离分数=

2021-06-22 15:58:26 412

原创 python+sklearn实现DBSCAN算法

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57sDBSCAN算法从样本空间中任意选择一个样本, 以事先给定的半径做圆. 凡是被该圆圈中的样本都视为与该样本处于同样的聚类. 以这些被圈中样本为圆心继续做圆.不断的扩大被圈中样本的规模, 直到没有新的样本加入为止, 由此得到一个聚类.在剩余样本中重复以上过程,直到耗尽样本空间中所有的样本为止.DBSCAN算法的特点:实现给定的半径会影响最后的聚类效果, 可以根

2021-06-22 15:05:23 3091 1

原创 轮廓系数——评估聚类模型的性能

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s轮廓系数轮廓系数用于评估一个聚类模型的性能. 一个好的聚类: 内密外疏. 同一个聚类内部的样本要足够密集, 不同聚类之间的样本要足够稀疏.轮廓系数的计算规则: 针对样本空间中的一个特定样本, 计算它与所在聚类其它样本的平均距离a, 以及该样本与距离最近的另一个聚类中所有的样本的平均距离b. 那么该样本的轮廓系数为(b-a)/max(a,b). 若将整个样本空间中

2021-06-22 15:01:49 2111

原创 python+sklearn实现凝聚层次算法

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s凝聚层次算法首先假定每个样本都是一个独立的聚类, 如果统计出来的聚类数大于期望的聚类数, 则从每个样本出发, 寻找离自己最近的另外一个样本, 与之聚集, 形成更大的聚类. 同时另总聚类数减少, 不断重复以上过程, 直到统计出来的聚类总数达到期望值为止.凝聚层次算法的特点:凝聚数量必须事先已知. 可以借助于某些指标, 优选参数.没有聚类中心的概念, 因此只能在训

2021-06-22 14:55:23 478

原创 python+sklearn实现均值漂移算法

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s均值漂移算法  首先嘉定样本空间中的每个聚类均服从某种已知的概率分布规则, 然后用不同的概率密度函数拟合样本中的统计直方图, 不断移动密度函数的中心位置, 直到获得最佳拟合效果为止.这些概率密度函数的峰值点就是聚类的中心, 再根据每个样本距离各个中心的距离, 选择最近的聚类中心所属的类别作为该样本的类别.均值漂移算法的特点:聚类数不必事先已知, 算法会自动识别出

2021-06-22 14:48:09 948

原创 python+sklearn实现K均值算法(聚类第一篇)

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s聚类分类(class) 与 聚类 (cluster) 不同, 分类属于有监督学习, 聚类属于无监督学习模型. 聚类讲究使用一些算法把样本划分为n个群落. 一般情况下,这种算法都需要计算欧氏距离.欧氏距离(欧几里得距离):P(x1)−P(x2):∣x1−x2∣=(x1−x2)2p(x1,y1)−p(x2,y2):(x1−x2)2+(y1−y2)2p(x1,y1,z

2021-06-22 14:42:32 1091

原创 python+sklearn做支持向量机多元化分类

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s支持向量机也可以做多元分类.案例: 交通流量预测(回归)支持向量机也可以做回归业务. traffic.txt"""支持向量机"""import numpy as npimport sklearn.preprocessing as spimport sklearn.model_selection as msimport sklearn.svm as s

2021-06-22 14:32:54 675

原创 python+sklearn利用支持向量机模型做事件预测

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s案例: 事件预测案例: event.txt 预测某个时间段是否会出现特殊事件。"""事件预测"""import numpy as npimport sklearn.preprocessing as spimport sklearn.model_selection as msimport sklearn.svm as svm# 模仿LabelEnco

2021-06-22 14:30:30 823

原创 python+sklearn样本均衡化和置信概率(基于SVM)

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s样本类别均衡化通过样本类别权重的均衡化, 使所占比例较小的样本权重较高,而所占比例较大的样本权重较低, 以此平均化不同类别样本对分类模型的贡献, 提高模型预测性能.什么情况下会用到样本类别均衡化? 当每个类别的样本容量相差较大时, 有可能会用到样本类别均衡化.这是原图:明显样本的数量不均衡。model = svm.SVC(kernel='linear',

2021-06-22 11:12:06 1309

原创 python+sklearn训练支持向量机分类模型

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s支持向量机(SVM)支持向量机原理寻求最优分类边界正确: 对大部分样本可以正确的划分类别.泛化: 最大化支持向量间距.公平: 各类别与分类边界等距.简单: 基于线性模型, 直线/平面.基于核函数的升维变换通过名为核函数的特征变换, 增加新的特征, 使得低维度空间中的线性不可分问题在高维度空间变得线性可分。通俗的说,之前我们的分类,都是用直

2021-06-22 11:11:20 2974 1

原创 python+sklearn训练决策树分类模型(绘制学习曲线和验证曲线)

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s关于决策树的初级应用,可以看我之前的文章:https://blog.csdn.net/weixin_45081640/article/details/118056630决策树分类决策树分类模型会找到与样本特征匹配的叶子节点然后以投票的方式进行分类.在car.txt样本文件中统计小汽车的常见特征信息及小汽车的分类, 使用这些数据可以预测小汽车的等级.案例: c

2021-06-21 18:45:17 3447 2

原创 python+sklearn实现机器学习交叉验证

交叉验证由于数据集的划分有不确定性, 若随机划分的样本证号处于某类特殊样本, 则得到的训练模型所预测的结果的可信度会受到质疑. 所以要进行多次交叉验证, 把样本空间中的所有样本均分成n份, 使用不同的训练集训练模型, 对不同的测试集进行测试并输出指标得分.交叉验证相关API:import sklearn.model_selection as ms# 使用给出的模型,针对输入与输出进行5次交叉验证# 把每次交叉验证得到的精准度得分以数组的方式返回score = ms.cross_val_score

2021-06-21 16:50:14 685

原创 python+sklearn数据集的划分

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s数据集的划分  在机器学习的训练中,数据集的划分是非常重要的,机器学习在有监督的学习中,要将数据集分成训练集,验证集和测试集,训练集的作用是用来第一步训练的,验证集是在训练过程中展示当前模型的训练效果的,测试集是用来检测最终训练结果的。  对于分类问题训练集和测试集的划分不应该用整个样本空间的特定百分比作为训练数据, 而应该在其每一个类别的样本中抽取特定百分比作为训

2021-06-21 16:34:30 561

原创 python+sklearn训练朴素贝叶斯分类模型

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s朴素贝叶斯分类朴素贝叶斯分类是一种依据统计理论而实现的一种分类方式. 观察一组数据:天气情况穿衣风格约女朋友==>心情0(晴天)0(休闲)0(约了)==>0(高兴)01(风骚)1(没约)==>01(多云)10==>002(破旧)1==>1(郁闷)2(下雨)

2021-06-21 16:25:27 1345

原创 python+sklearn之机器学习多元化分类

多元分类通过多个二元分类器解决多元分类问题.特征1特征2==>所属类别47==>A3.58==>A1.21.9==>B5.42.2==>C若拿到一组新的样本, 可以基于二元逻辑分类训练出一个模型, 判断属于A类别的概率. 再基于同样的方法训练处两个模型,分别判断属于B类别/ 属于C类别的概率, 最终选择概率最高的作为新样本的分类结果.案例:"""多元逻辑分类 """import numpy

2021-06-21 16:14:03 380

原创 python+sklearn机器学习之逻辑分类

逻辑分类特征1特征2输出310251181640520351471………68?通过输入的样本数据, 基于多元线性回归模型求出线性预测方程:y = w0 + w1x1 + w2x2基于损失函数最小化做梯度下降后,得到最优的模型参数: w0 w1 w2 . 通过得到的线性回归方程进行类别预测, 把x1与x2带入方程得到最终"类别". 但是方程返回的结果是连续值, 不可以直接用于分类业务模型

2021-06-21 16:10:08 187

原创 python机器学习之简单分类

简单分类(人工分类)特征1特征2输出310251181640520351471………68?  分类在机器学习中具有非常重要的地位,分类是处理很多问题的基础,除了一些简单的分类问题外,还有很多复杂的分类问题,另外,机器学习在处理的很多问题,都是建立在分类的基础之上的,比如最熟悉的人脸识别,人脸识别本身看上去只是检测了人脸,在不区分人脸具体是谁时,好像并不存在分类问题,其实不然,人脸识别其实是计算机

2021-06-19 22:03:02 423

原创 python+sklearn实现随机森林模型

自助聚合每次从总样本矩阵中以有放回抽样的方式,随机抽取部分样本构建决策树, 这样形成多颗包含不同训练本的决策树. 以削弱某些强势样本对模型预测结果的影响. 提高模型的泛化特性.随机森林在自助聚合的基础上, 每次构建决策树模型时, 不仅随机选择部分样本, 而且还随机选择部分特征(树的高度不同), 这样的集合算法, 不仅规避了强势样本对预测结果的影响, 而且也削弱了强势特征的影响, 是模型的预测能力更加泛化.随机森林相关API:import sklearn.ensemble as se# 构建随机森

2021-06-19 17:41:55 2222 2

原创 python+sklearn实现决策树模型

决策树基本算法原理核心思想: 相似的输入必会产生相似的输出.年龄: 1-青年, 2-中年, 3-老年学历: 1-本科, 2-硕士, 3-博士经历: 1-出道, 2-一般, 3-老手, 4-骨灰性别: 1-男性, 2-女性年龄学历经历性别薪资11116000213110000334150000……………1322?为了提高搜索效率, 使用树形数据结构处理样本数据:年龄=

2021-06-19 17:41:26 2394

原创 python+sklearn实现多项式回归

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s多项式回归一元多项式的一般形式:y = w0 + w1 x + w2 x2 + w3 x3 + … wd xd把一元多项式函数看做多元线性方程:y = w0 + w1 x1 + w2 x2 + w3 x3 + … wd xd所以一元多项式回归即可以看做多元线性回归, 可以使用LinearRegression模型对样本数据进行模型训练.将一元多项式回

2021-06-17 18:47:12 3564 9

原创 python+sklearn实现岭回归

本文所用文件的链接链接:https://pan.baidu.com/s/1RWNVHuXMQleOrEi5vig_bQ提取码:p57s岭回归  普通的线性回归模型使用基于梯度下降的最小二乘法, 在最小化损失函数的前提下, 寻找最优模型参数. 在此过程中, 包括少数的异常样本在内的全部训练数据都会对最终的模型参数造成相等程度的影响, 并且异常值对模型所带来的影响无法在训练过程中被识别出来. 为此, 岭回归在模型迭代过程中增加了正则项, 用来限制模型参数对异常样本的匹配程度, 进而提高模型面对大多数正常

2021-06-17 17:58:36 1160 1

原创 机器学习模型的保存和读取

模型的保存和加载模型训练是一个耗时的过程, 一个优秀的机器学习模型是非常宝贵的. 所以当模型训练完毕后,可以把模型保存在磁盘中, 在需要的时候可以从磁盘中重新加载模型. 不再需要重新训练.import pickle# 保存模型pickle.dump(model, 磁盘文件)# 加载模型model = pickle.load(磁盘文件)案例: 把训练好的模型持久化.# 从文件中加载模型对象with open('../ml_data/linear.pkl', 'rb') as f: mod

2021-06-17 17:35:59 840 2

原创 利用sklearn的API实现线性回归模型

sklearn提供的线性回归相关API:import sklearn.linear_model as lm# 获取线性回归模型model = lm.LinearRegression()# 模型训练 # 输入集: x数据样本矩阵 # 输出集: 列向量model.fit(输入集, 输出集)# 通过输入样本得到预测输出预测输出 = model.predict(输入样本)评估训练结果误差(metrics)线性回归模型训练完毕后, 可以利用测试集评估训练结果的误差. sklearn.met

2021-06-17 17:33:15 282 1

原创 python机器学习之线性回归模型

线性回归输入 输出0.5 5.00.6 5.50.8 6.01.1 6.81.4 7.0...y=f(x) f(x)=kx+b预测函数: y = w0+w1xx : 输入y : 输出w0 w1 : 模型参数所谓的模型训练, 就是根据已知的x与y, 找到最佳的模型参数w0 w1 , 使得尽可能精确的描述出输入和输出的关系.5.0 = w0+w1 x 0.55.5 = w0+w1 x 0.6单样本误差:根据预测函数求出输入为x时的预测值: y’

2021-06-16 15:30:59 1236 6

原创 数据处理之编码(独热编码、标签编码)

独热编码 (One-Hot)为样本特征的每个值建立一个由一个1和若干个0组成的序列, 用该序列对所有的特征值进行编码.1 3 27 5 4 1 8 6 7 3 9为每一个数字进行独热编码:1-10 3-100 2-10007-01 5-010 4-0100 8-001 6-0010 9-0001使用上述码表, 对原始矩阵编码过后的结果为:1010010000101001001000100100110

2021-06-15 11:31:49 4190

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除