原力计算
文章平均质量分 80
小刘要努力。
未来不担心,过去不后悔,现在不犹豫。
展开
-
7 | PyTorch基本操作
NumPy 是Python 编程语言的库,增加了对大型、多维数组和矩阵的支持,以及对这些数组进行操作的大量高级数学函数集合。它是一个按运行定义的框架,这意味着您的反向传播是由您的代码运行方式定义的,并且每次迭代都可以不同。使用 PyTorch 提供的函数,计算一个张量中所有元素的平均值、标准差和和。,并实现一个函数,对该张量进行归一化,使得其所有元素都在 0 到 1 之间。的随机张量,然后将张量中所有小于 0 的值替换为 0。的张量,其中元素的值是从 1 到 9 的连续整数。,实现简单的线性回归模型。原创 2021-06-12 19:21:15 · 1986 阅读 · 5 评论 -
3 | Pytorch动态计算图和GPU支持操作
总结 ,PyTorch 提供了动态计算图(Dynamic Computational Graph)的特性,这意味着计算图是在运行时动态构建的,而不是在模型定义时静态构建的。PyTorch 模型可以在 GPU 上训练,这通过将模型和输入数据都移动到 GPU 上实现。在最后一个输出上调用函数来对计算图执行反向传播,这样可以,计算了每个具有属性的张量的梯度。在深度学习中使用 PyTorch 的主要原因之一,是我们可以自动获得定义的函数的。现在让我来一步一步地构建计算图,了解每个操作是到底是如何添加到计算图中的。原创 2021-06-14 20:36:11 · 1118 阅读 · 1 评论 -
sklearn提取图片信息
%matplotlib inlineimport matplotlib.pyplot as pltimport seaborn as snssns.set()import numpy as npScikit Image项目中内置了一个快速的Hog提取器from skimage import data, color, featureimport skimage.dataimage...原创 2019-06-01 10:54:25 · 2095 阅读 · 2 评论 -
隐马尔科夫模型 概念(上)
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。隐马尔可夫模型(HMM)可以用五个元素来描述,包括2个状态集合和3个概率矩阵:隐含状态 S这些状态之间满足马尔可夫性质,是马尔可夫模型中实际所隐含的状态。这些状态通常无法通过直接观测而得到。(例如S1、S2、S3等等)可观测状态 O在模型中与隐含状态相关联,可通过直...原创 2019-04-11 20:14:41 · 1152 阅读 · 0 评论 -
隐马尔科夫模型 使用(下)
# !/usr/bin/python# -*- coding:utf-8 -*-import numpy as npfrom hmmlearn import hmmimport matplotlib.pyplot as pltimport matplotlib as mplfrom sklearn.metrics.pairwise import pairwise_distances_...原创 2019-04-11 20:39:20 · 1193 阅读 · 0 评论 -
HMM实践
代码练习import numpy as npfrom hmmlearn import hmm隐藏状态:3个盒子states = ["box 1", "box 2", "box3"]n_states = len(states)观测状态:2种球observations = ["red", "white"]n_observatio...原创 2019-04-21 21:11:41 · 1181 阅读 · 0 评论 -
sklearn 聚类 实例
来源:https://www.icourse163.org/course/BIT-1001872001K-means应用使用算法: K-means聚类算法完整代码import numpy as npfrom sklearn.cluster import KMeans def loadData(filePath): fr = open(filePath,...原创 2019-05-26 18:01:08 · 2018 阅读 · 0 评论 -
数据挖掘知识清单
数据挖掘的基本流程数据挖掘的六个步骤分析: 1.商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求,在这个基础上,再对数据挖掘的目标进行定义。 2.数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助于你对收集的数据有个初步的认知。 3.数据准备:开始收集数据,并对数据进行清洗、数据集成等操作,完...原创 2019-06-09 10:35:07 · 1151 阅读 · 0 评论 -
Gamma函数
伽玛函数(Gamma函数),也叫欧拉第二积分,是阶乘函数在实数与复数上扩展的一类函数。该函数在分析学、概率论、偏微分方程和组合数学中有重要的应用。与之有密切联系的函数是贝塔函数,也叫第一类欧拉积分。可以用来快速计算同伽马函数形式相类似的积分。对于正整数X>1,具有如下性质:Γ(n+1)=nΓ(n) , n>0Gamma函数图像# -*- coding:utf-8 ...原创 2019-04-13 20:21:11 · 13880 阅读 · 1 评论 -
EM算法和GMM(上)
EM算法,指的是最大期望算法(Expectation Maximization Algorithm,期望最大化算法),是一种迭代算法,在统计学中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。基本思想是首先随机取一个值去初始化待估计的参数值,然后不断迭代寻找更优的参数使得其似然函数比原来的似然函数大。EM算法当做最大似然估计的拓展,解决难以给出解析解(模型中存在隐变量)的最...原创 2019-04-11 17:34:33 · 1305 阅读 · 0 评论 -
【机器学习算法】XGBoost
【机器学习算法】XGBoost原创 2021-04-17 12:11:34 · 1006 阅读 · 0 评论 -
机器学习付费专栏的一些简介
这是我个人的机器学习入门清单及路线,所以没有像很多收藏夹那样大而全,一来学不完,二来给自己压力。这是个人的路线。算是个人记录,也给大家参考,如有什么不足之处,欢迎指教。前置知识及技能:1、线性代数基础,如果没的话,还是先学了这门课在研究吧,不然会哭的。2、学会python就行了。R也可以用用。做了个流程图,来展示下我的学习路线。除了入门课程外,其他四项其实不完全是按照流程的(但总体上是),有时实战时需要学新模型。有时学了某些模型再选方向也未迟。但是入门课程,尤其是Coursera那个,一定要看完原创 2021-04-13 14:23:30 · 933 阅读 · 0 评论 -
聚类(下) 谱聚类算法
谱聚类算法该算法首先根据给定的样本数据集定义一个描述成对数据点相似度的亲合矩阵,并且计算矩阵的特征值和特征向量 , 然后选择合适 的特征向量聚类不同的数据点。谱聚类算法最初用于计算机视觉 、VLS I 设计等领域, 最近才开始用于机器学习中,并迅速成为国际上机器学习领域的研究热点。谱聚类算法建立在图论中的谱图理论基础上,其本质是将聚类问题转化为图的最优划分问题,是一种点对聚类算法,对数据聚类具...原创 2019-04-07 13:30:42 · 1077 阅读 · 0 评论 -
数据预处理的概念
数据的预处理通过特征提取,我们能得到未经处理的特征,这时的特征可能有以下问题:不属于同一量纲: 即特征的规格不一样,不能够放在一起比较。无量纲化可以解决这一问题。信息冗余: 对于某些定量特征,其包含的有效信息为区间划分,例如学习成绩,假若只关心“及格”或不“及格”,那么需要将定量的考分,转换成“1”和“0”表示及格和未及格。二值化可以解决这一问题。定性特征不能直接使用: 某些机器学习算法和...原创 2019-06-09 17:31:55 · 1956 阅读 · 0 评论 -
PCA方法及其应用
来源https://www.icourse163.org/learn/BIT-1001872001?tid=1001965001#/learn/announce主成分分析(PCA)主成分分析(Principal Component Analysis,PCA)是最常用的 一种降维方法,通常用于高维数据集的探索与可视化,还可以用作数 据压缩和预处理等。PCA可以把具有相关性的高维变量合成为线...原创 2019-05-26 21:55:36 · 1440 阅读 · 0 评论 -
sklearn特征的提取(上)
首先必须知道什么是特征工程什么是特征工程特征工程是通过对原始数据的处理和加工,将原始数据属性通过处理转换为数据特征的过程,属性是数据本身具有的维度,特征是数据中所呈现出来的某一种重要的特性,通常是通过属性的计算,组合或转换得到的。比如主成分分析就是将大量的数据属性转换为少数几个特征的过程。某种程度而言,好的数据以及特征往往是一个性能优秀模型的基础。那么如何提取好的特征将是本文主要内容我们将...原创 2019-03-18 23:04:36 · 895 阅读 · 0 评论 -
Adaboost算法
Adaboost算法:AdaBoost 算法 在数据挖掘中,分类算法可以说是核心算法,其与随机森林算法一样都属于 分类算法中的集成算法。什么是集成?集成用我们通俗的话来说就是“三个臭皮匠,顶个诸葛亮”。通过构建并结合多个机器学习器来完成学习任务,并且达到一个更好的结果。为什么要集成?因为臭皮匠好训练,诸葛亮却不好求。因此要打造一个诸葛亮,最好的方式就是训练多个臭皮匠,然后让这些臭皮匠组合...原创 2019-06-09 23:37:24 · 1175 阅读 · 0 评论 -
sklearn线性回归
来源:https://www.icourse163.org/course/BIT-1001872001线性回归线性回归(Linear Regression)是利用数理统计中回归分析, 来确定两种或两种以上变量间相互依赖的定量关系的一种统计分 析方法。线性回归利用称为线性回归方程的最小平方函数对一个或多个自 变量和因变量之间关系进行建模。这种函数是一个或多个称为回 归系数的模型参数的线性组...原创 2019-05-27 16:35:26 · 1392 阅读 · 0 评论 -
概率论
原创 2019-04-15 23:50:41 · 1088 阅读 · 0 评论 -
KNN实现“手写识别”
来源:https://www.icourse163.org/course/BIT-1001872001import numpy as np #导入numpy工具包from os import listdir #使用listdir模块,用于访问本地文件from sklearn import neighbors def img2vector(fileName)...原创 2019-05-27 21:31:35 · 1589 阅读 · 0 评论 -
近邻算法分类
scikit-learn已经封装好很多数据挖掘的算法现介绍数据挖掘框架的搭建方法转换器(Transformer)用于数据预处理,数据转换流水线(Pipeline)组合数据挖掘流程,方便再次使用(封装)估计器(Estimator)用于分类,聚类,回归分析(各种算法对象)所有的估计器都有下面2个函数fit() 训练用法:estimator.fit(X_train, y_train...原创 2019-06-03 22:52:24 · 1286 阅读 · 0 评论 -
深入理解SVM
定义平面两个平行平面的距离线性可分数据计算间隔最大间隔最优化目标问题求解对偶问题核函数常用的核函数线性SVM原创 2019-05-28 15:28:33 · 1223 阅读 · 0 评论 -
14 | 正态分布
什么叫正态分布:什么是正态分布呢?正态分布也叫作常态分布,就是正常的状态下,呈现的分布情况。举个例子:比如你可能会问班里的考试成绩是怎样的?这里其实指的是大部分同学的成绩如何。以下图为例,在正态分布中,大部分人的成绩会集中在中间的区域,少部分人处于两头的位置。正态分布的另一个好处就是,如果你知道了自己的成绩,和整体的正态分布情况,就可以知道自己的成绩在全班中的位置。另一个典型的例子就是,...原创 2019-06-09 10:38:27 · 5248 阅读 · 0 评论 -
Graphviz使用
官方文档: http://www.graphviz.orggraphviz是贝尔实验室开发的一个开源的工具包,它使用一个特定的DSL(领域特定语言):dot作为脚本语言,然后使用布局引擎来解析此脚本,并完成自动布局。Graphvizgraphviz本身是一个绘图工具软件,下载地址在:http://www.graphviz.org/。如果你是linux,可以用apt-get或者yum的方法安装...原创 2019-10-27 22:05:29 · 1426 阅读 · 0 评论 -
环形公路堵车概率模型
公路堵车概率模型Nagel-Schreckenberg交通流模型路面上有N辆车,以不同的速度向前行驶, 模拟堵车问题。有以下假设:假设某辆车的当前速度是v。若前方可见范围内没车,则它在下一秒的车速 提高到v+1,直到达到规定的最高限速。若前方有车,前车的距离为d,且d < v,则它下 一秒的车速降低到d -1 。每辆车会以概率p随机减速v -1。、该公路是环形#!/us...原创 2019-03-30 23:42:50 · 1556 阅读 · 0 评论 -
美国房价预测
房价预测import numpy as npimport pandas as pdimport os#指定一个随机的种子np.random.seed(100)import matplotlib.pyplot as pltimport matplotlib as mpl%matplotlib inline# 设置坐标文字大小mpl.rc('axes',labelsize=14)...原创 2019-05-14 23:18:33 · 1662 阅读 · 0 评论 -
ELI5 和scikit-learn文本分类管道
ELI5主要是用于处理文本分类的机器学习的库MLI5是一个Python库,允许使用统一API可视化地调试各种机器学习模型。 它内置了对多个ML框架的支持,并提供了一种解释黑盒模型的方法。它有助于调试机器学习分类器并解释它们的预测。scikit-learn。目前,ELI5允许解释scikit-learning线性分类器和回归量的权重和预测,将决策树打印为文本或SVG,显示特征重要性并解释决策树...原创 2019-05-05 09:54:06 · 3518 阅读 · 0 评论 -
核密度(Kde)
密度估计的问题由给定样本集合求解随机变量的分布密度函数问题是概率统计学的基本问题之一。解决这一问题的方法包括参数估计和非参数估计。参数估计参数估计又可分为参数回归分析和参数判别分析。在参数回归分析中,人们假定数据分布符合某种特定的性态,如线性、可化线性或指数性态等,然后在目标函数族中寻找特定的解,即确定回归模型中的未知参数。在参数判别分析中,人们需要假定作为判别依据的、随机取值的数据样本在各...原创 2019-06-01 19:44:02 · 3202 阅读 · 0 评论 -
sklear多项式回归
来源:https://www.icourse163.org/course/BIT-1001872001多项式回归多项式回归(Polynomial Regression)是研究一个因变量与一 个或多个自变量间多项式的回归分析方法。如果自变量只有一个 时,称为一元多项式回归;如果自变量有多个时,称为多元多项 式回归。一元m次多项式回归方程为:二元二次多项式回归方程为:在一元回归分析中...原创 2019-05-27 16:45:19 · 1235 阅读 · 0 评论 -
opencv阈值化(五)
THRESH_BINARY_INV 大于127为255 ,小于为0 0黑,255是白将大于127的变成127将大于127变为0原创 2019-05-24 22:32:09 · 1274 阅读 · 0 评论 -
GridSearchCV和交叉熵
GridSearchCVGridSearchCV的主要参数GridSearchCV(estimator, param_grid, cv=None, scoring=None)estimator:代表我们想要采用的分类器,如决策树,随机森林,SVM,kNN,朴素贝叶斯等等param_grid:代表我们想要优化的参数和取值,输入的是字典或者列表形式cv:交叉验证的折数,默认...原创 2019-06-09 17:13:13 · 1419 阅读 · 0 评论 -
线性代数中的矩阵消元法,求逆
这个方法最早由高斯提出,我们以前解方程组的时候都会使用,现在来看如何使用矩阵实现消元法。原创 2021-03-04 16:16:11 · 1195 阅读 · 1 评论 -
sklearn数据的获取
http://sklearn.apachecn.org/#/类型获取方式自带的小数据集sklearn.datasets.load_...在线下载的数据集sklearn.datasets.fetch_...计算机生成的数据集sklearn.datasets.make_...svmlight/libsvm格式的数据集sklearn.datasets.lo...原创 2019-03-31 09:36:05 · 1376 阅读 · 0 评论 -
用python模拟高斯分布
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分...原创 2019-03-27 23:43:46 · 2565 阅读 · 2 评论 -
可视化总结
4类主要的可视化视图比较:比较数据间各类别的关系,或者是它们随着时间的变化趋势,比如折线图;联系:查看两个或两个以上变量之间的关系,比如散点图;构成:每个部分占整体的百分比,或者是随着时间的百分比变化,比如饼图;分布:关注单个变量,或者多个变量的分布情况,比如直方图。单变量可视化视图:一次值关注一个变量。如我们一次只关注身高变量,来看身高的取值分布,而暂时忽略其他变量。多变...原创 2019-06-09 17:35:18 · 1972 阅读 · 0 评论 -
主题模型LDA的实现
数据集位于lda安装目录的tests文件夹中,包含三个文件:reuters.ldac, reuters.titles, reuters.tokens。reuters.titles包含了395个文档的标题reuters.tokens包含了这395个文档中出现的所有单词,总共是4258个reuters.ldac有395行,第i行代表第i个文档中各个词汇出现的频率。以第0行为例,第0行代表的是第0...原创 2019-05-04 09:13:30 · 1216 阅读 · 0 评论 -
随机森林算法
在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。许多估计量中的多数票最终可能比进行投票的任何单个估计量都要好!学习算法用N来表示训练用例(样本)的个数,M表示特征数目。输入特征数目m,用于确定决策树上一个节点的决策结果;其中m应远小于M。从N个训练用例(样本...原创 2019-05-30 23:38:02 · 1281 阅读 · 0 评论 -
sklearn模型的训练(上)
模型的介绍根据问题特点选择适当的估计器estimater模型:分类(SVC,KNN,LR,NaiveBayes,…) 回归 (Lasso,ElasticNet,SVR,…) 聚类(KMeans,…) 降维(PCA,…)机器学习模型按照可使用的数据类型分为监督学习和无监督学习两大类。监督学习主要包括用于分类和用于回归的模型:分类:线性分类器(如LR)支持向量机(SVM)朴素贝叶斯...原创 2019-03-21 17:24:53 · 1465 阅读 · 0 评论 -
AHP层次分析法解决用户价值评估
前言@Author : Runsen现在互联网都有得到用户,那用户到底有没有价值需要评估。通过各种指标来给用户综合打分,每个用户最后会得到一个分值,分值越高,说明用户的价值越高。这是一个总的目标,一个用户可以创造的价值由两部分决定:创造价值的能力和创造价值的意愿,前者是能不能的问题、后者是愿不愿意的问题。定了两个主线以后再次进行目标拆解,根据业务经验分别找到那些能够判断用户创造价值的能力和意...原创 2020-04-07 23:40:42 · 1577 阅读 · 0 评论 -
【推荐系统】基于模型的协同过滤算法
【推荐系统】基于模型的协同过滤算法原创 2021-04-16 17:09:52 · 1486 阅读 · 0 评论