yujie12345678-CSDN博客

原创机器学习——主题模型

机器学习——主题模型主题模型LDA的解释详细解释主题模型LDA的解释共有m篇文章，一共涉及了K个主题每篇文章（长度为NmN_mNm）都有各自的主题分布，主题分布是多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数为α\alphaα；每个主题都有各自的词分布，词分布为多项分布，该多项分布的参数服从Dirichlet分布，该Dirichlet分布的参数为β\betaβ；对于某篇文章中的第n个词，首先从该文章的主题分布中采样一个主题，然后在这个主题对应的词分布中采

2020-09-04 15:31:04 275

原创机器学习——贝叶斯网络

机器学习——贝叶斯网络贝叶斯网络贝叶斯网络结构贝叶斯网络贝叶斯网络是一种概率图模型，于1985年由Judea Pearl首先提出。它是一种模拟人类推理过程中因果关系的不确定性处理模型，其网络拓朴结构是一个有向无环图。贝叶斯网络的有向无环图中的节点表示随机变量，它们可以是可观察到的变量，或隐变量、未知参数等。认为有因果关系（或非条件独立）的变量或命题则用箭头来连接。若两个节点间以一个单箭头连接在一起，表示其中一个节点是“因(parents)”，另一个是“果(children)”，两节点就会产生一个

2020-09-03 19:07:26 2383

原创机器学习——EM实践

机器学习——EM实践EM实践EM实践

2020-09-01 08:59:09 197

原创机器学习——EM算法

机器学习——EM算法EM算法EM算法提出EM算法理论推导EM算法实践(GMM模型)E步M步EM算法EM算法提出假定有训练集{x(1),...,x(m)x^{(1)},...,x^{(m)}x(1),...,x(m)}, 包含m个独立样本,希望从中找到该组数据的模型p(x,z)的参数EM算法理论推导EM算法实践(GMM模型)随机变量X是由K个高斯分布混合而成, 取各个高斯分布的概率为ϕ1,...,ϕK\phi_1,...,\phi_Kϕ1,...,ϕK, 第 i 个高斯分布的均值为μi\mu

2020-08-30 11:06:58 188

原创机器学习——SVM

机器学习——SVM

2020-08-26 10:26:16 144

原创机器学习——XGBoost实践

XGBoost实践下图为官网上xgboost的简介：下面给出利用xgboost来预测泰坦尼克号存活的实例来了解xgboostimport xgboost as xgbimport numpy as npimport pandas as pdfrom sklearn.linear_model import LogisticRegressionfrom sklearn.ensemble import RandomForestRegressorfrom sklearn.ensemble impo

2020-08-25 16:31:58 216

原创 Bagging and Boosting

Bagging and BoostingBaggingBoosting提升算法推导GBDT（梯度提升决策树）XGboostAdaboostBaggingBoosting提升是一个机器学习计数，可以用于回归和分类问题，它每一步产生一个弱预测模型（如决策树），并加权累加到总模型中；如果每一步的弱预测模型生成都是依据损失函数的梯度方向，则称之为梯度提升（Gradient boosting）梯度提升算法首先给定一个目标损失函数，它的定义域是所有可行的弱函数集合；提升算法通过迭代的选择一个负梯度方向上的基函

2020-08-23 21:35:18 162

原创机器学习——数据清洗

机器学习——数据清洗模糊查询与替换混淆矩阵、TPR与FPR混淆矩阵查出率TPR与查错率FPR特征工程模糊查询与替换fuzzywuzzy.fuzz返回匹配相似度fuzz.ratiofuzz.partial_ratiofuzz.token_sort_ratiofuzz.token_set_ratiofrom fuzzywuzzy import fuzz# 简单匹配fuzz.ratio("I love python", "I love python!")# 输出结果96# 非

2020-08-17 13:17:07 3571

原创机器学习——逻辑回归与K-means聚类

机器学习——逻辑回归sigmoid函数

2020-08-15 17:18:20 1099

原创机器学习——线性回归

机器学习——线性回归

2020-08-14 21:43:12 223

原创机器学习——决策树和随机森林(update)

机器学习——决策树和随机深林决策树随机森林决策树随机森林

2020-08-14 12:56:27 205

原创 k近邻算法与朴素贝叶斯算法

机器学习——k近邻算法与朴素贝叶斯算法k近邻算法k近邻算法定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别计算距离公式：利用欧式距离定义(a1−b1)2+...+(an−bn)2\sqrt{(a_1-b_1)^2+...+(a_n-b_n)^2}(a1−b1)2+...+(an−bn)2由上述公式可看出k近邻算法需要进行标准化处理sklearn.neighbors.KNeighborsClassifier(n_n

2020-08-13 17:09:08 975

原创机器学习——特征工程2

机器学习——特征工程2数据降维特征选择过滤式特征选择主成分分析数据降维降维：这里的维度指特征的数量数据降维的两种方法：特征选择主成分分析特征选择特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征，特征在选择前和选择后可以改变值、也不改变值，但是选择后的特征维数肯定比选择前小，毕竟我们只选择了其中的一部分特征。主要方法：Filter(过滤式):VarianceThreshold、Embedded(嵌入式)：正则化、决策树、Wrapper(包裹式)、神经网络冗

2020-08-12 14:51:35 176

原创机器学习——特征工程

机器学习——特征工程特征抽取字典特征文本特征统计次数（CountVectorizer）TF-IDF特征的预处理归一化标准化缺失值处理特征抽取特征抽取：对文本等数据进行特征值化，特征抽取是为了计算机更好理解数据。特征抽取的API：sklearn.feature_extraction字典特征作用：对字典数据进行特征化，把字典中一些类别数据，分别进行转换成特征。类：sklearn.feature_extraction.DictVectorizerDictVectorizer(sparse=

2020-08-11 16:35:47 206

原创 pandas数据科学库——matplotlib

在图形上注释import matplotlib.pyplot as pltimport numpy as npx = np.arange(-10,11,1)plt.plot(x,x*x)# xy代表注释箭头的坐标, xytext代表注释的坐标, frac代表箭头所占比例, headwidth代表箭头宽度, width代表箭身的宽度plt.annotate('this is the bottom', xy=(0, 1), xytext = (0, 20), arrowprops = dict(fa

2020-08-09 15:14:56 234

原创数据可视化——matplotlib

数据可视化——matplotlib散点图散点图可以用来判断数据的相关性import numpy as npimport matplotlib.pyplot as pltheight=[161,170,182,175,173,165]weight=[50,58,80,70,69,55]# s代表点的大小，c代表颜色, marker代表点的形状, alpha代表透明度plt.scatter(height,weight, s = 20, c = 'b', marker = 'o', alpha

2020-08-08 15:24:23 153

原创 pandas——时间日期及数据可视化

时间日期时间戳 tiimestamp：固定的时刻 -> pd.Timestamp固定时期 period：比如 2016年3月份，再如2015年销售额 -> pd.Period时间间隔 interval：由起始时间和结束时间来表示，固定时期是时间间隔的一个特殊时间日期在 Pandas 里的作用分析金融数据，如股票交易数据分析服务器日志复习Python的datetime模块python 标准库里提供了时间日期的处理。这个是时间日期的基础。from datetime impo

2020-08-07 22:24:42 1934

原创数据分析——pandas

数据分析——pandaspandas核心数据结构Series：一维数据创建SeriesSeries的索引DataFrame：二维数组DataFrame的创建DataFrame的索引pandas查询数据pandas新增/删除数据列pandas新增数据列pandas删除数据列pandas数据统计函数pandas处理缺失值pandas数据排序Series的排序DateFrame的排序pandas索引pandas分组计算pandas实现数据的Mergepandas核心数据结构Series：一维数据创建Seri

2020-08-07 10:58:58 289

原创数据结构——排序算法

数据结构——排序算法一共有6种排序算法，分别为：冒泡排序，选择排序，插入排序，希尔排序，快速排序，归并排序冒泡排序冒泡排序就是比较相邻两个元素，若左边元素大于右边元素则换序，这样第一轮换序完之后最大的就会到最后一位，然后再进行第二轮，第二轮只用比较前n-1个即可，n个循环之后排序完成。python代码如下：def bubble_sort(a): n = len(a) for j in range(n): count = 0 for i in range(n-j-1): i

2020-08-05 13:08:40 194

原创 python数据库——numpy入门

python数据库——numpy入门创建arrayimport numpy as np# 可根据需要利用dtype自定义矩阵中的数据形式，常用的为int和floata = np.array([[1,2,3], [4,5,6]], dtype = np.float)print(a)# 输出结果为[[1. 2. 3.] [4. 5. 6.]]生成全为0或1的矩阵import numpy as np# 生成全为0的矩阵A = np.zeros((3,4))# 生成全为1的矩阵

2020-08-04 19:19:57 408 1

yujie12345678的博客