weixin_45589945
码龄5年
关注
提问 私信
  • 博客:26,204
    26,204
    总访问量
  • 32
    原创
  • 582,153
    排名
  • 3
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:美国
  • 加入CSDN时间: 2019-08-31
博客简介:

weixin_45589945的博客

查看详细资料
个人成就
  • 获得10次点赞
  • 内容获得1次评论
  • 获得96次收藏
创作历程
  • 5篇
    2021年
  • 29篇
    2020年
成就勋章
TA的专栏
  • 机器学习
    9篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

EM算法

应用EM算法有很多的应用,最广泛的就是GMM混合高斯模型、聚类、HMM等等EM算法Jensen不等式:设f是定义域为实数的函数,如果对于所有的实数x。如果对于所有的实数x,f(x)的二次导数大于等于0,那么f是凸函数。当x是向量时,如果其hessian矩阵H是半正定的,那么f是凸函数。如果只大于0,不等于0,那么称f是严格凸函数。Jensen不等式表述如下:如果f是凸函数,X是随机变量,那么:E[f(X)]>=f(E[X]),特别地,如果f是严格凸函数,当且仅当X是常量时,上式取等号。
原创
发布博客 2021.04.20 ·
250 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

聚类

分类K-means均值聚类层次聚类谱聚类层次聚类凝聚:AGNES分裂:DIANADBSCANDBSCAN以一个从未访问过的任意起始数据点开始。这个点的邻域是用距离ε(所有在ε距离的点都是邻点)来提取的。如果在这个邻域中有足够数量的点(根据 minPoints),那么聚类过程就开始了,并且当前的数据点成为新聚类中的第一个点。否则,该点将被标记为噪声(稍后这个噪声点可能会成为聚类的一部分)在这两种情况下,这一点都被标记为访问,允许存在噪声DBSCAN比其他聚类算法有一些优势。首先,它不需要一个
原创
发布博客 2021.04.13 ·
189 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习-SVM

SVM基本概念支持向量机(support vector machines,SVM)是一种二分类模型,它将实例的特征向量映射为空间中的一些点,SVM 的目的就是想要画出一条线,以 “最好地” 区分这两类点,以至如果以后有了新的点,这条线也能做出很好的分类。SVM 适合中小型数据样本、非线性、高维的分类问题。分类线性可分支持向量机SVM 将会寻找可以区分两个类别并且能使间隔(margin)最大的划分超平面。比较好的划分超平面,样本局部扰动时对它的影响最小、产生的分类结果最鲁棒、对未见示例的泛化能力最强
原创
发布博客 2021.04.06 ·
232 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据预处理

极端值处理KNN 决策树 对极端值不敏感可视化检验例如:信用卡额度过高,持卡人年龄过大缺失值处理完全随机随机完全非随机提升算法伪残差,拟合残差正则项决策树的复杂度可考虑叶节点数和叶权值超参数GBDTGBDT的核心就在于,每一棵树学的是之前所有树结论和的残差,这个残差就是一个加预测值后能得真实值的累加量。这就是Gradient Boosting在GBDT中的意义,GBDT可以用更少的feature,且避免过拟合。Boosting的最大好处在于,每一步的残差计算其实变相地增大了分错
原创
发布博客 2021.04.05 ·
248 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

决策树和随机森林

决策树条件熵信息增益信息增益比基尼指数经典算法决策树是一种基本的分类与回归方法,学习通常包含三个步骤:特征选择、决策树的生成和决策树的剪枝条件熵H(X,Y)-H(X)信息增益和条件熵决策树容易发生过拟合,对于未测试数据的泛化能力较弱,剪枝和随机森林:极小化决策树整体的损失函数剪枝:父结点变成新的叶结点随机森林:信息增益使用信息增益选择特征的算法称为C3算法信息增益比特征A对训练数据集D的信息增益比gR(D, A)定义为其信息增益g(D, A)与训练集D的经验熵之比基尼指数基尼指数是
原创
发布博客 2021.03.23 ·
133 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习之线性回归

线性回归预测损失函数sklearn均方误差过拟合和欠拟合模型的保存和加载逻辑回归logisticRegressionUML 图表FLowchart流程图导出与导入导出导入损失函数最小二乘法梯度下降法sklearn封装好但有些过程看不到,参数在内部数据量大用SGD梯度下降均方误差mean_squared_error过拟合和欠拟合1.欠拟合在训练集和验证集表现都不好模型过于简单,增加数据特征2.过拟合在训练集表现好但验证集表现不好原因:特征过多;存在嘈杂特征,模型过于复杂解决:进
原创
发布博客 2020.12.20 ·
90 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

决策树和随机森林

决策树信息论基础 比特32支球队猜冠军信息熵信息增益得知一个特征后,减少的信息熵的大小ID3 C4.5 CART 基尼系数DecisionTreeClassifier(criterion=’ ',max_depth=None, random_state=None)优点简单的理解和解释 可视化缺点过拟合解决办法减枝随机森林随机森林集成学习方法多个模型进行预测...
原创
发布博客 2020.12.11 ·
133 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习之k近邻算法和朴素贝叶斯

相似的样本,特征之间的值相近!欧式距离,需要进行标准化处理实例:预测入住位置from sklearn.neighbors import KNeighborsClassifierfrom sklearn.preprocessing import StandardScalerfrom sklearn.feature_extraction.text import TfidfVectorizer特征值:row_id, x_y坐标,准确性,时间,目标值:place_id分类问题xy缩小我们用到d
原创
发布博客 2020.12.10 ·
416 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

数据降维

数据降维特征选择噪声:对预测结果有影响过滤式:方差 variancethresholddef var(): """ 特征选择-删除低方差的特征 :return: None """ var = VarianceThreshold(threshold=1.0) data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]]) print(data) return N
原创
发布博客 2020.12.08 ·
195 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习(1)

Marvin Lee Minsky人工智能 机器学习 深度学习场景:机器写新闻人脸识别智能诊断信贷需求预测,店铺销量预测应用领域:自然语言处理图像识别传统预测框架tensorflow pytorch theano caffe2机器学习概述数据——规律——预测案例:AlphaGo智能客服,ET医疗,智慧城市 减少成本特征工程数据集文件csv,numpy多线程 释放GIL可用数据集1.Kaggle2.UCI :专业3.scikit-learn 数据量小结构组成:
原创
发布博客 2020.12.07 ·
161 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

2020-12-04

管理数据库SQLYOGPHPMyadmin数学函数库日期函数字符串函数库条件判断函数IF(EXPR,V1,V2)IFNULL(V1,V2)
原创
发布博客 2020.12.05 ·
159 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MYSQL

排序ORDER BYLIMIT限制显示条数SELECT*FROM cms ORDER BY id DESC LIMIT5;UPDATE cms SET age=age+10 LIMIT 3;连接查询内连接INNER JOIN provinces AS pON u.proId=p.id;外连接LEFT JOINRIGHT JOIN外键保证数据完整性一致性,建立主表和副表的关系。相同的存储引擎,相似的数据类型,数字长度和是否有符号位必须相同。首先先创建索引。FOREIGN KEY(
原创
发布博客 2020.12.04 ·
170 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MYSQL

测试自增长AUTO_INCREMENTCREATE TABLE IF NOT EXISTS user5(id SMALLINT KEY AUTO_INCREMENTusername VARCHAR(20));插入值,默认最大编号加一INSERT user5 VALUES(1,'KING')INSERT user5 VALUES(122,'KING')INSERT user5 VALUES(DEFAULT,'KING')INSERT user5 (username)VALUES('KIN
原创
发布博客 2020.12.03 ·
133 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

MYSQL数据库

数据库SQL语句规范数据类型查看引擎注释SQL语句规范help或\h–prompt 修改提示符\D 完整日期\d数据库\u当前用户名\h服务器名称规范:关键字与函数全部大写语句以分隔符结尾数据类型TINYINTSMALLINT()……CHAR()ENUM() 列举查看引擎SHOW ENGINES注释–编码方式 SET NAMES GBK...
原创
发布博客 2020.12.02 ·
111 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

时间序列(pandas)

1.时间序列的生成pd.date_range(start=“20201125”,periods=10,freq=“M”)注意索引词:periods 和 freq!!!import pandas as pdimport numpy as npdf2=pd.date_range(start="20201125",periods=10,freq="M")print(df2)C:\Users\zxh\Anaconda3\python.exe D:/PycharmProjects/MyTest/da
原创
发布博客 2020.11.26 ·
115 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据的合并与分组聚合

import pandas as pdimport numpy as npdf1=pd.DataFrame(np.ones(2,4),index=["A","B"],columns=list("abcd"))合并1.joindf1.join(df2)df2.join(df1)2.mergedf1.merge(df3,on=“a”)how=“inner/outer/left/right”分组聚合df=pd.read_csv()print(head(1))print(info())
原创
发布博客 2020.11.24 ·
107 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Pandas的使用

字符串,时间序列data analysis toolseries一维,带标签的数组DataframeSeries的创建import pandas as pdpd.Series([ ])import pandas as pdt=pd.Series([1,2,31,12,3,4],index=list("abcdef"))print(t)print(type(t))#字典方法dic={"name":"zxh","age":"20","tel":"188"}t2=pd.Ser
原创
发布博客 2020.11.20 ·
105 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

numpy

数组创建np.array([1,2,3,])np.array(range(10))np.arange(10)输出数据类型print(t3.dtype)调整数据类型t3.astype(“int8”)保留小数round(random.random(),3)“%.2f”%random.random()数组的形状和计算t1.shape( )np.arange(24).reshape((2,3,4))两块,每块三个数组,每个数组里面四个t5.flatten( )读取本地数据和索引二维
原创
发布博客 2020.11.19 ·
88 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

matplotlib常用统计图

绘制散点图plt.scatter( )例,绘制气温散点图from matplotlib import pyplot as pltfrom matplotlib import font_managera = [11,17,16,11,12,11,12,6,6,7,8,9,12,15,14,17,18,21,16,17,20,14,15,15,15,19,21,22,22,22,23]b = [26,26,28,19,21,17,16,19,18,20,20,19,22,23,17,20,21,2
原创
发布博客 2020.11.18 ·
102 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

机器学习数据科学1

matplotlibx=range(2,26,2)y=[15,13,14,5,17,20,25,26,26,27,22,18]#设置图片大小plt.figure(figsize=(20,8))plt.plot(x,y)#图片保存plt.savefig("./t.png")#x刻度plt.xticks(x)plt.yticks(range(min(y),max(y)+1))plt.show()1.画图像并展示plt.plot()plt.show()2.设置横纵坐标plt.xt
原创
发布博客 2020.11.16 ·
69 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多