- 博客(26)
- 收藏
- 关注
原创 流失预警模型:神经网络
参考文章:https://www.tensorflow.org/api_docs/python/tf/contrib/learn/DNNClassifier。隐藏层层数、 隐藏层节点个数。
2022-08-11 10:50:55 493
原创 流失预警模型:GBDT模型
Gradient Boosting Decision Tree,梯度提升树特点基于简单决策树的组合模型沿着梯度下降的方向进行提升只接受数值型连续变量,需做特征值转化优点准确度高不易过拟合。
2022-08-08 16:08:46 593
原创 深度学习-Keras
搭建神经网络六步法import相关模块,如import tensorflow as tf指定输入网络的训练集和测试集,如指定训练集的输入x_train和标签y_train,测试集的输入x_test和标签y_test逐层搭建网络结构 model=tf.keras.model.Sequential()在model.compile()中配置训练方法,选择训练时使用的优化器、损失函数和最终评价指标在model.fit()中执行训练过程,告知训练集和测试集的输入值和 标签、每个bat
2022-04-28 16:57:31 199
原创 深度学习-神经网络优化
指数衰减学习率import tensorflow as tfw = tf.Variable(tf.constant(5, dtype=tf.float32))epoch = 40LR_BASE = 0.2 # 最初学习率LR_DECAY = 0.99 # 学习率衰减率LR_STEP = 1 # 喂入多少轮BATCH_SIZE后,更新一次学习率for epoch in range(epoch): # for epoch 定义顶层循环,表示对数据集循环epoch次,此例数据集数据仅
2022-04-27 16:32:45 282
原创 深度学习-神经网络识别花
# -*- coding: UTF-8 -*-# 利用鸢尾花数据集,实现前向传播、反向传播,可视化loss曲线# 导入所需模块import tensorflow as tffrom sklearn import datasetsfrom matplotlib import pyplot as pltimport numpy as np# 导入数据,分别为输入特征和标签x_data = datasets.load_iris().datay_data = datasets.load_iri
2022-04-27 14:36:34 152
原创 深度学习基础-常用函数
基础1、 强制tensor转换为该数据类型tf.cast(张量名,dtype=数据类型)2、计算张量维度上元素的最小值tf.reduce_min(张量名)3、计算张量维度上元素的最大值tf.reduce_max(张量名)4、计算方向axisimport tensorflow as tfimport numpy as npx=tf.constant([[2,4,8],[1,3,5]])x=tf.cast(x,float)print(x)print('平均值为')print(tf.c
2022-04-26 16:53:21 2429
原创 深度学习基础-生成张量
创建一个张量tf.constant(张量内容,dtype=数据类型(可选))import tensorflow as tfa=tf.constant([1,5],tf.dtype=int64)print(a)print(a.dtype)print(a.shape)将numpy的数据类型转换为Tensor数据类型tf.convert_to_tensor(数据名,dtype=数据类型(可选))import tensorflow as tfimport numpy as npa=np.ar
2022-04-26 15:47:59 1957
原创 机器学习-回归算法
线性回归损失函数求损失函数的两种方法1、正规方程缺点:当特征过于复杂,求解速度太慢对于复杂的算法,不能使用正规方程求解(逻辑回归等)梯度下降法正规方程VS梯度下降过拟合与欠拟合1、过拟合:一个假设在训练数据上能够获得比其他假设更好的拟合, 但是在训练数据外的数据集上却不能很好地拟合数据,此时认为这个假设出现了过拟合的现象。(模型过于复杂)原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾各个测试数据点解决办法:1)进行特征选择,消除关联性大的特征(很难
2022-04-13 17:20:49 126
原创 机器学习-分类算法
朴素贝叶斯拉普拉斯平滑系数是为了解决词频列表中有很多出现次数为0,则结算结果很可能为0的情况,默认为1优点:1、发源于古典数学理论,有稳定的分类效率2、对缺失数据不太敏感,算法简单,常用语文本分类3、分类准确度高,速度快缺点:需要知道先验概率P(F1,F2,…|C),因此在某些时候会由于假设的先验模型的原因导致预测效果不佳from sklearn.datasets import load_iris, fetch_20newsgroups, load_bostonfrom sklearn.
2022-04-12 16:11:16 111
原创 机器学习-模型的选择与调优
交叉验证将拿到的数据,分为训练集和验证集,以下图为例:将数据分成5份,其中1份作为验证集,经过5次(组)的测试,每次都更换不同的验证集。即得到5组模型的结果,取平均值作为最终结果,又称5折交叉验证。超参数搜索-网格搜索通常情况下,有很多参数是需要手动指定,这种叫超参数。但是手动过程繁杂,所以需要对模型预设几种超参数组合。每组超参数都采用交叉验证来进行评估。最后选出最优参数组合建立模型。sklearn.model_selection.GridSearchCV(estimator, param_gri
2022-04-12 15:58:40 236
原创 机器学习-分类模型的评估
准确率estimator.score()一般最常见使用的是准确率,即预测结果正确的百分比召回率真实为正例的样本中预测结果为正例的比例(查得全,对正样本的区分能力),常用到精确率预测结果为正例样本中真实为正例的比例(查得准)F1-score反应了模型的稳健性from sklearn.datasets import load_iris, fetch_20newsgroups, load_bostonfrom sklearn.model_selection import train_t
2022-04-12 15:50:08 270
原创 机器学习-数据的降维
特征选择特征选择就是单纯地从提前到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值、也可以不改变值,但是选择后的特征维数肯定比选择前小,毕竟我摸只选择了其中的一部分特征。主要有以下三种方式:1、Filter(过滤式):VarianceThresholdfrom sklearn.feature_selection import VarianceThresholddef var(): """ 特征选择-删除低方差的特征 :return: None
2022-04-11 14:51:08 99
原创 机器学习-特征预处理
归一化特点:通过对原始数据进行变换把数据映射到(默认[0,1]之间)目的:使得某一个特征对最终结果不会造成更大影响from sklearn.preprocessing import MinMaxScaler, StandardScaler, Imputerdef mm(): """ 归一化处理 :return: NOne """ mm = MinMaxScaler(feature_range=(2, 3)) data = mm.fit_trans
2022-04-11 10:55:06 835
原创 机器学习-特征工程
字典特征数据抽取为了计算机更好地理解数据,特征抽取对文本等数据进行特征值化中文用jieba库from sklearn.feature_extraction import DictVectorizerfrom sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizerfrom sklearn.preprocessing import MinMaxScaler, StandardScaler, Imputerfrom
2022-04-08 15:56:47 61
原创 数据的合并与分组聚合
字符串离散化案例统计电影分类(genre)的情况,应该如何处理数据?思路:重新构造一个全为0的数组,列名为分类,如果某一条数据中分类出现过,就让0变成1代码如下:# coding=utf-8import pandas as pdfrom matplotlib import pyplot as pltimport numpy as npimport osfile_path = "./IMDB-Movie-Data.csv"df = pd.read_csv(file_path)print
2022-04-08 13:59:46 290
原创 matplotlib学习笔记
设置中文# coding=utf-8from matplotlib import pyplot as pltimport randomimport matplotlibfrom matplotlib import font_manager#另外一种设置字体的方式my_font = font_manager.FontProperties(fname="/System/Library/Fonts/PingFang.ttc")x = range(0,120)y = [random.randin
2022-04-06 17:05:23 50
原创 Python数据结构与算法-基本概念
算法效率衡量利用大O记法描述算法时间复杂度时间复杂度的几条基本计算规则1)基本操作,即只有常数项,认为其时间复杂度为O(1)2)顺序结构,时间复杂度按加法进行计算3)循环结构,时间复杂度按乘法进行计算4)分支结构,时间复杂度取最大值5)判断一个算法的效率时,往往只需要关注操作数量的最高次项,其它次要项和常数项可以忽略6)在没有特殊说明时,我们所分析的算法的时间复杂度都是指最坏时间复杂度常见的时间复杂度Python内置类型性能分析timeit模块可以用来测试一小段Py
2022-04-02 15:11:25 1030
原创 最优化方法
梯度下降法https://www.bilibili.com/video/BV1Ux411j7ri?spm_id_from=333.337.search-card.all.click共轭梯度法https://zh.wikipedia.org/wiki/%E5%85%B1%E8%BD%AD%E6%A2%AF%E5%BA%A6%E6%B3%95牛顿法https://www.bilibili.com/video/BV1r64y1s7fU?spm_id_from=333.337.search-card.al
2022-04-01 15:59:59 69
原创 概率统计学习笔记
贝叶斯定理https://www.bilibili.com/video/BV1R7411a76r?spm_id_from=333.337.search-card.all.click新证据不能直接决定你的看法,而是应该更新你先前的经验!大数定律https://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B8%E6%B3%95%E5%89%87中心极限定理https://www.bilibili.com/video/BV1ah411q7tp?spm_id_from
2022-04-01 15:52:30 316
原创 线性代数笔记
标量、向量、张量1)标量:只有大小,没有方向比如:重量、温度、时间、热量等2)向量指一个同时具有大小和方向,且满足平行四边形法则的几何对象比如:股票价格3)张量是一种表示物理量的方式,用基向量与分量组合表示物理量。4)标量、向量、矩阵、张量的关系这4个概念是维度不断上升,点——标量:0阶张量线——向量:1阶张量面——矩阵体——张量向量与矩阵运算https://www.bilibili.com/video/BV1FA411n7CT?spm_id_from=333.337.sear
2022-03-31 17:14:02 292
原创 微分:多元函数
偏导数1)定义2)几何意义https://www.bilibili.com/video/BV1GA411j764?spm_id_from=333.337.search-card.all.click多元连续和可偏导之间的关系1)一元:可导必定连续,连续不一定可导2)二元:连续未必可偏导,可偏导未必连续-,两者没有关系https://www.bilibili.com/video/BV1Zv411k7yu?spm_id_from=333.999.0.0全微1)一元微分2)全微3)可
2022-03-30 16:33:27 860
原创 微分:一元函数
学习目标:理解微分学习内容:`1、2、3、导数本质就是变化率python包:sympy4、泰勒公式计算的本质是近似洛必达计算的本质是降阶5、凸函数学习产出:提示:这里统计学习计划的总量例如: 技术笔记 2 遍 CSDN 技术博客 3 篇 习的 vlog 视频 1 个...
2022-03-30 13:48:10 1998
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人