2020年01月_炼丹师666

原创 keras_预测房价：回归问题

https://blog.csdn.net/xiewenrui1996/article/details/103913963《Python深度学习》下面是你应该从这个例子中学到的要点。‰ 回归问题使用的损失函数与分类问题不同。回归常用的损失函数是均方误差（MSE）。‰ 同样，回归问题使用的评估指标也与分类问题不同。显而易见，精度的概念不适用于回归问题。常见的回归指标是平均绝对误差（MAE）...

2020-01-31 18:25:46 1008

原创 keras_新闻多分类问题

Python深度学习‰ 如果要对 N 个类别的数据点进行分类，网络的最后一层应该是大小为 N 的 Dense 层。‰ 对于单标签、多分类问题，网络的最后一层应该使用 softmax 激活，这样可以输出在 N个输出类别上的概率分布。‰ 这种问题的损失函数几乎总是应该使用分类交叉熵。它将网络输出的概率分布与目标的真实分布之间的距离最小化。‰ 处理多分类问题的标签有两种方法。ƒ 通过分类编...

2020-01-31 17:37:16 374

原创 Keras_电影评论分类问题二分类

Keras_电影二分类https://zhuanlan.zhihu.com/p/63192044?utm_source=wechat_session将整数序列编码为二进制矩阵使用自定义的损失和指标绘制训练损失和验证损失构建网络import keras# keras.__version__# 电影评论分类：二分类问题# 二分类问题可能是应用最广泛的机器学习问题。在这个例子中，...

2020-01-31 15:55:18 587

原创 python_向量化序列说明_将整数序列编码为二进制矩阵

向量化序列说明_将整数序列编码为二进制矩阵参考：http://www.pythonheidong.com/blog/article/187614/import numpy as npt = np.array([1,2,3,4,5,6,7,8,9])r = np.zeros((len(t), 10))tarray([1, 2, 3, 4, 5, 6, 7, 8, 9])rarra...

2020-01-30 21:48:39 770

如果使用MNIST数据集训练 SimpleConvNet，则训练数据的识别率为99.82%，测试数据的识别率为98.96%（每次学习的识别精度都会发生一些误差）。测试数据的识别率大约为99%，就小型网络来说，这是一个非常高的识别率https://github.com/reader-sword/Deep-learning-from-scratch-master源代码在 ch07/train_c...

2020-01-30 15:45:33 1002

原创【卷积神经网络】卷积层，池化层，全连接层的理解

CNN网络一共有5个层级结构：参考：https://www.cnblogs.com/wj-1314/p/9593364.html输入层卷积层激活层池化层全连接FC层1 输入层与传统神经网络/机器学习一样，模型需要输入的进行预处理操作，常见的输入层中预处理方式有：去均值归一化PCA/SVD降维等2 卷积层局部感知：人的大脑识别图片的过程中，并不是一下子整张图同时识别，而...

2020-01-21 20:12:24 5642

原创【python】二分查找_排序

https://blog.csdn.net/alicelmx/article/details/80429229# 实现一个二分查找# 输入:一个顺序list# 输出: 待查找的元素的位置def binarySearch(alist, item): first = 0 last = len(alist) - 1 while first <= last:# ...

2020-01-21 16:44:35 493

原创矩阵卷积运算的具体过程

参考：https://blog.csdn.net/f156207495/article/details/82954506可通过信号系统来理解：

2020-01-19 22:09:52 2256

原创激活函数ReLU为什么比Sigmoid效果好_梯度消失

参考:https://blog.csdn.net/u014114990/article/details/50144653第一个问题：为什么引入非线性激励函数？如果不用激励函数（其实相当于激励函数是f(x) = x），在这种情况下你每一层输出都是上层输入的线性函数，很容易验证，无论你神经网络有多少层，输出都是输入的线性组合，与只有一个隐藏层效果相当，这种情况就是多层感知机（MLP）了。正因为...

2020-01-19 16:44:54 1800

原创前向传播和反向传播（推导示例）

参考这个：https://blog.csdn.net/qq_16137569/article/details/81449209前向传播(Forward Propagation)提一下前向传播过程，即网络如何根据输入得到输出的目的：由输入得到输出值，并算出loss。Loss指的是模型求解的值和数据label的差距。前传：可理解为一个公司的盈利取决于每个分部门的个人的付出。从底层到高层...

2020-01-19 16:10:33 855

原创梯度下降法

https://blog.csdn.net/pengchengliu/article/details/80932232梯度下降推导过程首先理解什么是梯度？通俗来说，梯度就是表示某一函数在该点处的方向导数沿着该方向取得较大值，即函数在当前位置的导数。其中，θo是自变量参数，即下山位置坐标，η是学习因子，即下山每次前进的一小步**（步进长度）**，θ是更新后的θo，即下山移动一小步之后的位置...

2020-01-19 15:01:47 164

原创逻辑回归损失函数推导及求导

sigmoid函数求导：https://blog.csdn.net/u012421852/article/details/79614417通过logistic曲线就可以知道1）sigmoid函数是一个阀值函数，不管x取什么值，对应的sigmoid函数值总是0<sigmoid(x)<1。2）sigmoid函数严格单调递增，而且其反函数也单调递增3）sigmoid函数连续4）...

2020-01-19 14:19:06 2106

原创机器学习哪些算法需要归一化

机器学习中需要归一化的算法有SVM,逻辑回归，神经网络，KNN,线性回归，而树形结构的不需要归一化，因为它们不关心变量的值，而是关心变量分布和变量之间的条件概率，如决策树，随机森林，对于树形结构，树模型的构造是通过寻找最优分裂点构成的，样本点的数值缩放不影响分裂点的位置，对树模型的结构不造成影响，而且树模型不能进行梯度下降，因为树模型是阶跃的，阶跃是不可导的，并且求导没意义，也不需要归一化2...

2020-01-16 22:37:21 421

原创最小二乘法的理解(最小平方法)

原来算术平均数可以让误差最小

2020-01-16 22:11:23 1243

原创二叉树的创建及广度深度遍历(Python版)

https://blog.csdn.net/Blood_Seeker/article/details/79068752#!/usr/bin/python3#-*- coding: utf-8 -*-#Function: simulate the binary tree in python#__author__: Tresser#class BTNode(object): d...

2020-01-16 22:11:08 220

原创机器学习一般流程

理解实际业务场景问题是机器学习的第一步。2 获取数据哪些表不仅如此还要对评估数据（样本数量、特征数量）的量级，3 特征工程特征工程包括从原始数据中特征选择，特征提取，特征构建数据预处理、缺失值，异常值，归一化、离散化、缺失值处理筛选出显著特征、摒弃非显著特征，需要机器学习工程师反复理解业务。这对很多结果有决定性的影响。特征选择需要运用特征有效性分析的相关技术，如相关系...

2020-01-16 22:10:54 1302

原创 map(), apply()和applymap()的区别与应用

总结：1.apply()是一种让函数作用于DataFrame中行或列的操作。2.applymap()是一种让函数作用于DataFrame每一个元素的操作。3.map()是一种让函数作用于Series每一个元素的操作。apply()、map()和applymap()的区别就在于应用场景的不同https://blog.csdn.net/GR346305172/article/details/...

2020-01-16 22:07:52 1313

原创从身份证获取信息

--从身份证获取年龄 select to_char(to_date(sysdate,'yyyy'))-substr(cust_id,10,4) from system.dual; --从身份证获取性别SELECT CASE (substr(cust_id,17,1)%2)WHEN 1 THEN '1'WHEN 0 THEN '2'END AS 's...

2020-01-15 16:20:09 309

原创 Mapreduce中Combiner的使用及误区

combine可以理解为是在map端的reduce的操作对单个map任务的输出结果数据进行合并的操作作用：减少传输到Reduce中的数据量。它主要是为了削减Mapper的输出从而减少网络带宽和Reducer之上的负载缺点：combine是作为一个优化手段，可选项，不是所有的MR程序都适合combine适合的场景：比如求最大值，求和，不适合比如求中间值...

2020-01-13 22:08:22 763

原创宽依赖和窄依赖的区别

宽依赖和窄依赖的区别参考：https://blog.csdn.net/u013384984/article/details/80963455总结一下：窄依赖：父RDD中，每个分区内的数据，都只会被子RDD中特定的分区所消费，为窄依赖：**宽依赖：**父RDD中，分区内的数据，会被子RDD内多个分区消费，则为宽依赖：会产生shuffle,遇到宽依赖，则划分为多个stage...

2020-01-13 21:49:00 1697

原创 TDH中distinct与groupby的操作分析

TDH中distinct与groupby的操作分析相同数量级的计算，为什么groupby 会比distinct快select count(1)from(select cust_isnfrom database.tablegroup by cust_isn)select count(distinct(cust_isn))from databas...

2020-01-13 19:07:06 307

原创 sparkml_实战全流程_LogisticRegression(三)

上面使用的使用K-Fold来进行超参调优，K-Fold交叉验证往往非常耗时，使用1-Fold的交叉验证（即将数据集按比例分为训练集合验证集）能大大缩短时间参考：https://www.jianshu.com/p/20456b512fa7# 上面使用的使用K-Fold来进行超参调优，K-Fold交叉验证往往非常耗时，# 使用1-Fold的交叉验证（即将数据集按比例分为训练集合验证集）能大大缩...

2020-01-12 17:50:26 364

原创 sparkml_实战全流程_LogisticRegression(二)

交叉验证网格搜索import pyspark.ml.tuning as tune# 超参调优：grid search和train-validation splitting # 网格搜索import pyspark.ml.tuning as tunelogistic = cl.LogisticRegression(labelCol='INFANT_ALIVE_AT_REPORT...

2020-01-12 17:43:15 362

原创 sparkml_实战全流程_LogisticRegression(一)

sparkml_实战全流程_LogisticRegression2.1 加载数据创建转换器、评估器birth place使用one-hot编码创建一个评估器VectorAssembler接受以下输入列类型:所有数值类型、布尔类型和向量类型2.3 创建一个管道、拟合模型拟合模型 randomSplit划分测试集训练集2.4 评估模型2.5 保存模型保存管道载入模型...

2020-01-12 17:26:07 593

原创 python_采样_多个散点图在一起

参考：https://www.jianshu.com/p/14e635662fff#sampleBy根据指定字段分层抽样sample_data = df.sampleBy('gender',{1:0.0002,2:0.0002}).select("balance","numTrans","numIntlTrans")sample_data.take(5)To put multiple 2...

2020-01-12 16:45:49 7560

原创 sparksql_可视化组分布_histogram

sparksql_可视化组分布_histogram可参考：https://blog.csdn.net/weixin_39599711/article/details/79072691# 如果数据是几百万行，第二种方法显然不可取。因此需要先聚合数据。hists = fraud_df.select('balance').rdd.flatMap(lambda row: row).histogra...

2020-01-12 16:36:55 519

原创 sparksql_分析相关性

只要数据是DataFrame格式，在PySpark中计算相关性非常容易。#唯一的困难是.corr（…）方法现在支持Pearson相关系数，而它只能计算成对的相关性# 只要数据是DataFrame格式，在PySpark中计算相关性非常容易。# 唯一的困难是.corr（…）方法现在支持Pearson相关系数，而它只能计算成对的相关性，如下：fraud_df.corr('balance', ...

2020-01-12 16:28:18 1421

原创 sparksql_探索数据分布

读取csv文件创建dataframe的 schema：获取schema用.groupby(…)方法分组统计用 .describe()方法对数值进行描述性统计：偏态&离散程度参考：https://blog.csdn.net/weixin_39599711/article/details/79072691import pyspark.sql.types as typNext, ...

2020-01-12 16:06:27 850

原创 python_如何观察数据分布_describe

如何观察数据分布_describe从上面的描述性统计可以看出两点：**正偏态离散程度**1）所有的特征都是正倾斜的，最大值是平均数的几倍。 2）离散系数（coefficient of variation，或变异系数）非常高，接近甚至超过1，说明数据的离散程度很大，波动范围很大。备注：正倾斜（positively skewed）：平均数 > 中位数，由于数据中有些很大很大...

2020-01-12 15:54:24 5299

原创 sparksql_标记异常值_提取异常值_approxQuantile

sparksql_标记异常值_提取异常值参考：https://www.jianshu.com/p/56cff9f6e0bedf_outliers = spark.createDataFrame([(1,143.5,5.3,28), (2,154.2,5.5,45), ...

2020-01-12 15:26:48 2617

原创基于箱型图如何确定异常值

五数概念（five-number summary）由中位数（Q2Q2）、四分位数Q1Q1和Q3Q3、最大（Maximum）和最小（Minimum）观测值组成，按次序Minimum，Q1Q1，Q2Q2，Q3Q3，Maximum。可疑的离群点通常是落在Q3Q3 之上或Q1Q1 之下至少 1.5IQR参考：https://blog.csdn.net/been123456789jimmy/articl...

2020-01-12 14:49:16 796

原创 sparksql_使用平均数填充缺失值

sparksql_填充缺失值#为none值填充新值means = df_miss_no_income.agg(*[fn.mean(c).alias(c) for c in df_miss_no_income.columns if c != 'gender'])\ ....

2020-01-12 14:34:17 1661

原创 sparksql_删除行_去除行

#income列缺失太多，基本无用了，现在要去掉这一列数据#thresh=3 表示一行中非NONE的数据少于3个则去除该行#income列缺失太多，基本无用了，现在要去掉这一列数据df_miss_no_income = df_miss.select([c for c in df_miss.columns if c != 'income'])df_miss_no_income.show()...

2020-01-12 14:27:28 5368 1

原创 sparksql_统计每行缺失值_统计每列缺失值

sparksql_统计每行缺失值_统计每列缺失值df_miss = spark.createDataFrame([ (1, 143.5, 5.6, 28, 'M', 100000), (2, 167.2, 5.4, 45, 'M', None), (3, None , 5.2, None, None, None), (4...

2020-01-12 14:21:03 4893 2

原创 sparksql_monotonically_increasing_id 生成唯一自增ID

#发现有重复的ID，我们可能需要重新给每行数据分分配唯一的新的ID来标示它们# 增加一个新列df.withColumn('new_id', fn.monotonically_increasing_id()).show()#withColums 新增一列#monotonically_increasing_id 生成唯一自增ID+---+------+------+---+------+--...

2020-01-12 13:23:20 2926

原创 sparksql_count_countDistinct

#ok.现在来计算下是否有重复的ID# count 计算行数 countDistinct计算id的唯一数import pyspark.sql.functions as fn #导入spark sql的一些函数df.agg( fn.count('id').alias('count'), fn.countDistinct('id').alias('distinct')...

2020-01-12 13:21:38 3233

原创 sparksq_去重

#分别打印dataframe未去重和去重后的行数print('Count of rows: {0}'.format(df.count()))print('Count of distinct rows: {0}'.format(df.distinct().count()))#去掉重复的行df = df.dropDuplicates()df.show()#计算排除id后是否有重复的数据...

2020-01-11 21:48:35 147

原创 sparksql_分析航线数据_DataFrame场景

sparksql_分析航线数据_DataFrame场景# Set File Paths# 设置文件路径读取csv文件flightPerfFilePath = "/databricks-datasets/flights/departuredelays.csv"airportsFilePath = "/databricks-datasets/flights/airport-codes-n...

2020-01-11 21:27:26 500 1

原创 sparksql查询_筛选_过滤

#1.获取DataFrame中数据的行数print("1.利用SQL查询输出DataFrame中数据的行数:\n")spark.sql("select count(1) as num from swimmers").show() #2.利用where子句获取age=21的id,ageprint("2.利用where子句获取age=21的id,age:\n")spark.sql("sel...

2020-01-11 20:34:14 2993

原创 DataFrame API查询_过滤_filter

#1.输出DataFrame中的行数print("1.输出DataFrame中的行数：\n{}".format(swimmers.count())) #2.用filter获取age=20的idprint("2.输出DataFrame中age=20的id：\n")swimmers.select("id","age").filter("age=20").show() #3.获取eyeCo...

2020-01-11 20:26:26 538

oracle-drives.rar

python简明教程

空空如也