Python
文章平均质量分 90
奥卡姆的剃刀
GitHub: https://github.com/LeronQ
展开
-
基于Python实现的数据质量检查
1:应用场景 数据分析工程师 & 算法工程师主要工作流程大体可分为:数据获取 -> 数据分析 ->业务决策(通常算法工程师会多一项数据建模过程)。数据获取是前提,数据获取可以是通过数仓宽表进行多级关联得到的结构化数据,也可以是通过爬虫解析后获取的原始数据,后者可能未经过完整的ETL数据清洗过程,原始数据很可能存在空值、异常值、错误字符等情况。在整个纵向的工作流程中,如果使用的基础数据有问题,基于这些数据得到的产出都是低价值甚至可能得出错误的结论,G...原创 2022-04-06 20:07:21 · 4977 阅读 · 1 评论 -
百面机器学习01-特征工程
1:特征归一化场景描述:为了消除数据特征之间的量纲影响,我们需要对特征进行归一化处理,使得不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响,如果使用米(m )和千克(kg)作为单位,那么身高特征会在 1.6 1.8m 的数值范围内,体重特征会在50 100kg 的范围内,分析出来的结果显然会倾向于数值差别比较大的体重特征。想要得到更为准确的结果,就需要进行特征归一化(Normalization)处理,使各指标处于同一数值量级,以便进行分析。问题1:为什么需要对数值类型的特征做 归一化?原创 2020-10-04 22:17:31 · 1432 阅读 · 2 评论 -
win7/win10离线安装Pytorch简易步骤
说明:网上很多教程讲述安装Pytorch的步骤较为繁琐,对新手不太友好,本文主要讲述在win7/win10环境下,离线安装Pytorch的教程,过程非常简单,并且速度也非常快,前后5分钟即可,前提是需要安装Anaconda,后续可以直接利用pip命令进行离线安装即可。备注:本教程安装的是CPU版本的Pytorch主要步骤1:加载阿里云pip镜像2:下载国内pytorch镜像包3:离线安装步骤1:加载阿里云pip镜像 第一步加载阿里云pip镜像,使其后续pip安装下载命令更快。首先在C盘Use原创 2020-09-06 16:47:12 · 3317 阅读 · 0 评论 -
Pytorch-LSTM输入输出参数
1:Pytorch中的LSTM中输入输出参数nn.lstm是继承nn.RNNBase,初始化的定义如下:class RNNBase(Module): ... def __init__(self, mode, input_size, hidden_size, num_layers=1, bias=True, batch_first=False, dropout=0., bidirectional=False):...原创 2020-08-01 20:32:27 · 6696 阅读 · 0 评论 -
CNN卷积核与通道讲解
CNN在图像和提取空间信息中有着广泛应用,本篇博客以图像解释为主,省去了CNN基础内容的概述,主要讲述单通道卷积核多通道卷积的详细过程,并以Pytorch代码示例。1:单通道卷积以单通道卷积为例,输入为(1,5,5),分别表示1个通道,宽为5,高为5。假设卷积核大小为3x3,padding=0,stride=1。卷积过程如下:相应的卷积核不断的在图像上进行遍历,最后得到3x3的卷积结果,结果如下:2:多通道卷积1以彩色图像为例,包含三个通道,分别表示RGB三原色的像素值.原创 2020-07-19 22:53:22 · 14677 阅读 · 7 评论 -
Pyecharts数据可视化学习笔记(附代码)
PyEcharts学习笔记#参考PyEcharts 官网,对常用的可视化图形进行了整理,包括柱形图,线柱图,饼图,漏斗图,地理信息图,动态3D展示图等。附几张展示图:柱形图线柱图3D展示地理信息图漏斗图热度图饼图The practice coding of learning PyEcharts整理的可视化画图,中文网址:http://pyecharts.org...原创 2019-02-16 15:14:05 · 5654 阅读 · 0 评论 -
Anaconda中安装python版的XGBoost和LightGBM库
Anaconda中安装python版的XGBoost和LightGBM库XGboost 和LightGBM是目前机器学习中两个非常强大的算法。在之前的电脑上已经安装过着两个算法。最近换了一台新电脑,在重新安装的过程中,好像有点忘记了步骤,好在摸索出结果了,所以重新整理了一下。一方面是给需要的人作为借鉴,另一方面也是作为笔记方便以后查看。安装过程主要分为3步:下载相关**.whl**文件导...原创 2019-01-22 22:16:09 · 2051 阅读 · 3 评论 -
Python类的实例化,封装,继承,私有变量和私有方法
1:定义一个类首先在python中,定义一个类,作为例子,然后引出相关知识点class Example(object): def __init__(self,data1,data2): self.__data1=data1 self.data2=data2 def __func1(self): pri...原创 2019-01-01 19:59:56 · 8328 阅读 · 6 评论 -
Python:类的继承,调用父类的属性和方法基础详解
备注:这里省略了关于继承含义的解释,直接上代码了,更直观点子类:Son类 父类:Father类以下案例均表示Son类继承父类的一些属性和初始化参数构造等。5个模块:(1):直接调用父类属性方法;(2):重写父类属性方法;(3):强制调用父类私有属性方法;(4):调用父类的__init__方法(5):继承父类初始化过程中的参数(1)调用父类属性方法代码1.1:...原创 2018-12-30 11:35:01 · 100536 阅读 · 25 评论 -
Python 子类继承父类构造函数说明
(1) 如果在子类中需要的构造方法就需要显示的调用父类的构造方法,或者不重写父类的构造方法。子类不重写__init__,实例化子类时,会自动调用父类定义的__init__。实例:class Father(object): def __init__(self, age): self.age=age print ( "age: %d" %( sel...原创 2018-12-29 17:41:49 · 8034 阅读 · 0 评论 -
Python之Pickle学习
(1)Pickle的作用:python的pickle模块实现了基本的数据序列和反序列化。通过pickle模块的序列化操作我们能够将程序中运行的对象信息保存到文件中去,永久存储;通过pickle模块的反序列化操作,我们能够从文件中创建上一次程序保存的对象。一般序列化的流程:对象1 -- 序列化 -> 字节串 -- 反序列化 -> 对象2但是为什么要进行序列化呢?举例:Pyth...原创 2018-12-26 17:28:56 · 4834 阅读 · 0 评论 -
Python 实时向文件写入数据(附代码)
Python 实时向文件写入数据(附代码) 之前在做数据分析的过程中,需要对数据进行实时的写入,比如对新生成的数据写入之前已经生成的txt或csv文件中。现在想想其实很简单,所以做一个总结。1:实时向csv文件写入数据 假设需要生成一张csv表,里面的字段对应一些数据,由于后续的过程中,不止一次写入数据,那么安全的做法是:首先写入字段;然后写入数据(否则字段也会每次被写入)步骤1:创建文件并写入字段import csvwith open("test3.csv","a",newlin原创 2019-02-18 23:18:23 · 36117 阅读 · 1 评论 -
基于逻辑回归的评分卡模型简单概述
评分卡模型1:概述信用评分本质上是模式识别中的一类分类问题,将企业或者个体消费者划分为能够按期还本付息(即“好”客户)和违约(即“坏”)两类。具体做法是根据历史数据中的样本,从已知的数据中找出违约及不违约客户的特征,从而总结出分类的规则,建立数学模型,用于测量价款人的违约风险(或者违约概率),为消费信贷决策提供依据。2:建模的准备2.1:目标变量的准备研究的目标变量为客户是否具有违约行...原创 2019-02-12 10:08:30 · 13599 阅读 · 2 评论 -
(3) 李航《统计学习方法》基于Python实现——K近邻法
1:概念k近邻是一种基本分类与回归方法。本文只讨论分类问题中的k近邻法。k近邻法的输入为实例的特征向量,对应于特征空间的点;输出为实例的类别,可以取多类。k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此k近邻法不具有显式的学习过程。k近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”...原创 2019-04-29 11:16:32 · 4541 阅读 · 0 评论 -
(1) 李航《统计学习方法》基于Python实现——最小二乘法正则项
第1章 统计学习方法概论高斯于1823年在误差e1 ,… , en独立同分布的假定下,证明了最小二乘方法的一个最优性质: 在所有无偏的线性估计类中,最小二乘方法是其中方差最小的!无偏估计是用样本统计量来估计总体参数时的一种无偏推断。 估计量的数学期望等于被估计参数的真实值,则称此此估计量为被估计参数的无偏估计,即具有无偏性,是一种用于评价估计量优良性的准则。 无偏估计的意义是:在多次重复下,...原创 2019-04-15 13:03:42 · 5127 阅读 · 0 评论 -
(4) 李航《统计学习方法》基于Python实现——朴素贝叶斯
1:高斯模型下的朴素贝叶斯import numpy as npimport pandas as pdfrom sklearn.datasets import load_irisfrom sklearn.model_selection import train_test_splitfrom collections import Counterimport math# 特征假设是...原创 2019-05-02 13:06:38 · 4530 阅读 · 0 评论 -
(5) 李航《统计学习方法》基于Python实现——决策树
决策树模型决策树是一种基本的分类和回归方法,本文主要讨论用户分类的决策树。决策树模型呈现树桩结构,在分类问题中,它表示基于特征对实例进行分类的过程。它可以认为是if-then的规则的集合也可以认为是定义在特征空间与类空间上的条件概率分布。决策树学习通常包括3个步骤:特征选择,决策树的生成和决策树的修剪。优点:模型具有可读性,解释性较强,分类速度快,准确性高,可以处理连续和种类字段,不需要任...原创 2019-05-05 16:48:55 · 5281 阅读 · 0 评论 -
Python---选择正确的内置函数和标准库实例(附代码)
1:选择正确的内置函数Python有一个大型标准库,但只有一个内置函数的小型库,这些函数总是可用的,不需要导入。它们每一个都值得我们仔细研究,尤其是在其中一些函数的情况下,可以用什么替代更好1.1 使用enumerate()而不是range()进行迭代有一个元素列表,您需要遍历列表,同时访问索引和值。有一个名为FizzBuzz的经典编码面试问题可以通过迭代索引和值来解决。在FizzBuzz...原创 2019-05-13 09:38:52 · 5010 阅读 · 0 评论 -
Python-实例方法静态方法类方法对比总结
相关概念1:实例方法除了静态方法与类方法外,类的其他方法都属于实例方法。实例方法隐含的参数为类实例self。实例方法需要将类实例化后才可以调用,如果使用类直接调用实例方法,需要显示地将实例对象作为参数传入。**直接用类调用实例方法代码**:class ClassA(): def funcA(self): print('Hello world')# ...原创 2018-12-19 14:49:18 · 7992 阅读 · 1 评论