自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(28)
  • 收藏
  • 关注

原创 Pycharm提高效率-计算表达式

debug的过程中,想查看某个变量的值或者需要对变量做修改,可以使用计算表达式Step1:点击下图红框处,打开EvaluateStep2:查看y,输入y并回车

2022-02-16 17:58:59 988

原创 Pycharm提高效率-自定义代码模板

自定义代码模块Live Template的使用菜单操作:File->Settings->Live Templates->Python->点加号使用模板的时候,输入名称->选中需要的模板->按回车键代码就添加成功啦

2022-02-16 17:56:56 318

原创 Pycharm提高效率-书签

为了方便查找,可以在需要查找的地方插入书签,方便快速定位到。书签的使用:F11加书签,再按一次F11取消书签。但是需要提前设置好快捷键,往前找一个书签,往后找下一个书签。菜单操作:File->Settings->Keymap->Other->Bookmarks,分别找Previous Bookmark和Next Bookmark设置快捷键,比如分别设置成alt+alt+]...

2022-02-16 17:54:08 810

原创 Pycharm常用的快捷键

撤销 :Ctrl + z Edit -> Undo反撤销: Ctrl + Shift + z Edit -> Redo返回上一层(按住ctrl键去查看某个变量或函数的定义或引用后的返回: Ctrl + Alt + ⬅ Navigate -> Back进入下一层: Ctrl + Alt + ➡ Navigate -> Forward添加书签: F11 查看函数的使用方式:Ctrl+Q View -> Quick Document查

2022-02-16 17:49:16 1107

原创 What’s New In Python 3.10 新功能

结构化匹配模式 match casedef http_error(status): match status: case 400: print("Bad request") case 404: print("Not found") case 418: print("I'm a teapot") case _: print("Someth.

2022-02-16 15:04:38 153

原创 What’s New In Python 3.9 新功能

联合运算符 合并 | 更新 |=# 字典更新和合并 3.9# |:合并字典# |=:更新字典# before #.update()会就地修改字典。你需要先复制d1来创建一个新的字典dnew。#这种“内置”方法破坏了使用方便的内置方法合并词典的目的。d1 = {'name': 'Tom', 'age': 20}d2 = {'gpa': 4.0, 'is_single': True}dnew = d1.copy()dnew.update(d2)# after dnew = .

2022-02-15 19:06:02 89

原创 What’s New In Python 3.8 新功能

Assignment expresions,赋值表达式海象运算符,把运算操作和赋值操作放在了一起,代码更加简洁# beforeage=20if age>18: print('已成年') # afterif (age:=20)>18: print('已成年')f-string,可以使用等号,调试代码更快# beforelst = [1, 2, 3, 4, 5, 6]print(f'lst + [7]={lst + [7]}')# after.

2022-02-15 18:53:50 158

翻译 python 类的装饰器

# 将函数当作参数传入装饰器# 入门用法:日志打印器def logger(func): def wrapper(*args,**kw): # *args的用法:当传入的参数个数未知,且不需要知道参数名称时 # 会将调用时的key=value参数全部打包到kw这个dict对象内 print('准备开始执行:{}函数了'.format(func.__name__)) # 真正执行的是这行 func(*args,**k

2021-03-23 18:07:57 177

翻译 python 类的封装

# 第一阶段class Student(object): def __init__(self,name,age,sex): self.name = name self.age = age self.sex = sexone = Student('jack',17,'male')# one就相当于一个学生jack,所有属性都封装到one变量中。# Student类,相当于一个模板,只要给顶它name,age,sex就能创建出来一个学生对象p

2021-03-20 10:58:27 157

翻译 python 面对对象之类

# 类对象,支持两种操作:属性引用和实例化class Myclass: i=123 def mydef(self): return 'hello word'# 实例化类x=Myclass()# 访问类的属性和方法print('类的属性i:',x.i)print('类的方法f',x.mydef())# 类有一个名为__init__()的特殊方法(构造方法),该方法在实例化时会自动调用class Complex: def __init__(sel

2021-03-13 13:53:37 71

原创 ClickHouse原理解析与应用实践 读书笔记

背景:现代BI系统的典型应用场景是多维分析,某些时候可以直接使用OLAP指代这类场景。OLAP,Online Analytical Processing,即联机分析/多维分析。通过不同的维度审视数据,对字段进行聚合查询。ROLAP,Relational OLAP,即关系型OLAP。建立在关系型数据库之上的,多维分析的操作可以直接转换成SQL查询。MOLAP,Multidimensional OLAP,即多维型OLAP。借助预先聚合结果,使用空间换取时间的形式最终提升查询性能。HOLAP,Hybr

2021-01-31 17:14:21 419

原创 python 直接赋值&深浅拷贝 解析

直接赋值:引用同一个对象,赋值和被赋值的无论有什么修改,另外一个也会改变浅拷贝:赋值和被赋值的最内一层的无论有什么修改,另外一个也会改变深拷贝:完全独立,不受影响import copya = [1, 2, 3, 4, ['a', 'b']] # 原始对象b = a # 直接赋值c = copy.copy(a) # 浅拷贝d = copy.deepcopy(a) # 深拷贝a.append(5) # 修改对象aa[4].append('c') # 修改对象a中的['a'.

2020-12-13 11:40:05 97

原创 从AdaBoost到GBDT再到XGBoost 算法推导 笔记

GBDT(Gradient Boosting Decision Tree,梯度提升树)是一种有监督的集成算法,同样可以用于分类问题的识别和预测问题的解决。拥有三方面的优势,分别是提升Boosting,梯度Gradient和决策树Decision Tree。“提升”,将多个弱分类器通过线下组合实现强分类器的过程;“梯度”,算法在Boosting的过程中求解损失函数增强了灵活性和便捷性;“决策树”,算法所使用的弱分类器为CART决策树。同样也是集成算法的随机森林,实质上利用的是Bootstrap抽样生成

2020-06-14 16:47:49 170

原创 非平衡数据的处理--SMOTE

背景:实际应用中可能会遇到分类问题中类别之间的比例严重失调,如客户流失中,忠诚的占据很小比例;营销活动中,响应的客户只占小部分。如果数据存在严重的不平衡,预测得出的结论容易有偏,即返回的结果偏向于角度观测的类。SMOTE的基本思想:对少数类别样本进行分析和模拟,并将人工模拟的新样本添加到数据集中。模拟过程采用了KNN,模拟生成新样本步骤如下:采用KNN,计算出每个少数类样本的K个近邻从K个近邻中随机挑选N个样本进行随机线性插值构造新的少数类样本将新样本与原数据结合,产生新的训练集新样本点的构

2020-05-31 22:49:50 467

原创 用户分析-生存分析 从原理到实战

生存分析生存分析主要用于医学研究,比如医疗方案对病人寿命的影响。后面用来探究所感兴趣的事件的发生的时间的统计方法。比如产品的寿命分析、工程中的失败时间分析等等。这里病人死亡、产品淘汰和工程失败等称为事件event。生存分析中有两个重要的概念,一是生存函数,二是风险函数。生存函数的形式如下,表示为事件未发生的样本比例随时间变化的趋势,比如存活病人样本比例、可正常使用产品比例随时间的变化趋势等。...

2020-05-30 17:39:30 965 3

转载 一个定时任务管理器的安装

webcron一个定时任务管理器,基于Go语言和beego框架开发。用于统一管理项目中的定时任务,提供可视化配置界面、执行日志记录、邮件通知等功能,无需依赖*unix下的crontab服务。项目背景开发此项目是为了解决本人所在公司的PHP项目中定时任务繁多,使用crontab不好管理的问题。我所在项目的定时任务也是PHP编写的,属于整个项目的一部分,我希望能有一个系统可以统一配置这些定时任务...

2020-02-09 11:42:04 172

原创 Partial Dependence Plots 从原理到实战

Partial Dependence:用来解释某个特征和目标值y的关系,一般是通过画出Partial Dependence Plots(PDP)来体现。PDP是依赖于模型本身,需要先训练模型(比如训练一个GradientBoostingRegressor模型)。假设我们想研究y和特征X1X_{1}X1​的关系,那么PDP就是一个关于X1X_{1}X1​和模型预测值的函数。先拟合了一个Gradie...

2020-02-09 10:56:02 8290 4

原创 用python发带有多个附件的邮件

import smtplibfrom email.mime.multipart import MIMEMultipartfrom email.mime.text import MIMETextfrom email.mime.image import MIMEImageimport os# 默认发件邮箱为163def send_email(username,password,subje...

2019-08-24 21:43:48 682

原创 python调用百度云OCR API识别商品包装图片

关于OCR&百度云OCROCR全称为Optical Character Recognition,指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。...

2019-08-24 21:31:09 930

原创 PCA主成分分析-从五个点说起-最大方差法

PCA(Principal Components Analysis,主成分分析)是降维规约技术中的常用方法。目的:找出一个更好捕获数据变异性的,新的维(属性)集合。或者说,所选取的第一维要尽可能的多获取数据的变异性。第二维与第一个正交,并且尽可能地多捕获剩余的变异性,如此下去。PCA主成分分析-从五个点说起(代码为R)现有如下五个点:为了便于计算方差和写方差,将原点移动至中心点,此时的绝对...

2019-04-14 11:00:32 3650 1

原创 关联分析-从算法到实战

apriori - 频繁项集的产生http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/apriori/association_rules - 关联规则的生成association_rules(df,metric ='confidence',min_threshold = 0.8,support_only = False)...

2019-04-13 13:41:54 7421

原创 笔记-数据预处理

基于PYTHON中Pandas模块对数据进行预处理,如数据类型转换,描述统计,数据清洗,数据子集的获取,透视表功能,表之间的合并与连接以及分组聚合操作等。 描述统计查看数据行列数:data.shape查看数据集每个变量的数据类型:data.dtypes数据的描述性统计:data.describe()离散型变量的描述性统计:data.describe(includ...

2019-02-17 20:23:06 195

原创 有监督的数据挖掘算法-分类

回归:在建模的过程中需同时具备自变量x和因变量y,属于有监督的学习算法。输出变量为离散型。 主要介绍:Logistic,决策树,随机森林,KNN,朴素贝叶斯 tips:决策树,随机森林,KNN也可用于连续型变量的预测。Logistic回归:思想:前边的线性,岭回归,LASSO等均是预测连续型因变量,如根据价格,广告力度,销售渠道等因素预测利润高低。Logistic针对离散型因变量的...

2019-02-17 12:11:01 2255

原创 有监督的数据挖掘算法-回归

回归:在建模的过程中需同时具备自变量x和因变量y,属于有监督的学习算法。 主要介绍线性回归,岭回归,LASSO回归和Logistic。线性回归:思想:误差项达到最小的转换为误差平方和最小(最小二乘法的思路)PYTHON的实现:stasmodels.api.formula.ols;predict(exog=None)重点:假设检验:f检验和t检验f检验:p为变量,n为行,p和n...

2019-02-16 22:33:56 765

原创 无监督的数据挖掘算法-聚类

聚类算法的目的:依据已知的数据,将相似度高的样本集中到各自的簇中。如:借助电商平台用户的历史交易数据,将其划分为不同的价值等级(高价值,潜在价值,低价值等);利用在各城市的交易数据划分不同的消费等级等。除了用于数据分割还可监控异常点,如:电商平台交易中一张银行可被用于上百个用ID的支付,并且送货地址都在相似的区域,则可能是黄牛的出现。tips:对于聚类,数据集有必要做标准化处理。sklea...

2019-02-16 16:57:53 998

翻译 算法基础梳理——决策树

【学习任务】信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度)决策树的不同分类算法(ID3算法、C4.5、CART分类树)的原理及应用场景回归树原理决策树防止过拟合手段1.信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度):熵:原本物理学中的定义,后来香农将其引申到啦信息论领域,用来表示信息量的大小。信息量大(分类越不“纯净”),对应的熵值就越大,反之亦然。信息熵的计算公...

2019-01-31 13:33:52 172

翻译 算法基础梳理——Logistic回归

【学习任务】Logistic回归损失函数的极大似然推导:西瓜书公式3.27怎么推来的?Logistic回归损失函数的最优化算法:什么是牛顿法、拟牛顿法?为什么不用线性回归做分类?Logistic回归为什么不像线性回归那样用平方损失函数?Logistic回归的参数为什么不像线性回归那样直接公式求解?Logistic回归与线性回归有哪些联系?1.Logistic回归损失函数的极大似然...

2019-01-29 13:09:52 314

翻译 算法基础梳理——线性回归

加粗样式# 欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来...

2019-01-27 11:04:48 187

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除