自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 问答 (1)
  • 收藏
  • 关注

原创 Python基础编程(二)

七、函数函数分类内置函数 : 可以直接用函数名调用,如len(),type()等模块函数 : 通过模块名进行调用,如math.sin()等 (前提是先导入第三方模块)自定义函数 : 按照用户需求随用随定义 7.1 内置函数内置在Python解释器中的函数,可以直接通过函数名进行调用(不需要提供所属模块名)https://docs.python.org/zh-cn/3/library/functi...

2022-05-25 17:33:50 859

原创 Python基础编程(一)

一、Anaconda1.1 为什么要使用Anaconda Anaconda介绍如果单独使用Python解释器: 大量第三方的库之间有相互的依赖关系, 管理起来会非常复杂. Anaconda是一个开源的Python发行版本,其包含了conda、Python之外的180多个科学包及其依赖项。 为了管理方便, 我们使用Anaconda 作为平时使用的集成环境1.2 Anaconda安装官网下载64位Py...

2022-05-25 17:33:45 608

原创 异常检测-基于相似度的方法

概述“异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。在普通的数据处理中,我们常常需要保留正常数据,而对噪声和异常值的特性则基本忽略。但在异常检测中,我们弱化了“噪声”和“正常数据”之间的区别,专

2021-01-22 02:47:42 219 1

原创 异常检测-线型模型

线型模型引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是线性回归,后者一个典型的例子是主成分分析。需要明确的是,这里有两个重要的假设:假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。假设二:子空间假设。子空间假设认为数据是镶嵌在低维子空间

2021-01-19 00:50:55 248

原创 异常检测-基于统计学的方法

基于统计学的方法概述统计学方法对数据的正常性做出假定。**它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。**统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。参数方法假定正常的数据对象

2021-01-16 02:53:08 131

原创 什么是异常检测?

什么是异常检测异常检测(Outlier Detection),顾名思义,是识别与正常数据不同的数据,与预期行为差异大的数据。异常的类别点异常:指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;上下文异常:又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;群体异常:指的是在群体集合中的个体实例出现异常的情况,而该个体实例自身可能不是异常,例如社交网络中虚假账号形成的集合作为群体

2021-01-12 23:12:50 453 1

原创 Task01-目标检测基础和VOC数据集

Task01-目标检测基础和VOC数据集目标检测基本概念什么是目标检测目标检测的思路目标框定义方式交并比(IoU)目标检测数据集VOCVOC数据集简介目标检测基本概念什么是目标检测目标检测是计算机视觉中的一个重要任务,近年来传统目标检测方法已经难以满足人们对目标检测效果的要求,随着深度学习在计算机视觉任务上取得的巨大进展,目前基于深度学习的目标检测算法已经成为主流。相比较于基于深度学习的图像分类任务,目标检测任务更具难度。**图像分类:**只需要判断输入的图像中是否包含感兴趣物体。**目标检测:*

2020-12-16 23:50:26 156

原创 动手学数据分析-模型建立和评估

动手学数据分析-模型建立和评估模型搭建和评估特征工程缺失值填充编码分类变量模型搭建三级目录模型搭建和评估import pandas as pdimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt%matplotlib inline#图可以显示中文和负号plt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus

2020-08-28 23:51:47 151

原创 动手学数据分析-数据可视化

动手学数据分析-数据可视化数据可视化绘制常用图形散点图折线图直方图饼图箱型图泰坦尼克号数据集男女中生存人数分布情况男女中生存人与死亡人数的比例不同票价的人生存和死亡人数分布情况不同仓位等级的人生存和死亡人员的分布情况不同年龄的人生存与死亡人数分布情况不同仓位等级的人年龄分布情况数据可视化绘制常用图形常用图形有:plt.scatter() 散点图plt.plot() 折线图plt.bar() 直方图plt.pie() 饼图plt.boxplot() 箱型图#导入相应的包impor

2020-08-26 11:51:16 254

原创 动手学数据分析-数据重构(打卡)

动手学数据分析-数据重构数据重构数据重构

2020-08-23 23:21:46 91

原创 动手学数据分析-数据清洗及特征处理

动手学数据分析-数据清洗及特征处理数据清洗及特征处理载入数据及数据处理相关包缺失值观察与处理缺失值观察对缺失值进行处理数据清洗及特征处理我们拿到的数据通常是不干净的,所谓的不干净,就是数据中有缺失值,有一些异常点等,需要经过一定的处理才能继续做后面的分析或建模,所以拿到数据的第一步是进行数据清洗.载入数据及数据处理相关包import numpy as npimport pandas as pd# 载入数据df = pd.read_csv('train.csv')df.head()

2020-08-21 23:18:20 258

原创 动手学数据分析-数据加载及探索性数据分析

动手学数据分析-数据加载及探索性数据分析数据加载载入数据导入numpy和pandas包载入数据数据加载载入数据数据集下载:Titanic: Machine Learning from Disaster导入numpy和pandas包import pandas as pdimport numpy as np载入数据使用相对路径载入数据df = pd.read_csv("train.csv")df.head()相对路径载入报错时,可以使用os.getcwd()查看当前工作目录im

2020-08-19 23:27:17 221

原创 将博客搬至CSDN

将博客搬至CSDN

2020-07-24 11:29:09 60

原创 Python基础(控制流语句)

1 控制流语句1.1 条件语句1.1.1 if 语句基本语法if语句的语法结构:if expression1: expr_true_suite1elif expression2: expr_true_suite2elif expression3: expr_true_suite3else: expr_true_suite4if 语句的 expr_true_s...

2020-07-23 23:58:59 92

原创 Pandas_分组(三) 暂时停更

分组import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv',index_col='ID')df.head()一、SAC过程1. 内涵SAC指的是分组操作中的split-apply-combine过程其中split指基于某一些规则,将数据拆成若干组,apply是指对每一组独立地使用函数,combine指将每一...

2020-07-21 00:15:34 175

原创 Pandas_索引(二)

一、索引索引/选择的基本语法如下:import numpy as npimport pandas as pddf = pd.read_csv('pandas/joyful-pandas-master/data/table.csv',index_col='ID')df.head()一、单级索引1. loc方法、iloc方法、[]操作符 最常用的索引方法可能就是这三类,其中iloc表示...

2020-07-21 00:14:48 862

原创 Pandas基础入门(一)

一、Pandas简介Pandas是一个强大的分析结构化数据的工具集;(Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的函数和方法,能够快速便捷地处理数据)它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能文末放上代码、参考资料和相关数据文件#全部行都能输出from IPython.core.interactiveshe...

2020-07-21 00:14:14 1067

原创 什么是数据挖掘?

什么是数据挖掘? 数据挖掘(Data Mining)就是从大量的数据中,提取隐藏在其中的,事先不知道的、但潜在有用的信息的过程。数据挖掘的目标是建立一个决策模型,根据过去的行动数据来预测未来的行为。比如分析一家公司的不同用户对公司产品的购买情况,进而分析出哪一类客户会对公司的产品有兴趣。在讲究实时、竞争激烈的网络时代,若能事先破解消费者的行为模式,将是公司获利的关键因素之一。数据挖掘是...

2020-07-21 00:11:45 1766

原创 一、Python基础(语法规范,数据类型,运算符等)

1 Markdown常用基本语法1.1 标题在文字前加#则代表#的个数不同,标题的级别也就不同,后面在加上个空格 一级标题 #二级标题 ## 三级标题 ###四级标题 ####1.2 文字效果1.2.1 加粗语法:**文本**1.2.2 斜体语法:*文本*1.2.3 斜体加粗语法:***文本***1.2.4 ~~删除线~~语法:~~文本~~1.2.5 引用语法:`人生苦短,...

2020-07-20 12:47:58 357

原创 机器学习算法-支持向量机SVM

一、概述⽀持向量机(SVM,也称为支持向量网络),是机器学习中获得关注最多的算法没有之一。它源于统计学习理论,是我们除了集成算法之外,接触的第一个强学习器。它有多强呢?从算法的功能来看,SVM几乎囊括了我们之前了解的所有算法的功能:从分类效力来讲,SVM在无论线性还是⾮线性分类中,都是明星般的存在:从实际应用来看,SVM在各种实际问题中都表现非常优秀。它在手写识别数字和⼈脸识别中应⽤广泛,在⽂本和...

2020-05-02 03:45:39 504

原创 机器学习算法-条件随机场

条件随机场条件随机场(Conditional Random Field,简称CRF)是一种判别式无向图模型,生成式模型是直接对联合分布进行建模,而判别式模型则是对条件分布进行建模,条件随机场则是判别式模型。马尔可夫过程定义假设一个随机过程中,时刻的状态 的条件发布,只与其前一状态 相关,即: 则将其称为 马尔可夫过程。隐马尔科夫算法隐马尔可夫模型(Hidden Markov Model,HMM)...

2020-04-29 22:12:04 229

原创 机器学习算法-EM算法

前言EM算法是机器学习十大算法之一,它很简单,但是也同样很有深度,简单是因为它就分两步求解问题E步:求期望(expectation) M步:求极大(maximization)深度在于它的数学推理涉及到比较繁杂的概率公式等,所以本文会介绍很多概率方面的知识,不懂的同学可以先去了解一些知识,当然本文也会尽可能的讲解清楚这些知识,讲的不好的地方麻烦大家评论指出,后续不断改进完善。EM算法引入概率模型有时...

2020-04-26 21:58:14 419

原创 机器学习算法-线性回归

线性回归的概念1、线性回归的原理 2、线性回归损失函数、代价函数、目标函数 3、优化方法(梯度下降法、牛顿法、拟牛顿法等) 4、线性回归的评估指标 5、sklearn参数详解一、回归 回归是一种预测建模技术,其中被估计的目标变量是连续的。回归应用的例子包括使用其他经济学指标预测股市指数,基于高空气特征流预测一个地区的降水量,根据广告开销预测公司的总销售,按照有机物质中的碳14残留...

2020-04-26 12:50:11 785

原创 机器学习算法-朴素贝叶斯

一、概述概率分类器 在许多分类算法应用中,特征和标签之间的关系并非是决定性的。比如说,我们想预测一个人究竟是否会在泰坦尼克号海难中生存下来,那我们可以建一棵决策树来学习我们的训练集。在训练中,其中一个人的特征为:30岁,男,普通舱,他最后在泰坦尼克号海难中去世了。当我们测试的时候,我们发现有另一个⼈人的特征也为:30岁,男,普通舱。基于在训练集中的学习,我们的决策树必然会给这个人打上标签...

2020-04-26 12:43:35 478

原创 Python项目实践-客户流失预测

一、概述1.1 项目背景: 客户是企业的重要资源,也是企业的无形资产,客户的流失,也就意味着资产的流失,因此进行流失分析是十分重要的,进行客户流失分析的目的,就是阻止或者避免客户的流失,特高企业的盈利水平和竞争力。1.2 目的: 深入了解用户画像及行为偏好,挖掘出影响用户流失的关键因素,并通过算法预测客户访问的转化结果,从而更好地完善产品设计、提升用户体验。1.3 数据说明: ...

2020-01-05 18:00:08 4577 50

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除