自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 收藏
  • 关注

原创 二、基于统计学的方法

1、概述统计学方法对数据的正常性做出假定。它们假定正常的数据对象由一个统计模型产生,而不遵守该模型的数据是异常点。统计学方法的有效性高度依赖于对给定数据所做的统计模型假定是否成立。异常检测的统计学方法的一般思想是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。即利用统计学方法建立一个模型,然后考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。参数方法假定正常的数据对象被一个以Θ\Theta

2021-01-16 00:49:44 563 1

原创 第四次

题目1题号:16难度:中等https://leetcode-cn.com/problems/3sum-closest/给定一个包括n个整数的数组nums和一个目标值target。找出nums中的三个整数,使得它们的和与target最接近。返回这三个数的和。假定每组输入只存在唯一答案。示例 :例如,给定数组 nums = [-1,2,1,-4], 和 target = 1.与 target 最接近的三个数的和为 2. (-1 + 2 + 1 = 2).思路1这题和三数之和接近,就是

2021-01-16 00:33:06 161

原创 第二章 论文作者分析

任务说明任务主题:论文作者统计,统计所有论文作者出现评率Top10的姓名;任务内容:论文作者的统计、使用 Pandas 读取数据并使用字符串操作;任务成果:学习 Pandas 的字符串操作;数据处理步骤在原始arxiv数据集中论文作者authors字段是一个字符串格式,其中每个作者使用逗号进行分隔分,所以我们我们首先需要完成以下步骤:使用逗号对作者进行切分;剔除单个作者中非常规的字符;具体操作可以参考以下例子:C. Bal\\'azs, E. L. Berger, P. M. Na

2021-01-14 22:03:42 353

原创 第一章 论文数据统计

导入package并读取原始数据# 导入所需的packageimport seaborn as sns #用于画图from bs4 import BeautifulSoup #用于爬取arxiv的数据import re #用于正则表达式,匹配字符串的模式import requests #用于网络连接,发送网络请求,使用域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.p

2021-01-14 00:55:50 891 1

原创 第三天

题目1题号:11难度:中等https://leetcode-cn.com/problems/container-with-most-water/给定 n 个非负整数 a1,a2,…,an,每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线,垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。说明:你不能倾斜容器,且 n 的值至少为 2。图中垂直线代表输入数组 [1,8,6,2,5,4,8,

2021-01-14 00:04:13 152

原创 第二次综合练习

【任务四】显卡日志下面给出了3090显卡的性能测评日志结果,每一条日志有如下结构:Benchmarking #2# #4# precision type #1##1# model average #2# time : #3# ms其中#1#代表的是模型名称,#2#的值为train(ing)或inference,表示训练状态或推断状态,#3#表示耗时,#4#表示精度,其中包含了float, half, double三种类型,下面是一个具体的例子:Benchmarking Inference f

2021-01-13 18:47:36 140 1

原创 一、概述

延迟打卡一天!

2021-01-13 02:29:32 245

原创 第二天

题目1题号:7难度:简单https://leetcode-cn.com/problems/reverse-integer/给出一个 32 位的有符号整数,你需要将这个整数中每位上的数字进行反转。示例 1:输入: 123输出: 321示例 2:输入: -123输出: -321示例 3:输入: 120输出: 21示例 4:输入: 1534236469输出: 0示例 5:输入: -2147483648输出: 0注意:假设我们的环境只能存储得下 32 位的

2021-01-12 18:18:09 61

原创 第一天刷题

题目1题号:2难度:中等https://leetcode-cn.com/problems/add-two-numbers/给出两个 非空 的链表用来表示两个非负的整数。其中,它们各自的位数是按照 逆序 的方式存储的,并且它们的每个节点只能存储 一位 数字。如果,我们将这两个数相加起来,则会返回一个新的链表来表示它们的和。您可以假设除了数字 0 之外,这两个数都不会以 0 开头。示例1:输入:l1 = [2,4,3], l2 = [5,6,4]输出:[7,0,8]解释:342 +

2021-01-11 18:17:46 79 1

原创 第十章 时间序列

导入所需模块:import numpy as npimport pandas as pd一、时序中的基本对象时间序列的概念在日常生活中十分常见,但对于一个具体的时序事件而言,可以从多个时间对象的角度来描述。例如2020年9月7日周一早上8点整需要到教室上课,这个课会在当天早上10点结束,其中包含了哪些时间概念?第一,会出现时间戳(Date times)的概念,即’2020-9-7 08:00:00’和’2020-9-7 10:00:00’这两个时间点分别代表了上课和下课的时刻,在pandas中

2021-01-10 17:21:55 1141

原创 第九章 分类数据

导入所需模块import numpy as npimport pandas as pd一、cat对象1. cat对象的属性在pandas中提供了category类型,使用户能够处理分类类型的变量,将一个普通序列转换成分类变量可以使用astype方法。df = pd.read_csv('../data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight'])s = df.Grade.astype(

2021-01-07 20:06:51 527

原创 第八章 文本数据

导入所需模块import numpy as npimport pandas as pd一、str对象1.1 str对象的设计意图str对象是定义在Index或Series上的属性,专门用于逐元素处理文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其str对象。在Python标准库中也有str模块,为了使用上的便利,有许多函数的用法pandas照搬了它的设计,例如字母转为大写的操作:根据文档API材料,在pandas的50个str对象方法中,有31个是和标准库中的str

2021-01-06 15:29:02 357 2

原创 datawhale的pandas学习 第七章 缺失数据

导入所需模块import numpy as npimport pandas as pd一、缺失值的统计和删除1. 缺失信息的统计缺失数据可以使用isna或isnull(两个函数没有区别)来查看每个单元格是否缺失,结合mean可以计算出每列缺失值的比例:df = pd.read_csv('../data/learn_pandas.csv', usecols = ['Grade', 'Name', 'Gender', 'Height', 'Weight', 'Transfer'])df.isna

2021-01-03 20:50:31 252 1

原创 第一次综合练习

【任务一】企业收入的多样性【题目描述】一个企业的产业收入多样性可以仿照信息熵的概念来定义收入熵指标:I=−∑ip(xi)log(p(xi))I=-\sum _{i}p(x_{i})log(p(x_{i}))I=−∑i​p(xi​)log(p(xi​))其中 p(xi) 是企业该年某产业收入额占该年所有产业总收入的比重。在company.csv中存有需要计算的企业和年份,在company_data.csv中存有企业、各类收入额和收入年份的信息。现请利用后一张表中的数据,在前一张表中增加一列表示该公司该年

2020-12-31 11:42:41 133 1

原创 datawhale的pandas学习 第六章连接

import numpy as npimport pandas as pd一、关系型连接1. 连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作,例如学生期末考试各个科目的成绩表按照 姓名 和 班级 连接成总的成绩表,又例如对企业员工的各类信息表按照 员工ID号 进行连接汇总。由此可以看出,在关系型连接中, 键 是十分重要的,往往用 on 参数表示。另一个重要的要素是连接的形式。在 pandas 中的关系型连接函数 merge 和 join 中提供了 how 参数来代表连接形

2020-12-29 20:11:14 275 2

原创 datawhale可视化学习第六章 场景案例显神通

数据可视化的图表种类繁多,各式各样,因此我们需要掌握如何在特定场景下使用特定的图表。 数据可视化是为业务目的服务的,好的可视化图表可以起到清晰准确反映业务结果的目的,在选择使用何种图表时,通常我们需要首先考虑你想通过可视化阐述什么样的故事,受众是谁,以及打算如何分析结果。关于如何利用数据创造出吸引人的、信息量大的、有说服力的故事,进而达到有效沟通的目的,可以进一步阅读这本书《用数据讲故事》学习。本章将介绍不同场景适合的可视化图表类型,使用注意事项,以及如何用现成的绘图接口来呈现。我们将常见的场景分为5

2020-12-27 23:50:10 495 2

原创 datawhale的pandas学习 第五章 变形

导入所需的包import numpy as npimport pandas as pd一、长宽表的变形什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中,那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FJXSNBh3-1609078987107)(/Users/mao/Li

2020-12-27 22:23:45 210

原创 datawhale的pandas学习第四章 分组

导入本章所需模块:import numpy as npimport pandas as pd一、分组模式及其对象1. 分组的一般模式分组操作在日常生活中使用极其广泛,例如:依据性别性别分组,统计全国人口寿命寿命的平均值平均值依据季节季节分组,对每一个季节的温度温度进行组内标准化组内标准化依据班级班级筛选出组内数学分数数学分数的平均值超过80分的班级从上述的几个例子中不难看出,想要实现分组操作,必须明确三个要素:分组依据分组依据、数据来源数据来源、操作及其返回结果操作及其返回结果。同时

2020-12-25 23:42:28 261

原创 第五章:样式色彩秀芳华

一、matplotlib的绘图样式(style)在matplotlib中,要想设置绘制样式,最简单的方法是在绘制元素时单独设置样式。 但是有时候,当用户在做专题报告时,往往会希望保持整体风格的统一而不用对每张图一张张修改,因此matplotlib库还提供了四种批量修改全局样式的方式1.matplotlib预先定义样式matplotlib贴心地提供了许多内置的样式供用户使用,使用方法很简单,只需在python脚本的最开始输入想使用style的名称即可调用,尝试调用不同内置样式,比较区别导入所需的包:

2020-12-24 11:45:37 257

原创 datawhale可视化学习 第四章:文字图例尽眉目

一、Figure和Axes上的文本Matplotlib具有广泛的文本支持,包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。下面的命令是介绍了通过pyplot API和objected-oriented API分别创建文本的方式。pyplot APIOO APIdescriptiontexttext在 Axes的任意位置添加text。titleset_title在 Axes添加titlefigte

2020-12-22 23:45:40 190 1

原创 datawhale的pandas学习 第三章 索引

首先导入所需的包import numpy as npimport pandas as pd一、索引器1. 表的列索引列索引是最常见的索引形式,一般通过 [] 来实现。通过 [列名] 可以从 DataFrame 中取出相应的列,返回值为 Series ,例如从表中取出姓名一列: 如果要取出多个列,则可以通过[列名组成的列表],其返回值为一个DataFrame,例如从表中取出性别和姓名两列:【注意】当[] 里面是列名,返回Series。当[] 里面是列名组成的列表,返回DataFrame此

2020-12-22 21:47:51 298

原创 datawhale可视化学习第三回:布局格式定方圆学习

import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False这里的plt.rcParams是什么?简单理解,这是自定义图形的各种默认属性。第一句是吧字体设置为’SimHei’由此可以显示中文,第二个就是可以解决x轴和y轴‘-’字符显示问题但是这里又

2020-12-20 23:18:28 165 1

原创 datawhale学习第二章 pandas基础

import numpy as npimport pandas as pd之前的版本号是1.0.5使用pip install --upgrade pandas更新即可一、文件的读取和写入1. 文件读取pandas可以读取的文件格式有很多,这里主要介绍读取csv, excel, txt文件。即pd.read_csv pd.read_table pd.read_excel1.1pd.read_csvpandas.read_csv(filepath_or_buffer, sep=', ', d

2020-12-19 22:59:25 193 1

原创 matplotlib 第二章学习

一、概述1.matplotlib的三层apimatplotlib的原理或者说基础逻辑是,用Artist对象在画布(canvas)上绘制(Render)图形。matplotlib有三个层次的API:matplotlib.backend_bases.FigureCanvas 代表了绘图区,所有的图像都是在绘图区完成的matplotlib.backend_bases.Renderer 代表了渲染器,可以近似理解为画笔,控制如何在 FigureCanvas 上画图。matplotlib.artist.A

2020-12-18 23:54:37 936 1

原创 datawhale的pandas学习第一章

1.Python基础语法1.1 列表推导式与条件赋值列表推导式: [* for i in *] 。其中,第一个 * 为映射函数,其输入为后面 i 指代的内容,第二个 * 表示迭代的对象。带有 if 选择的条件赋值,其形式为 value = a if condition else b :value = 'cat' if 2>1 else 'dog' #'cat'结合两者L = [1, 2, 3, 4, 5, 6, 7][i if i <= 5 else 5 for i in L]

2020-12-16 16:03:05 172

原创 datawhale可视化学习第一章 初识matplotlib

第一回:Matplotlib初相识一、认识matplotlibMatplotlib是受MATLAB的启发构建的。MATLAB是数据绘图领域广泛使用的语言和工具。MATLAB语言是面向过程的。利用函数的调用,MATLAB中可以轻松的利用一行命令来绘制直线,然后再用一系列的函数调整结果。Matplotlib有一套完全仿照MATLAB的函数形式的绘图接口,在Matplotlib.pyplot模块中。这套函数接口方便MATLAB用户过度到Matplotlib包Matplotlib是一个Python 2D绘图

2020-12-14 13:26:13 146 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除