datawhale
文章平均质量分 86
尽力而为还不够
这个作者很懒,什么都没留下…
展开
-
Blending和Stacking
任务一:Blending算法分析与案 例调参实例1 导论2 Blending集成学习算法3 作业4 Stacking集成学习算法5 ROC曲线 decision_function导论Stacking,这个集成方法在比赛中被称为“懒人”算法,因为它不需要花费过多时间的调参就可以得到一个效果不错的算法,同时,这种算法也比前两种算法容易理解的多,因为这种集成学习的方式不需要理解太多的理论,只需.原创 2021-05-12 00:31:56 · 1085 阅读 · 0 评论 -
集成学习__机器学习基础_1
1.导论机器学习任务分为有监督学习和无监督学习。其中有监督学习是给定某些特征去估计变量,因变量存在。无监督学习是给定某些delattr征但不给定因变量根据因变量的是否连续,有监督学习又分为回归和分类:回归:因变量是连续型变量,如:房价,体重等。分类:因变量是离散型变量,如:是否患癌症,西瓜是好瓜还是坏瓜等。为了更好地叙述后面的内容,我们对数据的形式作出如下约定:第i个样本:xi=(xi1,xi2,...,xip,yi)T,i=1,2,...,Nx_i=(x_{i1},x_{i2},...,x转载 2021-03-17 18:40:33 · 153 阅读 · 0 评论 -
数据分析之学术前沿-任务五
任务说明学习主题:作者关联(数据建模任务),对论⽂作者关系进⾏建模,统计最常出现的作者关系;学习内容:构建作者关系图,挖掘作者关系学习成果:论⽂作者知识图谱、图关系挖掘数据处理步骤将作者列表进⾏处理,并完成统计。具体步骤如下:将论⽂第⼀作者与其他作者(论⽂⾮第⼀作者)构建图;使⽤图算法统计图中作者与其他作者的联系;社交网络分析图是复杂⽹络研究中的⼀个重要概念。 Graph是⽤点和线来刻画离散事物集合中的每对事物间以某种⽅式相联系的数学模型。 Graph在现实世界中随处可⻅,如交通原创 2021-01-26 01:22:29 · 229 阅读 · 1 评论 -
数据分析之学术前沿---任务4
import seaborn as sns #⽤于画图from bs4 import BeautifulSoup #⽤于爬取arxiv的数据import re #⽤于正则表达式,匹配字符串的模式import requests #⽤于⽹络连接,发送⽹络请求,使⽤域名获取对应信息import json #读取数据,我们的数据为json格式的import pandas as pd #数据处理,数据分析import matplotlib.pyplot as plt #画图⼯具data = [] #初原创 2021-01-23 01:32:42 · 284 阅读 · 1 评论 -
任务3:论⽂文代码统计
任务3:论⽂文代码统计3.1 任务说明3.2 数据处理理步骤3.3 正则表达式3.3.1 普通字符:大写和小写字母、所有数字、所有标点符号和一些其他符号3.3.2 特殊字符:有特殊含义的字符3.3.3 限定符3.4 具体代码实现以及讲解3.1 任务说明任务主题:论文代码统计,统计所有论文出现代码的相关统计;任务内容:使用正则表达式统计代码连接、页数和图表数据;任务成果:学习正则表达式统计;3.2 数据处理理步骤在原始arxiv数据集中作者经常会在论文的comments 或abstrac原创 2021-01-20 01:53:32 · 129 阅读 · 0 评论 -
数据分析之学术前沿分析- 任务2
任务2:论⽂文作者统计2.1 任务说明2.2 数据处理理步骤2.3 字符串串处理理2.4 具体代码实现以及讲解2.4.1 数据读取2.4.2 数据统计2.1 任务说明任务主题:论⽂文作者统计,统计所有论⽂文作者出现频率Top10的姓名;任务内容:论⽂文作者的统计、使⽤用 Pandas 读取数据并使⽤用字符串操作;任务成果:学习 Pandas 的字符串串操作;2.2 数据处理理步骤在原始arxiv数据集中论⽂文作者authors 字段是⼀个字符串格式,其中每个作者使用逗号进行分隔,所以我们原创 2021-01-17 00:15:22 · 848 阅读 · 0 评论 -
pandas7-缺失数据
第七章 缺失数据一、缺失值的统计和删除缺失信息的统计2. 缺失信息的删除二、缺失值的填充和插值1. 利用fillna进行填充2. 插值函数三、Nullable类型1. 缺失记号及其缺陷2. Nullable类型的性质3. 缺失数据的计算和分组四、练习import numpy as npimport pandas as pd一、缺失值的统计和删除缺失信息的统计缺失数据可以使用 isna 或 isnull (两个函数没有区别)来查看每个单元格是否缺失,通过和 sum 的组合可以计算出每列缺失值的原创 2021-01-03 23:39:54 · 191 阅读 · 0 评论 -
pandas7- 连接
pandas6- 连接6.1 关系型连接6.1.1 连接的基本概念6.1.2 值连接6.1.3 索引连接6.2 方向连接6.2.1 concat6.2.2 序列与表的合并6.3 类连接操作6.3.1 比较6.3.2 组合6.4 练习6.4.1 Ex1:美国疫情数据集6.4.2 Ex2:实现join 函数6.1 关系型连接6.1.1 连接的基本概念把两张相关的表按照某一个或某一组键连接起来是一种常见操作,例如学生期末考试各个科目的成绩表按照姓名和班级连接成总的成绩表,又例如对企业员工的各类信息表按照原创 2020-12-29 21:21:26 · 148 阅读 · 0 评论 -
变形
5.1 长宽表的变形什么是长表?什么是宽表?这个概念是对于某一个特征而言的。例如:一个表中把性别存储在某一个列中,那么它就是关于性别的长表;如果把性别作为列名,列中的元素是某一其他的相关特征数值,那么这个表是关于性别的宽表。下面的两张表就分别是关于性别的长表和宽表:import numpy as npimport pandas as pdpd.DataFrame({'Gender':['F','F','M','M'],'Height':[163, 160, 175, 180]})原创 2020-12-27 22:01:24 · 244 阅读 · 1 评论 -
matplotlib 第五回:样式色彩秀芳华
第五回:样式色彩秀芳华一、matplotlib的绘图样式(style)在matplotlib中,要想设置绘制样式,最简单的方法是在绘制元素时单独设置样式。但是有时候,当用户在做专题报告时,往往会希望保持整体风格的统一而不用对每张图一张张修改,因此matplotlib库还提供了四种批量修改全局样式的方式1.matplotlib预先定义样式matplotlib贴心地提供了许多内置的样式供用户使用,使用方法很简单,只需在python脚本的最开始输入想使用style的名称即可调用,尝试调用不同内置样式,原创 2020-12-23 10:48:13 · 249 阅读 · 0 评论 -
pandas4-索引
分组4.1.1 分组的一般模式4.1.2 分组依据的本质4.1.3 Groupby 对象4.1.4 分组的三大操作4.2 聚合函数4.2.1 内置聚合函数4.2.2 agg 方法4.3 变换和过滤4.3.1 变换函数与transform 方法4.3.2 组索引与过滤4.4 跨列分组4.4 apply 的引入4.4.2 apply 的使用4.5 练习Ex1:汽车数据集4.5.2 Ex2:实现transform 函数##4.1 分组模式及其对象4.1.1 分组的一般模式分组操作在日常生活中使用极其广泛,原创 2020-12-23 10:31:11 · 166 阅读 · 0 评论 -
第四回:文字图例尽眉目
第四回:文字图例尽眉目一、Figure和Axes上的文本Matplotlib具有广泛的文本支持,包括对数学表达式的支持、对栅格和矢量输出的TrueType支持、具有任意旋转的换行分隔文本以及Unicode支持。下面的命令是介绍了通过pyplot API和objected-oriented API分别创建文本的方式。1.textpyplot API:matplotlib.pyplot.text(x, y, s, fontdict=None, **kwargs)OO API:Axes.text(原创 2020-12-22 23:57:37 · 201 阅读 · 0 评论 -
索引器
索引3.1 索引器3.1.1表的列索引3.1.2 序列的行索引3.1.3 loc 索引器3.1.4 iloc 索引器3.1.5 query 方法3.1.6 随机抽样3.2多级索引多级索引及其表的结构多级索引中的loc 索引器3.2.3IndexSlice 对象3.2.4 多级索引的构造3.3 索引的常用方法3.3.1 索引层的交换和删除3.3.2 索引属性的修改3.3.3 索引的设置与重置3.3.4 索引的变形3.4 索引运算3.4.1 集合的运算法则3.4.2 一般的索引运算3.5 练习Ex1:公司员工原创 2020-12-20 23:59:12 · 505 阅读 · 0 评论 -
matplotlib _3
第三回布局格式定方圆import numpy as npimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif'] = ['SimHei']plt.rcParams['axes.unicode_minus'] = False子图1. 使用 plt.subplots 绘制均匀状态下的子图返回元素分别是画布和子图构成的列表,第一个数字为行,第二个为列figsize 参数可以指定整个画布的原创 2020-12-20 22:34:54 · 127 阅读 · 0 评论 -
pandas 基础
Pandas 基础2.1 文件的读取和写入2.1.1 文件读取2.1.2 数据写入3.1 基本数据结构3.1.1 Series3.1.2 DataFrame4.1 常用基本函数4.1.1 汇总函数4.1.2 特征统计函数4.1.3 唯一值函数4.1.4 替换函数4.1原创 2020-12-18 22:21:12 · 781 阅读 · 1 评论 -
第二回:艺术画笔见乾坤
第二回:艺术画笔见乾坤一、概述二、自定义你的Artist对象三、基本元素 - primitives四、对象容器 - Object container4. Tick容器一、概述1.matplotlib的三层apimatplotlib的原理或者说基础逻辑是,用Artist对象在画布(canvas)上绘制(Render)图形。就和人作画的步骤类似:准备一块画布或画纸准备好颜料、画笔等制图工具作画所以matplotlib有三个层次的API:matplotlib.backend_bases.F原创 2020-12-16 13:32:33 · 146 阅读 · 0 评论 -
数据可视化第一回
第一回:Matplotlib初相识一、认识matplotlib二、一个最简单的绘图例子三、Figure的组成四、两种绘图接口一、认识matplotlibMatplotlib是一个Python 2D绘图库,能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形,用来绘制各种静态,动态,交互式的图表。Matplotlib可用于Python脚本,Python和IPython Shell、Jupyter notebook,Web应用程序服务器和各种图形用户界面工具包等。Matplotlib是P原创 2020-12-14 22:34:09 · 72 阅读 · 0 评论 -
python基础
1预备基础1.1 Python 基础1.1.1 列表推导式与条件赋值1.1.2 匿名函数与map 方法1.1.3 zip对象与enumerate 方法2.1 Numpy 基础2.1.1 np 数组的构造2.1.2 np 数组的变形与合并2.1.3 np 数组的切片与索引2.1.4 常用函数2.1.5原创 2020-12-16 11:16:36 · 684 阅读 · 0 评论