自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 数据可视化笔记 Task5 - Matplotlib样式色彩

数据可视化笔记 Task5 - Matplotlib样式色彩

2022-01-23 19:04:42 882

原创 数据可视化笔记 Task4 - Matplotlib文本

数据可视化笔记 Task4 - Matplotlib文本

2022-01-21 23:45:01 710

原创 数据可视化笔记 Task3 - Matplotlib布局

数据可视化笔记 Task3 - Matplotlib布局...

2022-01-18 23:56:38 472

原创 数据可视化笔记 Task2 - Artist“艺术画笔”(二)

数据可视化笔记 Task2 - Artist“艺术画笔”(二)

2022-01-17 01:31:17 729

原创 数据可视化笔记 Task2 - Artist“艺术画笔”(一)

数据可视化学习笔记——task2 对matplotlib重要对象Artist的学习

2022-01-14 01:12:05 154

原创 数据可视化笔记 Task1 - 走进Matplotlib

matplotlib数据可视化Task1

2022-01-11 23:38:04 258

原创 Datawhale学习笔记——Matplotlib数据可视化

Matplotlib数据可视化入门笔记

2022-01-11 19:10:09 533

原创 数据分析入门(学术前沿趋势分析)Task5-作者信息关联

Ⅰ、主要内容纲要主题:对作者间的关系进行建模并分析,统计关联最大的作者关系 内容: 构建作者关系图 数据集:arXivⅡ、数据处理思路 处理步骤: 将作者列表进行处理,并完成统计。具体步骤如下:1)将论文第一作者与其他作者(非第一作者)关系构建图结构;2)使用图算法相关操作统计图中某作者与其他作者的联系。 社交网络: 社交网络是一种网络,属于图的一种类型。图是一种重要的结构,是离散数学、数据结构、运筹学等学科的重要内容,广泛应用于现实生活中(如交通规划、网络规划、...

2021-01-24 15:00:01 556 1

原创 数据分析入门(学术前沿趋势分析)Task4-论文种类分类

Ⅰ、主要内容纲要主题:利用数据建模,对新论文进行分类 内容: 借助论文标题、摘要完成论文分类 数据集:arXivⅡ、数据处理思路原始arxiv论文中论文有对应的类别,由作者填写,因此我们可以借助论文的标题和摘要完成分类,主要步骤如下:对论文标题和摘要进行处理; 对论文类别进行处理; 构建文本分类模型;文本分类的思路有多种,这里简单介绍几类:思路1:TF-IDF+机器学习分类器思路2:FastText思路3:WordVec+深度学习分类器思路4:Bert词向...

2021-01-22 01:19:30 818 2

原创 数据分析入门(学术前沿趋势分析)Task3-论文代码统计

Ⅰ、主要内容纲要主题:对所有出现代码的论文进行统计,学习正则表达式 内容: 使用正则表达式统计代码连接、页数和图表数据 数据集:arXivⅡ、数据处理分析 步骤: 论文作者经常会在论文的comments或abstract字段中给出具体的代码链接,因此需要从这些字段里面找出代码的链接,主要分为三步:确定数据位置; 进行匹配(正则表达式); 完成相关的统计; 正则表达式: 正则表达式(regular expression)描述了一种字符串匹配的模式(pattern),可.

2021-01-17 22:18:04 283

原创 数据分析入门(学术前沿趋势分析)Task2-论文作者统计

Ⅰ、主要内容纲要主题:统计出现频率top10的论文作者 内容:学习利用 Pandas 读取数据并进行统计以及字符串操作 数据集:arXivⅡ、数据处理分析原始arxiv数据集中中”author”字段是字符串格式,这意味着所有论文作者的名字是存放在一起的,因此要对字符串进行处理,提取出各个作者的姓名。姓名之间通过逗号分隔,因此可以以逗号为标志符将作者划分,然后将作者姓名中的非常规字符剔除。(我们得到的数据集中author_parsed已经将作者信息进行了处理,我们可以直接使用。)【注】(p

2021-01-17 15:08:46 289

原创 数据分析入门(学术前沿趋势分析)Task1-论文数据统计

此次赛题是零基础入门数据分析(学术前沿趋势分析),使用公开的arXiv论文完成对应的数据分析操作。赛题内容包括对论文数量、作者出现频率、论文源码的统计,对论文进行分类以及对论文作者的关系进行建模。Ⅰ、数据及背景主题:统计论文数量 内容:理解赛题、学习利用 Pandas 读取数据并进行统计 数据集:arXiv 重要的学术公开网站,也是搜索、浏览和下载学术论文的重要工具。arXiv论文涵盖的范围非常广,涉及物理学的庞大分支和计算机科学的众多子学科,如数学、统计学、电气工程、定量生物学和经济学等等。

2021-01-13 15:46:42 1233

原创 随记——C++传参、取址运算符

一直对C++中“ * ”、“ & ”这两个运算符感觉很懵,心血来潮做个程序试验试验,加深一下对其的理解,顺便做个笔记。一、取址符“&”与引用“&”int x = 12; int* p = &x; //定义int*类型变量并初始化,指针变量*p指向x的地址,p的值为x的地址值cout << "p: " << p << endl;cout << "*p: " << *p << en

2021-01-13 01:55:00 1236

原创 LeetCode分类算法笔记2——动态规划

算法学习笔记——LeetCode分类算法2.动态规划1.主要思想当一个问题通过划分为众多子问题进行求解时,就需要对子问题的求解进行规划,以减少冗余计算,提高算法效率,达到优化算法的目的——这种时候就应当考虑用动态规划对子问题进行调度。这种问题往往是递归问题。动态规划往往适用于有重叠子问题和最优子结构性质的问题,动态规划方法所耗时间往往远少于朴素解法。2.动态规划的要素重叠子问题:动态规划法仅仅解决每个子问题一次,具有天然剪枝的功能,从而减少计算量,一旦某个给定子问题的解已经算出,则将

2020-08-22 17:40:04 293

原创 LeetCode分类算法笔记1——分治

算法学习笔记——LeetCode分类算法1.分而治之1.主要思想对一个大规模的问题运用分治策略,就是将这个大规模的问题划分成若干小规模的子问题,然后对这这些子问题进行求解,最后按划分将求得的结果进行合并,就得到了原问题的解。分治思想就是将分解,即将大问题分解为若干小问题,然后各个击破。利用分治算法求解问题的步骤可以如下表示:1.分:将大问题分解成众多小问题;2.治:求解各个小问题;3.合:将解决的问题合并【注】分治是一种策略,如果一个大问题进行一次分解后仍然无法轻易解出,则可

2020-08-17 20:03:20 247

原创 机器学习入门笔记07-k近邻

k近邻算法k近邻(k-Nearest Neighbor)学习是一种常见的监督学习方法,其算法简单、直观:首先寻找与预测数据最近的k个样本数据,然后观察这k个样本数据的标记类别,数量最多的类别就作为预测数据的类别。我们用图表示一下:如上图,中间绿色的圆点为要预测的数据,样本数据有两种类型,分别用正方形和三角形表示,当k=3时,就如图中实现所围,距离预测点最近的3个点中两个为三角形,一个为...

2020-01-20 20:28:46 185

原创 机器学习入门笔记06-朴素贝叶斯

朴素贝叶斯(naïve Bayes)分类器是一种常用的分类算法,属于机器学习十大算法之一。正如其名称所体现的,朴素贝叶斯分类器的确很“朴素”,可以说它是贝叶斯理论甚至分类算法中最简单的算法之一。先看一看贝叶斯定理——贝叶斯定理贝叶斯定理如下:其中P(A|B)是表示B发生的情况下A发生的概率。这个定理有什么用呢?我们先来看一个例子:春节到了,老妈包了300个饺子(假设这300个饺...

2020-01-19 23:37:40 226

原创 机器学习入门笔记05-聚类

无监督学习无监督学习是一类机器学习算法,在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步数据分析提供基础。通俗的讲,无监督学习就是“从无规律中找到规律”,在未知样本的真实结果的情况下,通过自主学习找到样本之间的一些规律,并将这些规律用于预测。聚类是常见的一类无监督学习任务。简单地说,聚类就是把杂乱的数据划归为特定的几类,并且这...

2020-01-18 18:20:46 1414

原创 机器学习入门笔记04-决策树

之前做过一篇决策树基本原理的笔记,连接:https://blog.csdn.net/xyc_undermoon/article/details/90486195信息论部分可参考吴军博士所著《数学之美》第六章内容,浅显易懂,对基础信息论的理解很有帮助;这次笔记记录一些常见决策树算法以及实现代码。这里先简单回忆一下决策树:决策树是通过不断地选择特征对目标进行判断,我觉得数学中常用的二分法的思想...

2020-01-16 23:06:44 302

原创 机器学习入门笔记03-logistics回归

线性回归对于分类问题线性回归解决的是回归问题,即连续变量的问题,在直角坐标系下就是用直线去拟合数据点;虽然在分类问题中也可以用线性回归模型,但效果不好。线性模型为其产生的预测值是一个实值,因此,若要实现分类问题,则可考虑通过对线性模型所预测的结果再进行一次变换,从而实现分类,此时模型可表示为:logistics回归原理对于二分类问题,我们要预测“正”、“反”两种结...

2020-01-13 23:43:29 564

原创 机器学习入门笔记02-线性回归

首先做一道高中数学题 下表提供了某厂节能降耗技术改造后产生甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨/标准煤)的几组对照数据。 x 3 4 5 6 ...

2020-01-11 21:21:04 763

原创 机器学习入门笔记01-机器学习综述

机器学习与人工智能的发展历程 AI发展阶段 时间轴 机器学习理论 代表性成果 逻辑推理阶段 AI诞生前期 二十世纪五十年代 AI研究处于推理期 A. Newell和H. Simon的Logic Theorist证明了...

2020-01-08 18:12:57 663

原创 西瓜书学习笔记(二)——决策树

4.1基本流程决策树(decision tree),亦称判定树,是一类常见的机器学习方法。个人理解:由上图可看出,决策树就是通过将特征按层级划分,在上一层判断结果的基础上对下一层的特征值进行判定,如此循环往复,从而通过一系列判断结果产生决策。一般地,一颗决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样...

2019-05-23 19:28:34 859

原创 西瓜书学习笔记(一)

第三章-线性模型3.1基本形式给定由d个属性描述的示例x = {x1; x2; … ; xd},xi是x在第i个属性上的取值。线性模型(linear model):通过属性的线性组合进行预测的函数,即:fx=w1x1+w2x2+…+wdxd+b用向量表示:fx=wTx+b其中w=(w1; w2;…; wd)。线性模型就是要学得w和b。非线性模型(nonlinear ...

2019-05-16 16:32:17 1011

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除