xyc_undermoon-CSDN博客

Ⅰ、主要内容纲要主题：对作者间的关系进行建模并分析，统计关联最大的作者关系内容：构建作者关系图数据集：arXivⅡ、数据处理思路处理步骤：将作者列表进行处理，并完成统计。具体步骤如下：1）将论文第一作者与其他作者（非第一作者）关系构建图结构；2）使用图算法相关操作统计图中某作者与其他作者的联系。社交网络：社交网络是一种网络，属于图的一种类型。图是一种重要的结构，是离散数学、数据结构、运筹学等学科的重要内容，广泛应用于现实生活中（如交通规划、网络规划、...

2021-01-24 15:00:01 707 1

原创数据分析入门（学术前沿趋势分析）Task4-论文种类分类

Ⅰ、主要内容纲要主题：利用数据建模，对新论文进行分类内容：借助论文标题、摘要完成论文分类数据集：arXivⅡ、数据处理思路原始arxiv论文中论文有对应的类别，由作者填写，因此我们可以借助论文的标题和摘要完成分类，主要步骤如下：对论文标题和摘要进行处理；对论文类别进行处理；构建文本分类模型；文本分类的思路有多种，这里简单介绍几类：思路1：TF-IDF+机器学习分类器思路2：FastText思路3：WordVec+深度学习分类器思路4：Bert词向...

2021-01-22 01:19:30 987 2

原创数据分析入门（学术前沿趋势分析）Task3-论文代码统计

Ⅰ、主要内容纲要主题：对所有出现代码的论文进行统计，学习正则表达式内容：使用正则表达式统计代码连接、页数和图表数据数据集：arXivⅡ、数据处理分析步骤：论文作者经常会在论文的comments或abstract字段中给出具体的代码链接，因此需要从这些字段里面找出代码的链接，主要分为三步：确定数据位置；进行匹配（正则表达式）；完成相关的统计；正则表达式：正则表达式(regular expression)描述了一种字符串匹配的模式（pattern），可.

2021-01-17 22:18:04 380

原创数据分析入门（学术前沿趋势分析）Task2-论文作者统计

Ⅰ、主要内容纲要主题：统计出现频率top10的论文作者内容：学习利用 Pandas 读取数据并进行统计以及字符串操作数据集：arXivⅡ、数据处理分析原始arxiv数据集中中”author”字段是字符串格式，这意味着所有论文作者的名字是存放在一起的，因此要对字符串进行处理，提取出各个作者的姓名。姓名之间通过逗号分隔，因此可以以逗号为标志符将作者划分，然后将作者姓名中的非常规字符剔除。（我们得到的数据集中author_parsed已经将作者信息进行了处理，我们可以直接使用。）【注】（p

2021-01-17 15:08:46 357

原创数据分析入门（学术前沿趋势分析）Task1-论文数据统计

此次赛题是零基础入门数据分析（学术前沿趋势分析），使用公开的arXiv论文完成对应的数据分析操作。赛题内容包括对论文数量、作者出现频率、论文源码的统计，对论文进行分类以及对论文作者的关系进行建模。Ⅰ、数据及背景主题：统计论文数量内容：理解赛题、学习利用 Pandas 读取数据并进行统计数据集：arXiv 重要的学术公开网站，也是搜索、浏览和下载学术论文的重要工具。arXiv论文涵盖的范围非常广，涉及物理学的庞大分支和计算机科学的众多子学科，如数学、统计学、电气工程、定量生物学和经济学等等。

2021-01-13 15:46:42 1427

原创随记——C++传参、取址运算符

一直对C++中“ * ”、“ & ”这两个运算符感觉很懵，心血来潮做个程序试验试验，加深一下对其的理解，顺便做个笔记。一、取址符“&”与引用“&”int x = 12; int* p = &x; //定义int*类型变量并初始化，指针变量*p指向x的地址，p的值为x的地址值cout << "p: " << p << endl;cout << "*p: " << *p << en

2021-01-13 01:55:00 1282

原创 LeetCode分类算法笔记2——动态规划

算法学习笔记——LeetCode分类算法2.动态规划1.主要思想当一个问题通过划分为众多子问题进行求解时，就需要对子问题的求解进行规划，以减少冗余计算，提高算法效率，达到优化算法的目的——这种时候就应当考虑用动态规划对子问题进行调度。这种问题往往是递归问题。动态规划往往适用于有重叠子问题和最优子结构性质的问题，动态规划方法所耗时间往往远少于朴素解法。2.动态规划的要素重叠子问题：动态规划法仅仅解决每个子问题一次，具有天然剪枝的功能，从而减少计算量，一旦某个给定子问题的解已经算出，则将

2020-08-22 17:40:04 315

原创 LeetCode分类算法笔记1——分治

算法学习笔记——LeetCode分类算法1.分而治之1.主要思想对一个大规模的问题运用分治策略，就是将这个大规模的问题划分成若干小规模的子问题，然后对这这些子问题进行求解，最后按划分将求得的结果进行合并，就得到了原问题的解。分治思想就是将分解，即将大问题分解为若干小问题，然后各个击破。利用分治算法求解问题的步骤可以如下表示：1.分：将大问题分解成众多小问题；2.治：求解各个小问题；3.合：将解决的问题合并【注】分治是一种策略，如果一个大问题进行一次分解后仍然无法轻易解出，则可

2020-08-17 20:03:20 267

原创机器学习入门笔记07-k近邻

k近邻算法k近邻(k-Nearest Neighbor)学习是一种常见的监督学习方法，其算法简单、直观：首先寻找与预测数据最近的k个样本数据，然后观察这k个样本数据的标记类别，数量最多的类别就作为预测数据的类别。我们用图表示一下：如上图，中间绿色的圆点为要预测的数据，样本数据有两种类型，分别用正方形和三角形表示，当k=3时，就如图中实现所围，距离预测点最近的3个点中两个为三角形，一个为...

2020-01-20 20:28:46 201

原创机器学习入门笔记06-朴素贝叶斯

朴素贝叶斯(naïve Bayes)分类器是一种常用的分类算法，属于机器学习十大算法之一。正如其名称所体现的，朴素贝叶斯分类器的确很“朴素”，可以说它是贝叶斯理论甚至分类算法中最简单的算法之一。先看一看贝叶斯定理——贝叶斯定理贝叶斯定理如下：其中P(A|B)是表示B发生的情况下A发生的概率。这个定理有什么用呢？我们先来看一个例子：春节到了，老妈包了300个饺子（假设这300个饺...

2020-01-19 23:37:40 236

原创机器学习入门笔记05-聚类

无监督学习无监督学习是一类机器学习算法，在无监督学习中，训练样本的标记信息是未知的，目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律，为进一步数据分析提供基础。通俗的讲，无监督学习就是“从无规律中找到规律”，在未知样本的真实结果的情况下，通过自主学习找到样本之间的一些规律，并将这些规律用于预测。聚类是常见的一类无监督学习任务。简单地说，聚类就是把杂乱的数据划归为特定的几类，并且这...

2020-01-18 18:20:46 1530

原创机器学习入门笔记04-决策树

之前做过一篇决策树基本原理的笔记，连接：https://blog.csdn.net/xyc_undermoon/article/details/90486195信息论部分可参考吴军博士所著《数学之美》第六章内容，浅显易懂，对基础信息论的理解很有帮助；这次笔记记录一些常见决策树算法以及实现代码。这里先简单回忆一下决策树：决策树是通过不断地选择特征对目标进行判断，我觉得数学中常用的二分法的思想...

2020-01-16 23:06:44 314

原创机器学习入门笔记03-logistics回归

线性回归对于分类问题线性回归解决的是回归问题，即连续变量的问题，在直角坐标系下就是用直线去拟合数据点；虽然在分类问题中也可以用线性回归模型，但效果不好。线性模型为其产生的预测值是一个实值，因此，若要实现分类问题，则可考虑通过对线性模型所预测的结果再进行一次变换，从而实现分类，此时模型可表示为：logistics回归原理对于二分类问题，我们要预测“正”、“反”两种结...

2020-01-13 23:43:29 581

原创机器学习入门笔记02-线性回归

首先做一道高中数学题下表提供了某厂节能降耗技术改造后产生甲产品过程中记录的产量x（单位：吨）与相应的生产能耗y（单位：吨/标准煤）的几组对照数据。 x 3 4 5 6 ...

2020-01-11 21:21:04 785

原创机器学习入门笔记01-机器学习综述

机器学习与人工智能的发展历程 AI发展阶段时间轴机器学习理论代表性成果逻辑推理阶段 AI诞生前期二十世纪五十年代 AI研究处于推理期 A. Newell和H. Simon的Logic Theorist证明了...

2020-01-08 18:12:57 677

原创西瓜书学习笔记（二）——决策树

4.1基本流程决策树(decision tree)，亦称判定树，是一类常见的机器学习方法。个人理解：由上图可看出，决策树就是通过将特征按层级划分，在上一层判断结果的基础上对下一层的特征值进行判定，如此循环往复，从而通过一系列判断结果产生决策。一般地，一颗决策树包含一个根结点、若干个内部结点和若干个叶结点；叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样...

2019-05-23 19:28:34 913

原创西瓜书学习笔记（一）

第三章-线性模型3.1基本形式给定由d个属性描述的示例x = {x1; x2; … ; xd}，xi是x在第i个属性上的取值。线性模型(linear model)：通过属性的线性组合进行预测的函数，即：fx=w1x1+w2x2+…+wdxd+b用向量表示：fx=wTx+b其中w=(w1; w2;…; wd)。线性模型就是要学得w和b。非线性模型(nonlinear ...

2019-05-16 16:32:17 1077

xyc_undermoon的博客

原创数据可视化笔记 Task5 - Matplotlib样式色彩

原创数据可视化笔记 Task4 - Matplotlib文本

原创数据可视化笔记 Task3 - Matplotlib布局

原创数据可视化笔记 Task2 - Artist“艺术画笔”（二）

原创数据可视化笔记 Task2 - Artist“艺术画笔”（一）

原创数据可视化笔记 Task1 - 走进Matplotlib

原创 Datawhale学习笔记——Matplotlib数据可视化

原创数据分析入门（学术前沿趋势分析）Task5-作者信息关联