初学AI
文章平均质量分 94
xyc_undermoon
AI初学者、CS菜鸟探索者
展开
-
数据分析入门(学术前沿趋势分析)Task4-论文种类分类
Ⅰ、主要内容纲要主题:利用数据建模,对新论文进行分类 内容: 借助论文标题、摘要完成论文分类 数据集:arXivⅡ、数据处理思路原始arxiv论文中论文有对应的类别,由作者填写,因此我们可以借助论文的标题和摘要完成分类,主要步骤如下:对论文标题和摘要进行处理; 对论文类别进行处理; 构建文本分类模型;文本分类的思路有多种,这里简单介绍几类:思路1:TF-IDF+机器学习分类器思路2:FastText思路3:WordVec+深度学习分类器思路4:Bert词向...原创 2021-01-22 01:19:30 · 798 阅读 · 2 评论 -
数据分析入门(学术前沿趋势分析)Task1-论文数据统计
此次赛题是零基础入门数据分析(学术前沿趋势分析),使用公开的arXiv论文完成对应的数据分析操作。赛题内容包括对论文数量、作者出现频率、论文源码的统计,对论文进行分类以及对论文作者的关系进行建模。Ⅰ、数据及背景主题:统计论文数量 内容:理解赛题、学习利用 Pandas 读取数据并进行统计 数据集:arXiv 重要的学术公开网站,也是搜索、浏览和下载学术论文的重要工具。arXiv论文涵盖的范围非常广,涉及物理学的庞大分支和计算机科学的众多子学科,如数学、统计学、电气工程、定量生物学和经济学等等。原创 2021-01-13 15:46:42 · 1213 阅读 · 0 评论 -
机器学习入门笔记07-k近邻
k近邻算法k近邻(k-Nearest Neighbor)学习是一种常见的监督学习方法,其算法简单、直观:首先寻找与预测数据最近的k个样本数据,然后观察这k个样本数据的标记类别,数量最多的类别就作为预测数据的类别。我们用图表示一下:如上图,中间绿色的圆点为要预测的数据,样本数据有两种类型,分别用正方形和三角形表示,当k=3时,就如图中实现所围,距离预测点最近的3个点中两个为三角形,一个为...原创 2020-01-20 20:28:46 · 185 阅读 · 0 评论 -
机器学习入门笔记06-朴素贝叶斯
朴素贝叶斯(naïve Bayes)分类器是一种常用的分类算法,属于机器学习十大算法之一。正如其名称所体现的,朴素贝叶斯分类器的确很“朴素”,可以说它是贝叶斯理论甚至分类算法中最简单的算法之一。先看一看贝叶斯定理——贝叶斯定理贝叶斯定理如下:其中P(A|B)是表示B发生的情况下A发生的概率。这个定理有什么用呢?我们先来看一个例子:春节到了,老妈包了300个饺子(假设这300个饺...原创 2020-01-19 23:37:40 · 223 阅读 · 0 评论 -
机器学习入门笔记05-聚类
无监督学习无监督学习是一类机器学习算法,在无监督学习中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步数据分析提供基础。通俗的讲,无监督学习就是“从无规律中找到规律”,在未知样本的真实结果的情况下,通过自主学习找到样本之间的一些规律,并将这些规律用于预测。聚类是常见的一类无监督学习任务。简单地说,聚类就是把杂乱的数据划归为特定的几类,并且这...原创 2020-01-18 18:20:46 · 1393 阅读 · 0 评论 -
机器学习入门笔记04-决策树
之前做过一篇决策树基本原理的笔记,连接:https://blog.csdn.net/xyc_undermoon/article/details/90486195信息论部分可参考吴军博士所著《数学之美》第六章内容,浅显易懂,对基础信息论的理解很有帮助;这次笔记记录一些常见决策树算法以及实现代码。这里先简单回忆一下决策树:决策树是通过不断地选择特征对目标进行判断,我觉得数学中常用的二分法的思想...原创 2020-01-16 23:06:44 · 299 阅读 · 0 评论 -
机器学习入门笔记03-logistics回归
线性回归对于分类问题线性回归解决的是回归问题,即连续变量的问题,在直角坐标系下就是用直线去拟合数据点;虽然在分类问题中也可以用线性回归模型,但效果不好。线性模型为其产生的预测值是一个实值,因此,若要实现分类问题,则可考虑通过对线性模型所预测的结果再进行一次变换,从而实现分类,此时模型可表示为:logistics回归原理对于二分类问题,我们要预测“正”、“反”两种结...原创 2020-01-13 23:43:29 · 562 阅读 · 0 评论 -
机器学习入门笔记02-线性回归
首先做一道高中数学题 下表提供了某厂节能降耗技术改造后产生甲产品过程中记录的产量x(单位:吨)与相应的生产能耗y(单位:吨/标准煤)的几组对照数据。 x 3 4 5 6 ...原创 2020-01-11 21:21:04 · 752 阅读 · 0 评论 -
机器学习入门笔记01-机器学习综述
机器学习与人工智能的发展历程 AI发展阶段 时间轴 机器学习理论 代表性成果 逻辑推理阶段 AI诞生前期 二十世纪五十年代 AI研究处于推理期 A. Newell和H. Simon的Logic Theorist证明了...原创 2020-01-08 18:12:57 · 662 阅读 · 0 评论 -
西瓜书学习笔记(二)——决策树
4.1基本流程决策树(decision tree),亦称判定树,是一类常见的机器学习方法。个人理解:由上图可看出,决策树就是通过将特征按层级划分,在上一层判断结果的基础上对下一层的特征值进行判定,如此循环往复,从而通过一系列判断结果产生决策。一般地,一颗决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应于决策结果,其他每个结点则对应于一个属性测试;每个结点包含的样...原创 2019-05-23 19:28:34 · 842 阅读 · 0 评论 -
西瓜书学习笔记(一)
第三章-线性模型3.1基本形式给定由d个属性描述的示例x = {x1; x2; … ; xd},xi是x在第i个属性上的取值。线性模型(linear model):通过属性的线性组合进行预测的函数,即:fx=w1x1+w2x2+…+wdxd+b用向量表示:fx=wTx+b其中w=(w1; w2;…; wd)。线性模型就是要学得w和b。非线性模型(nonlinear ...原创 2019-05-16 16:32:17 · 1004 阅读 · 0 评论