数据分析与挖掘
文章平均质量分 75
毛里里求斯
这个作者很懒,什么都没留下…
展开
-
主成分分析、因子分析和聚类分析的区别
主成分分析就是设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。综合指标即为主成分。所得出的少数几个主成分,要尽可能多地保留原始变量的信息,且彼此不相关。因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。聚类分析是依据实验数据本身所具有的定性或定量的特征来转载 2017-09-24 13:08:53 · 23434 阅读 · 2 评论 -
难以解释的数据异常
难以解释的数据异常转载自:http://webdataanalysis.net/personal-view/unexplained-anomaly/ 在分析数据的时候,总有那些一些数据异常无法找到适当的理由进行合理解释,也许可以换个角度来看待这些异常。为什么明明数据发生较大的起伏波动,我们绞尽脑汁还是无法找到合理的原因,这些到底是怎么样的异常,是不是存在一些共性,或者这些异常是不转载 2017-10-16 13:11:53 · 388 阅读 · 0 评论 -
共词分析
一、共现分析概念及主要类型“共现”指文献的特征项描述的信息共同出现的现象,这里的特征项包括文献的外部和内部特征,如题名、作者、关键词、机构等。而“共现分析”是对共现现象的定量研究,以揭示信息的内容关联和特征项所隐含的知识。常见的共现类型包括:类型含义首次提出者对应论文文献耦合两篇或多篇文献同时引证一篇论原创 2017-10-16 11:01:09 · 36260 阅读 · 0 评论 -
主题模型-LDA浅析
原文地址:http://blog.csdn.net/huagong_adu/article/details/7937616(一)LDA作用 传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少,如TF-IDF等,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。 举个例子,有两个句子分别如下转载 2017-11-18 15:52:09 · 498 阅读 · 0 评论 -
LDA主题模型(算法详解)
LDA主题模型(算法详解)http://blog.csdn.net/weixin_41090915/article/details/79058768?%3E一、LDA主题模型简介LDA(Latent Dirichlet Allocation)中文翻译为:潜在狄利克雷分布。LDA主题模型是一种文档生成模型,是一种非监督机器学习技术。它认为一篇文档是有多个主题的,而每个主题转载 2018-01-24 13:56:26 · 14729 阅读 · 1 评论 -
爬虫IP被禁的简单解决方法
https://www.cnblogs.com/mooba/p/6484340.html爬虫以前听上去好厉害好神秘的样子,用好了可以成就像Google、百度这样的索索引擎,用不好可以凭借不恰当的高并发分分钟崩掉一个小型网站。写到这里想到12306每年扛住的并发请求量,觉得好牛逼。爬虫和反爬虫从一直以来都是一个道高一尺魔高一丈的架势。反爬虫技术增加了爬取的难度,各路crawler转载 2018-01-25 21:13:48 · 28261 阅读 · 3 评论 -
jieba结巴分词--关键词抽取(核心词抽取)
转自:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢!1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期,当时还不支持全文搜索的时候,关键词就可以作为搜索这篇论文的词语。因此,目前依然可以在论文中看到关键词这一项。除了这些,关键词还可以在文本聚类、分类、自动摘要等领域中有着重转载 2018-01-19 18:45:33 · 5411 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(一):自动提取关键词
这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到?这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域,但是出乎意料的是,有一个非常简单的经典算法,可以给出令人相当满意的结果。它简单到都不需要高等数学,普通转载 2018-01-19 18:49:27 · 249 阅读 · 0 评论 -
TF-IDF与余弦相似性的应用(二):找出相似文章
上一次,我用TF-IDF算法自动提取关键词。今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,"Google新闻"在主新闻下方,还提供多条相似的新闻。为了找出相似的文章,需要用到"余弦相似性"(cosine similiarity)。下面,我举一个例子来说明,什么是"余弦相似性"。为了简单起见,我们先从句子着手转载 2018-01-19 18:53:13 · 210 阅读 · 0 评论 -
两种方法上传本地文件到github
自从使用github以来,一直都是在github网站在线上传文件到仓库中,但是有时因为网络或者电脑的原因上传失败。最重要的原因是我习惯本地编辑,完成以后再一起上传github。看过了几个教程,总结出最适合自己的比较简单的方法。两种方法上传本地文件到github1. github在线上传文件夹在线上传也可以上传完整的文件夹结构,直接拖拽到上传文件页面的框中即可。1.1点击上传文件点击上传1.2 直接...转载 2018-03-05 10:51:19 · 24151 阅读 · 0 评论 -
SQL查询语句分类
SQL查询语句有多种,下面总结下。首先先建三张表用于后面的实验-- 学生表,记录学生信息 CREATE TABLE student( sno VARCHAR(10), sname VARCHAR(10), ssex ENUM('男','女'), sage INT, sdept VARCHAR(10), PRIMARY KEY(sn转载 2018-03-26 11:17:23 · 505 阅读 · 0 评论 -
常见聚类算法
常见聚类算法来源:知乎https://zhuanlan.zhihu.com/p/224521571 聚类分析概述聚类(Clustering)的本质是对数据进行分类,将相异的数据尽可能地分开,而将相似的数据聚成一个类别(簇),使得同一类别的数据具有尽可能高的同质性(homogeneity),类别之间有尽可能高的异质性(heterogeneity),从而方便从数据中发现隐含转载 2017-10-16 10:29:58 · 3186 阅读 · 0 评论 -
聚类分析简介
一、概念将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。在许多应用中,一个簇中的数据对象可以被作为一个整体来对待。二、聚类分析中的数据类型假设要聚类的数据集合包含 n 个数据对象,这些数据对象可能表示人,房子,文档,国家等。许多基于内存的聚类算法选择如下两种有代表性的原创 2017-10-16 10:27:38 · 1692 阅读 · 0 评论 -
数据挖掘-文本特征提取方法研究
一、 课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息学等多个领域。文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法和工具,它从数据挖掘发展而来,但与传统的数据挖掘又有许多不同。文本挖掘的对象是海量、异构、分布的文档(web);文档内容是人类所使用的自然语言,缺乏计算机可理解的语义。传统数据挖掘所处理的数转载 2017-09-26 15:45:41 · 11583 阅读 · 0 评论 -
Web挖掘技术
一、数据挖掘数据挖掘是运用计算机及信息技术,从大量的、不完全的数据集中获取隐含在其中的有用知识的高级过程。Web 数据挖掘是从数据挖掘发展而来,是数据挖掘技术在Web 技术中的应用。Web 数据挖掘是一项综合技术,通过从Internet 上的资源中抽取信息来提高Web 技术的利用效率,也就是从Web 文档结构和试用的集合中发现隐含的模式。数据挖掘涉及的学科领域和方法很多,有多种分类法。转载 2017-09-26 16:39:47 · 14796 阅读 · 0 评论 -
共词聚类分析
一、概念共现聚类分析法,通过文献计量和聚类统计的方法,计算主题词之间的联系密切程度(在同一篇文献共同出现的频率),将距离较近的主题词聚集在一起,形成一个个概念相互独立的类团,使得类团内属性相似性最大,类团间属性相似性最小。二、关键流程1、聚类时距离的确定在进行聚类分析时,类组合的确定有两种概念方式,一是类与类之间的距离,二是点与点之间的距离。(1)类间距离:例如组间距离法(原创 2017-09-28 14:17:00 · 23411 阅读 · 0 评论 -
共现分析
一、概念共词分析法利用文献集中词汇对名词短语共同出现的情况,来确定该文献集所代表学科中个主题之间的关系。一般认为词汇对在同一篇文献中出现的次数越多,则代表这两个主题的关系越紧密。由此,统计一组文献的主题词两两之间在同一篇文献出现的频率,便可形成一个由这些词对关联所组成的共词网络,网络内节点之间的远近便可反映主题内容的亲疏关系。二、共词分析的过程1、确定分析的问题2、确定分析单元:关原创 2017-09-28 10:22:49 · 37445 阅读 · 5 评论 -
社会网络分析入门书目导读
社会网络分析入门书目导读由于社会网络分析的庞大,汗牛充栋来形容一点都不过分,所以,按照大众读者、社会科学类研究者、Excel类读者、开发者四类进行区分。再补充部分复杂性入门经典之作、心理学特色读物。大众读者典型读者:产品经理、对社会网络感兴趣的人。复杂:这本书骗了多少年轻小正太投身复杂性与网络科学、物理学研究?大自然如何工作:自组织理论关键性著作。小小世界:开启物理学与社会学融转载 2017-09-20 17:46:42 · 2651 阅读 · 0 评论 -
社会网络分析的主要内容
一、中心性分析——权力的量化研究目的:在什么意义上说一个行动者有权力?一个子群体有权力?指标:点或群体的中心度(centrality)和网络的中心势(centralization)内容: “中心性”是社会网络分析的重点之一。个人或组织在其社会网络中具有怎样的权力,或者说居于怎样的中心地位,这一思想是社会网络分析者最早探讨的内容之一。个体的中心度(Centrality)测量个体转载 2017-09-22 12:11:13 · 26941 阅读 · 0 评论 -
数据结构:图的存储结构之邻接矩阵
图的邻接矩阵(Adjacency Matrix)存储方式是用两个数组来表示图。一个一维的数组存储图中顶点信息,一个二维数组(称为邻接矩阵)存储图中的边或弧的信息。设图G有n个顶点,则邻接矩阵是一个n*n的方阵,定义为:我们来看一个实例,图7-4-2的左图就是一个无向图。我们再来看一个有向图样例,如图7-4-3所示的左图。在图的术语中,我们提到了网的概念,也就转载 2017-10-13 09:00:46 · 606 阅读 · 0 评论 -
R数据整合(aggregate)和重塑(reshape)
原创 2017-11-08 15:21:59 · 5637 阅读 · 1 评论 -
用 Doc2Vec 得到文档/段落/句子的向量表达
转载 2017-10-24 07:46:26 · 2029 阅读 · 0 评论 -
距离和相似度度量
在数据分析和数据挖掘的过程中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。最常见的是数据分析中的相关分析,数据挖掘中的分类和聚类算法,如K最近邻(KNN)和K均值(K-Means)。当然衡量个体差异的方法有很多,最近查阅了相关的资料,这里整理罗列下。 为了方便下面的解释和举例,先设定我们要比较X个体和Y个体间的差异,它们都包含了N个维的特征,即X=(x1, x2, x3,转载 2017-10-16 09:20:22 · 331 阅读 · 0 评论