毛里里求斯-CSDN博客

原创 R-数据挖掘 | 聚类分析中的各种相异（似）度计算

目录一、聚类的基本数据结构二、不同数据类型的相异度计算方法（一）区间标度变量（二）二元变量（三）标称变量（四）顺序变量（五）比例标度型变量（六）混合类型三、R相异（似）度计算总结一、聚类的基本数据结构假设要聚类的数据集合包含 n 个数据对象，这些数据对象可能表示人，房子，文档，国家等。许多基于内存的聚类算法选择如下两种有代表性的数据结构：（1）...

2019-12-22 03:17:12 13325

转载 Error: cannot allocate vector of size 88.1 Mb问题

标签：tps ace 应该 reference big err 无法注意 hive 　　这几天训练模型运行代码的时候，老是提示我说：Error: cannot allocate vector of size 88.1 Mb，只知道分配空间不足。下面是查资料看到的一些回答：一、这个是R的特点，有几个解决方法：1.升级到R3.3.0及以上版本，对内...

2019-02-23 10:24:29 22320

转载【转】R语言处理大规模数据集的编程要点

原文：https://www.cnblogs.com/MarsMercury/p/4935858.html 1.提高程序效率，保证执行速度(1)尽量使用向量化运算(2)尽量使用矩阵，必要时才使用数据框(3)使用read.table时，尽量显式设定colClasses和nrows，设定comment.char=""，把不需要的列设置为NULL(4)将外部数据导入矩阵时，使用s...

2019-02-23 09:20:04 1183

转载 mysql-5.7.16-winx64+Navicat安装及配置

很多朋友在安装mysq解压版l时出现：“mysql 服务无法启动服务没报告任何错误”以前我安装时也是遇到这样的问题；其实mysql在5.6后就没有了data目录，很多朋友按照以前的版本安装会去创建一个data目录，这样就会无法启动mysql了。下面我来把我的正确安装步骤分享给大家，给大家接触困扰，不在浪费时间搜这里搜那里，我们来一个一步到位，只要按着下面教程走肯定是没问题的。废话少说进入主题。1...

2018-05-08 14:19:06 1444

转载 R语言转换并保存json文件--使用jsonlite包

R语言转换并保存json文件--使用jsonlite包钱亦欣发表于 2017-07-03 00:10 2477 阅读http://www.ituring.com.cn/article/468152作者钱亦欣json是当下非常流行的数据交换格式，有着简单易用，易读（人和机器都容易）等特点。目前挺流行的非关系型数据库MongoDB就可以简单理解为一个json的容器，同时mysql（5.7以上版...

2018-05-08 12:45:48 11821 2

转载 R语言中plyr包

http://www.cnblogs.com/cloudtj/articles/5540913.htmlR语言中plyr包前言 apply族函数是R语言中很有特色的一类函数，包括了apply、sapply、lapply、tapply、aggregate等等。这一类函数本质上是将数据进行分割、计算和整合。它们在数据分析的各个阶段都有很好的用处。例如在数据准备阶段，我们可以按某个标准将数据分组，然后...

2018-05-08 11:41:57 3484

转载深入探讨PageRank（二）：PageRank原理剖析

原文地址：https://blog.csdn.net/monkey_d_meng/article/details/6556295一、PageRank算法的简单举例Google PageRank算法的思想精华在于：将一个网页级别/重要性的排序问题转化成了一个公共参与、以群体民主投票的方式求解的问题，网页之间的链接即被认为是投票行为。同时，各个站点投票的权重不同，重要的网站投票具有较大的分量，而该网站...

2018-04-01 10:41:14 16385 3

转载浅析PageRank算法

很早就对Google的PageRank算法很感兴趣，但一直没有深究，只有个轮廓性的概念。前几天趁团队outing的机会，在动车上看了一些相关的资料（PS：在动车上看看书真是一种享受），趁热打铁，将所看的东西整理成此文。本文首先会讨论搜索引擎的核心难题，同时讨论早期搜索引擎关于结果页面重要性评价算法的困境，借此引出PageRank产生的背景。第二部分会详细讨论PageRank的思想来源、基础

2018-04-01 10:23:04 5080

转载 ggplot2如何实现1页多图

看到论坛上好多人在问ggplot2怎么画1页多图，par参数在这里不起作用。一种方法是通过分面facet_grid，还有一种方法是通过视图窗口viewport和矩形网格grid，具体代码如下（以第二周作业为例）：library(ggplot2)p <- ggplot(data = diamonds, aes(x = clarity, fill = cut))p1 <- p + geom...

2018-03-26 16:22:04 2987

转载 SQL查询语句分类

SQL查询语句有多种，下面总结下。首先先建三张表用于后面的实验-- 学生表，记录学生信息 CREATE TABLE student( sno VARCHAR(10), sname VARCHAR(10), ssex ENUM('男','女'), sage INT, sdept VARCHAR(10), PRIMARY KEY(sn

2018-03-26 11:17:23 554

转载 Error in .Call.graphics(C_palette2, .Call(C_palette2, NULL)) : invalid graphics state

I believe my dataframe is okay and my code is okay. In fact, I have eliminated parts of the dataframe and most of the graphing code to make things as basic as possible. But still, I get:Error in .Call...

2018-03-21 08:44:17 3002

转载 Error in effect() function in effects package

When I try to use effects::effect, it throws the following error:Error in Effect.lm(predictors, mod, vcov. = vcov., ...) : could not find function "vcov."This error can be reproduced with this code...

2018-03-21 08:42:26 514

转载泊松分布的来源—公式推导—应用

转载请注明：http://blog.csdn.net/ningyaliuhebei/article/details/46409215一。泊松分布由二项分布引出（二者都是离散型随机变量）首先必须由二项分布引出：如果做一件事情成功的概率是 p 的话，那么独立尝试做这件事情 n 次，成功次数的分布就符合二项分布。展开来说，在做的 n 次中，成功次数有可能是 0 次、1 次 …… n次。成功 i 次的概率...

2018-03-14 14:38:21 3884

转载 R语言数据集合并、数据增减、不等长合并

数据选取与简单操作：which返回一个向量中指定元素的索引which.max返回最大元素的索引which.min返回最小元素的索引sample随机在向量中抽取元素subset根据条件选取元素sort升序排列元素rev反转所有元素order获取排序后的索引table返回频数表cut将数据分割为几部分split按照指定条件分割数据rbind行合并cbind列合并merge按照指定列合并矩阵或者数据框一...

2018-03-10 20:02:48 5875

转载掌握R语言中的apply函数族

掌握R语言中的apply函数族R的极客理想系列文章，涵盖了R的思想，使用，工具，创新等的一系列要点，以我个人的学习和体验去诠释R的强大。R语言作为统计学一门语言，一直在小众领域闪耀着光芒。直到大数据的爆发，R语言变成了一门炙手可热的数据分析的利器。随着越来越多的工程背景的人的加入，R语言的社区在迅速扩大成长。现在已不仅仅是统计领域，教育，银行，电商，互联网….都在使用R语言。要成为有理想的极客，我...

2018-03-10 19:45:58 496

转载解决RStudio中"plot.new() : figure margins too large"问题

在RStudio中使用plot()函数进行画图时，常出现“plot.new() : figure margins too large”问题。如图(1)所示。　　出现该问题的原因是，RStudio里的【Plots】窗口太小，可以适当调大一点，或者把RStudio设置为全屏。解决步骤如下。　　1.用鼠标选中【Plots】选项卡，然后把该窗口拖大一点即可，如图(2)所示。　　图(2) 将【Plot...

2018-03-08 14:51:19 6408

转载两种方法上传本地文件到github

自从使用github以来，一直都是在github网站在线上传文件到仓库中，但是有时因为网络或者电脑的原因上传失败。最重要的原因是我习惯本地编辑，完成以后再一起上传github。看过了几个教程，总结出最适合自己的比较简单的方法。两种方法上传本地文件到github1. github在线上传文件夹在线上传也可以上传完整的文件夹结构，直接拖拽到上传文件页面的框中即可。1.1点击上传文件点击上传1.2 直接...

2018-03-05 10:51:19 24281

转载 R语言ggplot2包之画折线图

引言折线图一般用于描述一维变量随着某一连续变量变化的情况，连续变量通常为时间。换句话说，折线图最适合描述时间序列数据的变化情况。当然随着离散变量变化也是可以的，不过这个离散变量必须是有序的。画一条折线图一条基本的折线图还是比较简单的，只要在ggplot里的aes传入x,y数据且geom指定为line线即可。如果x是连续变量，直接传入即可。如果x是离散变量，此时x需要因子化，

2018-02-05 20:44:43 15806

转载爬虫IP被禁的简单解决方法

https://www.cnblogs.com/mooba/p/6484340.html爬虫以前听上去好厉害好神秘的样子，用好了可以成就像Google、百度这样的索索引擎，用不好可以凭借不恰当的高并发分分钟崩掉一个小型网站。写到这里想到12306每年扛住的并发请求量，觉得好牛逼。爬虫和反爬虫从一直以来都是一个道高一尺魔高一丈的架势。反爬虫技术增加了爬取的难度，各路crawler

2018-01-25 21:13:48 28810 2

转载 LDA主题模型（算法详解）

LDA主题模型（算法详解）http://blog.csdn.net/weixin_41090915/article/details/79058768?%3E一、LDA主题模型简介LDA(Latent Dirichlet Allocation)中文翻译为：潜在狄利克雷分布。LDA主题模型是一种文档生成模型，是一种非监督机器学习技术。它认为一篇文档是有多个主题的，而每个主题

2018-01-24 13:56:26 15150 1

转载 TF-IDF与余弦相似性的应用（二）：找出相似文章

上一次，我用TF-IDF算法自动提取关键词。今天，我们再来研究另一个相关的问题。有些时候，除了找到关键词，我们还希望找到与原文章相似的其他文章。比如，"Google新闻"在主新闻下方，还提供多条相似的新闻。为了找出相似的文章，需要用到"余弦相似性"（cosine similiarity）。下面，我举一个例子来说明，什么是"余弦相似性"。为了简单起见，我们先从句子着手

2018-01-19 18:53:13 256

转载 TF-IDF与余弦相似性的应用（一）：自动提取关键词

这个标题看上去好像很复杂，其实我要谈的是一个很简单的问题。有一篇很长的文章，我要用计算机提取它的关键词（Automatic Keyphrase extraction），完全不加以人工干预，请问怎样才能正确做到？这个问题涉及到数据挖掘、文本处理、信息检索等很多计算机前沿领域，但是出乎意料的是，有一个非常简单的经典算法，可以给出令人相当满意的结果。它简单到都不需要高等数学，普通

2018-01-19 18:49:27 277

转载 jieba结巴分词--关键词抽取（核心词抽取）

转自：http://www.cnblogs.com/zhbzz2007 欢迎转载，也请保留这段声明。谢谢！1 简介关键词抽取就是从文本里面把跟这篇文档意义最相关的一些词抽取出来。这个可以追溯到文献检索初期，当时还不支持全文搜索的时候，关键词就可以作为搜索这篇论文的词语。因此，目前依然可以在论文中看到关键词这一项。除了这些，关键词还可以在文本聚类、分类、自动摘要等领域中有着重

2018-01-19 18:45:33 5589

转载 R语言中管道操作 %>%, %T>%, %$% 和 %<>%

前言使用R语言进行数据处理是非常方便的，几行代码就可以完成很复杂的操作。但是，对于数据的连续处理，还是有人觉得代码不好看，要么是长长的函数嵌套调用，有点像Lisp感觉，括号包一切；要么就是每次操作赋值一个临时变量，啰嗦。为什么就不能像Linux的管道一样优雅呢？magrittr包在这样场景中被开发出来，通过管道的方式让连续复杂数据的处理操作，代码更短，更容易读，甚至一行代码可以搞定

2018-01-08 12:00:49 67129 5

转载社交网络中各类产品形态的分析

最近在做一个项目，其中有个模块是跟“群”相关的，在设计过程中被研发同学质问为什么用群，而不用论坛或者兴趣小组？在解答研发同学的疑问过程中发现群、小组、论坛以及其他在社交网络中可见的圈人方式有各有特点，特梳理如下。我们将通过以下几个维度来分析社交网络中不同产品形态的特点和适用的场景：--- 私密性：是否允许陌生人加入？是否开放给所有人？--- 媒体属性：是否需要较强的媒体属性？即可产生和引导舆论--

2017-12-15 16:07:58 2102

转载 SCI-EI-收录-检索-出版商之间的关系

在交流中，发现很多老师/同学还对会议组织者/EI/SCI/检索/出版商/全文收录的概念有严重的误解。在这里再在自己的博客里面详细的解释一下，会议组织者：可能是某个学校；也可能是某个组织；他们为学术/经济利益举办会议，从科研工作者处收文章，收注册费；然后将论文集扔给出版商；出版商：具备一定声望，比如Elsevier/IEEE/Springer，他们旗下有一些会议

2017-12-14 17:09:18 2825

转载预印本(Preprint)及出版商的投稿政策

Preprint（预印本），指尚未投稿、或已投稿但尚未在正式出版物发表，但为及时跟同行交流而自愿在预印本网站、个人博客、维基站点、或会议等发布的论文或报告。简单的说，预印本就是指论文完成之后投稿时的那个版本，还没有经过同行评审。预印本显而易见的好处是：有助于更及时的跟同行交流并获得反馈（或许会有助于修改你的稿子），及发表优先权。但因为没有经过同行评审，有人认为预印本文章的可靠性不一定有保证。预

2017-12-14 17:07:04 21766 1

转载 SCI和影响因子：学术评估与商业运作——Nature实证研究

摘　要：SCI论文（引用）及期刊“影响因子”，被当今学界视为最权威的学术评估手段，却严重忽视了这两者纯粹的商业性质。本文集中考察三个方面内容：SCI论文（引用）和期刊“影响因子”的历史形成过程；上述两者规则设计的合理性质疑；揭示两者背后的商业化运作机制及学术包装手法。关键词：SCI（科学引用索引）；JCR（期刊引证报告）；影响因子；尤金·加菲尔德一、科技信息的商业价值二、SCI和

2017-12-07 16:52:50 2035

转载 STM出版行业概况

STM出版行业概况目前世界上STMS(Sicence, Technology, Medicine & Social-science)出版商中，最大的有如下几家：elsevier，wiley，Springer和IEEE，还有Thomsons Reuters,但是后者的主要业务在法律和税务以及信息咨询，在STM方面并不是内容出版，而是二次文献的信息提供者。这五家大公司旗下各有自己的子出

2017-12-07 16:46:06 5035 1

转载主题模型-LDA浅析

原文地址：http://blog.csdn.net/huagong_adu/article/details/7937616（一）LDA作用传统判断两个文档相似性的方法是通过查看两个文档共同出现的单词的多少，如TF-IDF等，这种方法没有考虑到文字背后的语义关联，可能在两个文档共同出现的单词很少甚至没有，但两个文档是相似的。举个例子，有两个句子分别如下

2017-11-18 15:52:09 610

原创 R数据整合（aggregate）和重塑（reshape）

2017-11-08 15:21:59 5870 1

转载国内外研究如何界定

转载本文请联系原作者获取授权，同时请注明本文来自李旭科学网博客。链接地址：http://blog.sciencenet.cn/blog-1148346-1027636.htmlIntroduction“国内外研究进展”或“国内外研究现状”，是大多数科学研究文本资料的标配内容，添列在课题申请书、开题报告和学位论文，子标题分别综述“国内研究”和“国外研究”。然而，国内外研究的国

2017-10-30 22:49:45 9437

转载 R2: 已解释和未解释的方差

估计值的方差与总体方差之间的差异就是回归方程对方差的解释率。试举一例，如图 1，身高与体重的回归线显示身高与体重之间呈正相关，Mr. Y身高76英寸体重220磅（图 1中插图.cdr的红点），他与体重平均值的总离差（Y-Y）是220-155=65磅。这个总离差可以被分解为两部分：一部分是Y与回归线之间的离差（Y-Y’），等于30；另一部分是预测值与体重平均值的离差（Y’-Y），等于35。这

2017-10-30 22:39:43 10174

转载 R2: 相关系数、复相关系数及半偏相关系数之间的联系

开贴举例说明相关系数、复相关系数及半偏相关系数之间的联系。比如，我们要预测学生在高中的表现（学生成绩），一种方法是测量学习速度和难易程度的能力测验来衡量学生的学习能力。那么，假设一个学生已经做了这样的测验，在这个样本中学习能力（X1）与学习成绩（Y）的相关系数是r1=.4，这就表明能力可以解释学习成绩方差的.42=.16，即16%。不过，还有84%的方差尚未得到解释（参考：已解释和未解释的

2017-10-30 22:36:56 27106 3

转载三大统计相关系数：Pearson、Spearman秩相关系数、kendall等级相关系数

统计相关系数简介由于使用的统计相关系数比较频繁，所以这里就利用几篇文章简单介绍一下这些系数。相关系数：考察两个事物（在数据里我们称之为变量）之间的相关程度。如果有两个变量：X、Y，最终计算出的相关系数的含义可以有如下理解：(1)、当相关系数为0时，X和Y两变量无关系。(2)、当X的值增大（减小），Y值增大（减小），两个变量为正相关，相关系数在0.00与1

2017-10-30 13:48:03 145392 3

转载 [偏相关分析]偏相关系数计算及假设检验

1、相关分析通过计算两个变量之间的相关系数，分析变量间线性相关的程度，在多元相关分析中，由于受到其他变量的影响，皮尔森相关系数只能从表面上反映两个变量相关的性质，往往不能真实地反映变量之间的线性相关程度，甚至会给人造成相关的假象，因此，在某些场合，简单的皮尔森相关系数并不是刻画相关关系的本质统计量。2、当其他变量被固定住，即将他们控制起来后，给定的任意两个变量之间的相关系数叫偏相关系数，偏相关

2017-10-30 10:54:41 55108 7

转载 [小结] 二元变量相关性分析

1、服从正态分布的两连续变量，若有一份随机样本，可绘制散点，发现有直线趋势，进而计算皮尔森相关系数，以描述两变量的线性关系；2、若不满足正态分布的两连续变量，发现有直线趋势，进而计算spearman秩相关系数，以描述两变量的相关关系。3、对两个反映属性的分类变量，若有一份随机样本，可做交叉分类的频数表，利用独立性卡方检验和列联表系数来描述关联性。4、相关系数和列联系数的计算都是基于一份

2017-10-30 10:41:59 8274

转载 [列联相关] 列联系数计算及假设检验

对两个定量变量间线性联系我们用皮尔森积差相关系数或秩相关系数来描述，对于定性变量间的联系通常是根据两个定性变量交叉分类计数所得的频数资料做关联分析，即关于两独立性的卡方检验。列联表的计算方法有很多种，对于两个分类变量的关联程度，最常用的是皮尔逊定义的列联系数：　　其中，x2——列联数据资料的检验统计量；n——样本容量。列联表的计算方法有很多种，最常用的是皮尔

2017-10-30 10:17:58 19664 2

转载 [秩相关] Spearman秩相关系数计算及假设检验

首先说明秩相关系数还有其他类型，比如kendal秩相关系数。使用Pearson线性相关系数有2个局限：必须假设数据是成对地从正态分布中取得的。数据至少在逻辑范围内是等距的。对于更一般的情况有其他的一些解决方案，Spearman秩相关系数就是其中一种。Spearman秩相关系数是一种无参数（与分布无关）检验方法，用于度量变量之间联系的强弱。在没有重复数据的情况下，如果一个变量是另外一

2017-10-30 09:59:50 28571 5

转载 [线性相关] 皮尔森相关系数的计算及假设检验

皮尔森相关系数，又称积差相关系数、积矩相关系数，可以看做将两组数据首先做Z分数处理之后, 然后两组数据的乘积和除以样本数Z分数一般代表正态分布中, 数据偏离中心点的距离.等于变量减掉平均数再除以标准差。按照大学的线性数学水平来理解, 它比较复杂一点,可以看做是两组数据的向量夹角的余弦。从以上解释，也可以理解皮尔逊相关的约束条件:1、两个变量间有线性关系2、变量是连续变量

2017-10-30 09:05:51 41396 3

空空如也

空空如也