- 博客(4)
- 资源 (3)
- 收藏
- 关注
原创 可视化文本数据—词云
“词云”这个概念由美国西北大学新闻学副教授、新媒体专业主任里奇·戈登(Rich Gordon)于提出,词云是一种可视化描绘单词或词语出现在文本数据中频率的方式,它主要是由随机分布在词云图的单词或词语构成,出现频率较高的单词或词语则会以较大的形式呈现出来,而频率越低的单词或词语则会以较小的形式呈现。词云主要提供了一种观察社交媒体网站上的热门话题或搜索关键字的一种方式,它可以对网络文本中出现频率较高的
2016-06-28 01:29:18 11437 2
原创 异常值的观测
异常值是数据集较为特殊的一类值,指距离大部分数据点明显较远的值。他的产生原因可能是数据录入错误,数据产生条件与其他数据不一致或小概率事件等。并且,异常值对数据分析的结果影响也很大。 观测异常值: 箱线图 箱线图是一种根据极值,四分位数,和中位数画出的图形,图中还标出了常规意义上的异常值,即距离中位数远于三个标准差的值。我们可以使用Boxplot( )函数画出箱线图,箱线图
2016-06-27 17:45:55 3135
原创 R语言画图功能到底有多厉害,看看就知道了
人们都说R语言的画图能力很强,但到底有多强,很少人见过吧。今天,我们就要R语言来画画地图,看看有多么简单。 R语言身为一名开源语言,身后有世界各地的大牛在为他开发。到目前位置,R语言已经有了8000多个可用包。R语言身为一名开源语言,身后有世界各地的大牛在为他开发。截止到我这个博客为止,R语言已经有了8000多个可用包,这么多的包,包含了各种各样的功能,因此越来越低的人来使用R,与MATLA
2016-06-23 20:24:34 14549
R语言函数使用说明
2016-03-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人