- 博客(70)
- 资源 (2)
- 收藏
- 关注
原创 [置顶]R语言:recommenderlab包的总结与应用案例
R语言:recommenderlab包的总结与应用案例 1. 推荐系统:recommenderlab包整体思路recommenderlab包提供了一个可以用评分数据和0-1数据来发展和测试推荐算法的框架。它提供了几种基础算法,并可利用注册机制允许用户使用自己的算法recommender包的数据类型采用S4类构造。(1)评分矩阵数据接口:使用抽象的raringMatrix为评分数据提供接口。
2017-07-08 10:03:08 1165 1
原创 [置顶]R语言 ggplot2包
R语言 ggplot2包的学习 分析数据要做的第一件事情,就是观察它。对于每个变量,哪些值是最常见的?值域是大是小?是否有异常观测?ggplot2图形之基本语法:ggplot2的核心理念是将绘图与数据分离,数据相关的绘图与数据无关的绘图分离ggplot2是按图层作图ggplot2保有命令式作图的调整函数,使其更具灵活性ggplot2将常见的统计变换融入到了绘图中。ggplot的绘图有
2017-07-08 10:03:05 7834 2
原创 [置顶]C++实现景区信息管理系统
景区信息管理系统简单的景区信息管理系统,实现了:1.1 建立主程序应用菜单选项主程序应用菜单选项包含所实现的所有功能,并且对选项采用数字标识进行选择,对其他错误输入可以进行判别,提示输入错误。1.2 导游线路图的创建级景区分布图的输出用邻接链表存储景点分布图的信息,(带权无向)图的邻接链表。输出景区景点分布图(邻接矩阵)。图中边的权值∞用32767表示。1.3 输出导游线路图景区旅游
2017-07-08 10:03:02 2586 4
原创 [置顶]linux系统目录介绍
linux系统目录介绍1.bin:保存可执行文件,即是命令。所有的用户都可以执行。2.boot:引导目录,操作系统引导启动内核。3.dev:设备文件,所有的硬件都被抽象成了文件系统。4.etc:配置文件目录,其中大多数是以.conf结尾。5.home:home目录,即是每个用户都有自己的home目录,来进行存储用户私有信息,所有信息和私有文件等。6.lib:所有相关的库文件,基本上都是
2017-07-08 10:02:59 350
原创 H2O中的随机森林算法介绍及其项目实战(python实现)
H2O中的随机森林算法介绍及其项目实战(python实现)包的引入:from h2o.estimators.random_forest import H2ORandomForestEstimator H2ORandomForestEstimator 的常用方法和参数介绍: (一)建模方法: model =H2ORandomForestEstimator(ntrees=n,max_depth
2017-07-08 10:02:55 1694
原创 scala语言简介及其环境安装
scala语言简介及其环境安装 简介:1.运行在JVM 上,兼容java语言 Scala的代码,都需要经过编译为字节码,然后交由Java虚拟机来运行。所以Scala和Java是可以无缝互操作的。Scala 可以任意调用Java的代码。2.当面向对象遇到了函数式编程(Object-Oriented Meets Functional) Scala 是面向对象的编程语言,同时也是函数式
2017-07-08 10:02:50 400
原创 SparkSQL---实战应用
SparkSQL---实战应用 数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase相关数据文件 :users.dat ---UserID::Gender::Age::Occupation::Zip-codemovies.dat --- MovieID::Title::Genresratings.dat --
2017-07-08 10:02:48 364
原创 Spark算子---实战应用
Spark算子实战应用 数据集 :http://grouplens.org/datasets/movielens/ MovieLens 1M Datase相关数据文件 :users.dat ---UserID::Gender::Age::Occupation::Zip-codemovies.dat --- MovieID::Title::Genresratings.dat ---Use
2017-07-08 10:02:45 379
原创 利用python的KMeans和PCA包实现聚类算法
题目: 通过给出的驾驶员行为数据(trip.csv),对驾驶员不同时段的驾驶类型进行聚类,聚成普通驾驶类型,激进类型和超冷静型3类 。 利用Python的scikit-learn包中的Kmeans算法进行聚类算法的应用练习。并利用scikit-learn包中的PCA算法来对聚类后的数据进行降维,然后画图展示出聚类效果。通过调节聚类算法的参数,来观察聚类效果的变化,练习调参。数据介绍: 选取某一个
2017-07-08 10:02:40 3787 7
原创 Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS
Spark MLlib回归算法------线性回归、逻辑回归、SVM和ALS 1、线性回归:(1)模型的建立:回归正则化方法(Lasso,Ridge和ElasticNet)在高维和数据集变量之间多重共线性情况下运行良好。 数学上,ElasticNet被定义为L1和L2正则化项的凸组合:通过适当设置α,ElasticNet包含L1和L2正则化作为特殊情况。例如,如果用参数α设置为1来
2017-07-08 10:02:38 1235
原创 m个苹果放在n个盘子里面有多少种放法?(动态规划)
m个苹果放在n个盘子里面有多少种放法?(动态规划)实现代码如下:#include using namespace std;int s(int m ,int n){ if(m==0||n==1){ return 1; } if(m<n) { return s(m,m); } if(m>=n) {
2017-07-08 10:02:33 2401
原创 C++实现通讯信息管理系统
通讯信息管理系统可以实现通讯信息的增加,浏览,删除,修改,查询,保存和读取功能。该系统还限制了通讯信息的条数(limit变量来限制)文件放置结构:具体实现代码如下: #include#include#include#includeusing namespace std;void caidan();//菜单函数,实现菜单的显示static int n=0; //记录输
2017-07-08 10:02:31 788
原创 根据无向图的边邻接矩阵求任意一点到其他所有点之间的最短路径。
根据无向图的边邻接矩阵求任意一点到其他所有点之间的最短路径。直接上代码:#include #include using namespace std;#define INFINITY 1000000000 //存储无向图中无边两点之间的距离#define MAX 500 //存储该无向图最多的点数为500long arr[MAX][MAX]; void Shortest
2017-07-08 10:02:28 3562
原创 Spark Streaming中的操作函数讲解
Spark Streaming中的操作函数讲解 根据根据Spark官方文档中的描述,在Spark Streaming应用中,一个DStream对象可以调用多种操作,主要分为以下几类TransformationsWindow OperationsJoin OperationsOutput Operations一、Transformations1、map(func) map操作
2017-07-08 10:02:23 401
原创 Spark编程模型(RDD编程模型)
Spark编程模型(RDD编程模型) 下图给出了rdd 编程模型,并将下例中用 到的四个算子映射到四种算子类型。spark 程序工作在两个空间中:spark rdd空间和 scala原生数据空间。在原生数据空间里, 数据表现为标量(即scala基本类型,用橘 色小方块表示)、集合类型(蓝色虚线 框) 和持久存储(红色圆柱)。
2017-07-08 10:02:18 488
原创 scala实现彩票算法
scala实现彩票算法(1)具体实现代码如下:package hw1import scala.util.control._/** * @author BIGDATA */object Cp { var input=new Array[Int](7) var cp=new Array[Int](7) var level=0 def main(args:Array[
2017-07-08 10:02:13 626
原创 决策树---ID3算法(介绍及Python实现)
决策树---ID3算法 决策树:以天气数据库的训练数据为例。 OutlookTemperatureHumidityWindyPlayGolf?sunny8585FALSEnosunny8090TRUEnoovercast8386FALSEyesr
2017-07-08 10:02:11 915 1
原创 Hive shell 命令。
Hive shell 命令。 连接 hive shell 直接输入 hive 1、显示表 hive> show tables; OK test Time taken: 0.17 seconds, Fetched: 1 row(s) 2、创建表 hive> create table test(key string); OK Time taken:
2017-07-08 10:02:06 706
原创 HBase shell 命令。
HBase shell 命令。 进入hbase shell console$HBASE_HOME/bin/hbase shell如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户hbase(main)> whoami
2017-07-08 10:02:03 523
原创 kafka+storm+hbase
kafka+storm+hbase实现计算WordCount。(1)表名:wc(2)列族:result(3)RowKey:word(4)Field:count 1、解决:(1)第一步:首先准备kafka、storm和hbase相关jar包。依赖如下: 4.0.0 com kafkaSpout 0.0.1-SNAPSHOT
2017-07-08 10:01:58 455
原创 Python递归实现汉诺塔
Python递归实现汉诺塔: def f3(n,x,y,z): if(n==1): print(x,'--->',z) else: f3(n-1,x,z,y) print(x,'--->',z) f3(n-1,y,x,z)n=int(input('请输入汉罗塔层数:'))f3(n,'X','Y','
2017-07-08 10:01:53 444
原创 C语言实现---学生成绩管理系统
C语言实现了学生成绩管理系统,可以进行学生成绩的增加,删除,更新,查询,计算和展示。完整代码如下: #include #include #includestring.h> typedef struct person //定义结构体 { char num[10]; //学号 char na
2017-07-08 10:01:51 18621 10
原创 Java中的 多线程编程
Java 中的多线程编程 一、多线程的优缺点多线程的优点:1)资源利用率更好2)程序设计在某些情况下更简单3)程序响应更快多线程的代价:1)设计更复杂虽然有一些多线程应用程序比单线程的应用程序要简单,但其他的一般都更复杂。在多线程访问共享数据的时候,这部分代码需要特别的注意。线程之间的交互往往非常复杂。不正确的线程同步产生的错误非常难以被发现,并且重现以修复。2)上下文切换的开销当C
2017-07-08 10:01:46 308
原创 Python中的字典详解
Python中的字典是python的一种数据结构,它的本质是key和value以及其对应关系的一种集合,一个key可以对应一个多个value。合理的使用字典能给我们编程带来很大的方便。-----python中的数据类型-----python中的字符串操作 python3.0以上,print函数应为print(),不存在dict.iteritems()这个函数。在python中写中文注释会
2017-07-08 10:01:43 767
原创 Python中的数据类型
Python中的数据类型目录1、字符串2、布尔类型3、整数4、浮点数5、数字6、列表7、元组8、字典9、日期1、字符串(http://www.cnblogs.com/yjd_hycf_space/p/6846284.html)1.1、如何在Python中使用字符串a、使用单引号(')用单引号括起来表示字符串,例如:str='this is string';print str;b、使用双引号(
2017-07-08 10:01:41 386
原创 Python中的字符串操作总结(Python3.6.1版本)
Python中的字符串操作(Python3.6.1版本) (1)切片操作:str1="hello world!" str1[1:3] 'el'(左闭右开:即是从1到2)str[:3] 'hel'str[2:] 'llo world!'(2)和Java中的字符串一样,不能直接改变字符串的值,更新字符串时候可以用切片技术:str1="hello world!" str1=str
2017-07-08 10:01:36 636
原创 R语言绘制沈阳地铁线路图
##使用leaflet绘制地铁线路图,要求##(1)图中绘制地铁线路library(dplyr)library(leaflet)library(data.table)stations<-read.csv("C:\\Users\\BIGDATA\\Desktop\\文件\\BigData\\R语言\\相关作业文档\\3\\第五次实训课数据\\systation.csv");statio
2017-07-08 10:01:31 1498
原创 HIVE中的order by操作
hive中常见的高级查询包括:group by、Order by、join、distribute by、sort by、cluster by、Union all。今天我们来看看order by操作,Order by表示按照某些字段排序,语法如下: [java] view plain copy select col,col2... from tableName where
2017-07-08 10:01:26 1339
原创 Hive中order by,sort by,distribute by,cluster by的区别
一:order byorder by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。关于order by的详细介绍请参考这篇文章:Hive Order by操作。 二:sort bysort by不是全局排序,其在数据进入reducer前完成排序,因此,如果用sort by进行排序
2017-07-08 10:01:23 377
原创 HDFS shell命令
HDFS shell命令 FS Shell调用文件系统(FS)Shell命令应使用 bin/hadoop fs 的形式。 所有的的FS shell命令使用URI路径作为参数。URI格式是scheme://authority/path。对HDFS文件系统,scheme是hdfs,对本地文件系统,scheme是file。其中scheme和authority参数都是可选的,如果未加指定,就会使用
2017-07-08 10:01:18 591
原创 HDFS入门
HDFS入门欢迎关注我的个人博客:http://www.cnblogs.com/yjd_hycf_space 更多大数据以及编程相关的精彩文章为什么我们需要HDFS文件系统由三部分组成:与文件管理有关软件、被管理文件以及实施文件管理所需数据结构。既然读取一块磁盘的所有数据需要很长时间,写入更是需要更长时间(写入时间一般是读取时间的3倍)。我们需要一个巨大文件难道得换传输速度10GB/
2017-07-08 10:01:16 346
原创 yarn是什么?为什么会产生yarn,它解决了什么问题?以及yarn的执行流程
yarn是什么?为什么会产生yarn,它解决了什么问题?答:yarn是作业调度和集群资源管理的一个框架。首先对之前的Hadoop 和 MRv1 简单介绍如下:Hadoop 集群可从单一节点(其中所有 Hadoop 实体都在同一个节点上运行)扩展到数千个节点(其中的功能分散在各个节点之间,以增加并行处理活动)。图 1 演示了一个 Hadoop 集群的高级组件。 图 1. Hadoo
2017-07-08 10:01:13 3351
原创 C++中的类继承之单继承&多继承&菱形继承
C++中的类继承之单继承&多继承&菱形继承 单继承是一般的单一继承,一个子类只 有一个直接父类时称这个继承关系为单继承。这种关系比较简单是一对一的关系:多继承是指 一个子类有两个或以上直接父类时称这个继承关系为多继承。这种继承方式使一个子类可以继承多个父类的特性。多继承可以看作是单继承的扩展。派生类具有多个基类,派生类与每个基类之间的关系仍可看作是一个单继承。多继承下派生类的构造函数与单
2017-07-08 10:01:08 493
原创 R语言实战实现基于用户的简单的推荐系统(数量较少)
R语言实战实现基于用户的简单的推荐系统(数量较少) ab da abda2 axbxm for(i in 1:max(ax)){ for(j in 1:max(ax)) { if(i==j) { m[i,j]=0 }else{ m[i,j]=length(intersect(t(da[which(da$a==
2017-07-08 10:01:04 809
原创 MapReduce计数器
MapReduce计数器 计数器输出运行完毕作业之后的计数器输出内置计数器Hadoop为每个作业提供了若干内置计数器,用以描述各项指标。文件系统计数器所属类:org.apache.hadoop.mapreduce.FileSystemCounterBYTES_READ:文件系统读取的字节数BYTES_WRITTEN:文件系统写的字节数FileInputFormat任务计数器
2017-07-08 10:00:59 401
原创 MapReduce的Shuffle过程介绍
MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗,把一组有一定规则的数据尽量转换成一组无规则的数据,越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程,把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过程?我们都知道MapReduce计算模型一般包括两个重要的阶段:Map是映射,负责数据的过滤分发;
2017-07-08 10:00:56 430
原创 R语言两种方式求指定日期所在月的天数
R语言两种方式求指定日期所在月的天数 days_monthday{ m days31 days30 days29 if(m %in% days31) return(31) if(m %in% days30) return(30) if(m %in% days29) return(29)}days_monthday1{ m while(format(date
2017-07-08 10:00:54 2358
原创 ggplot2作图详解:入门函数qplot
ggplot2作图详解:入门函数qplot ggplot2的功能不用我们做广告,因为它的作者Hadley Wickham就说ggplot2是一个强大的作图工具,它可以让你不受现有图形类型的限制,创造出任何有助于解决你所遇到问题的图形。一点也不谦虚。 H.W.还说了另外一句话,“学习ggplot2你得忘记一些东西”,所以也有人说ggplot2是作图软件中的太极功。有点高深。那好吧,我就怀着
2017-07-08 10:00:49 1450
原创 R语言中的数据处理包dplyr、tidyr笔记
R语言中的数据处理包dplyr、tidyr笔记 dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口;tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用。本文将介绍dplyr包的下述五个函数用法:筛选: fi
2017-07-08 10:00:42 2551
原创 二叉树和二叉查找树之间的区别
二叉树和二叉查找树之间的区别 凡是每个节点都最多有两个叉的树,都叫二叉树。查找树和排序树是一个东西。特点是中序遍历一遍的结果是单调的。这种树建出来可以用来做二分搜索。平衡树一般是排序树的一种,并且加点条件,就是任意一个节点的两个叉的深度差不多(比如差值的绝对值小于某个常数,或者一个不能比另一个深出去一倍之类的)。这样的树可以保证二分搜索任意元素都是O(log n)的,一般还附带带有插
2017-07-08 10:00:37 3026
东北大学数据结构实践_景区信息管理系统实验报告(含完整源代码)
2017-05-12
R语言学习_R参考卡片
2017-05-12
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人