自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 《数据科学概论》教材介绍

备注: 最新版本的《数据科学概论》教学大纲,请参考。https://blog.csdn.net/xiongpai1971/article/details/89364071 教材 覃雄派,陈跃国,杜小勇. 《数据科学概论》.中国人民大学出版社.ISBN: 9787300252926...

2018-03-29 17:23:25 6221 1

原创 数据学是什么鬼?

有数据学这么一种说法,什么是数据学呢? 特别是现在大家都在谈、都在接受数据科学的时代,数据学到底是数据科学,还是另外一个东西。 如果数据学就是数据科学,何必呢?数据科学大家觉得朗朗上口,搞个新的名词没有必要? 如果是不同于数据科学的、所谓的研究数据空间的基本规律性的科学,感觉走上了玄学,进而走入...

2019-05-10 20:40:28 86 0

原创 400多对35:谁能建人工智能学院(专业)

教育部公布第四批“数据科学与大数据技术”新专业获批名单 http://www.tipdm.org/bdrace/news/20190328/1561.html 教育部:浙江大学等35所高校新增人工智能本科专业 https://baijiahao.baidu.com/s?id=162950...

2019-05-06 06:37:08 62 0

原创 大数据工具(Hadoop Spark)

(01)《Hadoop/Spark原理、部署、与开发入门》(v2018.09.01) (02)hdfs_shell (03)hdfs_java[coming soon] (04)mapreduce_java (05)hbase_shell (06)hbase_java[coming soon] (...

2019-04-21 02:24:43 155 0

原创 量化交易(QuantitativeTrading)

(01)量化交易简介 (02)股票基础知识 (03)期货基础知识 (04)基本面分析及PDF (05)技术分析及PDF (06)机器学习与数据挖掘基础知识 (07)Python基础知识及实例 (08)机器学习库scikit-learn及实例 (09)交易模型简介[see below] (09.1)...

2019-04-21 02:23:55 511 0

原创 数据科学概论Learning Road Map

备注:资源短时间内下载数量过多,网站会限制下载(下载失败),点击浏览器“回退”按钮,然后过一段时间再下载即可。 数据科学概论Learning Road Map 本书第一版出版后,引起了大量的关注。任课老师纷纷表示,愿意使用该教材开设《数据科学概论》课程。 在和一些老师的沟通和交流中,了解...

2019-04-17 20:30:25 4954 2

原创 数据科学概论Add-on Resources

备注:资源短时间内下载数量过多,网站会限制下载(下载失败),过一段时间再下载即可。 一、数据科学概论 二、OLTP与数据服务 SQL快速入门 并发控制 三、OLAP与结构化数据分析 四、数据清洗与数据集成 编辑距离 五、数据的深度分析 Play EMexcel [N...

2019-04-17 20:26:29 248 0

原创 《数据科学概论》Python上机练习

备注:仅用于检验python语言的学习效果,面向数据分析和处理,做编程练习。 整个数据科学概论的教学大纲(包括其他上机练习),请参考https://blog.csdn.net/xiongpai1971/article/details/89364071 Python与机器学习初步 1,(决...

2019-03-02 22:21:24 402 0

原创 理解大数据的三个V实验序列

1,Volume实验 要求:在助教协助下,利用云平台进行Word Count MapReduce实验(或者Sort/Inverted Index等)。目的:对大数据的分布式处理有更加直观认识。 提示:助教撰写实验指导。 1,助教准备一个大文本文件1GB。 2,启动Hadoop,把文件上传...

2019-03-02 20:00:43 264 0

原创 我学的是不是假的数据科学?

数据科学具有跨学科的特点。数据科学包含什么内容,如何构建其内容体系,众说纷纭。公说公有理,婆说婆有理,场面一时纷纷嚷嚷。 本文的主要观点是,数据科学一定离不开计算机。换句话说,没有计算机的数据科学,可能是假的数据科学。 有些“数据科学”课程,其核心内容是统计分析和数学建模。在数据科学概...

2019-02-28 21:00:49 80 0

原创 数据治理和基于数据的(国家/社会)治理

数据治理是一个国际公认的概念,对应的英文是data governance。它的核心内容是利用政策、人员、技术手段,基于主数据管理、元数据管理等,对数据的质量、生命周期、安全/隐私/共享、合规性等进行管理,实现数据价值,管控数据风险。 有些人把基于数据的国家/社会治理简称为数据治理,和数据治理...

2019-02-28 13:22:17 346 0

原创 统计学家的矫情和人工智能专家的反驳

    2018年8月,诺贝尔奖获得者、统计学家Thomas J. Sargent在世界科技创新论坛上表示,人工智能其实就是统计学,只不过用了一个很华丽的辞藻。好多的公式都非常老,我们说所有的人工智能利用的都是统计学来解决问题。     面对统计学家自我感觉良好的幻觉,AI研究者纷纷坐不住了。 ...

2019-01-20 15:13:57 393 0

原创 数据科学不能等同于大数据、机器学习

数据科学不能等同于大数据 有些人把数据科学等同于大数据,一上来,就用几个V(Volume, Velocity, Variety, Veracity)来划分和把握数据科学的内容,或者用几个V来构造数据科学的内容体系。这是很成问题的。 (1)首先,数据科学是关于数据的科学,它研究数据的方方面面,所...

2019-01-19 18:54:45 183 0

原创 数据科学时代的计算机(学院/学派)与统计学(学院/学派)

数据科学离不开计算机(包括数据库、数据挖掘、机器学习等),数据科学离不开统计学。这几乎已经是大家的共识了。 但是在数据科学的旗帜下,如何摆放计算机、和统计学,如何融合计算机和统计学,却不是那么容易。统计学家,习惯于用模型来套数据,用模型来套世界。比如对于时间序列数据,统计学家推出了AR、MA、A...

2018-11-13 23:30:58 431 0

原创 《数据科学概论》book chapter preview《时间序列分析》《轨迹数据分析》

时序数据和轨迹数据是重要的数据类型,在《数据科学概论》第二版中,作者将把这两章内容纳进来。预览版已经放到《数据科学概论》配套资源网站的“PPT” 一节,读者可以开始下载(非营利用途)。 数据科学概论网上资源 https://blog.csdn.net/xiongpai1971/arti...

2018-10-10 17:24:46 158 0

原创 SQL快速入门

关系数据库的查询语言SQL,是一门易学易用的语言。用于对数据库进行数据的增加、删除、修改、简单查询和多维度汇总查询。 学习SQL的有效方法是看别人写的实例,熟读唐诗300首,不会作诗也会吟。 网址http://mail.sina.com.cn/netdisk/download.php?id...

2018-08-30 23:31:49 124 0

原创 免费电子书《Hadoop&Spark原理、运维、与开发》

2018年9月1日,笔者利用假期完成了该书电子版的第一次校稿,可读性、正确性提高一大截,下载网址不变,大家可以登录下述网址下载最新版本。 笔者编写了一本书《Hadoop&Spark原理、运维、与开发》,电子版免费贡献出来,供大家下载。正如书名所示,该书涵盖技术原理、安装配置、基本的开发等...

2018-08-13 14:41:27 333 0

原创 《数据科学概论》OLAP实验参考

1.前言 本文给出了一个简单的数据仓库模型,事实表保存销售记录,维表保存用户、时间、产品、销售人员、商店等信息,这些维表具有维度的层次结构。比如时间维度的年、月、日等。 在这个数据仓库上,我们可以运行数据仓库分析查询,获得一些汇总结果,帮助我们对业务有所了解,以便安排后续的商业活动。 本实例...

2018-06-26 23:25:16 207 0

原创 《数据科学概论》OLTP实验参考

1.前言 本文给出了一个简单的银行核心业务数据库,支持用户对自己的活期存款账户进行操作,包括开户、存款、取款、转账、查询账户余额等。 此外,还提供了对账户信息进行汇总统计的一些查询。 注意:对于实际的活期存款,还应该有一个计息操作。 本实例的目的,是让读者对关系数据库、OLTP、事务处理、...

2018-06-26 23:23:47 113 0

原创 反向传播算法详解with very simple example

本文给出了一个非常小的神经网络。在这个网络上,把反向传播算法的核心逻辑给讲清楚(这是相当不得了的,是作者的得意之作)。 1,网络结构 整个网络结构只有两个神经元,一个是输入层的神经元,也就是输入层只有一个神经元,一个输出层的神经元,也就是输出层只有一个神经元。如图所示。 输入神经元记为...

2018-06-26 22:55:12 100 0

原创 Windows 10上mysql绿色版zip包安装教程

1.什么是绿色版 绿色版是一个zip包,解压缩到某个目标目录以后,修改好配置文件,即完成安装。无需运行安装程序。 备注:本文档仅部分验证,如果有错,请通知qxp1990@ruc.edu.cn覃老师。 2.mysql绿色版安装过程 在这里使用的软件包是mysql-5.5.57-winx6...

2018-05-26 20:10:26 275 0

原创 《数据科学概论》的知识体系与学习路线图

备注: 请参考最新版本的《数据科学概论》教学大纲。https://blog.csdn.net/xiongpai1971/article/details/89364071 前言 知识是有架构的,这就是所谓的知识体系。学习是有路线图的(对学生而言),对老师来讲就是教学计划。 《数...

2018-05-06 15:52:40 2977 1

原创 使用prometheus监控centos7主机

     如何对服务器硬件和软件进行监控,一款优秀的监控软件是必需的,prometheus就是这样的一款监控软件。    它支持大量的数据库、应用服务器的监控(通过...exporter,本质上是一个agent),当然prometheus也支持节点的监控,包括cpu/mem/disk/networ...

2018-05-02 20:22:48 3271 0

原创 windows 10的python 2.7下建立python3.5环境env

// --------------------------------------------------------------------------------(1)好多软件包,目前仅仅支持python 2.7。所以,我们安装python 2.7,以便进行数据科学实验。(2)有少量的软件包,...

2018-04-30 21:39:55 282 0

原创 windows 10上安装配置python 2.7, keras, theano, opencv

// --------------------------------------------------------------------------------------- (1)好多软件包,目前仅仅支持python 2.7。 所以,我们安装python 2.7,以便进行数据科学实验。 (...

2018-04-30 21:24:43 426 0

原创 《数据科学概论》实验参考已经陆续上线

截至2018年4月份,“《数据科学概论》”教材(覃雄派、陈跃国、杜小勇编著)已经有9个实验参考上线,涉及分类、聚类、回归、关联规则、协同过滤、文本分析、社交网络等专题,新的实验参考也将于近期陆续上线。 感兴趣的老师和同学,可以到以下网址下载。 数据科学概论网上资源 https://blog...

2018-04-19 23:13:23 369 0

原创 《数据科学概论》PPT已经陆续上线

截至2018年4月份,“《数据科学概论》”教材(覃雄派、陈跃国、杜小勇编著)已经有8章PPT上线,其它章节的PPT也将于近期陆续上线。 感兴趣的老师和同学,可以到以下网址下载。 数据科学概论网上资源 https://blog.csdn.net/xiongpai1971/article/det...

2018-04-19 23:12:07 1454 0

原创 新闻——覃雄派、王会举、杜小勇、王珊论文两次入选“领跑者5000—中国精品科技期刊顶尖学术论文”

新闻实体    覃雄派、王会举、杜小勇、王珊2012年1月份发表在软件学报上的论文“大数据分析——RDBMS与MapReduce的竞争与共生”分别于2013年和2017年,获得2012年度和2014年度两次入选“领跑者5000—中国精品科技期刊顶尖学术论文” (证书于2018年4月颁发给作者)。链...

2018-04-14 18:49:03 344 0

原创 干货——为什么降维和降维实例

参考资料 https://www.scipy-lectures.org/packages/scikit-learn/auto_examples/plot_tsne.html http://colah.github.io/posts/2014-10-Visualizing-MNIST/ 为...

2018-04-12 15:53:16 7743 0

原创 干货——EM算法解决混合高斯分布的参数估计

问题来由 男生女生身高数据混合在一块了,现在要把他们分开。已经知道,两者都符合高斯分布,只是参数不同(均值、方差)。 问题的解决 使用EM算法。具体过程说明如下。 实验 为了让读者亲自体验该算法,笔者做了一个excel文件。读者可以下载打开该文件,按照提示进行迭代计...

2018-04-10 17:17:01 1529 0

原创 数据科学教材的流派

中文版《数据科学》、《数据科学概论》、《数据科学导论》教材,市面上还不是很多。 大致可以分成3个流派,分别是数学统计学流派、档案情报流派、计算机数据库大数据流派,这三个流派及其典型代表如图所示。 (1)朝乐门.《数据科学》.清华大数据出版社.2016.08; (2)欧高炎,朱占星,董彬,鄂维...

2018-04-08 15:22:55 677 0

原创 什么是数据科学?数据科学包括数据的科学和科学的数据?

什么是数据科学?众说纷纭。这是可以理解的,因为数据科学还处在创立的过程中。科学的魅力也在于此,比如物理学,从牛顿力学、到狭义相对论、到广义相对论、到量子力学,它处在不断整理、推翻、重建的的过程中,这是一个动态的过程。 有专家认为,为培养人才计,数据科学专业的建立是迫在眉睫的,笔者是同意这样的看法...

2018-04-06 16:36:54 1055 0

原创 “数据科学概论”课程设计

覃雄派,陈跃国,杜小勇. 数据科学概论.大数据,2017,06:102-111. 这篇文章,描述了我们建设数据科学课程群以及数据科学概论课程的实践和体会。各位读者可以通过如下网址下载原文: 点击打开链接(备注:各个高校一般已经购买了cnki的服务,在校园网可以下载论文的PDF版本) 数据科学...

2018-04-06 14:48:10 406 0

原创 数据科学实践中选择Python还是R

在数据科学实践中,笔者选择Python作为编程语言。 R的优势在于,它是专门为统计分析应用建立的,尽管Python里有Scipy、Pandas、statsmodels等提供了一系列统计功能,但是R拥有更多此类工具。可以说,如果主要工作是进行统计分析,R是不错的选择。 但是数据科学要用到很多...

2018-04-04 15:34:27 136 0

原创 《数据科学概论》的理论篇和应用篇 - 知识体系

理论部分解决“所以然”的问题。 而应用部分解决“然”的问题。 我们既要知其然,还要知其所以然。 数据科学概论网上资源 https://blog.csdn.net/xiongpai1971/article/details/89364071 ...

2018-04-03 17:07:45 461 0

提示
确定要删除当前文章?
取消 删除