自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(37)
  • 资源 (1)
  • 收藏
  • 关注

原创 《数据科学概论》教材介绍

备注: 最新版本的《数据科学概论》教学大纲,请参考。https://blog.csdn.net/xiongpai1971/article/details/89364071教材 覃雄派,陈跃国,杜小勇. 《数据科学概论》.中国人民大学出版社.ISBN: 9787300252926. 官方主页:[点击链接] CSDN博客[点击链接] SI...

2018-03-29 17:23:25 11849 2

原创 《Hadoop与Spark入门》教材出版

覃雄派陈跃国Hadoop与Spark入门清华大学出版社, 2023。

2023-03-13 12:18:40 145

原创 《量化交易入门与Python实践》新书出版

深度学习技术的进步和突破,带动了人工智能领域重新焕发青春活力。利用人工智能为各行各业赋能,成为时代的主题。在我们面前展开了各种可能性,让有志者胸怀激荡,跃跃欲试。 从2013年开始,编者在中国人民大学为全校开设通识课《金融大数据分析与量化交易》。该门课程讨论如何利用成熟的人工智能、统计分析技术给交易赋能,实现交易的自动化和智能化。 在教学过程中,编者参考了现有的教材和大量其他资料,不断丰富讲义,经过整理,形成本书。 本书是为量化交易爱好者编写的一本入门书...

2021-08-12 19:31:56 491

原创 数据学是什么鬼?

有数据学这么一种说法,什么是数据学呢?特别是现在大家都在谈、都在接受数据科学的时代,数据学到底是数据科学,还是另外一个东西。如果数据学就是数据科学,何必呢?数据科学大家觉得朗朗上口,搞个新的名词没有必要?如果是不同于数据科学的、所谓的研究数据空间的基本规律性的科学,感觉走上了玄学,进而走入穷途末路。关于数据学,学界的广大学者、教育部、各个大学等,信还是不信,接受还是不接受?建设数据学专...

2019-05-10 20:40:28 485

原创 400多对35:谁能建人工智能学院(专业)

教育部公布第四批“数据科学与大数据技术”新专业获批名单http://www.tipdm.org/bdrace/news/20190328/1561.html教育部:浙江大学等35所高校新增人工智能本科专业https://baijiahao.baidu.com/s?id=1629507300833793056&wfr=spider&for=pc20...

2019-05-06 06:37:08 257 1

原创 大数据工具(Hadoop Spark)

(01)《Hadoop/Spark原理、部署、与开发入门》(v2018.09.01)(02)hdfs_shell(03)hdfs_java[coming soon](04)mapreduce_java(05)hbase_shell(06)hbase_java[coming soon](07)hive_shell(08)hive_hiveserver2_be...

2019-04-21 02:24:43 400

原创 量化交易(QuantitativeTrading)

(01)量化交易简介(02)股票基础知识(03)期货基础知识(04)基本面分析及PDF(05)技术分析及PDF(06)机器学习与数据挖掘基础知识(07)Python基础知识及实例(08)机器学习库scikit-learn及实例(09)交易模型简介[see below](09.1)分类模型及其应用[see below](09...

2019-04-21 02:23:55 2925

原创 数据科学概论Learning Road Map

《数据科学概论》的学习路线图(Learning Road Map)

2019-04-17 20:30:25 17961 11

原创 数据科学概论Add-on Resources

备注:资源短时间内下载数量过多,网站会限制下载(下载失败),过一段时间再下载即可。一、数据科学概论二、OLTP与数据服务 SQL快速入门 并发控制三、OLAP与结构化数据分析四、数据清洗与数据集成 编辑距离五、数据的深度分析 Play EMexcel [New Version]...

2019-04-17 20:26:29 1697

原创 《数据科学概论》Python上机练习

备注:仅用于检验python语言的学习效果,面向数据分析和处理,做编程练习。整个数据科学概论的教学大纲(包括其他上机练习),请参考https://blog.csdn.net/xiongpai1971/article/details/89364071Python与机器学习初步1,(决策树-易)通过信息增益,进行决策树第一个特征选择,请参考5.2.1。 备注:使用课...

2019-03-02 22:21:24 862

原创 理解大数据的三个V实验序列

1,Volume实验 要求:在助教协助下,利用云平台进行Word Count MapReduce实验(或者Sort/Inverted Index等)。目的:对大数据的分布式处理有更加直观认识。提示:助教撰写实验指导。1,助教准备一个大文本文件1GB。2,启动Hadoop,把文件上传HDFS,运行Word Count MapReduce程序,打印结果并且分析,获得Top...

2019-03-02 20:00:43 1054

原创 我学的是不是假的数据科学?

数据科学具有跨学科的特点。数据科学包含什么内容,如何构建其内容体系,众说纷纭。公说公有理,婆说婆有理,场面一时纷纷嚷嚷。 本文的主要观点是,数据科学一定离不开计算机。换句话说,没有计算机的数据科学,可能是假的数据科学。 有些“数据科学”课程,其核心内容是统计分析和数学建模。在数据科学概念正式提出来之前,这样的课程,也有,也能够叫出名字。无他,就是统计分析或者数学建模。现...

2019-02-28 21:00:49 203 1

原创 数据治理和基于数据的(国家/社会)治理

数据治理是一个国际公认的概念,对应的英文是data governance。它的核心内容是利用政策、人员、技术手段,基于主数据管理、元数据管理等,对数据的质量、生命周期、安全/隐私/共享、合规性等进行管理,实现数据价值,管控数据风险。 有些人把基于数据的国家/社会治理简称为数据治理,和数据治理本源应有之义混淆起来了,这是不对的。很显然两者是有很大的不 同的,最关键的是它们的对象是不...

2019-02-28 13:22:17 1034 1

原创 统计学家的矫情和人工智能专家的反驳

    2018年8月,诺贝尔奖获得者、统计学家Thomas J. Sargent在世界科技创新论坛上表示,人工智能其实就是统计学,只不过用了一个很华丽的辞藻。好多的公式都非常老,我们说所有的人工智能利用的都是统计学来解决问题。    面对统计学家自我感觉良好的幻觉,AI研究者纷纷坐不住了。    其中,阿里AI负责人、阿里巴巴达摩院机器智能技术实验室主任金榕,决定逐条批驳Sargent的...

2019-01-20 15:13:57 692

原创 数据科学不能等同于大数据、机器学习

数据科学不能等同于大数据有些人把数据科学等同于大数据,一上来,就用几个V(Volume, Velocity, Variety, Veracity)来划分和把握数据科学的内容,或者用几个V来构造数据科学的内容体系。这是很成问题的。(1)首先,数据科学是关于数据的科学,它研究数据的方方面面,所以不管是大数据还是小数据、中数据,都是数据科学应该研究的对象。(2)另外,大数据的“大”是一个相对的概...

2019-01-19 18:54:45 2442

原创 数据科学时代的计算机(学院/学派)与统计学(学院/学派)

数据科学离不开计算机(包括数据库、数据挖掘、机器学习等),数据科学离不开统计学。这几乎已经是大家的共识了。但是在数据科学的旗帜下,如何摆放计算机、和统计学,如何融合计算机和统计学,却不是那么容易。统计学家,习惯于用模型来套数据,用模型来套世界。比如对于时间序列数据,统计学家推出了AR、MA、ARMA、ARIMA、SARIMA、ARCH、GARCH等一系列模型,也取得了巨大的成功。这些方法具有如...

2018-11-13 23:30:58 807

原创 《数据科学概论》book chapter preview《时间序列分析》《轨迹数据分析》

时序数据和轨迹数据是重要的数据类型,在《数据科学概论》第二版中,作者将把这两章内容纳进来。预览版已经放到《数据科学概论》配套资源网站的“PPT” 一节,读者可以开始下载(非营利用途)。数据科学概论网上资源https://blog.csdn.net/xiongpai1971/article/details/89364071...

2018-10-10 17:24:46 373

原创 SQL快速入门

关系数据库的查询语言SQL,是一门易学易用的语言。用于对数据库进行数据的增加、删除、修改、简单查询和多维度汇总查询。学习SQL的有效方法是看别人写的实例,熟读唐诗300首,不会作诗也会吟。网址http://mail.sina.com.cn/netdisk/download.php?id=ff0a80e58fed370c629d1ac4367ce50960,给出了SQL的快速入门。...

2018-08-30 23:31:49 284

原创 免费电子书《Hadoop&Spark原理、运维、与开发》

2018年9月1日,笔者利用假期完成了该书电子版的第一次校稿,可读性、正确性提高一大截,下载网址不变,大家可以登录下述网址下载最新版本。笔者编写了一本书《Hadoop&Spark原理、运维、与开发》,电子版免费贡献出来,供大家下载。正如书名所示,该书涵盖技术原理、安装配置、基本的开发等三个方面的内容。寥寥100多页的篇幅,使得大家对大数据工具Hadoop和Spark有一个初步的认识。...

2018-08-13 14:41:27 633 1

原创 《数据科学概论》OLAP实验参考

1.前言本文给出了一个简单的数据仓库模型,事实表保存销售记录,维表保存用户、时间、产品、销售人员、商店等信息,这些维表具有维度的层次结构。比如时间维度的年、月、日等。在这个数据仓库上,我们可以运行数据仓库分析查询,获得一些汇总结果,帮助我们对业务有所了解,以便安排后续的商业活动。本实例的目的是让读者对关系数据库、OLAP、事实表、维表、维度层次结构等,有进一步的认识。这些内容的原理...

2018-06-26 23:25:16 591

原创 《数据科学概论》OLTP实验参考

1.前言本文给出了一个简单的银行核心业务数据库,支持用户对自己的活期存款账户进行操作,包括开户、存款、取款、转账、查询账户余额等。此外,还提供了对账户信息进行汇总统计的一些查询。注意:对于实际的活期存款,还应该有一个计息操作。本实例的目的,是让读者对关系数据库、OLTP、事务处理、SQL语句等,有进一步的认识。这些技术的原理,请参考“覃雄派、陈跃国、杜小勇《数据科学概论》”教材的相...

2018-06-26 23:23:47 354

原创 反向传播算法详解with very simple example

本文给出了一个非常小的神经网络。在这个网络上,把反向传播算法的核心逻辑给讲清楚(这是相当不得了的,是作者的得意之作)。1,网络结构整个网络结构只有两个神经元,一个是输入层的神经元,也就是输入层只有一个神经元,一个输出层的神经元,也就是输出层只有一个神经元。如图所示。 输入神经元记为i1,输出神经元记为o1,输出神经元的total net input记为net o1,它的输出记...

2018-06-26 22:55:12 229

原创 Windows 10上mysql绿色版zip包安装教程

1.什么是绿色版绿色版是一个zip包,解压缩到某个目标目录以后,修改好配置文件,即完成安装。无需运行安装程序。备注:本文档仅部分验证,如果有错,请通知[email protected]覃老师。2.mysql绿色版安装过程在这里使用的软件包是mysql-5.5.57-winx64.zip。从https://dev.mysql.com/downloads/mysql/5.5...

2018-05-26 20:10:26 668

原创 《数据科学概论》的知识体系与学习路线图

备注: 请参考最新版本的《数据科学概论》教学大纲。https://blog.csdn.net/xiongpai1971/article/details/89364071前言 知识是有架构的,这就是所谓的知识体系。学习是有路线图的(对学生而言),对老师来讲就是教学计划。《数据科学概论》的知识体系 数据科学概论,由理论部分和应用部分构成。形成两条线索,两个T...

2018-05-06 15:52:40 5537 1

原创 使用prometheus监控centos7主机

     如何对服务器硬件和软件进行监控,一款优秀的监控软件是必需的,prometheus就是这样的一款监控软件。    它支持大量的数据库、应用服务器的监控(通过...exporter,本质上是一个agent),当然prometheus也支持节点的监控,包括cpu/mem/disk/network的使用情况。// -----------------------------------------...

2018-05-02 20:22:48 4817

原创 windows 10的python 2.7下建立python3.5环境env

// --------------------------------------------------------------------------------(1)好多软件包,目前仅仅支持python 2.7。所以,我们安装python 2.7,以便进行数据科学实验。(2)有少量的软件包,目前仅仅支持python 3.5,比如tensorflow,那怎么办?我们可以在python 2.7下...

2018-04-30 21:39:55 559

原创 windows 10上安装配置python 2.7, keras, theano, opencv

// ---------------------------------------------------------------------------------------(1)好多软件包,目前仅仅支持python 2.7。所以,我们安装python 2.7,以便进行数据科学实验。(2)有少量的软件包,目前仅仅支持python 3.5,比如tensorflow,那怎么办?我们可以在...

2018-04-30 21:24:43 993 1

原创 《数据科学概论》实验参考已经陆续上线

截至2018年4月份,“《数据科学概论》”教材(覃雄派、陈跃国、杜小勇编著)已经有9个实验参考上线,涉及分类、聚类、回归、关联规则、协同过滤、文本分析、社交网络等专题,新的实验参考也将于近期陆续上线。 感兴趣的老师和同学,可以到以下网址下载。数据科学概论网上资源https://blog.csdn.net/xiongpai1971/article/details/89364...

2018-04-19 23:13:23 837

原创 《数据科学概论》PPT已经陆续上线

截至2018年4月份,“《数据科学概论》”教材(覃雄派、陈跃国、杜小勇编著)已经有8章PPT上线,其它章节的PPT也将于近期陆续上线。感兴趣的老师和同学,可以到以下网址下载。数据科学概论网上资源https://blog.csdn.net/xiongpai1971/article/details/89364071...

2018-04-19 23:12:07 2946

原创 新闻——覃雄派、王会举、杜小勇、王珊论文两次入选“领跑者5000—中国精品科技期刊顶尖学术论文”

新闻实体    覃雄派、王会举、杜小勇、王珊2012年1月份发表在软件学报上的论文“大数据分析——RDBMS与MapReduce的竞争与共生”分别于2013年和2017年,获得2012年度和2014年度两次入选“领跑者5000—中国精品科技期刊顶尖学术论文” (证书于2018年4月颁发给作者)。链接信息    该论文2011-09-09在线发表,至今在软件学报网站上累计下载18800次,在CNKI...

2018-04-14 18:49:03 933

原创 干货——为什么降维和降维实例

参考资料https://www.scipy-lectures.org/packages/scikit-learn/auto_examples/plot_tsne.htmlhttp://colah.github.io/posts/2014-10-Visualizing-MNIST/为什么要对数据进行降维 实际应用中的数据一般是高维的,比如手写的数字,如果我们缩放到28×2...

2018-04-12 15:53:16 15990

原创 干货——EM算法解决混合高斯分布的参数估计

问题来由 男生女生身高数据混合在一块了,现在要把他们分开。已经知道,两者都符合高斯分布,只是参数不同(均值、方差)。问题的解决 使用EM算法。具体过程说明如下。实验 为了让读者亲自体验该算法,笔者做了一个excel文件。读者可以下载打开该文件,按照提示进行迭代计算,亲自见证奇迹发生的时刻。混合高斯分布与EM...

2018-04-10 17:17:01 3124

原创 数据科学教材的流派

中文版《数据科学》、《数据科学概论》、《数据科学导论》教材,市面上还不是很多。大致可以分成3个流派,分别是数学统计学流派、档案情报流派、计算机数据库大数据流派,这三个流派及其典型代表如图所示。(1)朝乐门.《数据科学》.清华大数据出版社.2016.08;(2)欧高炎,朱占星,董彬,鄂维南.《数据科学导引》.高教出版社.2017.12;(3)覃雄派,陈跃国,杜小勇.《数据科学概论》....

2018-04-08 15:22:55 1236

原创 什么是数据科学?数据科学包括数据的科学和科学的数据?

什么是数据科学?众说纷纭。这是可以理解的,因为数据科学还处在创立的过程中。科学的魅力也在于此,比如物理学,从牛顿力学、到狭义相对论、到广义相对论、到量子力学,它处在不断整理、推翻、重建的的过程中,这是一个动态的过程。有专家认为,为培养人才计,数据科学专业的建立是迫在眉睫的,笔者是同意这样的看法的。从国家意志层面,我们看到,截至2018年3月,教育部已经分三批,批准建立“数据科学与大数据技术”新...

2018-04-06 16:36:54 5086

原创 “数据科学概论”课程设计

覃雄派,陈跃国,杜小勇. 数据科学概论.大数据,2017,06:102-111.这篇文章,描述了我们建设数据科学课程群以及数据科学概论课程的实践和体会。各位读者可以通过如下网址下载原文:点击打开链接(备注:各个高校一般已经购买了cnki的服务,在校园网可以下载论文的PDF版本)数据科学概论网上资源https://blog.csdn.net/xiongpai1971/article/...

2018-04-06 14:48:10 999

原创 数据科学实践中选择Python还是R

在数据科学实践中,笔者选择Python作为编程语言。R的优势在于,它是专门为统计分析应用建立的,尽管Python里有Scipy、Pandas、statsmodels等提供了一系列统计功能,但是R拥有更多此类工具。可以说,如果主要工作是进行统计分析,R是不错的选择。但是数据科学要用到很多机器学习的算法,相比较于R,Python拥有各种机器学习算法,还有网络爬虫库,方便从互联网上获得数据...

2018-04-04 15:34:27 313

原创 《数据科学概论》的理论篇和应用篇 - 知识体系

理论部分解决“所以然”的问题。而应用部分解决“然”的问题。我们既要知其然,还要知其所以然。数据科学概论网上资源https://blog.csdn.net/xiongpai1971/article/details/89364071...

2018-04-03 17:07:45 1209

词项向量化的各种技术

这里讨论如何把一个个的单词转换为向量。这是单词的表示形式(Representation),我们希望这个表示形式,能够捕抓到单词的意思(Meanings)、单词间的语义关系(Semantic Relationships),以及单词所出现的上下文。

2019-04-18

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除