数据科学
文章平均质量分 76
Y_Cxhiao
这个作者很懒,什么都没留下…
展开
-
数据科学课程笔记2 --- 发展现状
1. 大数据与数据库的比较· 数据规模:数据库通常以MB为基本单位,而大数据则常常以GB,甚至是TB、PB作为基本处理单位· 数据类型:数据库中的数据种类单一,数据又以结构化数据为主。大数据中,数据的种类繁多,包含着结构化、半结构化以及非结构化的数据,而且半结构化和非结构化数据所占份额大· 模式(Schema)和数据的关系:传统的数据库都是先有模式,然后才会产生数据。大数据背景下难以预原创 2017-06-05 10:47:28 · 551 阅读 · 0 评论 -
数据科学课程笔记1 --- 导论
1. 与数据科学有关的相关学科包括:数据库(Database)数据挖掘(Data Mining)机器学习(Machine Learning)模式识别(Pattern Recognition)数据科学导论(Data Science)等。其中,数据库提供数据管理技术,机器学习和统计学提供数据分析技术。由于统计学更重视理论研究,因此,统计学提供的许多技术通常都要在机器学习界进一步研究,编程有效的机器原创 2017-06-01 16:04:42 · 1227 阅读 · 0 评论 -
数据科学学习笔记6 --- 数据可视化案例与工具
-----------------------------------------------------------------可视化案例· 全球黑客活动:安全供应商Norse打造了一张能够反映全球范围内黑客攻击频率的地图(http://map.ipviking.com),它利用Norse的“蜜罐”攻击陷阱显示出所有实时渗透攻击活动。如图10-11所示,地图中的每一条线代表的都是一次攻击原创 2017-06-09 16:29:35 · 1131 阅读 · 0 评论 -
数据科学学习笔记7 --- 数据挖掘基础
1. 数据挖掘的定义· 广义:知识发现的全过程· 狭义:数据挖掘是知识发现的一个重要环节,利用机器学习、统计分析等发现数据模式的智能方法,侧重于模型和算法· 知识发现的流程如下:(1)数据准备:掌握知识发现应用领域的情况,熟悉相关背景知识,理解用户需求(2)数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或者样本(3)数据预处理:对数据选原创 2017-06-09 17:09:08 · 1454 阅读 · 0 评论 -
数据科学课程笔记3 --- 数据与数据特征
1. 数据的概念· 数据是用来记录信息的可识别的符号,是信息的具体表现形式· 现代计算机系统中,数据是指所有能输入到计算机并被计算机程序处理的符号的介质的总称,是用于输入电子计算机进行处理,具有一定意义的数字、字母、符号和模拟量的通称。· 数据经过加工后就成为信息2. 数据按性质可分为· 定位数据,如各种坐标数据· 定性数据,表示事物属性的数据· 定量数据,反映原创 2017-06-06 14:03:19 · 2706 阅读 · 0 评论 -
数据科学课程笔记4 --- 数据工程与技术
---------------------------------------------------------------从数据池塘到数据海洋,看似简单的技术演进,却产成了颠覆性的技术革命从规模上来讲:数据池塘规模很小,DataBase的数据量为MB级;而数据海洋规模很大,BigData数据量达到TB甚至PB从数据类型上来讲:数据池塘里面的“鱼”种类很少,DataBase主要以结构原创 2017-06-07 21:54:11 · 666 阅读 · 0 评论 -
数据科学学习笔记8 --- 分类(有监督的学习)
数据挖掘十大算法中的C4.5 和 CART(分类和回归树)算法都是决策树算法。其他常用的决策树算法有C5.0、Fuzzy C4.5、SLIQ(Mehta 1996)、SPRINT(Shafer 1996)等。1 决策树算法· 决策树是一种由节点和有向边组成的层次结构,如下图所示,树中包含三种节点· 根节点(Root node),没有入边,但有零条或者多条出边· 内部原创 2017-06-10 14:19:13 · 2021 阅读 · 0 评论 -
数据科学学习笔记5 --- 数据可视化
------------------------------------------------------------------------------可视化概述1. 什么是数据可视化· 数据可视化是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程· 数据可视化技术的基本思想是将数据库中的每一个数据项作为单个图元素表示,大量的数据集构原创 2017-06-08 22:08:18 · 1213 阅读 · 0 评论 -
数据科学大作业全记录---weka的实验比较
1. 数据集来源:UCIhttp://archive.ics.uci.edu/ml/datasets.html?format=&task=&att=&area=&numAtt=&numIns=&type=&sort=taskUp&view=table 选择看中的数据集,点击data folder,在保存对应的数据集即可~ · TXT转CSV小技巧:用ex原创 2017-07-23 16:38:24 · 2376 阅读 · 0 评论