普通网友-CSDN博客

原创分类算法习题

1、为四个布尔属性A，B，C和D的奇偶函数画一棵完全决策树。可以简化该决策树吗？解：不能简化该决策树2、考虑如下表二元分类问题的训练样本。（a）计算整个训练样本集的GINI指标值。（b）计算属性顾客ID的Gini指标值。（c）计算属性性别的Gini指标值。（d）计算使用多路划分属性车型的Gini指标值。（e）计算使用多路划分属性衬衣尺码的Gini指标

2012-10-15 06:36:49 3778 4

原创 Apriori算法例子

1 Apriori介绍Apriori算法使用频繁项集的先验知识，使用一种称作逐层搜索的迭代方法，k项集用于探索(k+1)项集。首先，通过扫描事务（交易）记录，找出所有的频繁1项集，该集合记做L1，然后利用L1找频繁2项集的集合L2，L2找L3，如此下去，直到不能再找到任何频繁k项集。最后再在所有的频繁集中找出强规则，即产生用户感兴趣的关联规则。其中，Apriori算法具有这样一条性

2012-10-15 05:49:03 26990 3

转载 ID3算法 C4.5算法

2012-09-28 05:41:09 1939

转载 C5.0算法学习

C5.0是决策树模型中的算法，79年由J R Quinlan发展，并提出了ID3算法，主要针对离散型属性数据，其后又不断的改进，形成C4.5，它在ID3基础上增加了队连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法，主要在执行效率和内存使用方面进行了改进。C4.5算法是ID3算法的修订版，采用GainRatio来加以改进方法，选取有最大GainRatio的分割变量作为准则，避

2012-09-28 05:34:41 1810

转载 C4.5算法

C4.5是一系列用在机器学习和数据挖掘的分类问题中的算法。它的目标是监督学习：给定一个数据集，其中的每一个元组都能用一组属性值来描述，每一个元组属于一个互斥的类别中的某一类。C4.5的目标是通过学习，找到一个从属性值到类别的映射关系，并且这个映射能用于对新的类别未知的实体进行分类。 C4.5由J.Ross Quinlan在ID3的基础上提出的。ID3算法用来构造决策树。决策树是一种类

2012-09-28 05:30:39 11001

转载 Ubuntu 中设置源的几种方法

Ubuntu里的许多应用程序软件包，是放在网络里的服务器上，这些服务器网站，就称作“源”，从源里可以很方便地获取软件包，　下面的方法选一种即可，我们来看这个练习；　1、简单设置源　　8）连接好网络后先换源，在左边的快速启动面板中点击“软件中心”按钮，再把鼠标移到最上边出现菜单栏，点“编辑－软件源”；　　2）先出来一个密码输入框，输入自己密码后，点绿色“OK”按钮

2012-09-24 19:30:08 896

转载 Ubuntu 中软件的安装、卸载以及查看的方法总结

说明：由于图形化界面方法（如Add/Remove... 和Synaptic Package Manageer）比较简单，所以这里主要总结在终端通过命令行方式进行的软件包安装、卸载和删除的方法。一、Ubuntu中软件安装方法1、APT方式（1）普通安装：apt-get install softname1 softname2 …;（2）修复安装：apt-get -f i

2012-09-24 19:19:50 471

转载使用Windows远程登录 Ubuntu

一、SSH登录 1、Ubuntu默认没有安装SSH ，可以在新得利软件安装程序里，搜索SSH，标记并安装；或者使用命令：sudo apt-get install openssh-serversudo /etc/init.d/ssh restartssh localhost 2、然后在Ubuntu里，菜单‘系统’ － ‘首选项’ －

2012-09-24 06:58:52 296

转载 Linux启动过程详解

启动第一步－－加载BIOS当你打开计算机电源，计算机会首先加载BIOS信息，BIOS信息是如此的重要，以至于计算机必须在最开始就找到它。这是因为BIOS中包含了CPU的相关信息、设备启动顺序信息、硬盘信息、内存信息、时钟信息、PnP特性等等。在此之后，计算机心里就有谱了，知道应该去读取哪个硬件设备了。启动第二步－－读取MBR众所周知，硬盘上第0磁道第一个扇区被称为MBR，也

2012-09-24 06:39:32 321

原创 linux运行级别

切换运行级别的通用命令runlevel //显示之前和目前的运行级别 init n //切换运行级别 telinit n //切换运行级别更改默认的运行级别,不同的linux发布版有不同的方法fedora修改 /etc/systemd/system/default.target 这个软连接文件.这个软连接默认指向第5运行等级

2012-09-24 06:19:33 462

转载数据挖掘的相似性度量

在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement)，这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究，甚至关系到分类的正确与否。　　本文的目的就是对常用的相似性度量作一个总结。　　本文目录：　　1. 欧氏距离　　2. 曼哈顿距离　　3. 切比雪夫距离　　4.

2012-09-12 06:43:00 1261

原创数据挖掘的任务

分类：分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类，其目的是通过分类模型，将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等，如一个汽车零售商将客户按照对汽车的喜好划分成不同的类，这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中，从而大大增加了商业机会。典

2012-09-07 07:14:02 2062

转载数据挖掘起源

数据挖掘利用了来自如下一些领域的思想：（1）来自统计学的抽样、估计和假设检验。（2）人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。（3）数据挖掘也迅速地接纳了来自其他领域的思想，这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地，需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能（并行）计

2012-09-07 06:56:42 547

转载数据挖掘要解决的问题

可伸缩由于数据产生和收集技术的进步，数吉字节、数太字节甚至数拍字节的数据集越来越普遍。如果数据挖掘算法要处理这些海量数据集，则算法必须是可伸缩的（scalable）。许多数据挖掘算法使用特殊的搜索策略处理指数级搜索问题。为实现可伸缩可能还需要实现新的数据结构，才能以有效的方式访问每个记录。例如，当要处理的数据不能放进内存时，可能需要非内存算法。使用抽样技术或开发并行和分布算法也可以提高可伸缩

2012-09-07 06:44:35 712

原创数据挖掘和信息检索

数据挖掘和信息检索都是一种信息发现任务。但是它们在很多方面都有所不同。信息检索领域的任务是使用数据库管理系统查找个别的记录，或通过因特网的搜索引擎查找特定的web页面。而数据挖掘则是知识发现不可缺少的一部分，是将未加工的数据转换为有用信息的过程。信息检索主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构，从而有效地组织和检索信息，它能很好地处理已经发生或

2012-09-07 06:38:53 794

原创数据挖掘的概念

概念表述一数据挖掘（Data Mining）：就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。概念表述二在大型数据存储库中，自动地发现有用信息的过程。 Exploration &analysis, by automatic or semi-automatic means, of lar

2012-09-07 06:11:25 502

原创为什么要数据挖掘

（1）数据收集和数据存储技术的快速进步使得各组织机构积累了海量数据。然而提取有用的信息已经成为巨大的挑战。（2）由于数据量太大，已经无法使用传统的分析工具和技术处理它们。（3）即使数据集相对较小，但由于数据本身具有一些非传统特点，也不能使用传统的方法进行处理。

2012-09-07 06:02:20 1068

原创数据挖掘应用案例

1. 哪些商品放在一起比较好卖？　　这是沃尔玛的经典案例：一般看来，啤酒和尿布是顾客群完全不同的商品。但是沃尔玛一年内数据挖掘的结果显示，在居民区中尿布卖得好的店面啤酒也卖得很好。原因其实很简单，一般太太让先生下楼买尿布的时候，先生们一般都会犒劳自己两听啤酒。因此啤酒和尿布一起购买的机会是最多的。这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。

2012-09-07 05:49:57 2147

原创数据挖掘实例一、预测鸢尾花的类型

鸢（yuan）尾花也叫做爱丽丝Iris，外形如下图现在有如下的数据采样集参看WIKI数据http://zh.wikipedia.org/wiki/%E5%AE%89%E5%BE%B7%E6%A3%AE%E9%B8%A2%E5%B0%BE%E8%8A%B1%E5%8D%89%E6%95%B0%E6%8D%AE%E9%9B%86考虑如下任务：根据花的特征预测花的种类。本

2012-09-07 05:21:32 1839