数据挖掘
文章平均质量分 82
zhucanxiang
这个作者很懒,什么都没留下…
展开
-
漫谈数据挖掘从入门到进阶
做数据挖掘也有些年头了,写这篇文一方面是让我写篇文,朋友作为数据挖掘方面的参考,另一方面也是有抛砖引玉之意,希望能够和一些大牛交流,相互促进,让大家见笑了。 ######################################### 更新部分 ######################################### Q&A: Q:学习,最近在看集体智慧编程,楼转载 2013-07-09 19:21:55 · 784 阅读 · 0 评论 -
推荐系统架构小结
一、HULU的推荐系统总结:葫芦的推荐系统,至少在他blog中写的比较简单。更多的是对推荐系统在线部分的一种描述,离线部分我猜想也是通过分布式计算或者不同的计算方式将算法产生的数据存储进入一种介质中,供推荐系统在线部分调用。系统的整个流程是这样的,首先获取用户的行为,包括(watch、subscribe、vote),这样行为会到后台获取show-show对应的推荐数据。同时这些原创 2013-10-13 23:04:54 · 1051 阅读 · 0 评论 -
《数据挖掘概念与技术》读书笔记(三)
六. 分类的基本概念1. 决策树归纳:迭代的二分器,自顶向下递归分治构造决策树属性选择度量(又称分裂规则)的方法:信息增益、增益率、基尼指数、最小描述长度(MDL)1). 信息增益:原信息需求和新的信息需求之差, 它存在倾向于选择具有大量值的属性的偏倚。选择具有最高信息增益的属性作为结点N的分列属性。2). 增益率: 用分裂信息将信息增益规范化,调整信息增益的偏倚,但它倾向于产生不原创 2013-08-08 23:37:08 · 2372 阅读 · 0 评论 -
《数据挖掘概念与技术》读书笔记(四)
八. 聚类分析的基本概念和方法1. 聚类分析的典型要求:可伸缩性、处理不同属性类型的能力、发现任意形状的簇、确定输入参数的要求、处理噪声数据、增量聚类、对输入次序不敏感、聚类高维数据、基于约束的聚类、可解释性 2. 基本方法概述划分方法: 在数据集上进行一层划分,包括k-均值划分、k-中心点划分、CLARA(大型应用聚类)。 层次方法: 创建给定原创 2013-08-08 23:38:58 · 2286 阅读 · 0 评论 -
《数据挖掘概念与技术》读书笔记(三)
五. 挖掘频繁模式、关联和相关性1. 基本概念 1). 一个典型例子:购物篮分析顾客可能会在一次购物同时购买哪些商品?分析结果可以用于营销计划和商店布局。 2). 规则兴趣度的度量:支持度和置信度支持度:两种商品同时被购买占事务总数的比例,反映发现该规则的有用性置信度:购买一个商品的顾客中同时购买另一个商品的顾客所占比例,反映规则的确定性。 项集:项的集合,如集合{原创 2013-08-08 23:36:06 · 3111 阅读 · 0 评论 -
《数据挖掘概念与技术》读书笔记(一)
之前看过经典的《数据挖掘导论》,然后又看了韩家炜的《数据挖掘概念与技术》这本数据挖掘入门书籍,对数据挖掘也有了一个初步的了解,特此写篇文章总结一下自己读这两本书后对数据挖掘的认识。 一. 什么是数据挖掘,数据挖掘的知识体系及应用范围1. 定义: 又称数据中的知识发现,从大量的数据中挖掘有趣模式和知识的过程。知识发现的过程: 1). 数据清理: 除噪声和删除不一致数据原创 2013-08-08 23:34:55 · 12912 阅读 · 1 评论 -
《数据挖掘概念与技术》读书笔记(五)
九. 离群点检测1. 基本概念离群点:显著不同于其他数据对象的对象。离群点不同于噪声数据,噪声是被观测变量的随机误差或方差。全局离群点:显著偏离数据集的其余部分情境离群点:在特定情境下显著偏离其他对象集体离群点:数据对象的一个自己形成集体离群点 2. 检测方法:监督、半监督、无监督方法1). 监督方法:标记一个数据样本,样本用于训练和检验一个可以识别离群点的分类原创 2013-08-08 23:39:52 · 1372 阅读 · 0 评论 -
windows下安装apache2.2 + python2.7 + django(mod_wsgi集成)
网上好像没有基于python2.7和django框架的集成于是决定靠google+baidu搞一个出来,毕竟开源是强大的。 对应软件使用版本:Apache:Apache HTTP Server (httpd) 2.2.19Python:Python2.7Django:Django-1.3Mod_wsgi.so:mod_wsgi-win32-ap22转载 2013-07-23 20:07:08 · 4662 阅读 · 4 评论 -
使用django创建项目最终代码
目录树[plain] view plaincopyprint?djproject/ |-- db | `-- tdata.sqlite3 |-- djproject | |-- __init__.py | |-- __init__.pyc | |-- settings.py | |-- settings.pyc | |转载 2013-07-23 14:57:58 · 1542 阅读 · 0 评论 -
django 简易博客开发 1 安装、创建、配置、admin使用
django 简易博客开发 1 安装、创建、配置、admin使用首先贴一下项目地址吧 https://github.com/goodspeedcheng/sblog到现在位置项目实现的功能有:1、后台管理使用Admin ,前端显示使用bootstrap2、评论使用的系统自带comments 支持ajax3、支持markdown 代码高亮 使用markdown转载 2013-07-23 14:54:02 · 908 阅读 · 0 评论 -
Django学习笔记
Django学习笔记Django Web编程思路 global setting生成项目project初始化配置settings.py生成应用模块app安装app至projectapp setting编写models.py定义urls.py将app urls加入project urls配置编写views.py编写相应的templaterun s转载 2013-07-23 12:54:39 · 1162 阅读 · 0 评论 -
介绍Django
强烈建议看原创的文章http://djangobook.py3k.cn/2.0/chapter01/,再次强调这是本人读书笔记,您不一定适合的。第一章:介绍Django本书所讲的是Django:一个可以使Web开发工作愉快并且高效的Web开发框架。 使用Django,使你能够以最小的代价构建和维护高质量的Web应用。MVC 设计模式下面就是通过使用Django来完成转载 2013-07-23 12:48:47 · 417 阅读 · 0 评论 -
python数据库编程_sqlite
sqlite是一个轻量级的数据库,与很多大型的数据库(例如DB2,Oracle,MSSQL,MYSQL,PostgreSQL)相比,它不需要一个Server Process,因此更相像于其他的小型数据库,例如Access,而且事实上,它的作用很类似于Access,不过由于缺乏商业支持,没有像Access一样提供丰富的界面组件,相信如果需要的话,其实不是很难做的。 前面也用到过sqlite转载 2013-07-15 20:18:06 · 455 阅读 · 0 评论 -
Apriori算法(c++/c#语言实现)
#pragma once#include "Struct.h"#include#include#include#includeusing namespace std;class Apriori{private: intMin_support;//最小支持度 vector vec_str;//保存从文件中读取的字符串 map转载 2013-07-09 19:34:25 · 1447 阅读 · 0 评论 -
mahout+hadoop安装,配置,运行
1.准备工作下载maven2.x配置maven环境变量:export MAVEN_HOME=xxxx export PATH=${MAVEN_HOME}/bin:${PATH}运行mvn -v,检测是否成功下载安装JDK配置JDK环境变量:export JAVA_HOME=xxxxexport CLASSPATH=$JAVA_HOME/lib2.安装mah转载 2013-10-27 11:01:42 · 1758 阅读 · 0 评论