数据挖掘
zzxian
尘世中一个迷途小书童!
展开
-
数据挖掘工程师必备的几项技能
由于数据挖掘项目多是在数据仓库建立成功的基础上才开始展开的,所以数据挖掘的很多技能与数据仓库是类似的,我认为主要有以下几点: 1、(数据库基础,ETL)熟悉Oracle数据库的PL/SQL开发,存储过程、动态游标技术是必须要精通的,像PL/SQL、Toad是最好会使用的,因为多数数据仓库项目建立在Oracle上的 2、(操作系统)会使用Linux 3、(数据仓库基础)了解数转载 2012-02-02 23:45:02 · 4128 阅读 · 1 评论 -
准备
终于有人看到我是学数据挖掘的,电面了我几个问题。常识问题1. 衡量相似度2. 贝叶斯模型3. svm4. 决策树5.分类聚类6.机器学习7.常用工具8.统计和概率原创 2012-07-20 01:24:31 · 542 阅读 · 0 评论 -
中位数优先容器
要求编写一个容器,它可支持两种操作:push()和pop(),push(K)操作可将元素K放入容器,pop()操作可将容器中的中位值弹出。例如:push(1),push(2),push(3)后pop()[输出为2]。解决方法,创建一个最大值优先的优先队列,将其记为左队列ql,创建一个最小值优先的优先队列,将其记为右队列qr,我们规定ql不为空时,ql.top()为中转载 2012-09-17 21:36:32 · 621 阅读 · 0 评论 -
推荐系统1
传统的推荐系统使用的方法:1、基于内容的推荐方法 基于内容的指推荐方法将会把与用户过去曾经使用过或者喜欢的产品相似的产品推荐给用户。这是出于同一用户的历史数据来推荐产品。2、协同过滤的推荐方法 协同过滤推荐方法将会把与用户的喜好相类似的其他用户曾经使用或者喜欢的产品推荐给用户,是根据用户间的相似度来推荐产品。3、综合的推荐方法 综合推荐方法是指把基于内容的原创 2012-10-22 08:44:28 · 564 阅读 · 0 评论 -
文本分类与聚类(text categorization and clustering)
1. 概述广义的分类(classification或者categorization)有两种含义:一种含义是有指导的学习(supervised learning)过程,另一种是无指导的学习(unsupervised learning)过程。通常前者称为分类,后者称为聚类(clustering),后文中提到的分类都是指有指导的学习过程。给定分类体系,将文本集中的每个文本分到某个或者某几转载 2012-11-12 16:58:26 · 2208 阅读 · 0 评论 -
后缀树。。。。。
大的改进点在哪里?1. NGram2. 公共子串标签生成算法还有对比。。把后缀看成单词,应用向量空间去做呢?原创 2012-11-19 16:49:58 · 436 阅读 · 0 评论 -
假设检验和t检测
为了准备一个笔试学了几小时的t检测(student's t test)。废话不多说,总结如下。统计学一个重要的思想是用样本估计总体,但这样会存在估计不准的风险(术语把握度和可信度衡量这种风险,但把握度一般估计不出来)。只要风险较小我们是可以下一“假设”的。于是假设检验应运而生。基本思想是先下一个假设,使用样本数据和总体的先验知识来计算假设(或比假设更极端的情况)出现的概率,如果概率满足原创 2012-12-23 18:07:53 · 3213 阅读 · 0 评论 -
中英文文本预处理软件、工具和算法
1.中文分词、词性标注中科院:ictclashttp://www.ictclas.org/sub_1_1.html具体使用方面看他里面的例子及文档很详细。突出功能是分词功能,还有命名实体识别功能。 哈工大信息检索实验室:LTP 语言技术平台http://ir.hit.edu.cn/http://ir.hit.edu.cn/demo/ltp/S转载 2012-12-21 21:30:14 · 4778 阅读 · 0 评论