【COMP337 LEC1】

本文探讨了数据预处理阶段的各个环节,包括特征提取、数据清洗(处理错误和缺失值)、特征选择与变换(降低维度和转换类型),以及不同类型数据(如数值、类别、二进制和文本)的处理。强调了数据表示对数据挖掘任务的重要性,指出没有一种方法适用于所有任务。
摘要由CSDN通过智能技术生成

Data Preprocessing Phase 数据预处理

1. Feature extraction 特征提取

1. An object is described by a collection of attributes
一个对象可以由一组特征来描述
2. A feature is a property or a characteristic of an objects
物体的属性

2. Data cleaning 数据清洗

Extracted data may have erroneous or missing fields 
提取的数据可能有错误或者缺失字段

方法包括:

(估计一个缺失值 、消除不一致的值)

3. Feature selection & transformation

Many data mining algorithms do not work efficiently on high dimensional data
高纬度的数据不利于数据挖掘算法

1. 方法包括:

identify and remove irrelevant features
识别并且去除不相关的特征
transform the current set of features to a new data space
改变特征的形式,例如降维..

2. Data transformation

Transform attributes to new attributes 改变属性的形式
(e.g., numerical age -> { young , middleaged , elderly })
例子:数字年龄 -> 年轻, 中等年龄, 老年 

Types of Data 数据形式

1. Nondependency-oriented data:

objects do not have dependencies

Types of data:

1. Numerical or quantitative (values have natural ordering)  数值或数量
        integer values (number of petals in a flower)
         real values (length of a petal)
2.  Categorical or unordered discrete-valued                            离散的无序值/类别
         discrete unordered values/categories (colour of a flower petal)
3.  Binary data (two values: 0 and 1)                                             二进制数据
        Can be seen as a categorical data (two categories) or a numerical data (0<1)
        Can be used to represent Set Data via characteristic vectors
4.  Text data                                                                                    文本数据 
        Document as a string (dependency-oriented data type)
        Document as a set of words or terms (vector-space representation: frequencies of the words in the document)

2. Dependency-oriented data:

implicit or explicit dependencies between objects may exist 数据之间存在显示或隐式的依赖关系

网络:节点(对象)通过边缘(关系)连接
从传感器收集的连续测量值

1. Implicit dependencies 

没有显示的指定关系,但是是知道这个关系存在的

比如:温度值是一个传感器测量出来的,那么这个值和这个传感器就有隐性的依赖关系

Types of data with implicit dependencies

一些例子:

1. 时间和数据 2. 空间和数据

2. Explicit dependencies

会有edges来指定明确的关系

Graphs or network data (edges specify explicit relationships)
Types of data with explicit dependencies

Data Representation 数据表示

Data representation is one of the first things we must do in data  mining
What we can mine is largely determined by our data representation
There is no one best data representation method for all data mining tasks 没有一个最好的数据表示可以用于所有数据挖掘

  • 39
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值