机器学习系列之特征工程

最新推荐文章于 2020-06-08 09:30:16 发布

架构师老狼

最新推荐文章于 2020-06-08 09:30:16 发布

阅读量248

点赞数

分类专栏：机器学习据机器学习文章标签： tf-idf 标准化处理归一化处理 pca 数据降维

本文链接：https://blog.csdn.net/wolfjson/article/details/81392430

版权

据机器学习同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

机器学习

7 篇文章 0 订阅

订阅专栏

'''
@description 特征工程 - Preprocess
    1 框架：scikit-learn，依赖模块：scipy、pandas、numpy
    2 pip3 install scikit-learn -i http://pypi.douban.com/simple --trusted-host pypi.douban.com
    3 模型 = 数据 + 算法
    4 机器学习开发流程：原始数据获取（特征值向量)->机器学习工程目标->数据加工处理->特征工程->算法选择与实现
        ->模型评估
    4 主流算法是固定，可以通过超参数进行算法调优，反而特征工程关系最终模型的性能、准确性、稳定性
@author wolf
@time 2018-07-27
'''


from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler, StandardScaler, Imputer
from sklearn.feature_selection import VarianceThreshold
from sklearn.decomposition import PCA
import jieba

import numpy as np

# 1 词典特征
'''
one-hot矩阵
应用场景：自然语言处理、情感分析
数值化特征不处理，非数值化特征数值化-one-hot
'''

def dictvec():
    dict = DictVectorizer(sparse=False)

    data = dict.fit_transform(
        [{'city': "北京", 'temperature': 100}, {'city': "上海", 'temperature': 60},
         {'city': "深圳", 'temperature': 30}])
    print(dict.get_feature_names())
    print(data)



# 2 纯文本特征
'''
2.1 计算分词词频
应用场景：自然语言处理、情感分析
'''

def countvec():
    cv = CountVectorizer()
    c1, c2, c3 = countWord()
    data = cv.fit_transform([c1, c2, c3])

    print(cv.get_feature_names())
    print(data.toarray())


'''
2.2 tf-idf算法：
应用场景：自然语言处理、情感分析
计算分词的tfidf
原因：大部分语气词词频很高，但不能代表文档的属性
tf：term frequency 改分词在文档的词频
idf：inverse document frequency log(总文档数/该分词出现的文档数)
tf-idf = tf * idf 表示该分词在文档的重要性，与词频成正比，与该分词出现的文档数成反比
fit_transform拆分分词是按" "拆分，英文语法按" "断词而中文是按","短词，所以借助jieba工具类
'''

def tfidfvec():
    tf = TfidfVectorizer()
    c1, c2, c3 = countWord()
    print([c1, c2, c3])
    data = tf.fit_transform([c1, c2, c3])

    print(tf.get_feature_names())
    print(data.toarray())


def countWord():
    con1 = jieba.cut('注意：作为团队项目，请不要把非代码相关的任何文件提交至SVN，否则可能影响他人，提交之前把提交'
                     '的什么写清楚和文件检查清楚')
    con2 = jieba.cut('使用Idea开发工具的同学注意避免红色（有问题）、黄线（代码重复）、灰色（未调用）代码预警提示')
    con3 = jieba.cut('使用Eclipse开发工具的同学注意黄线（未调用、代码重复）代码预警提示')

    content1 = list(con1)
    content2 = list(con2)
    content3 = list(con3)

    c1 = ''.join(content1)
    c2 = ''.join(content2)
    c3 = ''.join(content3)

    return c1, c2, c3




# 4 数值特征
'''
4.1 数值特征归一化处理
归一化目的：使得某一特征对最终结果不会造成更大的影响
总结：注意在特定场景下最大值与最小值是变化的。另外最大值与最小值非常容易受异常点影响，所以这种方法的鲁棒性较差，只适合
    传统精确小数据场景
计算公式：X` = (x - min) / (max - min)  X`` = X` * (mx - mi) + mi   mx默认为1，mi默认为0
'''

def mm():
    mm = MinMaxScaler(feature_range=(2, 3))
    data = mm.fit_transform([[90, 2, 10, 40], [60, 4, 15, 45], [75, 3, 13, 46]])

    print(data)
    return None


'''
4.2 数值特征标准化处理
特点：通过对原始数据进行变换把数据变换到均值为0，方差为1范围内
公式：X' = (x - mean) / c c为标准差
var(方差) = ((x1 - mean)^ + (x2 - mean)^ + ...) / n, c = var开平方根
var(方差)：考量数据的稳定性

'''

def stand():
    std = StandardScaler()
    data = std.fit_transform([[1., -1., 3.], [2., 4., 2.], [4., 6., -1.]])

    print(data)
    return None


'''
4.3 数值特征缺失值处理
pandas对缺失值的处理
a 指定值填充
df = pd.DataFrame(np.random.randn(3, 3), index=['a', 'c', 'e'],columns=['one','two', 'three'])
df = df.reindex(['a', 'b', 'c'])
print (df.fillna(df.var))


b 使用现有数据（向前、向后填充）
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f', 'h'], columns=['one', 'two',
 'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
#================================向前填充 pad/fill
print (df.fillna(method='pad'))
#================================向前填充 bfill/backfill
print (df.fillna(method='bfill'))


c 丢弃缺失值：pandas axis 0:行1:列
df = pd.DataFrame(np.random.randn(5, 3), index=['a', 'c', 'e', 'f', 'h'],columns=['one', 'two', 
    'three'])
df = df.reindex(['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h'])
print (df.dropna(axis=0))


d 指定值替换
df = pd.DataFrame({'one':[10,20,30,40,50,2000], 'two':[1000,0,30,40,50,60]})
print (df.replace({1000:10,2000:60}))
'''
# sklearn缺失值处理
def im():
    # NaN, nan
    # axis 0:列 1:行
    im = Imputer(missing_values="NaN", strategy='mean', axis=0)
    data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])

    print(data)
    return None


# 5 数据特征降维
# 5.1 过滤方法
def var():
    var = VarianceThreshold(threshold=0.0)
    data = var.fit_transform([[0, 2, 0, 3], [0, 1, 4, 3], [0, 1, 1, 3]])

    print(data)
    return None


# 5.2 主成分分析
'''
n_components小数：原数据特征保持数据原始性到百分比
n_components小数：原数据特征降维到几个特征
数学原理：
'''

def pca():
    pca = PCA(n_components=0.9)
    data = pca.fit_transform([[2, 8, 4, 5], [6, 3, 0, 8], [5, 4, 9, 1]])

    print(data)
    return None


if __name__ == "__main__":
    tfidfvec()

架构师老狼

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习系列之特征工程

'''@description 特征工程 - Preprocess 1 框架：scikit-learn，依赖模块：scipy、pandas、numpy 2 pip3 install scikit-learn -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 3 模型 = 数据 + 算法 ...
复制链接

扫一扫

专栏目录