机器学习（1）

最新推荐文章于 2024-08-05 11:17:14 发布

weixin_45589945

最新推荐文章于 2024-08-05 11:17:14 发布

阅读量147

点赞数

分类专栏：机器学习文章标签：机器学习 python 数据分析

本文链接：https://blog.csdn.net/weixin_45589945/article/details/110790441

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

Marvin Lee Minsky

人工智能机器学习深度学习
场景：
机器写新闻
人脸识别
智能诊断
信贷需求预测，店铺销量预测

应用领域：

自然语言处理
图像识别
传统预测

框架

tensorflow pytorch theano caffe2

机器学习概述

数据——规律——预测
案例：AlphaGo
智能客服，ET医疗，智慧城市减少成本

特征工程

数据集

文件csv，numpy多线程释放GIL

可用数据集
1.Kaggle
2.UCI ：专业
3.scikit-learn 数据量小

结构组成：
特征值+目标值

特征工程定义

去重对特征处理
影响最终预测
数据清洗—特征工程

scikit-learn库

分类回归聚类降维模型选择

特征抽取

1.字典特征抽取

feature_extraction
DictVectorizer()
数据转换：fit_transform()

from sklearn.feature_extraction import DictVectorizer
def dictvec():
    """
    字典数据抽取
    :return: None
    """
    # 实例化
    dict =DictVectorizer(sparse=False)
    # 调用fit_transform
 data =dict.fit_transform([{'city': '北京','temperature': 100}, {'city': '上海','temperature':60}, {'city': '深圳','temperature': 30}])
 print(dict.get_feature_names())
 print(dict.inverse_transform(data))
 print(data)
return None
if __name__=="__main__":
    dictvec()

scipy sparse矩阵
sparse=FALSE ndarray 多维矩阵

['city=上海', 'city=北京', 'city=深圳', 'temperature']
[{'city=北京': 1.0, 'temperature': 100.0}, {'city=上海': 1.0, 'temperature': 60.0}, {'city=深圳': 1.0, 'temperature': 30.0}]
[[  0.   1.   0. 100.]
 [  1.   0.   0.  60.]
 [  0.   0.   1.  30.]]

One-hot编码

2.文本特征抽取

CountVectorizser（）
统计词频，feature name是每个非重复出现的词

如果直接对中文句子处理是不可行的，这里就需要用到jieba分词

jieba分词，返回值：成语生成器

！！！jieba分词

def cutword():

    con1 = jieba.cut("今天很残酷，明天更残酷，后天很美好，但绝对大部分是死在明天晚上，所以每个人不要放弃今天。")

    con2 = jieba.cut("我们看到的从很远星系来的光是在几百万年之前发出的，这样当我们看到宇宙时，我们是在看它的过去。")

    con3 = jieba.cut("如果只用一种方式了解某样事物，你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。")

    # 转换成列表
    content1 = list(con1)
    content2 = list(con2)
    content3 = list(con3)

    # 吧列表转换成字符串
    c1 = ' '.join(content1)
    c2 = ' '.join(content2)
    c3 = ' '.join(content3)
    print(con1)
    print(content1)
    print(c1)
    return c1, c2, c3

if __name__=="__main__":
    cutword()

1.<generator object Tokenizer.cut at 0x000001E35CCD1408>
2.['今天', '很', '残酷', '，', '明天', '更', '残酷', '，', '后天', '很', '美好', '，', '但', '绝对', '大部分', '是', '死', '在', '明天', '晚上', '，', '所以', '每个', '人', '不要', '放弃', '今天', '。']
3.今天 很 残酷 ， 明天 更 残酷 ， 后天 很 美好 ， 但 绝对 大部分 是 死 在 明天 晚上 ， 所以 每个 人 不要 放弃 今天 。

1.是jieba.cut直接得到的结果
2.是list得到的结果
3.是转换成字符串之后的结果

tf idf

词频逆文档频率

特征预处理

1.归一化
sklearn.preprocessing
归一化公式： (x-min)/(max-min)
MinMaxScaler( )

def mm():
    mm = MinMaxScaler(feature_range=(2, 3))
    data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
    print(data)
    return None

缺点：无法处理异常点，鲁棒性较差(稳定性)
2.标准化
x-mean/标准差
StandardScaler()
不容易受异常点影响，适合现代嘈杂大数据场景
3.缺失值
插补（平均值中位数）
Imputer()

def im():
    """
    缺失值处理
    :return:NOne
    """
    # NaN, nan
    im = Imputer(missing_values='NaN', strategy='mean', axis=0)
    data = im.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
    print(data)

np.nan属于float类型

weixin_45589945

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（1）

Marvin Lee Minsky人工智能机器学习深度学习场景：机器写新闻人脸识别智能诊断信贷需求预测，店铺销量预测应用领域：自然语言处理图像识别传统预测框架tensorflow pytorch theano caffe2机器学习概述数据——规律——预测案例：AlphaGo智能客服，ET医疗，智慧城市减少成本特征工程数据集文件csv，numpy多线程释放GIL可用数据集1.Kaggle2.UCI ：专业3.scikit-learn 数据量小结构组成：
复制链接

扫一扫