特征处理

最新推荐文章于 2023-09-01 21:21:37 发布

赵清河

最新推荐文章于 2023-09-01 21:21:37 发布

阅读量122

点赞数

分类专栏：特征处理文章标签：机器学习数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zz_zss/article/details/107812251

版权

特征处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

特征处理

from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.preprocessing import MinMaxScaler, StandardScaler
from sklearn.impute import SimpleImputer
import pandas as pd
import numpy as np


# 归一化
# def minmax():
#     mm = MinMaxScaler(feature_range=(2, 3))  默认区间为(0,1)可设置为任意区间#
#     data = mm.fit_transform([[90, 4, 20, 60], [60, 6, 80, 30], [85, 2, 50, 40]])
#     print(data)

# 标准化
# def standards():
#       std = StandardScaler()
#       data = std.fit_transform([[90, 4, 20, 60], [60, 6, 80, 30], [85, 2, 50, 40]])
#       print(data)

# 数值缺失
def impu():
    imp = SimpleImputer(missing_values=np.nan, strategy='mean')
    data = imp.fit_transform([[1, 2, 5], [np.nan, 8, 3], [7, 6, 4]])
    print(data)


if __name__ == '__main__':
    impu()

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

赵清河 CSDN认证博客专家 CSDN认证企业博客

码龄5年

31: 原创

41万+: 周排名

225万+: 总排名

5万+: 访问

: 等级

621: 积分

12: 粉丝

27: 获赞

6: 评论

113: 收藏

私信

关注

热门文章

分类专栏

最新评论

解决多线程中资源竞争
普通网友: 码住，求博主联系方式，我的微信cto51shequ，在线等回复
使用爬虫的scrapy框架爬取百度贴吧某个贴吧每个帖子的数据
赵清河: xpath，你可能写错了，没怎么用过的话先下载一个chrome的插件 xpath-helper去获取正确的xpath，或者获取的书库为空的话，可能是ip被封了
使用爬虫的scrapy框架爬取百度贴吧某个贴吧每个帖子的数据
xingTTxing: 百度贴吧做了防爬机制，取得的response对象大部分内容被注释了，你是怎么用xpath提取到的
使用pandas处理数据
赵清河: 上述方法使用创建全为0的数组然后进行变1操作，可用来处理比如电影分类问题，每一个电影有多个分类这种情况，因此需要这种统计方法。当我们需要统计的数目索引很清晰明确且每一个数据仅属于一类时可以直接使用groupby方法统计# 当我们需要的信息很明确而且仅一列时可以直接使用函数groupby对我们想要的一列进行统计数目 counts = df.groupby(by="country").count()["title"] print(counts)
关于python中pip安装各种包失败的解决方法
赵清河回复張沖: 一般pip就可以解决大部分安装包，pip无法解决的用conda 就基本可以解决，我是pip安装一直出错就用了清华园总有一种方法可以成功的吧

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。