【机器学习】基本概念

机器学习 

 机器学习概念:

机器学习概念:

从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测

应用场景:

自然语言处理;无人驾驶;计算机视觉

数据类型:

离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。

连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续的,如,长度、时间、质量值等,这类整数通常是非整数,含有小数部分。

区别:离散型是区间内不可分,连续型是区间内可分

可用数据集

安装scikit-learn需要Numpy,pandas等库

数据集中数据的组成:数据集数据 = 特征值+目标值  (有些数据没有目标值)

 

特征工程

特征工程

特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性,直接影响模型的预测结果。

特征抽取

特征抽取针对非连续型数据

特征抽取对文本等进行特征值化,特征值化的目的是为了计算机更好的去理解数据。

API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码

文本特征抽取API:sklearn.feature_extraction

sklearn.feature_extraction.text.CountVectorizer
CountVectorizer语法

CountVectorizer(max_df=1.0,min_df=1,…)
返回词频矩阵

CountVectorizer.fit_transform(X,y)       
X:文本或者包含文本字符串的可迭代对象
返回值:返回sparse矩阵
由于在实例化的时候没有sparse = False,所以如果要将sparse转化为array:
data =CountVectorizer.fit_transform(X,y)
data1 = data.toarray()
data1就变成了数组

CountVectorizer.inverse_transform(X)
X:array数组或者sparse矩阵
返回值:转换之前数据格式

CountVectorizer.get_feature_names()
返回值:单词列表

步骤:
1.实例化类CountVectorizer

2.调用fit_transform方法输入数据并转换 
  注意返回格式,利用toarray()进行sparse矩阵转换array数组

fit_trans

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值