机器学习
机器学习概念:
机器学习概念:
从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测
应用场景:
自然语言处理;无人驾驶;计算机视觉
数据类型:
离散型数据:由记录不同类别个体的数目所得到的数据,又称计数数据,所有这些数据全部都是整数,而且不能再细分,也不能进一步提高他们的精确度。
连续型数据:变量可以在某个范围内取任一数,即变量的取值可以是连续的,如,长度、时间、质量值等,这类整数通常是非整数,含有小数部分。
区别:离散型是区间内不可分,连续型是区间内可分
可用数据集
安装scikit-learn需要Numpy,pandas等库
数据集中数据的组成:数据集数据 = 特征值+目标值 (有些数据没有目标值)
特征工程
特征工程
特征工程是将原始数据转换为更好地代表预测模型的潜在问题的特征的过程,从而提高了对未知数据的模型准确性,直接影响模型的预测结果。
特征抽取
特征抽取针对非连续型数据
特征抽取对文本等进行特征值化,特征值化的目的是为了计算机更好的去理解数据。
API(Application Programming Interface,应用程序编程接口)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码
文本特征抽取API:sklearn.feature_extraction
sklearn.feature_extraction.text.CountVectorizer CountVectorizer语法 CountVectorizer(max_df=1.0,min_df=1,…) 返回词频矩阵 CountVectorizer.fit_transform(X,y) X:文本或者包含文本字符串的可迭代对象 返回值:返回sparse矩阵 由于在实例化的时候没有sparse = False,所以如果要将sparse转化为array: data =CountVectorizer.fit_transform(X,y) data1 = data.toarray() data1就变成了数组 CountVectorizer.inverse_transform(X) X:array数组或者sparse矩阵 返回值:转换之前数据格式 CountVectorizer.get_feature_names() 返回值:单词列表 步骤: 1.实例化类CountVectorizer 2.调用fit_transform方法输入数据并转换 注意返回格式,利用toarray()进行sparse矩阵转换array数组
fit_transform 输入格式 :
注意:文字特征处理的顺序
1.将文字进行jieba.cut() ——变为一段一段的文字
2.将一段一段的文字放在列表中
3.将列表转换为字符串‘
4.将多个字符串放在