数据处理
一、数据抽取
1.CountVectorizer返回词频矩阵
英文分词
from sklearn. feature_extraction import DictVectorizer
from sklearn. feature_extraction. text import CountVectorizer, TfidfVectorizer
from sklearn. preprocessing import MinMaxScaler, StandardScaler, Imputer
from sklearn. feature_selection import VarianceThreshold
from sklearn. decomposition import PCA
import jieba
import numpy as np
"""
CountVectorizer(max_df=1.0,min_df=1,…)
max_df:可以设置为范围在[0.0 1.0]的float,也可以设置为没有范围限制的int,默认为1.0。
这个参数的作用是作为一个阈值,当构造语料库的关键词集的时候,如果某个词的document frequence大于max_df,这个词不会被当作关键词。
如果这个参数是float,则表示词出现的次数与语料库文档数的百分比,如果是int,则表示词出现的次数。
如果参数中已经给定了vocabulary,则这个参数无效
min_df:类似于max_df,不同之处在于如果某个词的document frequence小于min_df,则这个词不会被当作关键词
CountVectorizer.fit_transform(X,y)
X:文本或者包含文本字符串的可迭代对象
返回值:返回sparse矩阵
CountVectorizer.inverse_transform(X)
X:array数组或者sparse矩阵
返回值:转换之前数据格式
CountVectorizer.get_feature_names()
返回值:单词列表
"""
vector = CountVectorizer( )
res = vector. fit_transform( [ "life is short,i like python" , "life is too long,i dislike python" ] )
print ( vector. get_feature_names( ) )
print ( res. toarray( ) )
print ( vector. inverse_transform( res) )
结果:
[ 'dislike' , 'is' , 'life' , 'like' , 'long' , 'python' , 'short' , 'too' ]
[ [ 0 1 1 1 0 1 1 0 ]
[ 1 1 1 0 1 1 0 1 ] ]
[ array( [ 'python' , 'like' , 'short' , 'is' , 'life' ] , dtype= '<U7' ) , array( [ 'dislike' , 'long' , 'too' , 'python' , 'is' , 'life' ] , dtype= '<U7' ) ]
vector = CountVectorizer( min_df= 2 )
res = vector. fit_transform( [ "life is short,i like python" , "life is too long,i dislike python" ] )
print ( vector. get_feature_names( ) )
print ( res. toarray( ) )
结果:
[ 'is' , 'life' , 'python' ]
[ [ 1 1 1 ]
[ 1 1 1 ] ]
中文分词
def countvec ( ) :
"""
对文本进行特征值化
:return: None
"""
cv = CountVectorizer( )
data = cv. fit_transform( [ "人生 苦短,我 喜欢 python" , "人生漫长,不用 python" ] )
print ( cv. get_feature_names( ) )
print ( data. toarray( ) )
return None
countvec( )
结果:
[ 'python' , '不用' , '人生' , '人生漫长' , '喜欢' , '苦短' ]
[ [ 1 0 1 0 1 1 ]
[ 1 1 0 1 0 0 ] ]
def cutword ( ) :
con1 = jieba. cut( "今天很残酷,明天更残酷,后天很美好,但绝对大部分是死在明天晚上,所以每个人不要放弃今天。" )
con2 = jieba. cut( "我们看到的从很远星系来的光是在几百万年之前发出的,这样当我们看到宇宙时,我们是在看它的过去。" )
con3 = jieba. cut( "如果只用一种方式了解某样事物,你就不会真正了解它。了解事物真正含义的秘密取决于如何将其与我们所了解的事物相联系。" )
content1 = list ( con1)
content2 = list ( con2)
content3 = list ( con3)
c1 = ' ' . join( content1)
c2 = ' ' . join( content2)
c3 = ' ' . join( content3)
return c1, c2, c3
def hanzivec ( ) :
"""
中文特征值化
:return: None
"""
c1, c2, c3 = cutword( )
print ( c1, c2, c3)
cv = CountVectorizer( )
data = cv. fit_transform( [ c1, c2, c3] )
print ( cv. get_feature_names( ) )
print ( data. toarray( ) )
return None
hanzivec( )
结果:
今天 很 残酷 , 明天 更 残酷 , 后天 很 美好 , 但 绝对 大部分 是 死 在 明天 晚上 , 所以 每个 人 不要 放弃 今天 。 我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 , 这样 当 我们 看到 宇宙 时 , 我们 是 在 看 它 的 过去 。 如果 只用 一种 方式 了解 某样 事物 , 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。
[ '一种' , '不会' , '不要' , '之前' , '了解' , '事物' , '今天' , '光是在' , '几百万年' , '发出' , '取决于' , '只用' , '后天' , '含义' , '大部分' , '如何' , '如果' , '宇宙' , '我们' , '所以' , '放弃' , '方式' , '明天' , '星系' , '晚上' , '某样' , '残酷' , '每个' , '看到' , '真正' , '秘密' , '绝对' , '美好' , '联系' , '过去' , '这样' ]
[ [ 0 0 1 0 0 0 2 0 0 0 0 0 1 0 1 0 0 0 0 1 1 0 2 0 1 0 2 1 0 0 0 1 1 0 0 0 ]
[ 0 0 0 1 0 0 0 1 1 1 0 0 0 0 0 0 0 1 3 0 0 0 0 1 0 0 0 0 2 0 0 0 0 0 1 1 ]
[ 1 1 0 0 4 3 0 0 0 0 1 1 0 1 0 1 1 0 1 0 0 1 0 0 0 1 0 0 0 2 1 0 0 1 0 0 ] ]
2.TfidfVectorizer(stop_words=None,…)返回词的权重矩阵
"""
TfidfVectorizer.fit_transform(X,y)
X:文本或者包含文本字符串的可迭代对象
返回值:返回sparse矩阵
TfidfVectorizer.inverse_transform(X)
X:array数组或者sparse矩阵
返回值:转换之前数据格式
TfidfVectorizer.get_feature_names()
返回值:单词列表
"""
def tfidfvec ( ) :
"""
中文特征值化
:return: None
"""
c1, c2, c3 = cutword( )
print ( c1, c2, c3)
tf = TfidfVectorizer( )
data = tf. fit_transform( [ c1, c2, c3] )
print ( tf. get_feature_names( ) )
print ( data. toarray( ) )
return None
tfidfvec( )
结果:
今天 很 残酷 , 明天 更 残酷 , 后天 很 美好 , 但 绝对 大部分 是 死 在 明天 晚上 , 所以 每个 人 不要 放弃 今天 。 我们 看到 的 从 很 远 星系 来 的 光是在 几百万年 之前 发出 的 , 这样 当 我们 看到 宇宙 时 , 我们 是 在 看 它 的 过去 。 如果 只用 一种 方式 了解 某样 事物 , 你 就 不会 真正 了解 它 。 了解 事物 真正 含义 的 秘密 取决于 如何 将 其 与 我们 所 了解 的 事物 相 联系 。
[ '一种' , '不会' , '不要' , '之前' , '了解' , '事物' , '今天' , '光是在' , '几百万年' , '发出' , '取决于' , '只用' , '后天' , '含义' , '大部分' , '如何' , '如果' , '宇宙' , '我们' , '所以' , '放弃' , '方式' , '明天' , '星系' , '晚上' , '某样' , '残酷' , '每个' , '看到' , '真正' , '秘密' , '绝对' , '美好' , '联系' , '过去' , '这样' ]
[ [ 0 . 0 . 0.21821789 0 . 0 . 0 .
0.43643578 0 . 0 . 0 . 0 . 0 .
0.21821789 0 . 0.21821789 0 . 0 . 0 .
0 . 0.21821789 0.21821789 0 . 0.43643578 0 .
0.21821789 0 . 0.43643578 0.21821789 0 . 0 .
0 . 0.21821789 0.21821789 0 . 0 . 0 . ]
[ 0 . 0 . 0 . 0.2410822 0 . 0 .
0 . 0.2410822 0.2410822 0.2410822 0 . 0 .
0 . 0 . 0 . 0 . 0 . 0.2410822
0.55004769 0 . 0 . 0 . 0 . 0.2410822
0 . 0 . 0 . 0 . 0.48216441 0 .
0 . 0 . 0 . 0 . 0.2410822 0.2410822 ]
[ 0.15698297 0.15698297 0 . 0 . 0.62793188 0.47094891
0 . 0 . 0 . 0 . 0.15698297 0.15698297
0 . 0.15698297 0 . 0.15698297 0.15698297 0 .
0.1193896 0 . 0 . 0.15698297 0 . 0 .
0 . 0.15698297 0 . 0 . 0 . 0.31396594
0.15698297 0 . 0 . 0.15698297 0 . 0 . ] ]
3.DictVectorizer(# 将字典中非数值型数据转化为one_hot编码)
"""
实例化过程中可将sparse设置为False,返回数组
DictVectorizer.fit_transform(X)
X:字典或者包含字典的迭代器,返回sparse矩阵
DictVectorizer.inverse_transform(X)
返回之前数据格式
DictVectorizer.get_feature_names()
返回类别名称
DictVectorizer.transform(X)
按照原先标准进行转换
实例化过程中sparse=True,返回数组
返回值可用toarray()转化为数组
"""
def dictvec ( ) :
"""
字典数据抽取
:return: None
"""
dict = DictVectorizer( sparse= False )
data = dict . fit_transform( [ { 'city' : '北京' , 'weather' : 'cold' , 'temperature' : 100 } , { 'city' : '上海' , 'weather' : 'warm' , 'temperature' : 60 } , { 'city' : '深圳' , 'weather' : 'hot' , 'temperature' : 30 } ] )
print ( data)
print ( dict . get_feature_names( ) )
print ( dict . inverse_transform( data) )
return None
dictvec( )
结果:
[ [ 0 . 1 . 0 . 100 . 1 . 0 . 0 . ]
[ 1 . 0 . 0 . 60 . 0 . 0 . 1 . ]
[ 0 . 0 . 1 . 30 . 0 . 1 . 0 . ] ]
[ 'city=上海' , 'city=北京' , 'city=深圳' , 'temperature' , 'weather=cold' , 'weather=hot' , 'weather=warm' ]
[ { 'city=北京' : 1.0 , 'temperature' : 100.0 , 'weather=cold' : 1.0 } , { 'city=上海' : 1.0 , 'temperature' : 60.0 , 'weather=warm' : 1.0 } , { 'city=深圳' : 1.0 , 'temperature' : 30.0 , 'weather=hot' : 1.0 } ]
def dictvec ( ) :
"""
字典数据抽取
:return: None
"""
dict = DictVectorizer( sparse= True )
data = dict . fit_transform( [ { 'city' : '北京' , 'temperature' : 100 } , { 'city' : '上海' , 'temperature' : 60 } , { 'city' : '深圳' , 'temperature' : 30 } ] )
print ( data)
print ( data. toarray( ) )
print ( dict . get_feature_names( ) )
print ( dict . inverse_transform( data) )
return None
dictvec( )
结果:
def dictvec ( ) :
"""
字典数据抽取
:return: None
"""
dict = DictVectorizer( sparse= True )
data = dict . fit_transform( [ { 'city' : '北京' , 'temperature' : 100 } , { 'city' : '上海' , 'temperature' : 60 } , { 'city' : '深圳' , 'temperature' : 30 } ] )
print ( data)
print ( data. toarray( ) )
print ( dict . get_feature_names( ) )
print ( dict . inverse_transform( data) )
return None
dictvec( )
1
def dictvec ( ) :
2
"""
3
字典数据抽取
4
:return: None
5
"""
6
7
dict = DictVectorizer( sparse= True )
8
9
10
data = dict . fit_transform( [ { 'city' : '北京' , 'temperature' : 100 } , { 'city' : '上海' , 'temperature' : 60 } , { 'city' : '深圳' , 'temperature' : 30 } ] )
11
12
print ( data)
13
14
print ( data. toarray( ) )
15
16
print ( dict . get_feature_names( ) )
17
18
print ( dict . inverse_transform( data) )
19
20
return None
21
dictvec( )
( 0 , 1 ) 1.0
( 0 , 3 ) 100.0
( 1 , 0 ) 1.0
( 1 , 3 ) 60.0
( 2 , 2 ) 1.0
( 2 , 3 ) 30.0
[ [ 0 . 1 . 0 . 100 . ]
[ 1 . 0 . 0 . 60 . ]
[ 0 . 0 . 1 . 30 . ] ]
[ 'city=上海' , 'city=北京' , 'city=深圳' , 'temperature' ]
[ { 'city=北京' : 1.0 , 'temperature' : 100.0 } , { 'city=上海' : 1.0 , 'temperature' : 60.0 } , { 'city=深圳' : 1.0 , 'temperature' : 30.0 } ]
二、特征处理
1.归一化
def mm ( ) :
"""
归一化处理
:return: NOne
"""
mm = MinMaxScaler( feature_range= ( 2 , 3 ) )
data = mm. fit_transform( [ [ 90 , 2 , 10 , 40 ] , [ 60 , 4 , 15 , 45 ] , [ 75 , 3 , 13 , 46 ] ] )
print ( data)
return None
mm( )
结果:
[ [ 3 . 2 . 2 . 2 . ]
[ 2 . 3 . 3 . 2.83333333 ]
[ 2.5 2.5 2.6 3 . ] ]
2.标准化
def stand ( ) :
"""
标准化缩放
:return:
"""
std = StandardScaler( )
data = std. fit_transform( [ [ 1 . , - 1 . , 3 . ] , [ 2 . , 4 . , 2 . ] , [ 4 . , 6 . , - 1 . ] ] )
print ( data)
return None
stand( )
结果:
[ [ - 1.06904497 - 1.35873244 0.98058068 ]
[ - 0.26726124 0.33968311 0.39223227 ]
[ 1.33630621 1.01904933 - 1.37281295 ] ]
3.缺失值处理
def im ( ) :
"""
缺失值处理
:return:NOne
"""
im = Imputer( missing_values= 'NaN' , strategy= 'mean' , axis= 0 )
data = im. fit_transform( [ [ 1 , 2 ] , [ np. nan, 3 ] , [ 7 , 6 ] ] )
print ( data)
return None
im( )
结果:
[ [ 1 . 2 . ]
[ 4 . 3 . ]
[ 7 . 6 . ] ]
4.特征选择(删除低方差特征)
def var ( ) :
"""
特征选择-删除低方差的特征
:return: None
"""
var = VarianceThreshold( threshold= 1.0 )
data = var. fit_transform( [ [ 0 , 2 , 0 , 3 ] , [ 0 , 1 , 4 , 3 ] , [ 0 , 1 , 1 , 3 ] ] )
print ( data)
return None
var( )
结果:
[ [ 0 ]
[ 4 ]
[ 1 ] ]
5.PCA降维
def pca ( ) :
"""
主成分分析进行特征降维
:return: None
"""
pca = PCA( n_components= 0.9 )
data = pca. fit_transform( [ [ 2 , 8 , 4 , 5 ] , [ 6 , 3 , 0 , 8 ] , [ 5 , 4 , 9 , 1 ] ] )
print ( data)
return None
pca( )
结果:
[ [ 1.22879107e-15 3.82970843e+00 ]
[ 5.74456265e+00 - 1.91485422e+00 ]
[ - 5.74456265e+00 - 1.91485422e+00 ] ]