sklearn
weixin_54096215
这个作者很懒,什么都没留下…
展开
-
主成分分析
效果:可以通过更少的特性总结事物API:代码:from sklearn.decomposition import PCAdef Pca_demo(): data=[[1,2,3,4],[2,3,4,5],[3,4,5,6]] transfer=PCA(n_components=2) transfer1 = PCA(n_components=0.9) data_new=transfer.fit_transform(data) data_new_1原创 2021-08-28 18:00:28 · 44 阅读 · 0 评论 -
特征预处理
一.归一化原因:公式:作用于每一列,max为每一列的最大值,min为每一列的最小值,mx默认区间为1,mi为0;API:sklearn.preprocessing过程:1.获取数据2.实例化一个转换器3.调用fit_transform代码:from sklearn.preprocessing import MinMaxScaleref data_process(): # 1.获取数据 f = pd.read_excel...原创 2021-08-27 15:40:02 · 192 阅读 · 0 评论 -
利用TF-IDF分词进行中文文本特征抽取
TF-IDF 概念代码from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizerdef tf_words(): word = ["出现问题原因:与表示的是两种数据类型,而上面出现问题的原因是对str字符串使用了解码,显然是猪头不对马尾。"] new_word = [] for i in word: new_word.append(cut_word(i)) ..原创 2021-08-26 14:20:11 · 377 阅读 · 0 评论 -
利用jieba分词进行中文文本特征抽取
安装jieba分词库pip install jiaba导入库import jieba代码a=jieba.cut(data)print(type(a))print(a)返回的是一个迭代器,所以需要加list()data = '北京天安门我爱你'data1=data.encode('utf-8')print(type(data1))a='...'.join(list(jieba.cut(data)))print(type(a))print(a...原创 2021-08-26 13:55:33 · 654 阅读 · 0 评论 -
特征工程(2种)
一.字典特征提取sklearn.feature_extraction1-1字典特征提取---one-hot编码sparse=True sparse=False 稀疏性 1-2 代码from sklearn.feature_extraction import DictVectorizer#引入这个字典特征提取def dict_dem...原创 2021-08-25 17:57:15 · 55 阅读 · 0 评论 -
Sklearn数据集
下载数据集pip install sklearn加载数据集数据集的返回值介绍查看数据集代码from sklearn import datasetsdef datasets_demo(): iris=datasets.load_iris() print(f'数据:',iris) print('数据集描述',iris["DESCR"])if __name__=="__main__": datasets_demo()数据: {'data'..原创 2021-08-25 14:30:03 · 90 阅读 · 0 评论