机器学习库_yyhhlancelot的博客-CSDN博客

机器学习库

关注

关注数：文章数：16 文章阅读量：361237 文章收藏量：412

作者: yyhhlancelot

心之所向，素履以往。

展开

关于matplotlib中的fig/axes/axis/subplot的区别

最近也在用matplotlib画图，研究了一天终于发现了关键的一点，我是在matplotlib.pyplot.subplots的文档里无意中注意到的，先贴图注意到什么蹊跷了吗朋友们？axes这个单词是ax的复数形式啊！所以我的理解是所以我的结论是figure/fig 空白画布ax单个坐标系 / axes 复数坐标系axis 坐标轴subplot，直译就是子图，由于有前面的...

原创 2020-02-17 11:46:04 · 2718 阅读 · 3 评论
如何对groupby对象使用countvectorize方法（如何对多列groupby对象提取计数特征）

众所周知，countvectorize是简单地计算出现频率。那在一个groupby对象中，如何针对每个类计算频率，我google了一个上午没有找到特定的现象以及API，故将自己的做法写下这篇博客记录。现象举例：df中的category_1只有Y和N两种，而想要计算出每个id分别对应的Y和N的数量，并生成新的特征与原始数据进行合并。>>> df.tail(20...

原创 2019-02-25 14:43:33 · 291 阅读 · 0 评论
AttributeError: module 'scipy' has no attribute 'misc'

>>> import scipy as sp>>> x1 = np.random.randint(low = 0, high = 255, size = [28, 28]) #创建随机图像>>> sp.misc.imsave('your_path\x1.jpg', x1)Traceback (most recent call...

原创 2018-08-07 11:03:23 · 22725 阅读 · 7 评论
数据挖掘数据分析数据处理 EDA 常用API笔记（持续更新）

import numpy as npimport pandas as pdnp.arrage(num)生成一个 0~num-1 的List np.random.shuffle[list] 将list的内部顺序完全打乱，该方法无返回值，直接调用即可，调用完List就会改变 pd.DataFrame.head()打印df的前五行 pd.DataFrame.tail()打印df的最末尾五...

原创 2018-12-07 22:44:17 · 652 阅读 · 0 评论
Scipy ValueError: 'arr' does not have a suitable array shape for any mode.

首先默认import scipy as sp。一般来说，是遇到了sp.misc.imsave或者sp.misc.imresize出现了该类问题。一、imsave遇到了该问题根据scipy的imsave官方文档，我们可以知道，参数中的arrarr:ndarray, MxN or MxNx3 or MxNx4Array containing image values. If t...

原创 2018-08-07 11:16:26 · 9157 阅读 · 9 评论
Numpy softmax函数注意事项及代码实现

import numpy as npdef softmax(x): """ softmax function """ # assert(len(x.shape) > 1, "dimension must be larger than 1") # print(np.max(x, axis = 1, keepdims = True)) # axis = 1...

原创 2018-10-18 10:33:06 · 14935 阅读 · 0 评论
matplotlib 使用plt.imshow()打开图像为空白的问题

问题描述：当我想使用matplotlib.pyplot的plt中的imshow()打开图像时，遇到了打开图像为空白的问题，类似于下图找了很久才知道这是因为图像的内部数据还是浮点数造成的，解决的方案根据情况有所不同：第一种情况：为0-255的浮点数通过使用Numpy的数据转换将其直接转换为整数。import numpy as npimport matplotlib....

原创 2018-09-13 15:12:50 · 7451 阅读 · 1 评论
Sklearn 里面的fit transform fit_transform的区别（为什么训练集用fit_transform()而测试集用transform()？）

在国内网上找了很多资料，感觉都说的不明不白不清不楚，很多博客都是根据原始document来进行阐述，使用的时候也是按照格式使用，最后去外网感觉终于有点搞明白了来头。参考：https://stackoverflow.com/questions/23838056/what-is-the-difference-between-transform-and-fit-transform-in-skle...

原创 2018-12-19 15:34:40 · 9855 阅读 · 12 评论
Sklearn BaggingRegressor 无限循环/不停止运行的问题

当我使用BaggingRegressor来控制过拟合时，我遇到了程序循环运行，而且完全占用CPU的问题，打开任务管理器一看，发现还真是个并行程序。无意间居然牵涉到了并行，这是我敲完那行代码之后没有想到的。使用os.system("pause")，让程序暂停后发现python还是给了一些提示：ImportError: [joblib] Attempting to do parallel co...

原创 2018-09-03 20:16:26 · 1262 阅读 · 0 评论
Sklearn ValueError: This solver needs samples of at least 2 classes in the data, but the data

sklearn报错： ValueError: This solver needs samples of at least 2 classes in the data, but the data contains only one class: 0.0博主是在使用sklearn.learning_curve()这个函数时出现了这个问题，使用的estimator是Logistic regressi...

原创 2018-09-03 15:08:57 · 10618 阅读 · 6 评论
Pandas 关于dataframe的一列进行向下顺移的办法

最近做比赛，有时候需要造出新的特征，而这次遇到的问题是将一列数据往下顺移一位。同时将开头缺失的那一个数据用其他方式填充。----------------------2019-5-20更新--------------df['feature'].shift(1)向下顺移一位，这时第一位会置为nan，需要填充。----------------------历史分割线--------------...

原创 2018-11-07 15:51:32 · 10673 阅读 · 4 评论
Pandas 关于DataFrame通过条件删除多行并重置索引的办法

这个问题折腾了快一个晚上，终于找到了正确的方法。比如，我想将train_old['month']里为6同时train_old['day']为26的行删除，正确的方法是：train_old = train_old[~(train_old['month'].isin([6]) & (train_old['day'].isin([26])))]train_old = train_o...

原创 2018-11-12 22:50:08 · 17026 阅读 · 2 评论
Pandas 通过索引提取dataframe的行

一、假设有这样一个原始dataframe二、提取索引（已经做了一些操作将Age为NaN的行提取出来并合并为一个dataframe，这里提取的是该dataframe的索引，道理和操作是相似的，提取的代码没有贴上去是为了不显得太繁杂让读者看着繁琐）>>> index = unknown_age_Mr.index.tolist() #记得转换为list格式三、提取...

原创 2018-08-31 16:18:43 · 31319 阅读 · 3 评论
Pandas 关于pandas.DataFrame.fillna 填充Nan失败的问题

如果单独是>>> df.fillna(0)>>> print(df) # 可以看到未发生改变>>> print(df.fillna(0)) # 如果直接打印是可以看到填充进去了>>> print(df) # 但是再次打印就会发现没有了，还是Nan将其Nan全部填充为0，这时再打印的话会发现根本未填充，这是因...

原创 2018-08-31 15:05:47 · 13341 阅读 · 4 评论
Pandas 过滤dataframe中包含特定字符串的数据

假如有一列全是字符串的dataframe，希望提取包含特定字符的所有数据，该如何提取呢？因为之前尝试使用filter，发现行不通，最终找到这个行得通的方法。举例说明：我希望提取所有包含'Mr.'的人名1、首先将他们进行字符串化，并得到其对应的布尔值：>>> bool = df.str.contains('Mr\.') #不要忘记正则表达式的写法，'.'在...

原创 2018-08-30 22:33:21 · 102685 阅读 · 14 评论
Pandas 报错：TypeError: 'numpy.ndarray' object is not callable

一般来说，TypeError: 'numpy.ndarray' object is not callable的意思是你希望通过dataframe的类对象的方法得到numpy数组。例如博主的错误就是很典型的：known_age = age_df[age_df.Age.notnull()].values() # age_df[age_df.Age.notnull()]为一个dataframe...

原创 2018-08-27 09:55:01 · 106566 阅读 · 14 评论

机器学习库

作者: yyhhlancelot

关于matplotlib中的fig/axes/axis/subplot的区别

如何对groupby对象使用countvectorize方法（如何对多列groupby对象提取计数特征）

AttributeError: module 'scipy' has no attribute 'misc'

数据挖掘 数据分析 数据处理 EDA 常用API笔记（持续更新）

Scipy ValueError: 'arr' does not have a suitable array shape for any mode.

Numpy softmax函数注意事项及代码实现

matplotlib 使用plt.imshow()打开图像为空白的问题

Sklearn 里面的fit transform fit_transform的区别（为什么训练集用fit_transform()而测试集用transform()？）

Sklearn BaggingRegressor 无限循环/不停止运行的问题

Sklearn ValueError: This solver needs samples of at least 2 classes in the data, but the data

Pandas 关于dataframe的一列进行向下顺移的办法

Pandas 关于DataFrame通过条件删除多行并重置索引的办法

Pandas 通过索引提取dataframe的行

Pandas 关于pandas.DataFrame.fillna 填充Nan失败的问题

Pandas 过滤dataframe中包含特定字符串的数据

Pandas 报错 ：TypeError: 'numpy.ndarray' object is not callable

数据挖掘数据分析数据处理 EDA 常用API笔记（持续更新）

Pandas 报错：TypeError: 'numpy.ndarray' object is not callable