机器学习的一些想法和笔记_數據科學喵喵神教的博客-CSDN博客

机器学习的一些想法和笔记

关注

文章平均质量分 68

关注数：文章数：13 文章阅读量：56810 文章收藏量：279

作者: 數據科學喵喵神教

-7年經驗數據科學家+咨詢 - Kaggle比賽Google Analytics Customer Revenue Prediction銀牌 - 認知語言學-第二外語習得碩士 - CUHK Data Science and Business Analytics碩士

展开

pycaret有多神，文檔就有多潦草 -- pycaret 如何查看setup之後的數據

介紹强大的機器學習包pycaret，内附詳細代碼，尤其是如何查看setup之後處理過的數據~

原创 2023-08-08 11:51:48 · 275 阅读 · 0 评论
【机器学习】用特征量重要度(feature importance)解释模型靠谱么？怎么才能算出更靠谱的重要度？

特征量重要度的计算一般取决于用什么算法，如果是以决定树为基础（tree-based）的集成算法，比如随机森林，lightGBM之类的，一般都是取impurity（gini）平均下降幅度最大的一些特征，python的Scikit-learn里面就有命令可以计算。也有可能是现有的特征量无法很好的预测结果，有更重要的特征量缺失了。泛化性不好，一般是模型过度学习了训练数据的一些噪音，把噪音当规律了，这时候一些本来无关紧要的噪音特征量也会登上重要度榜首，所以这时单纯相信特征量就很容易跑偏，错过重要的特征。...

原创 2022-07-28 12:07:47 · 9404 阅读 · 3 评论
【节选】吴恩达给出的AI职业生涯规划

职业发展的三个关键步骤是学习（获得技术和其他技能），在项目中工作（深化技能，建立作品集，并创造影响）和寻找工作。

转载 2022-07-20 10:13:31 · 454 阅读 · 0 评论
Jupyter notebook报错: Notebook validation failed: Non-unique cell id ‘2a4xxxx6‘ detected...

我发现在jupyter notebook里面大量copy paste了一些cell之后，notebook会出现以下错误报错内容：Notebook validation failed: Non-unique cell id ‘2a4xxxx6’ detected. Corrected to ‘bxxxxccf’.: "

原创 2022-07-05 09:27:00 · 1833 阅读 · 1 评论
如何找到时序列中的缺失月（missing month）/天（missing day）并补全？尤其针对多个客户或产品的月/天销量 -- 史上最简单方法，只要2行python代码

如何找到时序列中的缺失月（missing month）/天（missing day）并补全？尤其针对多个客户或产品的月/天销量有很多方式可以实现这个功能，比如用data_period做一个时间的dataframe然后和本身的df结合。但大多数方式应对复数个客户或产品都很麻烦，要加for / apply之类的，要写很多代码。以下是我所搜索到的最最最最简便美好的方法，没有之一，只要2行代码。速度也很快！数据科学家，数据分析的小伙伴推荐收藏备用，真的很感人~~问题和目标这是不同客户（12和34）的月销

原创 2022-05-12 17:54:17 · 642 阅读 · 1 评论
模型预测精度（数值regression）评价指标 - RMSE, MAE, MAPE & Bias哪个指标更好？Forecast KPIs: RMSE, MAE, MAPE & Bias

在销量/需求预测时常用的一些模型评价指标，尤其是在supplychain销量预测等领域，哪些指标好，哪些不好？什么时候用什么指标。

翻译 2022-01-17 16:43:10 · 15380 阅读 · 4 评论
我们为什么不喜欢随机游走random walk

随机游走，一个有趣却让人迷茫的现象。想象你在一个房间里抛硬币，头像朝上往左走一步，数字朝上往右走一步，走五十步之后，你觉得你会在哪里。如果走五十次，每次你都会在哪里。有人做了这个实验，记录下每次的路线和最后到达的位置。结果发现以同样的抛硬币方式走，每次最终的到达位置都相差很远。这貌似没什么。但如果你仔细看会发现，这些最终位置，居然符合高斯分布。像这样。为何会符合高斯分布呢？人们想也想不通。对于万物都寻求一个解释的人类来说，随机游走似乎有点反人类。白噪音，布朗运动，蚊群数量，金融市场。。。很长

原创 2022-01-14 10:37:28 · 697 阅读 · 0 评论
inventory optimization

一些基本概念cycle service level：周期服务水平(Cycle-Service Level)是指：在从收到一批订货到收到下一批订货的任何一个订货周期内，不出现缺货的几率fill rate：达成率，满足客户需求的比率opportunity costs：机会成本backorders ：延期交货lost sales：失销机会-缺货的隐性机会（即所谓失销成本）;销售货物,可能由于供货,运输,季节,人为等因素所造成的缺货,由于缺货不能产生销售,而导致了损失;缺货是可能会发生的,失销也随时因缺

原创 2022-01-13 15:38:39 · 372 阅读 · 0 评论
【时序列】时序列数据如何一步步分解成趋势（trend）季节性（seasonality）和误差（residual）- 详细理解python sm.tsa.seasonal_decompose

【时序列】时序列数据如何一步步分解成趋势（trend）季节性（seasonality）和误差（residual）- 详细理解python sm.tsa.seasonal_decompose在做时序列分析的时候，好多教程都告诉你要把时序列分解成趋势，季节性，残差，然后画图看一下有没有趋势变化，有没有季节性。像这样：import statsmodels.api as smdecomposition = sm.tsa.seasonal_decompose(train['Count'] ,model='add

原创 2021-12-16 14:44:57 · 20669 阅读 · 30 评论
【时序列】windows10安装prophet出错 ERROR: Command errored out with exit status 1 怎么办

【时序列】windows10安装prophet出错 ERROR: Command errored out with exit status 1 解决方案环境windows10使用anaconda已经安装pystan。import pystan 正常通过问题以下代码安装prophet的时候报错： ERROR: Command errored out with exit status 1pip install fbprophet错误内容如下：解决方案不用pip，改成用conda安装解

原创 2021-11-23 10:33:07 · 1009 阅读 · 1 评论
【时序列】python怎么用R的auto-arima？pmdarima（旧pyramid-arima）的安装方法

R语言中的auto-arima可以自动选择最合适的 q,p,d模型参数，简单好用。对于不熟悉R语言的小伙伴们，python里面也有包可以实现同样功能就是 pmdarima。由于此包中途改名，导致很多人在安装的时候遇到问题。Pmdarima (旧名： pyramid-arima)不要再用这个command安装了。~~ pip install pyramid-arima~~正确安装方法pip install pmdarima调用方法from pmdarima.arima import auto

原创 2021-11-19 13:31:36 · 2607 阅读 · 0 评论
MRP里如何预测lead time ：Approaches for the Prediction of Lead Times in an Engineer to Order Environment

@[读论文]关于MRP里lead time的预测 - Approaches for the Prediction of Lead Times inan Engineer to Order Environment—A Systematic Review开始研究用机器学习技术解决一些工业生产（manufacture）里面关于MRP（material requirements planning）的一些问题。先侧重看一下关于lead time的预测，读一篇2020年发表于IEEE的关于leadtime预测研究

原创 2021-11-03 14:27:54 · 501 阅读 · 0 评论
KNN为什么是监督学习？

KNN为什么是监督学习？KNN为什么是监督学习？KNN算法，最近邻居算法，虽然被归类为监督学习，但是我一直有些疑问。觉得它不算一个正经的监督学习算法。1. KNN压根没有学习过程KNN是没有学习过程的，所以应不应该归类为机器学习都不好说。它的算法大致如下，首先你有一堆有label的样本，然后来了一个新的没有label的数据点，你想把这个点分成既有的类别，怎么分？很容易想到方法是，看距离这个新的数据点的比较近的邻居，都是什么label的，如果大多数都是A类，那么这个新数据点很大可能性是A。至于K，只

原创 2021-11-01 10:03:25 · 3004 阅读 · 0 评论

机器学习的一些想法和笔记

作者: 數據科學喵喵神教

pycaret有多神，文檔就有多潦草 -- pycaret 如何查看setup之後的數據

【机器学习】用特征量重要度(feature importance)解释模型靠谱么？怎么才能算出更靠谱的重要度？

【节选】吴恩达给出的AI职业生涯规划

Jupyter notebook报错: Notebook validation failed: Non-unique cell id ‘2a4xxxx6‘ detected...

如何找到时序列中的缺失月（missing month）/天（missing day）并补全？尤其针对多个客户或产品的月/天销量 -- 史上最简单方法，只要2行python代码

模型预测精度（数值regression）评价指标 - RMSE, MAE, MAPE & Bias哪个指标更好？Forecast KPIs: RMSE, MAE, MAPE & Bias

我们为什么不喜欢随机游走random walk

inventory optimization

【时序列】时序列数据如何一步步分解成趋势（trend）季节性（seasonality）和误差（residual）- 详细理解python sm.tsa.seasonal_decompose

【时序列】windows10安装prophet出错 ERROR: Command errored out with exit status 1 怎么办

【时序列】python怎么用R的auto-arima？pmdarima（ 旧pyramid-arima）的安装方法

MRP里如何预测lead time ：Approaches for the Prediction of Lead Times in an Engineer to Order Environment

KNN为什么是监督学习？

【时序列】python怎么用R的auto-arima？pmdarima（旧pyramid-arima）的安装方法