机器学习的一些想法和笔记
文章平均质量分 68
數據科學喵喵神教
-7年經驗數據科學家+咨詢
- Kaggle比賽Google Analytics Customer Revenue Prediction銀牌
- 認知語言學-第二外語習得碩士
- CUHK Data Science and Business Analytics碩士
展开
-
pycaret有多神,文檔就有多潦草 -- pycaret 如何查看setup之後的數據
介紹强大的機器學習包pycaret,内附詳細代碼,尤其是如何查看setup之後處理過的數據~原创 2023-08-08 11:51:48 · 243 阅读 · 0 评论 -
【机器学习】用特征量重要度(feature importance)解释模型靠谱么?怎么才能算出更靠谱的重要度?
特征量重要度的计算一般取决于用什么算法,如果是以决定树为基础(tree-based)的集成算法,比如随机森林,lightGBM之类的,一般都是取impurity(gini)平均下降幅度最大的一些特征,python的Scikit-learn里面就有命令可以计算。也有可能是现有的特征量无法很好的预测结果,有更重要的特征量缺失了。泛化性不好,一般是模型过度学习了训练数据的一些噪音,把噪音当规律了,这时候一些本来无关紧要的噪音特征量也会登上重要度榜首,所以这时单纯相信特征量就很容易跑偏,错过重要的特征。...原创 2022-07-28 12:07:47 · 8080 阅读 · 2 评论 -
【节选】吴恩达给出的AI职业生涯规划
职业发展的三个关键步骤是学习(获得技术和其他技能),在项目中工作(深化技能,建立作品集,并创造影响)和寻找工作。转载 2022-07-20 10:13:31 · 427 阅读 · 0 评论 -
Jupyter notebook报错: Notebook validation failed: Non-unique cell id ‘2a4xxxx6‘ detected...
我发现在jupyter notebook里面大量copy paste了一些cell之后,notebook会出现以下错误报错内容:Notebook validation failed: Non-unique cell id ‘2a4xxxx6’ detected. Corrected to ‘bxxxxccf’.: "原创 2022-07-05 09:27:00 · 1777 阅读 · 1 评论 -
如何找到时序列中的缺失月(missing month)/天(missing day)并补全?尤其针对多个客户或产品的月/天销量 -- 史上最简单方法,只要2行python代码
如何找到时序列中的缺失月(missing month)/天(missing day)并补全?尤其针对多个客户或产品的月/天销量有很多方式可以实现这个功能,比如用data_period做一个时间的dataframe然后和本身的df结合。但大多数方式应对复数个客户或产品都很麻烦,要加for / apply之类的,要写很多代码。以下是我所搜索到的最最最最简便美好的方法,没有之一,只要2行代码。速度也很快!数据科学家,数据分析的小伙伴推荐收藏备用,真的很感人~~问题和目标这是不同客户(12和34)的月销原创 2022-05-12 17:54:17 · 616 阅读 · 1 评论 -
模型预测精度(数值regression)评价指标 - RMSE, MAE, MAPE & Bias哪个指标更好?Forecast KPIs: RMSE, MAE, MAPE & Bias
在销量/需求预测时常用的一些模型评价指标,尤其是在supplychain销量预测等领域,哪些指标好,哪些不好?什么时候用什么指标。翻译 2022-01-17 16:43:10 · 14061 阅读 · 4 评论 -
我们为什么不喜欢随机游走random walk
随机游走,一个有趣却让人迷茫的现象。想象你在一个房间里抛硬币,头像朝上往左走一步,数字朝上往右走一步,走五十步之后,你觉得你会在哪里。如果走五十次,每次你都会在哪里。有人做了这个实验,记录下每次的路线和最后到达的位置。结果发现以同样的抛硬币方式走,每次最终的到达位置都相差很远。这貌似没什么。但如果你仔细看会发现,这些最终位置,居然符合高斯分布。像这样。为何会符合高斯分布呢?人们想也想不通。对于万物都寻求一个解释的人类来说,随机游走似乎有点反人类。白噪音,布朗运动,蚊群数量,金融市场。。。很长原创 2022-01-14 10:37:28 · 673 阅读 · 0 评论 -
inventory optimization
一些基本概念cycle service level:周期服务水平(Cycle-Service Level)是指:在从收到一批订货到收到下一批订货的任何一个订货周期内,不出现缺货的几率fill rate:达成率,满足客户需求的比率opportunity costs:机会成本backorders :延期交货lost sales:失销机会-缺货的隐性机会(即所谓失销成本);销售货物,可能由于供货,运输,季节,人为等因素所造成的缺货,由于缺货不能产生销售,而导致了损失;缺货是可能会发生的,失销也随时因缺原创 2022-01-13 15:38:39 · 338 阅读 · 0 评论 -
【时序列】时序列数据如何一步步分解成趋势(trend)季节性(seasonality)和误差(residual)- 详细理解python sm.tsa.seasonal_decompose
【时序列】时序列数据如何一步步分解成趋势(trend)季节性(seasonality)和误差(residual)- 详细理解python sm.tsa.seasonal_decompose在做时序列分析的时候,好多教程都告诉你要把时序列分解成趋势,季节性,残差,然后画图看一下有没有趋势变化,有没有季节性。像这样:import statsmodels.api as smdecomposition = sm.tsa.seasonal_decompose(train['Count'] ,model='add原创 2021-12-16 14:44:57 · 18947 阅读 · 30 评论 -
【时序列】windows10安装prophet出错 ERROR: Command errored out with exit status 1 怎么办
【时序列】windows10安装prophet出错 ERROR: Command errored out with exit status 1 解决方案环境windows10使用anaconda已经安装pystan。import pystan 正常通过问题以下代码安装prophet的时候报错: ERROR: Command errored out with exit status 1pip install fbprophet错误内容如下:解决方案不用pip,改成用conda安装解原创 2021-11-23 10:33:07 · 989 阅读 · 1 评论 -
【时序列】python怎么用R的auto-arima?pmdarima( 旧pyramid-arima)的安装方法
R语言中的auto-arima可以自动选择最合适的 q,p,d模型参数,简单好用。对于不熟悉R语言的小伙伴们,python里面也有包可以实现同样功能 就是 pmdarima。由于此包中途改名,导致很多人在安装的时候遇到问题。Pmdarima (旧名: pyramid-arima)不要再用这个command安装了。~~ pip install pyramid-arima~~正确安装方法pip install pmdarima调用方法from pmdarima.arima import auto原创 2021-11-19 13:31:36 · 2557 阅读 · 0 评论 -
MRP里如何预测lead time :Approaches for the Prediction of Lead Times in an Engineer to Order Environment
@[读论文]关于MRP里lead time的预测 - Approaches for the Prediction of Lead Times inan Engineer to Order Environment—A Systematic Review开始研究用机器学习技术解决一些工业生产(manufacture)里面关于MRP(material requirements planning)的一些问题。先侧重看一下关于lead time的预测,读一篇2020年发表于IEEE的关于leadtime预测研究原创 2021-11-03 14:27:54 · 480 阅读 · 0 评论 -
KNN为什么是监督学习?
KNN为什么是监督学习?KNN为什么是监督学习?KNN算法,最近邻居算法,虽然被归类为监督学习,但是我一直有些疑问。觉得它不算一个正经的监督学习算法。1. KNN压根没有学习过程KNN是没有学习过程的,所以应不应该归类为机器学习都不好说。它的算法大致如下,首先你有一堆有label的样本,然后来了一个新的没有label的数据点,你想把这个点分成既有的类别,怎么分?很容易想到方法是,看距离这个新的数据点的比较近的邻居,都是什么label的,如果大多数都是A类,那么这个新数据点很大可能性是A。至于K,只原创 2021-11-01 10:03:25 · 2865 阅读 · 0 评论