自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 【总结】2023年度小结

2023年度总结

2024-01-02 14:31:19 407

原创 誰能想到copy+paste竟會出bug

大家都知道作爲一名專業的數據科學家,最重要的技能便是copy +paste其他大神的代碼,改兩行,爲我所用。我一直如此兢兢業業的訓練我的此項技能,直到有一天.。。。那是在我参与一个客户的数据分析项目时,他们提供了一份包含数百万条用户行为数据的数据集。我们的目标是建立一个预测模型,根据用户的行为和特征来预测他们的购买意愿。一切看起来都很正常,我打開google开始搜索大神代碼。。。終於找到一個看起來很不錯很全的代碼,便開啓了copy paste模式。但是,儅我copy一大段神秘的機器學習代碼到我的

2023-08-18 10:24:28 198

原创 pycaret有多神,文檔就有多潦草 -- pycaret 如何查看setup之後的數據

介紹强大的機器學習包pycaret,内附詳細代碼,尤其是如何查看setup之後處理過的數據~

2023-08-08 11:51:48 243

原创 【机器学习】用特征量重要度(feature importance)解释模型靠谱么?怎么才能算出更靠谱的重要度?

特征量重要度的计算一般取决于用什么算法,如果是以决定树为基础(tree-based)的集成算法,比如随机森林,lightGBM之类的,一般都是取impurity(gini)平均下降幅度最大的一些特征,python的Scikit-learn里面就有命令可以计算。也有可能是现有的特征量无法很好的预测结果,有更重要的特征量缺失了。泛化性不好,一般是模型过度学习了训练数据的一些噪音,把噪音当规律了,这时候一些本来无关紧要的噪音特征量也会登上重要度榜首,所以这时单纯相信特征量就很容易跑偏,错过重要的特征。...

2022-07-28 12:07:47 8034 2

转载 【节选】吴恩达给出的AI职业生涯规划

职业发展的三个关键步骤是学习(获得技术和其他技能),在项目中工作(深化技能,建立作品集,并创造影响)和寻找工作。

2022-07-20 10:13:31 425

原创 Jupyter notebook报错: Notebook validation failed: Non-unique cell id ‘2a4xxxx6‘ detected...

我发现在jupyter notebook里面大量copy paste了一些cell之后,notebook会出现以下错误报错内容:Notebook validation failed: Non-unique cell id ‘2a4xxxx6’ detected. Corrected to ‘bxxxxccf’.: "

2022-07-05 09:27:00 1769 1

原创 如何找到时序列中的缺失月(missing month)/天(missing day)并补全?尤其针对多个客户或产品的月/天销量 -- 史上最简单方法,只要2行python代码

如何找到时序列中的缺失月(missing month)/天(missing day)并补全?尤其针对多个客户或产品的月/天销量有很多方式可以实现这个功能,比如用data_period做一个时间的dataframe然后和本身的df结合。但大多数方式应对复数个客户或产品都很麻烦,要加for / apply之类的,要写很多代码。以下是我所搜索到的最最最最简便美好的方法,没有之一,只要2行代码。速度也很快!数据科学家,数据分析的小伙伴推荐收藏备用,真的很感人~~问题和目标这是不同客户(12和34)的月销

2022-05-12 17:54:17 616 1

翻译 模型预测精度(数值regression)评价指标 - RMSE, MAE, MAPE & Bias哪个指标更好?Forecast KPIs: RMSE, MAE, MAPE & Bias

在销量/需求预测时常用的一些模型评价指标,尤其是在supplychain销量预测等领域,哪些指标好,哪些不好?什么时候用什么指标。

2022-01-17 16:43:10 13961 4

原创 我们为什么不喜欢随机游走random walk

随机游走,一个有趣却让人迷茫的现象。想象你在一个房间里抛硬币,头像朝上往左走一步,数字朝上往右走一步,走五十步之后,你觉得你会在哪里。如果走五十次,每次你都会在哪里。有人做了这个实验,记录下每次的路线和最后到达的位置。结果发现以同样的抛硬币方式走,每次最终的到达位置都相差很远。这貌似没什么。但如果你仔细看会发现,这些最终位置,居然符合高斯分布。像这样。为何会符合高斯分布呢?人们想也想不通。对于万物都寻求一个解释的人类来说,随机游走似乎有点反人类。白噪音,布朗运动,蚊群数量,金融市场。。。很长

2022-01-14 10:37:28 668

原创 inventory optimization

一些基本概念cycle service level:周期服务水平(Cycle-Service Level)是指:在从收到一批订货到收到下一批订货的任何一个订货周期内,不出现缺货的几率fill rate:达成率,满足客户需求的比率opportunity costs:机会成本backorders :延期交货lost sales:失销机会-缺货的隐性机会(即所谓失销成本);销售货物,可能由于供货,运输,季节,人为等因素所造成的缺货,由于缺货不能产生销售,而导致了损失;缺货是可能会发生的,失销也随时因缺

2022-01-13 15:38:39 338

原创 【总结】2021年终小结

2021年终小结成就告别东京搬到香港告别做了五年的第一份工作,经历了第一次转职,但同样还是做DataScientist和早稻田大学研究员的共同研究 《对于AI抽象作品的心理感知》研究于9月在IAEA学会发表8月开始和小伙伴学线性代数MIT教材,包括所有课后习题,现已学到第十章9月开始在csdn上发文,共计发了5篇博客9月开始了每周一拳击课第一次买加密货币玩了一年长板,认识了一些香港的玩伴装修了房子了解到一些有趣的概念或事件,比如拉普拉斯妖,随机游走,89大展等等比较遗憾的事没

2022-01-06 10:50:09 251

原创 【时序列】时序列数据如何一步步分解成趋势(trend)季节性(seasonality)和误差(residual)- 详细理解python sm.tsa.seasonal_decompose

【时序列】时序列数据如何一步步分解成趋势(trend)季节性(seasonality)和误差(residual)- 详细理解python sm.tsa.seasonal_decompose在做时序列分析的时候,好多教程都告诉你要把时序列分解成趋势,季节性,残差,然后画图看一下有没有趋势变化,有没有季节性。像这样:import statsmodels.api as smdecomposition = sm.tsa.seasonal_decompose(train['Count'] ,model='add

2021-12-16 14:44:57 18870 30

原创 【时序列】windows10安装prophet出错 ERROR: Command errored out with exit status 1 怎么办

【时序列】windows10安装prophet出错 ERROR: Command errored out with exit status 1 解决方案环境windows10使用anaconda已经安装pystan。import pystan 正常通过问题以下代码安装prophet的时候报错: ERROR: Command errored out with exit status 1pip install fbprophet错误内容如下:解决方案不用pip,改成用conda安装解

2021-11-23 10:33:07 988 1

原创 【时序列】python怎么用R的auto-arima?pmdarima( 旧pyramid-arima)的安装方法

R语言中的auto-arima可以自动选择最合适的 q,p,d模型参数,简单好用。对于不熟悉R语言的小伙伴们,python里面也有包可以实现同样功能 就是 pmdarima。由于此包中途改名,导致很多人在安装的时候遇到问题。Pmdarima (旧名: pyramid-arima)不要再用这个command安装了。~~ pip install pyramid-arima~~正确安装方法pip install pmdarima调用方法from pmdarima.arima import auto

2021-11-19 13:31:36 2553

原创 MRP里如何预测lead time :Approaches for the Prediction of Lead Times in an Engineer to Order Environment

@[读论文]关于MRP里lead time的预测 - Approaches for the Prediction of Lead Times inan Engineer to Order Environment—A Systematic Review开始研究用机器学习技术解决一些工业生产(manufacture)里面关于MRP(material requirements planning)的一些问题。先侧重看一下关于lead time的预测,读一篇2020年发表于IEEE的关于leadtime预测研究

2021-11-03 14:27:54 480

原创 KNN为什么是监督学习?

KNN为什么是监督学习?KNN为什么是监督学习?KNN算法,最近邻居算法,虽然被归类为监督学习,但是我一直有些疑问。觉得它不算一个正经的监督学习算法。1. KNN压根没有学习过程KNN是没有学习过程的,所以应不应该归类为机器学习都不好说。它的算法大致如下,首先你有一堆有label的样本,然后来了一个新的没有label的数据点,你想把这个点分成既有的类别,怎么分?很容易想到方法是,看距离这个新的数据点的比较近的邻居,都是什么label的,如果大多数都是A类,那么这个新数据点很大可能性是A。至于K,只

2021-11-01 10:03:25 2862

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除