xgboost踩坑笔记——shap.TreeExplainer(model)报错 ‘utf-8‘不能编码问题：utf-8 codec cant decode byte......

最新推荐文章于 2025-04-14 17:08:01 发布

hengheng21

最新推荐文章于 2025-04-14 17:08:01 发布

阅读量3.7k

点赞数

分类专栏： Python 文章标签： python 机器学习数据分析

本文链接：https://blog.csdn.net/weixin_45520028/article/details/108849865

版权

Python 专栏收录该内容

10 篇文章

订阅专栏

博客介绍了在使用shap库解释xgboost模型时遇到的编码错误，问题源于xgboost版本1.1.0及以上。解决方法包括回退到1.0.0版本或者通过修改模型的保存方式来规避编码问题。具体解决步骤是在模型保存后删除'binf'前缀，然后自定义模型的save_raw方法。这样，shap库可以正常工作进行模型可视化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

shap.TreeExplainer(model)报错 ‘utf-8’ 不能编码问题

shap.TreeExplainer(model)运行报错：
‘utf-8’ codec can’t decode byte 0xff in position 341: invalid start byte

shap可以用于xgboost的模型可视化解释，很好用。
报错原因：xgb版本问题，1.1.0及以上会出现，老版本不会。

解决方法一

重装xgboost至1.0.0版本

解决方法二

查看问题：
1 首先，xgb建模中有

model = xgb.train(params, dtrain,......)

2 将模型保存输出（xgb的1.1.0及以上版本），会发现：

model.save_raw()
# 1.1.0及以上输出结果为：
bytearray(b'binf\x00\x00\x00?\x0e\x00...

在xgb的1.0.0，输出为

model.save_raw()
# 输出结果为：
bytearray(b'\x00\x00\x00?\x0e\x00...

结果是编码开头少四个字符binf
解决方法：
3 修改模型
在建模之后，在shap.TreeExplainer(model)之前，添加代码：

# 对model的编码，删除binf
model_modify = model.save_raw()[4:]
def myfun(self=None):
    return model_modify
model.save_raw = myfun

其他不用动，shap可以正常使用了

参考：
https://github.com/slundberg/shap/issues/1215