第44讲：玩转土壤数据！用机器学习挖掘地球皮肤的秘密 [特殊字符][特殊字符]-CSDN博客

# 示例数据结构（R语言）
str(soil_data)

## 'data.frame':	500 obs. of  8 variables:
##  $ SOC     : num  
##  $ NDVI    : num  
##  $ Elev    : num  
##  $ Rain    : num  
##  $ Temp    : num  
##  $ LU_type : Factor w/ 5 levels "forest","cropland",... 
##  $ lon     : num  
##  $ lat     : num

🤖 三、建模流程 Step-by-Step

1️⃣ 数据预处理

library(tidyverse)
soil_data <- soil_data %>%
  drop_na() %>%
  mutate(LU_type = as.factor(LU_type))

2️⃣ 特征工程与建模（Random Forest）

library(randomForest)
set.seed(123)

rf_model <- randomForest(SOC ~ ., data = soil_data[, -c(7,8)], ntree=500, importance=TRUE)
print(rf_model)

🌟 重要变量可视化：

varImpPlot(rf_model)

你可能会发现：NDVI、降水、土地类型是预测SOC的关键因子！

🧪 四、模型评估与空间预测

🧮 拆分训练测试集：

library(caret)
set.seed(42)
split <- createDataPartition(soil_data$SOC, p = 0.8, list = FALSE)
train <- soil_data[split, ]
test  <- soil_data[-split, ]

rf <- randomForest(SOC ~ ., data = train[, -c(7,8)])
pred <- predict(rf, newdata = test)

RMSE <- sqrt(mean((pred - test$SOC)^2))
R2 <- cor(pred, test$SOC)^2

cat("模型性能：RMSE =", round(RMSE, 2), "; R² =", round(R2, 2))

🗺️ 五、扩展：基于遥感的空间预测图

你还可以结合 raster 包或 terra 包，对遥感图层进行预测，绘出SOC空间分布图！

library(raster)
stacked_env <- stack("NDVI.tif", "Rain.tif", "Temp.tif", "LU_type.tif")
names(stacked_env) <- c("NDVI", "Rain", "Temp", "LU_type")

pred_map <- predict(stacked_env, rf_model, progress='text')
plot(pred_map, main="预测SOC空间分布图")

💡 六、延伸阅读与技巧

模型推荐	优点	工具包
Random Forest	抗噪强、变量重要性明显	`randomForest`
XGBoost	表现优越、可调参数丰富	`xgboost`
Support Vector	小数据集强大表现	`e1071`
神经网络（MLP）	可建更复杂关系	`nnet`, `keras`