【影像组学】从特征筛选到分类建模全流程实践及作图

taotaotao7777777

已于 2022-06-19 22:47:59 修改

阅读量9.4k

点赞数 19

分类专栏：生物信息学文章标签：分类 python 机器学习

于 2022-06-19 20:40:43 首次发布

本文链接：https://blog.csdn.net/zea408497299/article/details/125361922

版权

本文是一篇入门级影像组学的文章，涵盖了数据准备、特征权重和相关性分析、LASSO模型参数选择、随机森林分类器应用以及ROC曲线和精度、敏感度、特异度等评估指标的详细实践过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

1. 数据准备
2. 特征权重图
3. 特征相关性热度图 heatmap
4. LASSO 模型中 Lambda 选值图
5. 特征系数随 Lambda 变化曲线
6. 随机森林分类器
7. ROC 曲线
8. 精确度（Precision），敏感度（Sensitivity），特异度（Specificity）等输出

应用：入门级影像组学文章解析

1. 数据准备

# 导入包
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from scipy.stats import ttest_ind, levene
from sklearn.linear_model import LassoCV
from sklearn.utils import shuffle
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
import seaborn as sns # 作图包
import matplotlib.pyplot as plt # 作图包
from sklearn.metrics import roc_curve, roc_auc_score, classification_report # ROC 曲线 AUC 分类报告

# 导入数据
xlsx_a = 'data/featureTable/aa.xlsx'
xlsx_b = 'data/featureTable/bb.xlsx'
data_a = pd.read_excel(xlsx_a)
data_b = pd.read_excel(xlsx_b)
print(data_a.shape,data_b.shape)
# (212, 30) (357, 30)

# 数据预处理（加分组标签后合并）
rows_a,cols_a = data_a.shape
rows_b,cols_b = data_b.shape
labels_a = np.zeros(rows_a)
labels_b = np.ones(rows_b)
data_a.insert(0, 'label', labels_a)
data_b.insert(0, 'label', labels_b)
data = pd.concat([data_a,data_b])

# 数据集划分
data_train, data_test = train_test_split(data,test_size=0.3, random_state = 15)
data_train_a = data_train[:][data_train['label'] == 0]
data_train_b = data_train[:][data_train['label'] == 1]
data_test_a = data_test[:][data_test['label'] == 0]
data_test_b = data_test[:][data_test['label'] == 1]
print(data_train_a.shape)
print(data_train_b.shape)
print(data_test_a.shape)
print(data_test_b.shape)
# (150, 31)
# (248, 31)
# (62, 31)
# (109, 31)

# T 检验特征筛选（训练集）</

最低0.47元/天解锁文章