使用sklearn对数据库中的数据跑LDA、RF、SVM、LR算法

最新推荐文章于 2024-06-28 10:32:47 发布

秀秀的奇妙旅行

最新推荐文章于 2024-06-28 10:32:47 发布

阅读量602

点赞数

分类专栏：实践专栏机器学习文章标签： sklearn

本文链接：https://blog.csdn.net/yunxiu988622/article/details/124006272

版权

实践专栏同时被 2 个专栏收录

11 篇文章 0 订阅

订阅专栏

机器学习

5 篇文章 0 订阅

订阅专栏

sys.modules['hs'].__dict__.clear()

Python编程——sys模块的使用详解
 python sys.modules模块

对数据库中的数据进行转换

把数据根据具体情景转换为0,1，特征和lable都得是数字
把数据换成array data_d = np.array(data_d)

#将数据转换成0，1，2
def digitization_data(origin_data):
    d_data = []
    for i in origin_data:
        d = []
        for j in i:
        	# 自变量X
            if type(j) == type('A'):
                if j == 'A':
                    d.append(0)
                elif j == 'B':
                    d.append(1)
             # 因变量y
            elif type(j) == float:
                if j > 70.0:
                    d.append(1)
                else:
                    d.append(0)
        d_data.append(d)
    return d_data

对一维或者多维数组切片得到X y

data_d = digitization_data(obtain_d_data())
X, y = data[:, :-1], data[:, -1]

python 二维数组切片
 Python高级特性——多维数组切片（Slice）
python中的切片

输入数据，训练模型代码

跑数据无论是数据库还是矩阵都要清楚数据的格式m*n

def RF_d(data):
    obtain_features = []
    roc_auc = []  # 记录不同特征数执行模型的到的auc值
    index = []  # 执行模型使用的特征数

    # 随机森林法
    X, y = data[:, :-1], data[:, -1]
    model = RandomForestClassifier(n_estimators=30, min_samples_split=2, random_state=0)
    #训练
    model.fit(X, y)
    importances = model.feature_importances_
    print(importances)

    # 根据特征重要性进行向前特征选择
    l = len(importances)
    for j in range(l):
        # 添加第j+1大的特征
        a = heapq.nlargest(j + 1, range(len(importances)), importances.take)
        i = a[j]
        obtain_features.append(i)

        # 获取特征对应的数据
        X1, y1 = data[:, obtain_features], data[:, -1]
        score = cross_val_score(model, X1, y1, cv=10, scoring='roc_auc')
        index.append(j + 1)
        roc_auc.append(score.mean())

    selectfeature = []
    t = 0
    for r in roc_auc:
        selectfeature.append(obtain_features[t])
        if r > 0.91:
            break
        t += 1

    X2, y2 = data[:, selectfeature], data[:, -1]
    acc = cross_val_score(model, X2, y2, cv=10, scoring='accuracy')
    return index, roc_auc, obtain_features, selectfeature