NLP问题的日常碎碎念

最新推荐文章于 2021-03-27 19:27:49 发布

南楚巫妖

最新推荐文章于 2021-03-27 19:27:49 发布

阅读量349

点赞数

分类专栏： sklearn kaggle

本文链接：https://blog.csdn.net/yingdajun/article/details/106453651

版权

kaggle 同时被 2 个专栏收录

8 篇文章 2 订阅

订阅专栏

sklearn

4 篇文章 0 订阅

订阅专栏

NLP问题本3质其实就是数据为文本，预处理方式不同的机器学习问题。

所以就我复现kaggle比赛的一些经验我可以这么写一点经验。

1.预处理

这个真的是重要中的重要，如果数据集不好，用什么方法效率都很低

相对于英文的预处理，有着非常复杂的去数据的过程。中文感觉只需要一个jieba.stopword和corpus就行。

在这里其实可以用pandas读取数据后，再积累一些堆积的方法，然后一次性给它割的干干净净，这样十分光滑，减少痛苦。

2.模型搭建。

我见过两种模型

1.使用pipeLine将特征提取，模型搭建，参数优化集合在一起。

2.是这种方法，相当于把各种模型进行模块化了，例如：

def model_LR():
# creating classifier
clf = LogisticRegression(tol=1e-8, penalty='l2', C=2)
# training classifier
clf.fit(X_train, label_train)
# model type
print("Model: ",type(clf))
# Predicting probabilities
p = clf.predict_proba(X_val)
return (clf.predict(X_val),p)

def model_SVM():
# creating classifier
clf = svm.LinearSVC(penalty='l2', loss='squared_hinge',tol=1e-8)
# training classifier
clf.fit(X_train, label_train)
# model type
print("Model: ",type(clf))
return clf.predict(X_val)

# Bernoulli Naive Baiyes
def model_BernoulliNB():
# creating classifier
clf = nb.BernoulliNB(alpha=1.0, binarize=0.0)
# training classifier
clf.fit(X_train, label_train)
# model type
print("Model: ",type(clf))
# Predicting probabilities
p = clf.predict_proba(X_val)
return (clf.predict(X_val),p)

衡量标准有这些

def model_evaluation(model,label_test):
#accuracy=np.mean(model == label_test)
#print("%.4f"%np.mean(model == label_test))
# confusion matrix:
cm = confusion_matrix(label_test, model, labels=None, sample_weight=None)
tp, fn, fp, tn = cm[0][0], cm[0][1], cm[1][0], cm[1][1]
precision= float(tp)/(tp+fp)
recall = float(tp)/(tp+tn)
accuracy = np.mean(model == label_test)
print_results (precision, recall, accuracy)
return accuracy

def print_results (precision, recall, accuracy):
banner = "Here is the classification report"
print ('\n',banner)
print ('=' * len(banner))
print ('{0:10s} {1:.1f}'.format('Precision',precision*100))
print ('{0:10s} {1:.1f}'.format('Recall',recall*100))
print ('{0:10s} {1:.1f}'.format('Accuracy',accuracy*100))

#print("*****PRECISION****")
#print("%.4f"%(tp/(tp+fp)))
#print("*****RECALL****")
#print("%.4f"%(tp/(tp+tn)))
#return accuracy

这样就形成了一个模块就可以进行愉快的进行各种算法模型的研究了。

南楚巫妖

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
NLP问题的日常碎碎念

NLP问题本3质其实就是数据为文本，预处理方式不同的机器学习问题。所以就我复现kaggle比赛的一些经验我可以这么写一点经验。1.预处理这个真的是重要中的重要，如果数据集不好，用什么方法效率都很低相对于英文的预处理，有着非常复杂的去数据的过程。中文感觉只需要一个jieba.stopword和corpus就行。在这里其实可以用pandas读取数据后，再积累一些堆积的方法，然后一次性给它割的干干净净，这样十分光滑，减少痛苦。2.模型搭建。我见过两种模型1.使用pipeLine将特
复制链接

扫一扫