python sklearn2pmml保存tfidf+kmeans模型

最新推荐文章于 2024-08-09 07:19:03 发布

wshzd

最新推荐文章于 2024-08-09 07:19:03 发布

阅读量2k

点赞数 1

分类专栏： Python 机器学习文章标签： python sklearn sklearn2pmml

本文链接：https://blog.csdn.net/wshzd/article/details/96840214

版权

Python 同时被 2 个专栏收录

45 篇文章 0 订阅

订阅专栏

机器学习

13 篇文章 0 订阅

订阅专栏

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer, TfidfVectorizer
from sklearn2pmml.feature_extraction.text import Splitter
from sklearn.cluster import KMeans
from sklearn2pmml.pipeline import PMMLPipeline
from sklearn2pmml import sklearn2pmml

// 读取文件内容，目前文件分词为空格分隔
with open('data/segment{}.txt'.format(label), 'r', encoding='utf8') as f:
    sentences = f.readlines()

// 构建pipeline
pipeline = PMMLPipeline([("td_vector", TfidfVectorizer(max_df=0.7, min_df=0.01, tokenizer=Splitter(), norm=None)), ("km", KMeans(n_clusters=100, random_state=1000))])
// 需要注意的是TfidfVectorizer 1）一定不能使用正则；2）使用分词器tokenizer=Splitter()
pipeline.fit(sentences)
sklearn2pmml(pipeline, "hzd.pmml")