Alink(02) 情感分析（官网案例）详细解析（注释详细版）

最新推荐文章于 2024-04-17 16:59:30 发布

猫猫聚会Ing

最新推荐文章于 2024-04-17 16:59:30 发布

阅读量1.1k

点赞数 1

分类专栏： ALink 篇文章标签： java 算法

本文链接：https://blog.csdn.net/weixin_43755082/article/details/120765562

版权

ALink 篇专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1、Alink 情感分析地址：Alink中文情感分析示例（Java版本） · 语雀

4、案例全流程：（数据加载 + 模型训练 + 预测）

5、案例全流程拆分：数据源加载 + 模型训练 + 模型存储AK

6、案例全流程拆分：加载AK模型 + 预测数据 + 执行模型预测

1、Alink 情感分析地址：Alink中文情感分析示例（Java版本） · 语雀

2、代码示例解析

import com.alibaba.alink.operator.batch.BatchOperator;
import com.alibaba.alink.operator.batch.source.CsvSourceBatchOp;
import com.alibaba.alink.pipeline.Pipeline;
import com.alibaba.alink.pipeline.PipelineModel;
import com.alibaba.alink.pipeline.classification.LogisticRegression;
import com.alibaba.alink.pipeline.dataproc.Imputer;
import com.alibaba.alink.pipeline.nlp.DocCountVectorizer;
import com.alibaba.alink.pipeline.nlp.Segment;
import com.alibaba.alink.pipeline.nlp.StopWordsRemover;

/**
 * 示例：alink：批式训练和保存模型，流式消费和分类文本
 *      1、https://blog.csdn.net/asdf1368822590/article/details/118370000
 * 示例：情感分析
 *      1、https://blog.csdn.net/Alink1024/article/details/107811435
 *      2、方法解释说明
 *
 * @Author: menghuan
 * @Date: 2021/9/3 17:47
 */

public class AlinkModelTrain {

    public static void main(String[] args) throws Exception {

        System.out.println("开始准备离线训练配置信息 ==================================================================");

        // 模型文件路径
        String modelPath = "G:/Idea-Workspaces/AlinkExample/src/main/resources/model.csv";
        // 训练文件路径 = 静态资源路径+文件目录路径
        String trainPath = "G:/Idea-Workspaces/AlinkExample/src/main/resources/static/train.txt";
        // 数据源格式
        String schema = "label int , review string";

        // 训练资源
        CsvSourceBatchOp trainSource = new CsvSourceBatchOp()
                .setFilePath(trainPath)
                .setFieldDelimiter("|")
                .setSchemaStr(schema)
                //.setSchemaStr("label int , review string")
                .setIgnoreFirstLine(true);

        // 选择5条数据打印显示出来
        // trainSource.firstN(5).print();

        // 设置 Pipeline，将整个处理和模型过程封装在里面
        Pipeline pipeline = new Pipeline(
                /*各个算法组件的作用*/
                // 对“review”列进行缺失值填充，方式是填充字符串值“null”，结果写到“featureText“列。
                new Imputer()
                        .setSelectedCols("review")
                        .setOutputCols("featureText")
                        .setStrategy("value")
                        .setFillValue("null"),
                // 是进行分词操作，即将原句子分解为单词，之间用空格分隔。由于没有输入结果列，分词结果会直接替换掉输入列的值。
                new Segment()
                        .setSelectedCol("featureText"),
                // 是将分词结果中的停用词去掉
                new StopWordsRemover()
                        .setSelectedCol("featureText"),
                // 对“featureText“列出现的单词进行统计，并根据计算出的TF值，将句子映射为向量，向量长度为单词个数，并保存在"featureVector"列
                new DocCountVectorizer()
                        .setFeatureType("TF")
                        .setSelectedCol("featureText")
                        .setOutputCol("featureVector"),
                // 是使用LogisticRegression分类模型。分类预测放在“pred” 列
                new LogisticRegression()
                        .setVectorCol("featureVector")
                        .setLabelCol("label")
                        .setPredictionCol("pred")
        );
        // 进入模型训练阶段
        // 通过 Pipeline 的 fit()方法，可以得到整个流程的模型（PipelineModel），记作变量 model
        PipelineModel model = pipeline.fit(trainSource);

        // 保存训练的模型文件
        // model.save(modelPath);
        // 覆写训练的模型文件（Alink 1.1.0 前 无该方法，Alink 1.3.0 后有该方法）
        model.save(modelPath,true);

        System.out.println("离线批处理训练开始执行 ====================================================================");
        BatchOperator.execute();

    }

}

3、项目资源文件 - 示例

1、train.txt

label|review
1|我是折扣后台 请一起折扣玩这个游戏 BUFF 果盘 小七 66手游 请折后再找我返现金 微信YYDM63
1|晚上好请折扣充值玩家主动找我返现金，免费98券和激活码buff 果盘 66手游 小七玩家，微信yydm63
1|免费98券和6激活码 BUFF小七自助45折后返现 果盘66游自助三浙后返现 不管哪个区 微信YYDM63
1|我是折扣后台 请BUFF 果盘 66手游 小七玩家自助三浙后再找我返现金 首3续35领98券 返现微信YYDM63
0|扎啤配生拌牛肉那才叫爽ee5
0|头部有糕的话也可以的
0|坐标世界可以发
0|来吧
0|我还有6次
1|老区玩家好 请自助打折后还可以再找我返现金 BUFF 果盘 66手游 小七玩家请主动找我返现 微信YYDM63
1|哎 训练出来一个AI智障吗
1|小毕对氪金说 来来来 solo
1|小毕掀起你们的头盖骨来

2、train2.txt

label|review
1|哎 训练出来一个AI智障吗
1|小毕对氪金说 来来来 solo
1|小毕掀起你们的头盖骨来

3、train3.txt

review
哎 训练出来一个AI智障吗
小毕对氪金说 来来来 solo
小毕掀起你们的头盖骨来

4、案例全流程：（数据加载 + 模型训练 + 预测）

import com.alibaba.alink.operator.batch.source.CsvSourceBatchOp;
import com.alibaba.alink.pipeline.Pipeline;
import com.alibaba.alink.pipeline.PipelineModel;
import com.alibaba.alink.pipeline.classification.LogisticRegression;
import com.alibaba.alink.pipeline.dataproc.Imputer;
import com.alibaba.alink.pipeline.nlp.DocCountVectorizer;
import com.alibaba.alink.pipeline.nlp.Segment;
import com.alibaba.alink.pipeline.nlp.StopWordsRemover;

/**
 * 示例：alink：批式训练和保存模型，流式消费和分类文本
 *      1、https://blog.csdn.net/asdf1368822590/article/details/118370000
 * 示例：情感分析
 *      1、https://blog.csdn.net/Alink1024/article/details/107811435
 *      2、方法解释说明
 *
 * @Author: menghuan
 * @Date: 2021/9/3 17:47
 */

public class AlinkModelTrain2 {

    public static void main(String[] args) throws Exception {

        System.out.println("开始准备离线训练配置信息 ==================================================================");

        // 模型文件路径
        String modelPath = "G:/Idea-Workspaces/AlinkExample/src/main/resources/model.csv";
        // 训练文件路径 = 静态资源路径+文件目录路径
        String trainPath = "G:/Idea-Workspaces/AlinkExample/src/main/resources/static/train.txt";
        // 预测文件路径
        String trainPath2 = "G:/Idea-Workspaces/AlinkExample/src/main/resources/static/train2.txt";

        // 训练数据源
        CsvSourceBatchOp trainSource = new CsvSourceBatchOp()
                .setFilePath(trainPath)
                .setFieldDelimiter("|")
                .setSchemaStr("label int , review string")
                .setIgnoreFirstLine(true);

        // 预测数据源
        CsvSourceBatchOp predictorResource = new CsvSourceBatchOp()
                .setFilePath(trainPath2)
                .setFieldDelimiter("|")
                .setSchemaStr("label int , review string")
                .setIgnoreFirstLine(true);

        // 选择5条数据打印显示出来
        // trainSource.firstN(5).print();

        // 设置 Pipeline，将整个处理和模型过程封装在里面
        Pipeline pipeline = new Pipeline(
                /*各个算法组件的作用*/
                // 对“review”列进行缺失值填充，方式是填充字符串值“null”，结果写到“featureText“列。
                new Imputer()
                        .setSelectedCols("review")
                        .setOutputCols("featureText")
                        .setStrategy("value")
                        .setFillValue("null"),
                // 是进行分词操作，即将原句子分解为单词，之间用空格分隔。由于没有输入结果列，分词结果会直接替换掉输入列的值。
                new Segment()
                        .setSelectedCol("featureText"),
                // 是将分词结果中的停用词去掉
                new StopWordsRemover()
                        .setSelectedCol("featureText"),
                // 对“featureText“列出现的单词进行统计，并根据计算出的TF值，将句子映射为向量，向量长度为单词个数，并保存在"featureVector"列
                new DocCountVectorizer()
                        .setFeatureType("TF")
                        .setSelectedCol("featureText")
                        .setOutputCol("featureVector"),
                // 是使用LogisticRegression分类模型。分类预测放在“pred” 列
                new LogisticRegression()
                        .setVectorCol("featureVector")
                        .setLabelCol("label")
                        .setPredictionCol("pred")
        );
        // 进入模型训练阶段
        // 通过 Pipeline 的 fit()方法，可以得到整个流程的模型（PipelineModel），记作变量 model
        PipelineModel model = pipeline.fit(trainSource);

        System.out.println("加载模型执行预测 ==========================================================================");

        // 使用 model 可以对批式/流式数据进行预测，都是调用model的transform()方法。
        model.transform(predictorResource)
                // select 可控制最终结果打印的数据列
                .select(new String[] {"pred", "label", "review"})
                .firstN(10)
                .print();
    }

}

5、案例全流程拆分：数据源加载 + 模型训练 + 模型存储AK

import com.alibaba.alink.operator.batch.BatchOperator;
import com.alibaba.alink.operator.batch.source.CsvSourceBatchOp;
import com.alibaba.alink.pipeline.Pipeline;
import com.alibaba.alink.pipeline.PipelineModel;
import com.alibaba.alink.pipeline.classification.LogisticRegression;
import com.alibaba.alink.pipeline.dataproc.Imputer;
import com.alibaba.alink.pipeline.nlp.DocCountVectorizer;
import com.alibaba.alink.pipeline.nlp.Segment;
import com.alibaba.alink.pipeline.nlp.StopWordsRemover;

/**
 * 示例：alink：批式训练和保存模型，流式消费和分类文本
 *      1、https://blog.csdn.net/asdf1368822590/article/details/118370000
 * 示例：情感分析
 *      1、https://blog.csdn.net/Alink1024/article/details/107811435
 *      2、方法解释说明
 *
 * @Author: menghuan
 * @Date: 2021/9/3 17:47
 */

public class AlinkModelSaveAK {

    public static void main(String[] args) throws Exception {

        System.out.println("开始准备离线训练配置信息 ==================================================================");

        // 模型文件路径
        String modelPath = "G:/Idea-Workspaces/AlinkExample/src/main/resources/model.ak";
        // 训练文件路径 = 静态资源路径+文件目录路径
        String trainPath = "G:/Idea-Workspaces/AlinkExample/src/main/resources/static/train.txt";

        // 训练数据源
        CsvSourceBatchOp trainSource = new CsvSourceBatchOp()
                .setFilePath(trainPath)
                .setFieldDelimiter("|")
                .setSchemaStr("label int , review string")
                .setIgnoreFirstLine(true);
        // 选择5条数据打印显示出来
        // trainSource.firstN(5).print();

        // 设置 Pipeline，将整个处理和模型过程封装在里面
        Pipeline pipeline = new Pipeline(
                /*各个算法组件的作用*/
                // 对“review”列进行缺失值填充，方式是填充字符串值“null”，结果写到“featureText“列。
                new Imputer()
                        .setSelectedCols("review")
                        .setOutputCols("featureText")
                        .setStrategy("value")
                        .setFillValue("null"),
                // 是进行分词操作，即将原句子分解为单词，之间用空格分隔。由于没有输入结果列，分词结果会直接替换掉输入列的值。
                new Segment()
                        .setSelectedCol("featureText"),
                // 是将分词结果中的停用词去掉
                new StopWordsRemover()
                        .setSelectedCol("featureText"),
                // 对“featureText“列出现的单词进行统计，并根据计算出的TF值，将句子映射为向量，向量长度为单词个数，并保存在"featureVector"列
                new DocCountVectorizer()
                        .setFeatureType("TF")
                        .setSelectedCol("featureText")
                        .setOutputCol("featureVector"),
                // 是使用LogisticRegression分类模型。分类预测放在“pred” 列
                new LogisticRegression()
                        .setVectorCol("featureVector")
                        .setLabelCol("label")
                        .setPredictionCol("pred")
        );
        // 进入模型训练阶段
        // 通过 Pipeline 的 fit()方法，可以得到整个流程的模型（PipelineModel），记作变量 model
        PipelineModel model = pipeline.fit(trainSource);

        System.out.println("保存训练的模型文件 ==========================================================================");

        // 保存训练的模型文件
        // model.save(modelPath);
        // 覆写训练的模型文件（Alink 1.1.0 前 无该方法，Alink 1.3.0 后有该方法）
        model.save(modelPath,true);

        // 执行批处理
        BatchOperator.execute();
    }

}

6、案例全流程拆分：加载AK模型 + 预测数据 + 执行模型预测

import com.alibaba.alink.operator.batch.source.CsvSourceBatchOp;
import com.alibaba.alink.pipeline.PipelineModel;


/**
 * alink：批式训练和保存模型，流式消费和分类文本
 * https://blog.csdn.net/asdf1368822590/article/details/118370000
 * @Author: menghuan
 * @Date: 2021/9/3 17:47
 */
public class AlinkModelApplication {

    public static void main(String[] args) throws Exception {
        // 模型文件路径
        String modelPath = "G:/Idea-Workspaces/AlinkExample/src/main/resources/model.ak";
        // 加载模型文件
        PipelineModel model = PipelineModel.load(modelPath);

        // 预测文件路径
        String predictorPath = "G:/Idea-Workspaces/AlinkExample/src/main/resources/static/train3.txt";
        // 预测数据 初始化
        CsvSourceBatchOp predictorResource = new CsvSourceBatchOp()
                .setFilePath(predictorPath)
                .setFieldDelimiter("|")
                .setSchemaStr("review string")
                .setIgnoreFirstLine(true);
        // 模型预测
        model.transform(predictorResource)
                .select(new String[] {"pred","review"})
                .firstN(5)
                .print();
    }

}

猫猫聚会Ing

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Alink(02) 情感分析（官网案例）详细解析（注释详细版）

目录Alink 情感分析地址：Alink中文情感分析示例（Java版本） · 语雀Alink 情感分析地址：Alink中文情感分析示例（Java版本） · 语雀2、代码示例解析/** * 示例：alink：批式训练和保存模型，流式消费和分类文本 * 1、https://blog.csdn.net/asdf1368822590/article/details/118370000 * 示例：情感分析 * 1、https://blog.csdn.n..
复制链接

扫一扫