《Ai企业数据库》rasa具体流程使用-story等流程使用

最新推荐文章于 2024-08-08 08:19:18 发布

一单成

最新推荐文章于 2024-08-08 08:19:18 发布

阅读量871

点赞数 17

分类专栏： AI企业知识库文章标签：人工智能 python

本文链接：https://blog.csdn.net/weixin_72186894/article/details/139317115

版权

AI企业知识库专栏收录该内容

14 篇文章 2 订阅

订阅专栏

阿丹：

在翻阅资料之后发现，rasa并不直接支持中文的nlp（自然语言理解）。那么这里就发现了一个东西就是一个其他的人写的这个。先继续学习，这里留一个坑后面时间的时候实践出来并完成一下。

留个坑待实践：

用Rasa NLU构建自己的中文NLU系统

《Ai企业知识库》rasa项目-项目启动命令集-开放api接口启动以及保证多轮对话！！-CSDN博客

拉取rasa源码：

 git clone https://github.com/RasaHQ/rasa.git

第一次获取，在PyCharm中第一次打开要主动去设置poetry的路径，可以使用终端中的

where poetry

来快速查找到这个应用文件的位置。

poetry其实和maven一个道理，其实就是用来管理python的依赖的工具。

增强Rasa NlU生命周期

每一个管道都要创建起来。

Rasa是一个开源的机器学习框架，用于构建会话AI应用，如聊天机器人。在Rasa中，pipeline是Rasa NLU（自然语言理解）部分的核心组件，它负责将原始的用户输入（通常是文本）转换为机器可以理解的结构化数据，包括识别意图（intents）、提取实体（entities）等。Pipeline是一系列有序执行的组件（components），每个组件都有其特定的功能。以下是Rasa中常见的Pipeline组件及其功能概述：

Tokenizers:
- WhitespaceTokenizer: 基于空格分词的基本分词器。
- JiebaTokenizer: 专为中国语言设计的分词器，适用于中文文本。
Featurizers:
- CountVectorsFeaturizer: 将文本转换为词频向量，用于后续的意图分类和实体识别。
- TF-IDF Featurizer: 类似于CountVectors，但使用TF-IDF权重来强调文档中重要的词汇。
- IntentFeaturizerEmbedding: 利用预训练的词嵌入模型（如Word2Vec, GloVe等）将文本转换成向量表示。
Intent Classifiers:
- IntentClassifierTensorFlowEmbedding: 使用TensorFlow模型进行意图分类，支持基于嵌入的分类。
- IntentClassifierSklearn: 基于Scikit-learn的分类器，如SVM、Logistic Regression等，用于意图识别。
Entity Extractors:
- CRFEntityExtractor: 使用条件随机场（CRF）模型来识别和提取实体。
- SpacyEntityExtractor: 利用Spacy的命名实体识别（NER）模型来提取实体。
- DucklingEntityExtractor: 时间、日期、数量等实体的精确抽取，基于Duckling库。
- RegexEntityExtractor: 使用正则表达式匹配文本中的模式以提取实体。
Transformers-based Components:
- HFTransformersNLP: 使用Hugging Face Transformers库中的模型进行嵌入、分类和实体识别，支持BERT、RoBERTa等多种预训练模型。
Miscellaneous Components:
- MitieNLP: 使用MITIE工具包进行NLP处理，包括特征提取和实体识别。
- ConveRTTokenizer & ConveRTFeaturizer: 使用ConveRT模型进行文本编码，适合跨语言任务。
- LanguageModelFeaturizer: 利用语言模型的特征，如Spacy的en_core_web_md模型。