前言
为了增加框架的扩展性和适用性,我们要能够在流程节点中运行python脚本。
这个时候需要考虑几个问题:
1 为什么是python?
思考:老实说我并不喜欢python,我更倾向于lua
这种短小轻快的脚本。在我之前写的规则引擎rush里,就用的lua脚本写规则。并且我对比过多个脚本的性能,lua可以甩python几条街。
但是,python是大众的选择,被更多的人接受,没得选,只能是它。
这里有屌大的就要说了,为啥不用js,不用wasm,它们用的人也很多。不管是从应用的角度看,还是从平台的角度讲,长远来看这哥俩也是要支持的。
2 能在业务pod里面执行python吗?
肯定是不能,一般在服务端运行的脚本都要有个沙盒环境。
- 一是为了避免不同本地环境造成的版本差异,包的差异等等。
- 二是为了打造一个安全封闭的运行环境,避免和其他服务相互影响。
3 用类似cmd这种命令执行python脚本可以吗?
当然是不可以,因为这会失去对脚本的约束。
4 运行python文件还是运行python文本?
在表现形式上,文本能力必须要支持。绝大多数的agent编辑平台提供的都是python文本的编辑能力,运行能力,可能它们对于python脚本的定义仅用来实现一些简单功能。
但是我做的agent越多就越难受,因为一个稍微复杂的功能,我要在这个文档框里写大几千行,实难维护。
这些平台提供的编辑视图,都极为垃圾,我们很难在浏览器上做到vscode或者pycharm这种专业编辑器的舒适度
更重要的是一些复杂功能需要多个文件来编写,如果仅支持文本就自废武功了。
实现
思路如下:
用rust包装一个python的运行时,然后做成docker ,对外提供一个rpc的接口。
python运行时实现
- 我这里用的pyo3完成rust和python的绑定。
- python的入口必须是一个函数,但函数可以指定
- 支持指定syspath,这样就可以加载python文件。文件可以通过k8s的pv挂载,或者as3挂载。
- 这里安全相关的模块我懒的做了,工程链路里是必须要做的。
代码如下:
pub fn eval_function(&self, function_name: &str, args: Value) -> PyResult<Value> {
wd_log::log_debug_ln!("eval_function -> {:?} args:{:?}", self, args);
let Self {
src,
module_name,
file_name,
sys_path,
} = self;
let file_name = file_name.clone().unwrap_or(format!("{}.py", module_name));
Python::with_gil(move |py| {
//设置系统path
if let Some(path) = sys_path {
let syspath: &PyList = py.import_bound("sys") ? .getattr("path") ? .extract() ? ;
syspath.insert(0, &path) ? ;
}
//加载模型
let module = match src {
ScriptSrc::ScriptCode(script) => PyModule::from_code_bound(
py,
script.as_str(),
file_name.as_str(),
module_name.as_str(),
) ? ,
ScriptSrc::ModuleName => PyModule::import_bound(py, module_name.as_str()) ? ,
};
//加载函数
let function = module.getattr(function_name) ? ;
//拼接输入
let input_obj = Self::value_to_py_object(py, args) ? ;
let input_class = FunctionInput { data: input_obj };
//调起函数
let output_obj = function.call((input_class,), None) ? .extract::<PyObject>() ? ;
//输出转格式
let value = Self::py_object_to_value(output_obj, py) ? ;
Ok(value)
})
}
入参的绑定
- 入参绑定为python的class,如下代码,真正的入参是这个class里面的data
- 包装class的目的是为py提供一些外部方法,可以操作rust里面的内容,或者获取一些不可变更参数,当然懒惰的我没实现任何方法。
#[pyclass]
pub struct FunctionInput {
#[pyo3(get, set)]
data: PyObject,
}
对外接口
对外我们还是提供grpc接口,proto文件如下:
- 这里我们指明入参类型是
google/protobuf/struct
,它最终会转化为python的dict传给py脚本。 - grpc的实现我这里就不贴了,主要用的tonic框架。
- tonic的client需要我们自己实现连接池,我用的
wd_tools::pool:ObjPool
syntax = "proto3";
package proto;
import "google/api/annotations.proto";
import "google/protobuf/struct.proto";
service PythonRuntimeService{
rpc CallFunction(CallFunctionRequest)returns (CallFunctionResponse){
option (google.api.http) = {
post: "/api/v1/function/{function_name}"
body: "*"
};
};
}
enum SrcType {
SRC_TYPE_SCRIPT = 0;
SRC_TYPE_MODULE = 1;
}
message CallFunctionRequest{
SrcType src = 1;
// if src == SRC_TYPE_SCRIPT, script_code must have a python code.
optional string script_code = 2;
string module_name = 3;
//default: file_name = module_name.py
optional string file_name = 4;
optional string sys_path = 5;
string function_name = 6;
google.protobuf.Struct function_input = 7;
}
message CallFunctionResponse{
// 0:success
int32 code = 1;
string msg = 2;
optional google.protobuf.Struct output = 3;
}
docker构建
因为我们用的pyo3,它依赖libpython和rust环境,所以我们需要对rust的官方镜像做亿点小小的改造。
- 首先rust的官方镜像就很有问题,用它镜像打出来的包里面的依赖都不完整。比如用
rust:1.78-alpine
打包就一直提示缺着缺那。 - rust的alpine的镜像使用musl编译,按理说我静态编译后,它应该更容易被用起来。万万没想到在相同版本的
alpine
镜像中竟然跑不起来。 - pyo3在编译的时候,会内置一些py信息,即便的相同的版本,不同的运行系统也无法编译。也就是说我们很难跨平台编译。
当然还有一堆堆的坑,所幸我已经爬完了,并且把镜像放到了hub上。
- 构建镜像:
wdshihaoren/python_rt:build-1.75-240527
,你也可以用它编译自己的任意rust项目。 - 运行镜像:
wdshihaoren/python_rt:16896997
,非常的精简小巧,只有30M,如下图:
测试
首先启动测试用例,在python_rt目录下如下命令启动
- 先装一下psutil库
cargo test tests::run_server -- --nocapture
先测试一下文件执行,py文件内容地址,用grpc请求结果如下:
请求:
{
"src": 1,
"module_name": "sys_info",
"sys_path":"./custom_plugin",
"function_name": "get_system_info",
"function_input": {
"fields": {
"hello": {
"kind": "world"
}
}
}
}
响应:
{
"code": 0,
"msg": "success",
"output": {
"fields": {
"cpu_count": {
"numberValue": 12,
"kind": "numberValue"
},
"cpu_percent": {
"numberValue": 16.7,
"kind": "numberValue"
},
"disk_free": {
"numberValue": 141.9490623474121,
"kind": "numberValue"
},
"disk_total": {
"numberValue": 465.62699127197266,
"kind": "numberValue"
},
"disk_used": {
"numberValue": 23.568099975585938,
"kind": "numberValue"
},
"memory_available": {
"numberValue": 11853.76171875,
"kind": "numberValue"
},
"memory_total": {
"numberValue": 32768,
"kind": "numberValue"
},
"os_release": {
"stringValue": "21.3.0",
"kind": "stringValue"
},
"os_type": {
"stringValue": "Darwin",
"kind": "stringValue"
}
}
}
}
再测试一下参数输入:正确给出结果
输入:
{
"src": 1,
"module_name": "sys_info",
"sys_path": "custom_plugin",
"function_name": "generate_system_report",
"function_input": {
"fields": {
"cpu_count": {
"numberValue": 12,
"kind": "numberValue"
},
...//和上面的内容一样,粘下来就可以了
}
}
}
输出:
{
"code": 0,
"msg": ""\n系统报告:\n\n操作系统类型: Darwin\n操作系统版本: 21.3.0\nCPU逻辑核心数: 12.0\nCPU使用率: 23.5%\n内存总量: 32768.0 MB\n可用内存: 13596.53515625 MB\n磁盘总量: 465.62699127197266 GB\n磁盘已使用: 23.568099975585938 GB\n磁盘剩余: 159.18515014648438 GB\n "",
"output": {
"fields": {}
}
}
测试一下文本脚本能力,我们按照 【ai_agent】从零写一个agent框架(一)打造最强开放agent编辑框架,拳打dify,脚踩coze - 掘金 中的实例依次启动服务。
然后如图创建三个节点,点击debug执行,可以看到python执行的结果。
尾语
做的事情很简单,但是坑很多,重点是很多事情需要权衡和思考。如果你有不一样的想法欢迎留言讨论。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。