木下瞳-CSDN博客

原创 React Agent 自定义实现

用的智谱 glm-4-air，如果换了模型，效果还不太稳定，需要调 prompt。定义两个工具，一个是 tavily 的搜索，去官网开通账号就可以获得一个 api，免费调用 1000 次；一个工具是根据名字查询身高的自定义函数try:except:"张三": 180,"李四": 175,"王五": 170,"赵六": 165,"钱七": 160,"孙八": 175,"周九": 170,"吴十": 165,"郑十一": 180,"王十二": 175,"李十三": 170,

2024-10-15 23:45:37 1043

原创 langchain 《斗破苍穹》智谱 RAG 问题搜索

斗破苍穹》小说 RAG 问答，爬虫爬取整部小说章节，并分别保存到不同的数据源中。对数据进行分块，召回，根据问题生成回答。对比了智谱 GLM 系列所有模型，以及不同召回块数（字数）的效果。

2024-09-05 19:50:21 937

原创 langchian 批次调用 prompt

跑几次都是 22s 左右，跟一条一条调用没有区别，测试了通义，智谱都一样，这应该是专门为 openai 设计的接口。

2024-08-18 18:11:01 541

原创 llamaindex rag agent 检索文档进行分析

两个 pdf 分别是两个电商公司的财报之类的，像分析这两家公司的盈利情况，利用 llamaindex 的 rag 检索盈利的部分，来对比。使用 tongyi，如果指定，默认是 openai 了。

2024-05-26 23:38:15 303

原创 langchain 的 agent + tool 使用

langchain 中提供了内置工具的，但是基本不能用，除了一个计算器和一个执行 python 代码的，其他的都要 apiTool 模块相当于是使用外部工具，或者自定义工具。

2024-05-19 15:57:06 5108 4

原创 langchain 自定义模型使用

在公司有大模型可以通过 api 方式调用，想使用 langchain 框架调用，langchina 已经封装好大部分模型了，但自己公司的模型不支持，想使用，相当于自定义模型。generations_text：自定义方法，也就是调用自己公司api逻辑的代码，可以这样理解，这里我是演示，调用通义的代码是从官网扣下来的。由于这里是演示，所以假如我公司的模型的通义，langchain又不支持，我需要自定义来在langchian中使用。官方文档说，_generate， _llm_type 两个方法是必须的。

2024-05-13 00:01:06 1158

原创 langchain pdf链检索，提问式表单（实体命名识别）

通过用户输入的内容，识别需要填写的字段，有点实体命名识别的感觉，当需要从程序中识别特定实体时可以参考。stuff 链，重排链，RetrievalQA 链。

2024-04-21 12:44:46 644

原创 langchain 加载 csv，json

设置了引用字符为双引号（在CSV文件中，如果某个字段值本身包含逗号或其他特殊字符，或者整个字段需要被视为一个不可分割的整体，通常会使用双引号将其包围起来。这里的设定告诉解析器如何正确识别和处理被引号包裹的字段值。: 提供了列名列表。如果CSV文件的第一行没有列名（或者不希望使用第一行作为列名），可以在这里显式指定列名。在这个例子中，列名分别为“专业”和“描述”，对应到CSV文件中两列数据的实际含义。'专业'指定了一个特定的列名。这个参数的意义可能依赖于CSVLoader的具体实现细节。

2024-04-13 23:53:52 801

原创 langchain 文本向量化存储，并检索相似 topK，检索方法汇总

txt 有多行，我的这份数据有 67 行，样例如下：字段1\t值1\n字段2\t值2\n...

2024-04-13 22:22:43 4355 7

原创 langchain txt 文档按字数分块，按指定字符分块

txt 有多行，我的这份数据有 67 行，样例如下：字段1\t值1\n字段2\t值2\n...

2024-04-13 20:31:34 704

原创 streamlit 大模型前段界面

会报错：ModuleNotFoundError: No module named ‘streamlit.cli‘streamlit run D:\Python_project\NLP\大模型学习\test.py。结合 langchain 一起使用的工具，可以显示 web 界面。部署雲端可以点击右上角，结合官网示例查看怎么部署。

2024-04-13 14:02:14 408

原创 langchain agent 使用外部工具示例

室外计算机器与天气搜索引擎，但在使用天气查询的时候好像不可以用了。

2024-04-13 13:16:43 674

原创 langchain callback 回调

当某个模型出问题，回调正常的模型，示例代码。

2024-04-13 13:14:01 285

原创 langchain RunableBranch 分类判断选择不同链

【代码】langchain RunableBranch 分类判断选择不同链。

2024-04-13 13:02:29 442

原创 langchain 链式写法-使用本地 embedding 模型，Faiss 检索

使用本地下载的 embedding 模型去做 embedding，然后从中查相似的。

2024-04-12 21:22:47 4515 3

原创 langchain txt 文档加载，分割

每次只需要针对一个文档生成回答，避免过长 context；回答是逐步推理和完善的，而不是一次性塞入所有信息；可以自定义每轮的提示词模版，实现更精细的控制。但适合超大成千上万的文档量，因为是并行，map，reduce 需要不同提示词模版，多次调用问答模型，效率低。这里采用的是 stuff 策略，也就是将一大段文本。按字数分割成 N 个文本块，又合并成一个大的文本块。也是多轮，但每一轮输入都只包含一个文档，以及之前轮次的中间回答。对超大规模不友好，没有区分文档重要性，适合文档量较少场景。

2024-04-11 22:09:33 656

原创 langchain 使用本地通义千问，7B，14B，glm4

看了下是不支持这中模型，但看列表中有一个 Qwen 字样，想着应该是支持的，就去 hugging face 搜了下这个东西 “Qwen2”找到了对应的 qwen1.5-7B-Chat 模型。其实也就是一种公测版本，，所以总结来说目前直接导入本地通义千问 langchaing 支持不是很好，可以使用 ollama，但这个下载非常慢，还会失败。qwen1.5-7B-Chat 我们用这个模型，是可以加载成功的，并输出的，但是非常非常慢。模型：qwen1.5-7B-Chat，qwen-7B-Chat。

2024-04-10 22:20:23 1842

原创 langchain LCEL，prompt模块，outputparse输出模块

然后再代码目录创建一个 .env 文件，用来保存 api-key，例如这样就可以用了，就不需要官网默认示例的 openai 了，那个比较麻烦。

2024-04-09 23:11:36 1264

原创 prompt 工程案例

而且评判的数据挺重要的，就像我这个需求应该是分类任务对吧，那结果应该有一个，对就对，不对就不对，我调了几版 prompt ，最好的准确率是 39%，就去数据及理由，有些数据光是人去判断都不太好判断，或是有歧义的，更别说模型了，例如。prompt 入门门槛我觉得比较低，网上随便找资料大概都知道编写模版套路，但效果得结合实际业务情况调优好几天，有些还得通过编程进行辅助，比如预处理工具，提取地名啥的，匹配标签啥的，再去输入给大模型。数据，专业描述的文本，还有对应的 label，

2024-04-04 16:22:24 1618

原创大模型 web ui 界面 text-generation-webui

使用 text-generation-webui 生成大模型界面，这个是专门用于文本对话生成的 web ui 界面克隆或下载到本地，我是想试试这个怎么样，我的环境：win10, cpu所以在模型方面找了小模型来试试，messages,

2024-04-01 20:38:27 2264 1

原创 bert 适合 embedding 的模型

直接使用 bert 先 embedding 然后找出相似的文本，效果都不太好，试过 bert-base-chinese，bert-wwm，robert-wwm 这些，都有一个问题，那就是明明不相似的文本却在结果中变成了相似，真正相似的有没有，例如：手机壳迷你版，与这条数据相似的应该都是跟手机壳有关的才合理，但结果不太好，明明不相关的，余弦相似度都能有有 0.9 以上的，所以问题出在 embedding 上，找了适合做 embedding 的模型，再去计算相似效果好了很多，合理很多。

2024-03-27 00:04:04 2117

原创图片拼接，并显示文字

有一些图片，每张图片有对应的文本，需要一张一张拼接为 N 行 M 列的形式，每张图片的文本显示在它下方，文字没有换行，换行的一直有问题，不过一般文本也不会太长。如果只想拼接图片，把这几行注释掉就可以。

2024-03-24 00:36:41 292

原创 hanlp，pyhanlp 实现 NLP 任务

【代码】hanlp，pyhanlp 实现 NLP 任务。

2024-03-13 00:01:33 672

原创 bert 相似度任务训练完整版

相似度用的是 0，1，相当于分类任务，现在我们相似度有评分，不再是 0,1 了，分数为 0-5，数字越大代表两个句子越相似，这一次的比较完整，评估，验证集，相似度模型都有了。数据集链接：https://pan.baidu.com/s/1B1-PKAKNoT_JwMYJx_zT1g提取码：er1z原始数据好几千条，我训练数据用了部分 2500 条，验证，测试 300 左右，使用 cpu 也用了好几个小时。

2024-03-03 17:05:00 1361

原创 bert 相似度任务训练简单版本,faiss 寻找相似 topk

但其实在相似度任务中，我们每一条数据都是【text1\ttext2\tlabel】的形式，其中 label 代表相似度，可以给两个文本打分表示相似度，也可以。可以看到还是较好的学习了我数据特征：只要两文本中有一个地址相似我就作为相似，标签为 1，否则 0。现在我搞了一个招聘数据，里面有办公区域列，处理过了，每一行代表【地址1\t地址2\t相似度】，0 代表不相似，1 代表相似，他这篇文章利用了这种思想，对新手还挺有用的。只要两文本中有一个地址相似我就作为相似，标签为 1，否则 0。，相当于二分类任务了。

2024-03-01 21:55:40 858

数据分析+pandas

空空如也