- 博客(19)
- 收藏
- 关注
原创 火山引擎 大模型语音合成双向流式API-python demo
在播放大模型生成内容时,可以发现时变生成变播放。这里可以使用火山引擎的双向流语音合成,官方没有提供python版本的demo,且官方文档实际上表述的并不清晰,所以我在阅读go语言版本后,自己写了一个,提供给大家。官方文档 https://www.volcengine.com/docs/6561/1329505。
2024-10-28 09:57:34 508
原创 LangGraph 入门(二)- ChatBot demo
这次我们通过,两个比较基础的 chatbot 对 langgraph 有了基础的了解,之后我会对一些核心概念进行比较详细的解释,,最后我们会通过构建一个生产级别的 agent来对整个langgraph框架一窥门径。
2024-10-17 18:57:20 888 1
原创 LangGraph入门(一)为什么要用LangGraph
大语音模型LLMs是非常强大的,特别是LLMs与外部API或者检索数据库结合时,将使得的大模型如虎添翼。所以,在调用LLM之前或之后我们通常会插入一些控制流程。例如,经典的RAG结构,我们会先检索出与问题相关的资料,将资料作为输入prompt的一部分,传递给LLM来生成。又比如将输出的内容格式化,变成程序可以执行的参数,调用程序执行后续逻辑。通常,在这些流程控制被称链(chain),chain是LLM应用开发中常见的编程范式。每次chain的调用都会运行相同的控制流。然而,我们经常希望得到。
2024-10-12 18:37:40 1012
原创 反爬虫——浏览器指纹检测与破解
有许多类似的方法可以检测是否使用了自动化工具,这种检测方式被称为浏览器指纹检测。当然,浏览器指纹检测不仅用于检测是否使用了自动化框架,还可以在未登录的情况下判断两个请求是否由同一浏览器发起。然而,这种方法与正常的浏览器访问有一定区别。例如,window.navigator.webdriver 对象,在正常的 Chrome 浏览器中访问时返回 false。由于检测方案通常也是通过js调用获取的一些配置对象的值,我们可以在访问页面前修改这些配置来绕过自动话化检测。来检测,这里汇聚了市面上常见的检测手段。
2024-07-22 08:00:00 1586
原创 AI智能体--什么是agent什么又是agentic
agent 通常被翻译为代理人,比如House Agent被翻译为房产中介,而在AI领域被称为智能体,本质上是使用LLM代替我们做一些事情。每个人对智能体的定义都稍有不同,一个相对技术化的定义就是:智能体是一个使用LLM来控制应用程序控制流的系统很多人认为智能体是先进、自主的和类似人类的。但是一些简单的系统通常也被称为智能体。比如:有两条处理路径,使用LLM决定路由到路径下。许多人争论什么应该算智能体,什么不算智能体。当一个定义的边界出现一些模糊的时候,我们可以尝试把定义再进行拆分。
2024-07-11 11:57:22 1023
原创 项目模板工具cookiecutter快速上手
是一个非常快捷的基于命令行的项目创建工具。相比使用模板项目然后手动修改,配置客制化项目模板更加灵活通用。cookiecutter使用作为模版引擎,使用起来很简单方便。当然cookiecutter不仅仅局限于python项目,其他语言也同样适用。
2024-07-07 23:49:40 485
原创 大模型数据处理-数据分割的5种级别
我们将一份长文本输入到LLM的时候,有时候会出现内容过长等问题,最有效的策略是将长文本进行分割。这个过程英文被称为splitting 或者 chunking。chunking通常是比较前置的阶段,会对后续生成产生较大影响,让我们看看,都有哪些方案和对应的效果。
2024-07-05 16:29:05 1447 1
原创 https抓包-中间人攻击原理(MITM)
从http到https,无疑是安全性上很大的一次升级,我们想搞清楚https抓包的原理,我们可首先回顾一下http到https的过程。
2024-06-26 11:31:03 1272
原创 百度百科数据爬取与清洗
有时候我们需要百度百科的数据,但是数据是网页的形式,直接使用html2text,效果并不好,会残留很多无用的信息。所以针对百度百科做了清洗程序。最终效果如下图。html被转为了markdown格式,保留段落层级,保留了items,去掉了目录,去掉了超链接和图片。整体效果是非常干净的。
2024-06-05 21:21:48 365
原创 python asyncio 概念解释与快速上手
我们使用async def来定义一个协程,这里可以把async def看作是def的扩张,专门用来定义协程。普通的def定义的function运行之后会产生一个对应的返回值,而async def运行之后,会返回一个coroutine。coroutine必须在event loop 内运行,我们可以通过asyncio.run()运行coroutine。# 运行custom_coro()之后返回的是一个coroutinetype(coro)我们如何从一个协程切换到另一个协程呢?我们可以使用await。
2024-06-04 16:13:15 445
原创 python asyncio-生产者消费者模式
在多线程的编程模式下生产者消费模式是非常容易理解的。n个生产者线程,对应m个消费者线程,然后使用队列将数据串起来。那么在python的Asyncio模式下,没有多线程,所有任务都是单线程完成的,我们如何完成生产者消费者模式的编程呢?其实我们只需要把一个conroutine当作一个线程的任务,然后将这些任务交给event loop即可。这里我准备了一个比较完善的生产消费者模版,我们直接看代码。
2024-06-04 16:10:37 356
原创 AI大模型落地-巨量实体关系映射
实体匹配(entity mapping)通常是指将两个没有直接关系的对象,通过一些方式建立起映射关系。比如:故宫、故宫博物院、北京故宫 三者指的是同一景区,将三者关联起来,就属于实体关系映射。
2024-05-23 14:16:07 670
原创 langchain入门3-LCEL核心源码速通
讲述了LCEL的管道操作符是如何实现的,以及背后最核心的Runnable抽象类,和它最重要的两个子类RunnableSequence与RunnableParallel。
2024-01-26 15:52:13 1037 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人