自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(19)
  • 收藏
  • 关注

原创 火山引擎 大模型语音合成双向流式API-python demo

在播放大模型生成内容时,可以发现时变生成变播放。这里可以使用火山引擎的双向流语音合成,官方没有提供python版本的demo,且官方文档实际上表述的并不清晰,所以我在阅读go语言版本后,自己写了一个,提供给大家。官方文档 https://www.volcengine.com/docs/6561/1329505。

2024-10-28 09:57:34 508

原创 LangGraph 入门(二)- ChatBot demo

这次我们通过,两个比较基础的 chatbot 对 langgraph 有了基础的了解,之后我会对一些核心概念进行比较详细的解释,,最后我们会通过构建一个生产级别的 agent来对整个langgraph框架一窥门径。

2024-10-17 18:57:20 888 1

原创 LangGraph入门(一)为什么要用LangGraph

大语音模型LLMs是非常强大的,特别是LLMs与外部API或者检索数据库结合时,将使得的大模型如虎添翼。所以,在调用LLM之前或之后我们通常会插入一些控制流程。例如,经典的RAG结构,我们会先检索出与问题相关的资料,将资料作为输入prompt的一部分,传递给LLM来生成。又比如将输出的内容格式化,变成程序可以执行的参数,调用程序执行后续逻辑。通常,在这些流程控制被称链(chain),chain是LLM应用开发中常见的编程范式。每次chain的调用都会运行相同的控制流。然而,我们经常希望得到。

2024-10-12 18:37:40 1012

原创 反爬虫——浏览器指纹检测与破解

有许多类似的方法可以检测是否使用了自动化工具,这种检测方式被称为浏览器指纹检测。当然,浏览器指纹检测不仅用于检测是否使用了自动化框架,还可以在未登录的情况下判断两个请求是否由同一浏览器发起。然而,这种方法与正常的浏览器访问有一定区别。例如,window.navigator.webdriver 对象,在正常的 Chrome 浏览器中访问时返回 false。由于检测方案通常也是通过js调用获取的一些配置对象的值,我们可以在访问页面前修改这些配置来绕过自动话化检测。来检测,这里汇聚了市面上常见的检测手段。

2024-07-22 08:00:00 1586

原创 AI智能体--什么是agent什么又是agentic

agent 通常被翻译为代理人,比如House Agent被翻译为房产中介,而在AI领域被称为智能体,本质上是使用LLM代替我们做一些事情。每个人对智能体的定义都稍有不同,一个相对技术化的定义就是:智能体是一个使用LLM来控制应用程序控制流的系统很多人认为智能体是先进、自主的和类似人类的。但是一些简单的系统通常也被称为智能体。比如:有两条处理路径,使用LLM决定路由到路径下。许多人争论什么应该算智能体,什么不算智能体。当一个定义的边界出现一些模糊的时候,我们可以尝试把定义再进行拆分。

2024-07-11 11:57:22 1023

原创 项目模板工具cookiecutter快速上手

是一个非常快捷的基于命令行的项目创建工具。相比使用模板项目然后手动修改,配置客制化项目模板更加灵活通用。cookiecutter使用作为模版引擎,使用起来很简单方便。当然cookiecutter不仅仅局限于python项目,其他语言也同样适用。

2024-07-07 23:49:40 485

原创 大模型数据处理-数据分割的5种级别

我们将一份长文本输入到LLM的时候,有时候会出现内容过长等问题,最有效的策略是将长文本进行分割。这个过程英文被称为splitting 或者 chunking。chunking通常是比较前置的阶段,会对后续生成产生较大影响,让我们看看,都有哪些方案和对应的效果。

2024-07-05 16:29:05 1447 1

原创 https抓包-中间人攻击原理(MITM)

从http到https,无疑是安全性上很大的一次升级,我们想搞清楚https抓包的原理,我们可首先回顾一下http到https的过程。

2024-06-26 11:31:03 1272

原创 百度百科数据爬取与清洗

有时候我们需要百度百科的数据,但是数据是网页的形式,直接使用html2text,效果并不好,会残留很多无用的信息。所以针对百度百科做了清洗程序。最终效果如下图。html被转为了markdown格式,保留段落层级,保留了items,去掉了目录,去掉了超链接和图片。整体效果是非常干净的。

2024-06-05 21:21:48 365

原创 python asyncio 概念解释与快速上手

我们使用async def来定义一个协程,这里可以把async def看作是def的扩张,专门用来定义协程。普通的def定义的function运行之后会产生一个对应的返回值,而async def运行之后,会返回一个coroutine。coroutine必须在event loop 内运行,我们可以通过asyncio.run()运行coroutine。# 运行custom_coro()之后返回的是一个coroutinetype(coro)我们如何从一个协程切换到另一个协程呢?我们可以使用await。

2024-06-04 16:13:15 445

原创 python asyncio-生产者消费者模式

在多线程的编程模式下生产者消费模式是非常容易理解的。n个生产者线程,对应m个消费者线程,然后使用队列将数据串起来。那么在python的Asyncio模式下,没有多线程,所有任务都是单线程完成的,我们如何完成生产者消费者模式的编程呢?其实我们只需要把一个conroutine当作一个线程的任务,然后将这些任务交给event loop即可。这里我准备了一个比较完善的生产消费者模版,我们直接看代码。

2024-06-04 16:10:37 356

原创 AI大模型落地-巨量实体关系映射

实体匹配(entity mapping)通常是指将两个没有直接关系的对象,通过一些方式建立起映射关系。比如:故宫、故宫博物院、北京故宫 三者指的是同一景区,将三者关联起来,就属于实体关系映射。

2024-05-23 14:16:07 670

原创 langchain入门3-LCEL核心源码速通

讲述了LCEL的管道操作符是如何实现的,以及背后最核心的Runnable抽象类,和它最重要的两个子类RunnableSequence与RunnableParallel。

2024-01-26 15:52:13 1037 1

原创 langChain入门2-LCEL基本示例

langchain LCEL

2024-01-12 17:16:50 1312 1

原创 LangChain入门1-基本介绍

langchain 基本介绍

2024-01-11 15:54:56 1228 1

原创 路线问题优化方案和实践(蚁群算法、遗传算法、模拟退火算法)

使用or-tools 解决路径问题,简介,蚁群算法、遗传算法、模拟退火算法

2024-01-04 16:42:34 1438 1

原创 ElasticSearch 打分策略(k1、b)优化

tf-idf、bm25公式说明,es的k1、b的参数说明与优化。

2023-12-04 10:45:31 526

原创 spring boot的jar启动原理

spring boot jar内部奥秘

2023-11-24 11:36:43 155 1

原创 红包生成器:基于正态分布的红包生成算法

如果想生成的红包大小相对均衡,可以同时控制最大最小和总额,那么不妨试试我这个方法。

2023-11-09 14:06:58 240 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除