自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(93)
  • 资源 (1)
  • 收藏
  • 关注

原创 Teams会议侧边栏应用开发-会议转写

获取当前登录用户的信息,获取会议信息,获取会议组织者ID,获取转录列表,获取转写。1)开发工具使用VS Code,下载Teams Tookit插件,创建一个Tab应用,使用JS语言,应用名称随意,如:MeetingRTT。/auth,完成user token的获取,返回一个页面获取access_token(user_token),存储在redis中;/get_user_token,从redis获取acces_token(user_token),页面获取会议信息需要;

2024-09-23 20:23:26 525

原创 使用o1-mimi实现中国象棋游戏

{ type: '車', side: 'black', x: 0, y: 0 }, { type: '馬', side: 'black', x: 1, y: 0 }, /* ... */],[{ type: '車', side: 'red', x: 0, y: 9 }, { type: '馬', side: 'red', x: 1, y: 9 }, /* ... */]您需要根据中国象棋的规则,完善其他棋子的移动逻辑,例如“马”、“象”、“士”、“将”、“炮”、“兵”等。// AI 延迟移动。

2024-09-15 17:14:36 1109

原创 如何提升RAG检索的准确率及答案的完整性?

为了照顾短答案,使用分片长度为100,重叠50,来提升检索提问上下文定位的准确率,并提升分片的完整度(不能完全保证)。至于重排模型,可用可不用,个人认为作用不大,使用重排模型的主要目的是因为检索不准确,检索准确了,重排的意义就不大,检索不准确的主要原因是以考虑到检索的速度,降低了一定的准确度,但当分片设置的比较小时,检索的准确率就提升上来了。大家有没有发现开源RAG的默认分片长度为250, 重叠为50,但是存在检索准确率不高(找不到答案或找到的上下文无法回答该问题)和答案不完整(答案有缺失)的问题。

2024-09-15 11:39:55 382

原创 使用deekpseek v2开发中国象棋游戏

使用AI可以完成简单程序(如:五子棋),甚至都不要调试即可以运行,但逻辑规则复杂的程序就需要反复的调整,修改运行BUG,优化运行性能。(如:中国象棋,支持提示目标落子位置,并要求使用AI算法自动对弈)。下面是经过反复调整后(N多次),得到的中国象棋游戏的js代码。

2024-09-02 21:36:01 389 1

原创 zoom 会议 javascript 转录例子

使用其它的方式,在WEB客户端,无法创建会议(需要调用API),无法开始会议(没有API),加入会议需要客户端(主持人)审核和确认,使用Zoom APP的方式,则是完全控制模式,Zoom APP则可以实时辅助会议全过程,且Zoom APP可以通过会议分享。1)单独跑个服务来实现从https://*-free.app/webhook/transcription获取转录信信息,并存储在内存数据库中,对外提供实时轮询(2秒)获取转录的接口。比较合适的方式是使用Zoom APP,即。

2024-08-28 19:19:02 438

原创 Zoom iOS 转录例子-代码由deepseek v2辅助生成

九、由于本机远程重定向了语音,所以iOS User的语音没有打开(会导致程序崩溃)。一、在zoom marketplace创建通用app,zoom-recall 详见。三、本实用的SDK为MobileRTC,即Meeting SDK的iOS版本。二、mac下按照Xcode,创建APP项目meetingbot4ios。八、运行ios程序,输入会议地址,加入会议,开始转录(最终效果)六、在远程(海外)启动zoom客户端新建一个会议。MobileRTC和CryptoSwift。

2024-08-27 15:58:40 557

原创 -[meetingbot4ios.AppDelegate window]: unrecognized selector sent to instance

只需要在其中增加var window: UIWindow?// 其他代码...下面是我的解决办法。

2024-08-27 08:11:24 848

原创 zoom 会议机器人web例子

5)注释掉leaveMeetingAndHandleError,避免向host请求录音时,无法得host(主持人)的响应,导致meetingbot直接退出。8)npx http-server frontend 启动meetingbot的页面地址http://localhost:8080。6)设置headless为false,显示默认隐藏的自动模拟人操作的chorme浏览器,即meeting bot。1)authEndpoint设置为签名服务的地址http://localhost:4000。

2024-08-22 18:46:14 498

原创 bert_vits2和gpt-sovits2

总结一下bert_vits2和gpt-sovits2: gpt-sovits2音质更佳(增加了去燥),训练时间更短,L4单训练大概6分钟左右,训练资源<9G,推理占用资源更低,大概1.6G左右。推理默认根据语境支持AI缩写,数字和金额,支持标点符号语气(如:。的差别),支持参考音频语气与情绪(如:开心、沮丧、愤怒等8种情绪),推理更灵活(有类似GPT的参数),支持中文模型说英语、日语和粤语,且声音不变,可以同时混合4种语言(中文、英语、日语和粤语),但单语言转换效果更佳(中->英,英->中)。

2024-08-21 10:26:45 366

原创 MacOS 下运行 GPT-SoVITS

--local-dir-use-symlinks False 用于解决 macOS alias 文件的问题。# 安装 huggingface-cli 用于和 huggingface hub 交互。# 会下载到 GPT_SoVITS/pretrained_models 文件夹下。# 下载模型, 由于模型文件较大,可能需要一段时间。# 安装 ffmpeg。

2024-08-16 19:06:09 635

原创 Zoom会议机器人转写例子

由于使用VB- Cable之类的虚拟设备,进行会议录音(扬声器和麦克风)比较麻烦,云服务器上通常都没有声卡(立体声混音设备),需要使用本地音频重定向远程音频给云服务器使用,同时由于默认没法录系统声音(扬声器)的声音,必须使用VB- Cable之类的虚拟声卡设备,并进行必要的配置才可以,对应终端用户而言,使用起来比较麻烦。本地尝试使用调用第三方API的方式来实现录音(recall.ai)和转录(assembly_ai)。recall.ai 转录api key配置。2)recall.ai各种相关配置。

2024-08-15 16:14:07 294

原创 如何使用Zoom API创建一个会议?

创建一个server to server 的app,授予创建会议的权限。)即会调用本地已Zoom客户端加入会议(没有客户端会自动下载一个)三、创建一个Zoom API的服务端程序(node.js)四、创建一个Zoom API的客户端程序(python)一、注册一个免费的Zoom账号(zoom.us)2、启动python client.py。8、启动zoom api服务端。1、创建一个python客户端。二、在Zoom 应用市场(

2024-08-12 17:04:54 406

原创 使用系统自带声音转录功能,可以同时支持mac和windows

【代码】使用系统自带声音转录功能,可以同时支持mac和windows。

2024-08-08 17:25:33 199

原创 如何让远程服务器使用本地麦克风

这两天在网上查找资料进行了各种配置尝试无果,包括修改服务,修改注册表等等,都没有成功,我是通过mac的Parallels Desktop里面运行一个Windows 11 pro(激活后),然后在远程服务器上部署的windows server 2019中文版(将默认自带的远程桌面服务重新安装一下,可以解决远程服务器无法使用本地麦克的问题)。即可让远程服务器使用本地的音频,在远程服务器上显示的是远程音频。但实际使用过程中往往麦克风无法使用。

2024-08-07 12:43:28 422

原创 如何在Zoom中集成自己的app?一个简单的例子

四、配置zoom app(wxl),设置上一步获得的https静态域名,验证地址为/auth。4、配置.env(参数来源创建app的过程,SESSION_SECRET为随机初始化值)一、注册zoom 账号、以便在zoom app maketplace创建app。五、选择在哪些界面使用app(wxl)、设置主页和允许访问的域名。10、打开zoom应用,app(wxl)显示就在zoom窗口中了。二、安装git、node.js、vscode开发环境(略)。七、生成共享app(wxl)的链接。

2024-08-06 15:47:15 963

原创 bert_vits2如何正确读AI缩写、金额和数字

案例:Tell me what's AI(a i), you need pay $186.30, your card Number is 1 2 3, your work Number is 5 6 7 8。

2024-07-27 15:22:32 118

原创 与Teams集成

个人账号不能登录Teams开发者平台,需要加入开发者计划,方可以进行程序测试。二、VSCode中安装Teams Toolkit插件。一、开发环境VSCode。三、使用插件创建应用。

2024-07-27 09:15:12 352

原创 与Zoom集成获取会议开始和结束事件

这样基于webhook的应用就构建好了,当前会议开始和结束时,对应的事件订阅通知就会返回到咱们提供的验证URL上。一、注册一个Zoom免费帐号(需要在国外注册,国内不允许)点击”发展”(开发)菜单,选择构建应用。二、进入Zoom应用市场创建一个应用。

2024-07-26 17:27:16 198

原创 支持长记忆的LLM应用:一个简单的例子

3. **什刹海**:包括前海、后海和西海,这里的酒吧街和胡同非常有特色。10. **圆明园遗址公园**:你可能去过颐和园,但圆明园遗址公园也有特别的历史价值,尤其是夏天的荷花池,美不胜收。3. **香山公园**:虽然更适合秋天的红叶观赏,但夏天的香山也十分凉爽,是一个爬山和呼吸新鲜空气的好地方。1. **后海酒吧街和烟袋斜街**:位于什刹海附近,是休闲和夜生活的好地方,可以感受到不同于白天的北京韵味。8. **798艺术区**:这里是现代艺术的聚集地,有很多画廊、咖啡馆和时尚的小店,是文艺青年的好去处。

2024-07-24 15:38:30 530

原创 gemini-pro-vision 看图说话

申请服务账号json格式key。

2024-07-16 18:25:02 186

原创 本地多模态看图说话-llava

其中模型llava为本地ollama运行的模型,如:ollama run llava。实际测试下来,发现本地多模型的性能不佳,不佳也是肯定的,多模态图片评分本身也不高啊。还有其它的模型如:llava-phi3,通过phi3微调过的版本。其中图片为bast64转码,方便json序列化。

2024-07-16 14:05:31 182

原创 gpt-4o看图说话-根据图片回答问题

将编码后的字节串解码为 UTF-8 字符串,以便于在文本环境中使用。f"你的任务是根据图片回答问题,{question}详细回答。- image_path:图片的文件路径。question = "中国的人口老龄化究竟有多严重?代码下实现如下:(直接调用openai的chat接口)- 编码后的 Base64 字符串。对图片文件进行 Base64 编码。# 对本地多张图片进行 Base64 编码。# 二进制读取模式打开图片文件,什么叫老龄化社会,有什么标志?# 发送 POST 请求。

2024-07-09 22:44:51 1023

原创 SalesForce集成案例-获取联系人信息

SalesForce本身比较复杂,涉及的东西比较多,下面以使用REST API接口为例,介绍与SalesForce集成的过程,集成案例:获取联系人信息。首先需要注册一个免费的开发者帐号,具有完全操作SalesForce的权限。10、使用访问token获取联系人信息。4、创建一个test连接应用程序。9、根据授权码获得访问token。3、在设置中创建连接应用程序。6、获得使用者密钥和密码。7、生成获取授权码链接。8、获得授权码code。

2024-07-04 18:03:21 227

原创 专利-高效低成本声音克隆系统及其资源优化管理方法

描述资源紧张时的服务保障,包括尽量保证当前使用的资源保证使用,同时检查闲置资源,若没有资源可用,就只能等待或增加硬件资源。描述集群操作细节,包括处理用户训练和部署请求、管理训练资源和模型服务、确保训练和推理服务的有效分配和执行。描述通过集群算法和预生成方式,成本可以进一步降低,总体降低超过90%,在预生成方式下可以降低97%的成本。描述资源监控与接口,包括获取当前节点的CPU和GPU使用情况的接口、实时资源监控和资源使用数据的应用。描述资源智能调配策略,包括前期优先分配训练资源,后期优先分配推理资源。

2024-06-26 10:13:53 477

原创 DeepSeek V2 可以直接生成2048游戏代码,并可以运行

在 macOS 上,你可以使用 `curses` 库来实现 2048 游戏,就像在 Windows 上一样。`curses` 库在 macOS 上是内置的,所以你不需要额外安装任何库。你可以直接使用我之前提供的代码。这样你就可以在 macOS 上玩 2048 游戏了。

2024-06-18 11:56:26 483

原创 mac环境基于llama3和metaGPT自动开发2048游戏

总结:不仅仅生成了代码,还提供了相应的文档和设计。6.让metegpt自动开发2048游戏。7.经过多轮迭代,最终生成了完整的代码。8. 使用VSCode查看代码。2.安装metagpt。4. 安装llama3。

2024-06-04 22:42:30 530 1

原创 OpenAI助手API接入-问答对自动生成

"\n }\n ]\n },\n {\n "part": "第四部分",\n "qa_pairs": [\n {\n "question": "福昕软件在境内市场拓展方面的策略是什么?"\n }\n ]\n },\n {\n "part": "第五部分",\n "qa_pairs": [\n {\n "question": "福昕软件的哪一款产品接入了ChatGPT,带来了哪些功能?

2024-05-31 17:07:28 732

原创 Google VertexAI API 接入

os.environ["GOOGLE_APPLICATION_CREDENTIALS"] = "服务账号json格式key"vertexai.init(project="GCP上创建的项目ID", location="us-central1")#此步非常重要,否则无法访问,去GCP创建服务账号密钥。请提取文档的目录结构。

2024-05-31 16:50:36 466

原创 豆包大模型API接入

"text": f"请求方舟 API 时发生未知的错误: {resp}"{'error_code': 0, 'text': '你好!有什么我可以帮助你的?{'error_code': 0, 'text': '你好!有什么我可以帮助'}"content": "你好"{'error_code': 0, 'text': '你好!{'error_code': 0, 'text': '你'}

2024-05-31 16:36:10 6005

原创 销售话术对成单有啥影响

我们通过一个神经网络来拟合这么个关系,即需要用数据去训练一个神经网络模型(成单概率模型),我们可以使用MLP来实现,MLP是一个多层感知器,能够轻松的模拟输入(坐席说的话)和输出(成单)之间的非线性关系(复杂关系)。坐席说了哪些话对成单有影响?咱们通常认为客户不需要时,坐席说了一些话会影响成单,那么我们就把这些话和成单之间建立一个映射关系。print(x, '成单概率:', clf.predict_proba([xx])[0][1])target_names = ['不成单', '成单']

2024-02-18 15:46:51 528

原创 基于语义搜索的意图识别

向量搜索使用faiss来进行,搜索的结果通过设置相似度的阈值来判断是否属于某个意图,为了减少输出结果的错误率,建议把阈值尽量设置高一些,避免乱推荐/乱弹,但也不是越高越好,太高了就不出结果了,在严肃场景,当然也是可以不出结果的,这个需要根据具体的意图来进行设置。print(time.strftime('%Y-%m-%d %H:%M:%S', time.localtime()), query, '搜索top_k={}用时: {}'.format(k,round(time.time()-t,4)))

2024-02-05 14:52:12 472

原创 快速理解MoE模型

因此就会减少训练的计算量,降低计算所需要的GPU(8B*7的模型,本应该需要56B模型所需的GPU,使用专家模型结构后,装载模型需要47B模型所需的GPU,训练时只需要14B模型的GPU)同时参数是共享的,也会进一步的减少GPU(减少到12B模型的GPU占用)。GPT4和GLaM都是MoE结构的模型,MoE模型并没有解决幻觉的问题,只是在超大的模型上,减少了训练和推理的计算,降低了训练和推理的成本,让专家模型更专注。此类模型容易过拟合。图中,显示了3类模型的结构,小模型,典型的稠密大模型和MoE模型。

2024-01-30 12:03:05 567

原创 ubuntu 20.04 docker及nvidia-docker2安装

2、安装nvidia-docker2(comand by command)1、安装docker(command by command)

2024-01-17 16:28:54 1114

原创 在Mac m1运行ChatGLM3-6B cpu版本1-3秒出结果

输入内容:295个字,1.9秒开始出结果,这个速度接近T4。4.开启Metal for M1,安装chatglm-cpp。下载到/Users/xxx/chatglm3-6b。2.下载chatglm3-6b。

2023-11-10 09:45:49 1993

原创 16K转8K

ffmpeg -i s-16k.wav -ar 8000 s-8k.wav

2023-09-08 12:01:09 434

原创 gpt-3.5-turbo-0613微调信用卡分期对话

1、数据准备:jsonl格式。2、安装openai。

2023-08-24 12:11:41 347

原创 NeMo 声纹识别VPR-实战

p>请求序号: 请求序号:由调用方维护,建议使用uuid,调用后原样返回,用于标识请求和调用方存储识别结果。声纹要求:16K采样,单通道,小于10秒,支持格式:.wav/.mp3/.m4a/.amr。使用Titanet-L模型,不需要训练,可以直接针对中文/英文进行使用识别验证。原始声纹:代表坐席的声纹。开场声纹:登录坐席的声纹。

2023-08-15 11:54:12 453

原创 NeMo 中文ASR话者分离(说话人日志)实战

首先基于VAD(声音活动检测)的MarbleNet,分割声音片段,然后基于TitaNet-L提取话者特征,然后通过聚类区分话者,最后通过神经网络分离话者标签。话者分离或者叫说话人日志,主要是解决说话人什么时候说了什么的问题。典型的应用场景:多人会议、坐席销售/客服场景。speaker_1 ['诶前天跟我说的昨天跟我说十二期利率是多大']6、 引入原始的yaml配置文件。7、创建mainfest文件。10、创建ASR离线分离对象。8、设置使用到的管道模型。12、显示离线分离的结果。5、输出未分离前的波形。

2023-08-15 10:56:52 1553

原创 NeMo中文/英文ASR模型微调训练实践

{"audio_filepath": "test.wav", "duration": 8.69, "text": "诶前天跟我说昨天跟我说十二期利率是多少工号幺九零八二六十二期的话零点八一万的话分十二期利息八十嘛"}s1 = "诶前天跟我说昨天跟我说十二期利率是多少工号幺九零八二六十二期的话零点八一万的话分十二期利息八十嘛"#指定正确答案。#['诶前天跟我说的昨天跟我说十二期利率是多少工号幺九零八二六零十二期的话零点八一万的话分十二期利息八十嘛']10.增加标点符号输出。7.保存训练好的模型。

2023-08-12 23:09:02 1162

原创 Ubuntu20.04 arm64/amd64 离线安装nvidia-docker2

然后执行sudo dpkg -i *.deb 安装docker。2. 从在线的Ubuntu20.04上下载离线包。1.在在线的Ubuntu20.04上从。

2023-08-03 18:27:01 1568 1

nvidia-docker2

adm64版本

2023-08-15

winsock全双工多客户端通信

1)全双工通信 2)一个服务器端可以与多个客户端通信 3)客户端的数量可以配置 4)可同时启动多个服务器端,新启动的服务器端不与原来已启动的服务器端(以及该服务器对应的客户端)相互冲突 5)适用于多进程通信

2006-09-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除