AI
文章平均质量分 54
人工智能
深圳市进化图灵智能科技有限公司
官网: turingevo.com
github: https://github.com/turingevo
邮箱 : wmx@turingevo.com
为社会创造价值,交个朋友,合作共赢。
展开
-
microsoft/BitNet最快推理!!!比 gpu npu 都快,而且能耗更低 !!!
在 BitNet/CMakeLists.txt 添加 指定clang 编译器相关路径。模型 Llama3-8B-1.58-100B-tokens 下载到。其中 b1.58 量化 ,直接把矩阵。2 转换模型到 gguf。3 量化到 i2_s。原创 2024-11-02 12:58:31 · 307 阅读 · 0 评论 -
llama.cpp 去掉打印,只显示推理结果
【代码】llama.cpp 去掉打印,只显示推理结果。原创 2024-10-22 00:40:14 · 1085 阅读 · 0 评论 -
pytorch训练和使用resnet
【代码】pytorch训练和使用resnet。原创 2024-10-19 08:09:51 · 417 阅读 · 0 评论 -
源码编译 FunASR for windows on arm
configure 、generate 用vsual studio 打开,编译。3 下载 openssl for windows on arm。2 下载 ffmpeg for windows on arm。直接搜索模型名称,然后下载,放在路径下。4 打开cmake-gui。字段的值,就是解码结果。原创 2024-10-14 16:25:04 · 412 阅读 · 0 评论 -
源码编译llama.cpp for windows on arm
上一步openblas 安装到路径 C:/workspace/program/openblas。选择 Release ARM64 ,选中项目 ALL_BUILD 生成。然后open project, 选择 vs 2022 打开。原理 blas 加速是通过编译ggml提供的。点击 Generate 生成。原创 2024-10-14 15:35:01 · 707 阅读 · 0 评论 -
The given version [16] is not supported, only version 1 to 10 is supported in this build
比如我这个 funasr 程序依赖 C:\Programs\onnxruntime-win-arm64-1.16.1\lib\onnxruntime.dll。把指定版本的onnxruntime.dll 复制到程序exe目录。系统中存在多个 onnxruntime.dll。程序链接到了不匹配的版本。原创 2024-10-12 18:02:02 · 333 阅读 · 0 评论 -
阿里达摩院:FunASR - onnxruntime 部署
因为自动下载模型需要 FunASR 的python 环境和相关依赖,这里是runtime ,没有安装这些,所以手动下载。直接搜索模型名称,然后下载,我放在modelscope配置的路径下。切换到 onnxruntime。字段的值,就是解码结果。把这些模型路径,指定。原创 2024-09-13 00:04:21 · 314 阅读 · 0 评论 -
源码编译llama.cpp 、ggml 后端启用自定义BLAS加速
625我这以编译 windows on arm 的 llama.cpp 、ggml 为例子,其它情况同样可以参考我的文章《源码编译 openblas for windows on arm》我用了自己编译的这个 openblas。原创 2024-09-12 00:38:13 · 772 阅读 · 0 评论 -
阿里达摩院:FunASR语音识别
试错的过程很简单而,且特别是今天报名仓雪卡的同学,你们可以。我先今天写5个点,我就试试试验一下,反正这5个点不行,我再写5个点,这试再不行,那再写5个点嘛。你总会所谓的活动搭神和所谓的高手,都是只有一个把所有的错,所有的坑全部趟一遍,留下正确的你就是所谓的搭神。如果说你要想降低你的试错成本,今天来这里你们就是对的。因为有畅畅血卡这个机会,所以说关于活动过于不过这个问题,或者活动很难通过这个话题呃,如果真的要坐下来聊的话,要聊一天。三茂老师说,我们在整个店铺的这个活动当中,我们要学会换位思考。原创 2024-09-01 00:46:56 · 482 阅读 · 0 评论 -
stable-diffusion-webui 部署 ,启用 api 服务
我这里是conda 环境 torchpgu ,python3.11.7 ,不是系统默认的 python3 命令。conda 环境torchpgu , python 是 3.11.7。官方推荐 python3.10 或者 python3.11。安装完成之后,首次运行自动下载模型权重,可以手动下载。我系统是 ubuntu22.04。原创 2024-08-28 16:47:55 · 656 阅读 · 0 评论 -
百度ERNIE-SDK使用示例
【代码】百度ERNIE-SDK使用示例。原创 2024-08-27 23:43:03 · 1069 阅读 · 0 评论 -
gym/Gymnasium强化学习玩推箱子游戏
自 2021 年以来一直维护 Gym 的团队已将所有未来的开发转移到 Gymnasium,这是 Gym 的替代品(将 gymnasium 导入为 gym),Gym 将不会收到任何未来的更新。请尽快切换到 Gymnasium。我用的是 Python 3.7.16。原创 2024-08-05 00:13:59 · 312 阅读 · 0 评论 -
0.01 /小时,使用超算互联网https://www.scnet.cn/国产卡推理微调大模型,初体验
6 微调使用国产卡非常慢,大概需要7小时,使用nvidia-4070ti-super 需要大概2个半小时,差距很大4070tisuper 微调参数:–use_lora下面图片是4070tisuper 微调的过程截图:速度 7.32s /it下图4070tisuper显卡占用情况,只占用5.28G4070tisuper推理微调后的模型:显卡占用情况,只占用4.67G下面是国产卡,推理过程速度耗时如下图。原创 2024-08-01 12:51:54 · 950 阅读 · 0 评论 -
opencv yolo c++ 视频、摄像头推理
【代码】opencv yolo c++ 视频、摄像头推理。原创 2024-06-08 12:13:20 · 300 阅读 · 0 评论 -
源码编译OpenCV 启用cuda 加速
指定opencv_contrib路径 /media/wmx/ws1/software/opencv/modules/opencv_contrib/modules。我这里放在 opencv/modules/opencv_contrib。检出4.10.0 版本,目前2024年6月5日,最新版本。指定安装路径 CMAKE_INSTALL_PREFIX。显卡:nvidia 4070tisuper 16G。系统:ubuntu22.04 x86_64。生成MakeFile。原创 2024-06-05 11:45:43 · 545 阅读 · 0 评论 -
使用 ultralytics 摄像头/视频文件 yolo推理
【代码】使用 ultralytics 摄像头yolo推理。原创 2024-06-04 17:46:27 · 505 阅读 · 0 评论 -
Qwen 微调LoRA之后合并模型,使用 webui 测试
【代码】Qwen 微调LoRA之后合并模型,使用 webui 测试。原创 2024-06-01 10:24:09 · 624 阅读 · 0 评论 -
Qwen 微调脚本分析
【代码】Qwen 微调脚本分析 Qwen/finetune.py。原创 2024-05-31 23:48:53 · 558 阅读 · 0 评论 -
GPTQ 量化大模型
这是因为即使某些权重可能单独引入更多误差,但它们会在流程后期量化,此时剩下的其他权重很少,这可能会增加误差。事实证明,列的最终量化仅受对该列更新的影响,而不会受后续列的影响。因此,GPTQ 可以一次将算法应用于一批列(例如 128 列),仅更新这些列和矩阵的相应块。GPTQ 算法由 Frantar 等人 (2023) 提出,它从 OBQ 方法中汲取灵感,但进行了重大改进,可以将其扩展到(非常)大型的语言模型。对于批次中的每一列,它量化权重,计算误差,并相应地更新块中的权重。然后它循环运行,一次处理一批列。原创 2024-05-30 16:29:01 · 823 阅读 · 0 评论 -
使用LLaMA-Factory微调大模型
我这里是本地电脑 显卡是 GTX-4070ti-super 16G ,单卡。因为是Qwen模型,不是Qwen1.5及以后的模型 所以。在 LLaMA-Factory 路径下 创建虚拟环境。这里必须这样,不然报错!然后保存配置参数,然后点击。在虚拟环境中安装依赖。我这里使用自带的数据。原创 2024-05-29 23:50:42 · 863 阅读 · 0 评论 -
gpt2使用ggml推理
【代码】gpt2使用ggml推理。原创 2024-05-24 18:04:49 · 435 阅读 · 0 评论 -
ggml文件格式
【代码】ggml文件格式。原创 2024-05-24 14:47:08 · 370 阅读 · 0 评论 -
faster_whisper语音识别
检测可用设备:list_available_devices()函数。2 从音频设备读取数据,传递给 faster_whisper 识别。我这边usb摄像头带麦克风的,所以 DEV_index = 8。1 使用 pyaudio 打开音频设备。按键 r 录制 s 停止 q退出。原创 2024-05-23 00:14:45 · 537 阅读 · 0 评论 -
快速安装flash-attention
我环境python版本是3.10。原创 2024-04-19 15:05:42 · 662 阅读 · 0 评论 -
使用NVIDIA/TensorRT-LLM 量化qwen/Qwen-1_8B-Chat
3 构建 TRT-engine。2 转换为checkpoint。1 命令行配置环境变量。4 运行量化模型推理。原创 2024-04-19 13:42:24 · 545 阅读 · 0 评论 -
Qwen量化脚本run_gptq.py解析
## Qwen量化脚本run_gptq.py解析模型路径 [https://github.com/QwenLM/Qwen/](https://github.com/QwenLM/Qwen/)run_gptq.py路径 [https://github.com/QwenLM/Qwen/blob/main/run_gptq.py](https://github.com/QwenLM/Qwen/blob/main/run_gptq.py)原创 2024-04-18 07:46:03 · 755 阅读 · 0 评论 -
pip install “peft<0.8.0“ deepspeed 报错 No such file or directory:/usr/local/cuda-12.2/bin/bin/nvcc
pip install "peft原创 2024-04-14 00:29:51 · 445 阅读 · 0 评论 -
python NLP数据集分割大文件
NLP数据文件有时候特别大的文件,需要分割成N个小文件来处理。全部分割:分割整个文件,每一份K行。部分提取:可以提取N份,每份K行。原创 2024-04-13 15:45:50 · 182 阅读 · 0 评论 -
langchain Chroma 构建本地向量数据库
/docs/第八章-骨骼关节和肌肉疾病.docx。./docs/第十九章-耳鼻咽喉疾病.docx。./docs/第十六章-感染性疾病.docx。文档在当前代码目录下。原创 2024-04-01 23:58:57 · 2134 阅读 · 0 评论 -
ollama + langchain + FAISS 向量数据库,给定知识上下文的问答
3 基于上面查询提供语言模型 promt。1 把给定的文档向量化存储为数据库。基于 langchain 框架。4 语言模型生成答案。原创 2024-03-31 10:45:17 · 2032 阅读 · 0 评论 -
ubuntu 安装配置 ollama ,添加open-webui
如果修改了OLLAMA_MODELS环境变量,把之前下载的 OLLAMA_MODELS 目录变量下的两个目录。浏览器下载 https://ollama.com/download/ollama-linux-amd64。1 手动下载 https://ollama.com/install.sh 这个文件。2 注释掉下载部分 curl xxxx 手动下载ollama-linux-{ARCH}复制到新的OLLAMA_MODELS目录变量下 ,即可。模型下载到刚才的OLLAMA_MODELS 环境变量下。原创 2024-03-16 20:59:36 · 14365 阅读 · 11 评论 -
yolo,c++目标识别
【代码】yolo,c++目标识别。原创 2024-01-11 14:25:46 · 458 阅读 · 0 评论 -
tensoflow 报错 Could not locate zlibwapi.dll. Please make sure it is in your library path!
默认安装路径是 C:/Program Files (x86)/zlib/使用 cmake-gui 工具。点击 Configure 无错。然后点击 Generate 无措。点击open Project。选择Release x64。编译ALL_BUILD。再编译 INSTALL。原创 2024-01-04 17:44:37 · 827 阅读 · 0 评论 -
强化学习A3C算法
【代码】强化学习A3C算法。原创 2023-08-16 19:20:09 · 308 阅读 · 0 评论 -
强化学习DQN算法和代码
在训练时,目标网络𝑄𝜃’(𝑠𝑡+1, 𝑎)和预测网络𝑄𝜃(𝑠𝑡, 𝑎𝑡)来自同一网络,但是𝑄𝜃’(𝑠𝑡+1, 𝑎)网络的更新频率会滞后𝑄𝜃(𝑠𝑡, 𝑎𝑡)其中 gym version = 0.26.2。原创 2023-08-15 17:37:20 · 294 阅读 · 0 评论 -
强化学习 PPO算法和代码
强化学习PPO原创 2023-08-14 19:41:32 · 774 阅读 · 0 评论 -
强化学习算法
策略网络输入状态s,输出动作a的概率分布如下: πa∣s多次训练轨迹如下s11a11r11……s1ta1tr1t……s1Ta1Tr1T………………sn1an1rn1……sntantrnt……snTanTrnT………………sN1aN1rN1……sNtaNtrNt。原创 2023-08-10 16:02:19 · 285 阅读 · 0 评论 -
ubuntu20.04 docker 下编译 tensorflow-gpu
我选择这个,根据CUDA Toolkit 版本选对应的。选择 2.7 步骤,下载 deb 包,本地安装。系统 ubuntu 20.04 LTS。需要注册并且登录Nvidia 账号。显卡 GTX 1060 6G。原创 2023-08-07 23:06:43 · 559 阅读 · 0 评论 -
win10 安装 tensorflow-gpu 2.10.0
我安装 python 3.10 和 tensorflow_gpu-2.10.0。这里根据自己的版本安装,按照表格推荐tensorflow-gpu==2.10.0。这里根据自己的版本安装,按照表格推荐 11.2 ,我这里是12.2。这里根据自己的版本安装,按照表格推荐 8.1 ,我这里是 8.9。适用于Microsoft窗口的 CUDA 安装指南。显卡 GTX 1660 Ti。系统 win10 x64。原创 2023-08-07 18:17:35 · 988 阅读 · 0 评论 -
从源码编译 tensorFlow ,启用CPU 指令加速
7 Please specify optimization flags to use during compilation when bazel option “–config=opt” is specified [Default is -Wno-sign-compare]: --copt=-march=native # 配置 bazel 编译的参数,我这是纯 cpu 加速,所以填写。: 这是两个选项的组合,用于以交互式终端运行容器,并将终端连接到容器的输入/输出(stdin/stdout)。原创 2023-07-30 12:48:26 · 2308 阅读 · 0 评论
分享