EthanLifeGreat-CSDN博客

原创多卡(3090)部署通义千问Qwen2-72B大模型并加速至38tps：vLLM库的使用和错误排查

下面是Hugging Face transformer版的千问2，token生成速度在15个每秒左右，但还不够快，在这篇文章里我们用vLLM将速度翻倍，达到38tokens/s。做了Qwen1的加速，其中关于Auto-GPTQ的安装问题在Qwen2中依然适用。可以看到，短上下文的处理速度达到了恐怖的38.7tokens/s，与官方给出的A100速度基本持平。相比于开头的transformer版本，速度提升了两倍有余。vllm后台仍然识别不到nccl，想用vLLM加速处理，于是参考了。

2024-07-08 19:29:38 2326

原创本地多卡(3090)部署通义千问Qwen-72B大模型提速实践：从龟速到够用

本文记录了多卡部署72B通义千问过程，将推理速度提到10token/s水平。

2024-07-07 19:25:40 5525

原创 SHAP中使用shap.summary_plot对多分类任务模型中特征重要性绘图

多分类任务中使用shap.summary_plot展示各个特征对模型输出类别的重要性。

2024-06-25 11:41:54 974

原创 Audio PsyChat：web端语音心理咨询系统

这是一个在服务器本地运行的web语音心理咨询系统，咨询系统内核使用PsyChat，我们为其制作了Web前端，并拼接了ASR和TTS组件，使局域网内用户可以通过单纯的语音进行交互。其中ASR和TTS组件使用PaddleSpeechAPI。

2024-06-04 22:03:39 591 2

原创笔记本电脑屏幕用做显示器副屏——有线网络下向windows电脑投屏实践

本文提供两台windows电脑在同一LAN下的投屏方案。

2024-03-11 17:07:39 4411

原创中国象棋开源人工智能程序（带UI）搬运

棋力天天象棋业9-1的Github/Gitee开源中国象棋AI程序。

2024-02-24 11:08:55 1201

原创 pycharm安装本地wheel包

但是pycharm上的终端似乎不是项目的虚拟环境，也就是说，直接在Terminal里面输入pip install xxx是不能安装到项目里的。上用迅雷下载了要用的wheel。（注：我这里学校宿舍电脑用迅雷下载的速度比平时速度快了三倍）注意，上述路径都是Windows环境下的，如果是Linux要把 \ 或 \\ 改为 /pytorch，带cuda的包下载得比较慢。所以在pytorch得网站。或者，更为推荐的是，在Terminal里输入。

2024-02-24 11:08:28 785

原创 GMM/DNN-HMM语音识别：从0讲解HMM类算法原理？看这一篇就够了

这是一篇对语音识别中的一种热门技术——GMM/DNN-HMM混合系统原理的透彻介绍。当前网上对HMM类语音识别模型的讲解要么过于简单缺乏深度，要么知识点过于细化零碎分散。而本文旨在为语音识别方面知识储备较少的读者，从头开始深入解读GMM-HMM模型和DNN-HMM模型。讨论了语音识别里的两个重要概念：声学模型和语言模型，介绍了语音和文本的数据预处理技术，GMM-HMM模型的训练、预测方法和统计学意义，及在此基础上，DNN-HMM模型的构建。

2024-02-10 18:17:29 4705 1

原创纯NumPy实现CNN网络，MNIST精确度99.3%

用NumPy仿照PyTorch写了一个深度学习模块包，实现了CNN，在MNIST上有99.33%的测试精度。完整代码地址：EthanLifeGreat/NumPy_CNN: This project implemented some Convolutional Neural Network modules using pure NumPy. And a network built by these modules achieved over 99% test accuracy on MNIST d.

2021-05-28 22:50:13 1223 1

翻译 CUDA优化：最大化内存吞吐量（官方文档翻译）

毕业设计要翻译技术资料 3000 字，这里找了英伟达 CUDA TOOLKIT DOCUMENTATION 的 5.3 节“最大化内存吞吐量来”翻译一下，供参考，并希望此文对诸位的 CUDA 程序优化有所帮助。5.3. 最大化内存吞吐量最大化应用程序总内存吞吐量的第一步当是最大限度地减少低带宽的数据传输。这意味着最小化主机（内存）和设备（显存）之间的数据传输，因为正如主机和设备间的数据传输中详述的那样——这样的数据传输的带宽远远低于全局内存和设备之间的数据传输。这也意...

2021-03-27 17:29:21 1288

原创主动噪声控制(ANC)与Simulink仿真

随着数字信号处理器的发展，近年来主动/有源噪声控制(Active Noise Control, ANC)技术已在耳机、汽车等领域普及。本质上，主动噪声控制的目的是产生与噪声信号相反的声波，以抵消/削弱噪声。但是由于目前中文网络上对于具体实现的介绍尚不完善，笔者希望更透彻地解析其中一些能引发思考且不可忽视的细节。本文基于Matlab官方给出Simulink例程，主要介绍宽带前馈单通道ANC系统原理，和X-滤波的LMS算法思想，并简单拓展到其它类型的ANC系统。

2020-08-10 17:20:09 8366 9

原创回声消除AEC算法（含Matlab代码）

本文从实用角度出发，简单介绍回声消除(AEC)背景与理论，对比评价不同自适应算法的效果。

2020-07-30 17:52:47 7086 10

原创能用三角函数表示声音吗——正弦模型综述

摘要：正弦模型(Sinusoidal Modeling)指的是用一系列振幅、频率和相位不断变化的正弦波来拟合音频。相比于非常成熟的线性预测模型(Linear Prediction)，中文技术社区对于正弦模型的介绍并不足够。本文阐述这一模型的思想和实现思路，解释其中的技术细节。

2020-05-30 17:04:18 5054 2

原创为什么你只需要CD音质：16bits, 44.1kHz的意义

本文主要从音乐的存储和传输的角度探讨数字音乐体系的两大指标：采样频率和量化位数/深度的意义。为什么最初设计者选择的是44.1kHz和16bits的音乐记录标准？这两个数字背后的内涵是什么？作为拥有“金耳朵”的你，是否有必要选择追求更好的音质？如果你有如上的疑惑，那么本文或许对你有帮助。本文主要从实用角度阐述CD音质(16bits, 44.1kHz)的必要性和充分性。 - 第三章我们介绍(44.1kHz)采样频率的意义。 - 第四章我们解析(16bits)量化的内涵。- 最后一章我们简要总结全文并延

2020-04-02 09:19:54 16691 4

原创图像小波去噪的Matlab函数解析与并行化实现思路

本文以普通理工科生能读懂的角度出发，首先介绍了一个用Matlab进行图像小波去噪的实例；然后分析了小波去噪的流程和其对应的函数，其间通俗地解释了卷积的操作、阈值化处理；最后解释了小波去噪可以并行化实现的原因，所使用的思路。对于一位想要使用Matlab进行图片的小波去噪，但又不想了解公式、原理的同学，可以重点阅读第二章；对于一位想参考小波去噪流程以及离散小波变换(DWT)原理的同学，可以重点阅读第三章；对GPU计算感兴趣的同学可以重点阅读第四章。

2020-03-01 10:59:46 3373 5

翻译如何自动生成推荐歌单：ACM论文翻译与解读 | Translation and Interpretation of ACM Survey

如何自动生成推荐歌单：ACM论文翻译与解读 | How to Automatically Generate Music Playlists: Translation and Interpretation of ACM Survey

2020-01-28 20:25:44 3469

EthanLifeGreat的博客