- 博客(6)
- 收藏
- 关注
原创 对Tesla V100的理论性能测评和与5060Ti的对比
NVIDIA Tesla V100 SXM2 16G评测摘要 Tesla V100作为2017年发布的Volta架构计算卡,曾凭借640个Tensor Core和815mm²大核心在AI计算领域占据重要地位。测试显示其FP64性能达6.93TFLOPS,FP16性能高达105TFLOPS,显存带宽900GB/s。但与新一代RTX 5060Ti对比发现:V100在FP64保持20倍优势,但新卡在BF16性能领先4.5倍,INT8稀疏计算达6倍优势。尽管V100现仅售400元且算力强劲,但面临300W高功耗、缺
2025-12-15 00:44:10
3060
原创 在Windows系统编译llama-cpp-python
本文分享了在Windows系统下编译安装Llama-cpp-python库的经验。作者详细介绍了从Ubuntu迁移到Windows时遇到的编译问题,指出相比Pytorch,Llama-cpp-python的安装更为复杂。文中提供了具体的操作步骤:安装Visual Studio的C++开发组件、配置CUDA环境变量、使用VS命令提示窗设置编译参数并安装。文章还特别提到Windows下的编译效率问题,指出CPU占用率仅12%,导致编译耗时长达20多分钟。作者的环境配置为Win11 24H2系统、RTX4060显
2025-09-18 20:17:00
628
原创 【踩坑日记】在Ubuntu Linux上部署Local Deep Researcher
本文分享了在Ubuntu 24.04系统上部署LocalDeepResearcher的详细步骤。首先通过git clone获取项目代码,然后根据需求自定义环境变量。接着,用户需在configuration.py文件中选择并配置模型及调用方式,并启动相应的客户端加载模型。随后,创建并激活虚拟环境,安装UVX及其他依赖。最后,启动langgraph服务端,并通过提供的API和Web UI进行推理操作。整个过程为Linux用户提供了清晰的指导,帮助成功部署和运行LocalDeepResearcher。
2025-05-14 21:19:09
917
原创 解决flash attention提示model not initialized on GPU的方法
最初以为是flash attention 2的安装问题,使用了。至此,flash attention不再提示加载问题。中提供的测试代码,进行测试,发现安装没有问题。在加载函数中强制将模型加载到GPU。
2025-05-14 15:04:34
1988
原创 RTX50系列显卡安装flash attention 2 基于Ubuntu24.04
本文详细介绍了如何在RTX50系列及其他架构的英伟达显卡上安装flashattention2。首先,需要激活虚拟环境并克隆项目源码,接着更新依赖文件并安装最新的编译工具。安装过程中需卸载ninja工具以避免编译错误,并通过指定显卡架构来减少编译时间。完成这些步骤后,执行安装程序并等待编译完成。最后,更新conda环境内的libstdc++库以确保flashattention2能正常运行。整个安装流程大约需要一小时。
2025-05-14 14:29:27
2295
6
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅