ASC学习
文章平均质量分 59
ASC比赛总结和分享
chen_ :)
Hello World
展开
-
ASC22 - deePMD-kit
第一次参加ASC比赛,只完成了 deePMD-kit 初步的优化,记录一个月来的心得与总结IntroductionDeePMD-kit是用Python/ c++编写的DeePMD实现,旨在最小化构建基于深度学习的原子间势能和力场模型以及进行分子动力学模拟所需的工作量。这为解决分子模拟中准确性与效率的两难问题带来了新的希望。DeePMD-kit的应用范围从有限分子到扩展系统,从金属系统到化学键合系统。The DeepMD 挑战要求大学生团队利用超级计算机运行deepmd-kit框架去进行三个最具代表性原创 2022-03-05 21:07:17 · 2785 阅读 · 1 评论 -
HPC Game小结
0th HPC Game小结原创 2023-01-21 00:08:41 · 1973 阅读 · 0 评论 -
Linux(WSL)安装CUDA
WSL-Ubuntu下CUDA 的安装原创 2022-10-27 16:25:01 · 4162 阅读 · 0 评论 -
Get Started with Intel VTune Profiler(summary)
表示可用逻辑处理器的“已用时间”和使用率级别,并提供在应用程序执行期间使用了多少个逻辑处理器的图形视图。:性能快照提供了其他分析类型,这些分析类型可能有助于更深入地调查应用程序中发现的性能问题。与在应用程序中检测到的性能问题相关的分析类型以。单独约束的事实表明,应用程序受频繁但很小的内存请求的约束,而不是受饱和的物理 DRAM 带宽的约束。提供了有关最耗时的函数(热点函数)的数据,这些数据按执行时所花费的 CPU 时间排序。运行热点分析以查找热点或对应用程序的总运行时间贡献最大的代码段。原创 2022-10-16 22:22:36 · 1091 阅读 · 0 评论 -
备忘录 - ASC22
usedeepmd-kitpip install -i https://pypi.tuna.tsinghua.edu.cn/simple deepmd-kit==2.0.3conda activate ....conda deactivatedp freezedp test -m graph.pb -s /root/workshop/deempmd-kit/data/ -d result集群sbath < test.shvim 文件名.out原创 2022-02-09 20:49:26 · 488 阅读 · 0 评论 -
mgalcu-a509
numberintraintertime00211.589s11159.146s12176.572s3.原创 2022-02-15 23:09:35 · 264 阅读 · 0 评论 -
summary(1)
记录一下搭建硬件环境时踩的坑 (总算解决了python的接口问题)安装教程:https://github.com/deepmodeling/deepmd-kit/blob/devel/doc/install/install-from-source.md#install-the-deepmd-kits-python-interface由于在 Install the DeePMD-kit’s python interface 一步中安装不了pip, 所以要用清华源的镜像即: 将此步骤改成:pip原创 2022-01-15 20:21:11 · 788 阅读 · 0 评论 -
tensorflow
初步认识「TensorFlow」是 Google 多年以来内部的机器学习系统基本使用:图(graph)来表示计算任务在会话 (Session) 的上下文 (context) 中执行图tensor 表示数据变量 (Variable) 维护状态feed 和 fetch 可以为任意的操作(arbitrary operation) 赋值或者从其中获取数据tensorflow 本质:一个编程系统图来表示计算任务图中的节点称为op (operation)一个op获得0个或者多个Tensor原创 2022-02-03 22:52:20 · 1206 阅读 · 0 评论 -
VTune
性能分析器图形用户界面,无需重新编译独立于编译器和语言 (C、C++、Fortran、C#、Java、.NET)快速探查源代码,确定存在问题的代码行优化多核性能内含英特尔线程档案器(调试多线程代码,在多核处理器上取得最佳性能)主要作用:确定占用大量处理器时间的区域,即称为热点查看process,查看应用运行过程中的情况查看有无充分的有效利用可用的处理器时间的代码查看影响应用程序性能的同步对象对比不同的同步方法、线程数量以及算法间对性能影响线程的活动状态和状态转换与硬件相关的性能瓶颈原创 2022-02-04 23:00:13 · 1250 阅读 · 0 评论 -
GPU优化
TotalGPU 并行编程技术,对现有的程序进行并行优化先对数据集进行分解,然后将任务进行分解从矩阵角度(数据集)来分析数据,将输入集和输出集中各个格点的对应关系找出来,后分派给各个块,各个线程。识别代码的热点(热点分析)使用分析工具来找出瓶颈(eg. CUDA Profiler or Parallel Nsight)使用Nsight Systems分析GPU性能NVIDIA Nsight Systems 简称nsys,低开销的系统分析工具 存在三种不同的活动区:分析—收集任原创 2022-02-10 22:50:41 · 1052 阅读 · 0 评论 -
数据 并行
含义是计算机内包含一组处理单元(PE),每一个处理单元存储一个(或多个)数据元素。当机器执行顺序程序时,可对应于全部或部分的内部处理单元所存的数据同时操作。将并行处理技术引入信息检索领域把数据划分成若干块分别映像到不同的处理机上,每一台处理机运行同样的处理程序对所分派的数据进行处理。数据级并行依赖于并行处理机,它属于SIMD系统内的并行。特点是重复设置许多个同样的处理单元在这种并行模式中,被划分的是数据,所以这种并行方式叫数据并行。数据并行的实例运用(PyTorch)原创 2022-02-18 23:03:16 · 2888 阅读 · 0 评论 -
最大化TensorFlow* CPU性能
用户可以在v2.5之后的官方x86-64 TensorFlow 设置环境变量TF_ENABLE_ONEDNN_OPTS=1来启用这些CPU优化。export TF_ENABLE_ONEDNN_OPTS=1大多数建议都适用于官方x86-64 TensorFlow和英特尔®TensorFlow优化。OpenMP调优等一些建议只适用于TensorFlow的英特尔®优化。TensorFlow图形选项改进性能LPOT提供了一个统一的低精度推理接口, 为fp32预训练模型提供了比TensorFlow优化工具转载 2022-02-27 11:56:33 · 7219 阅读 · 0 评论 -
【无标题】ff
mgalcuslurm - *****.out(baseline: true/float64/float64)42680 - baseline - 376.579s42685 - true/float32/float32 - 329.579s42686 - false/float32/float32 - 514.048s42687 - true/float16/float16 - 402.219s42688 - false/float16/float16 - 589.722s42690 -原创 2022-02-10 13:42:16 · 851 阅读 · 0 评论 -
最大化TensorFlow* CPU性能 (shell)
详细用法 :最大化TensorFlow* CPU性能添加链接描述原文:Maximize TensorFlow* Performance on CPU: Considerations and Recommendations for Inference Workloadsexport TF_ENABLE_ONEDNN_OPTS=1intra_op_parallelism = number of physical core per socket#每个插槽的物理内核数inter_op_parallel原创 2022-02-27 21:20:37 · 1100 阅读 · 0 评论 -
模型优化之XLA
xla代码位置在tensorflow/compilerXLA,计算图可以直接被编译成目标平台的可执行代码,直接执行,不需要runtime代码的参与XLA提供了AOT(提前编译)和JIT(即时编译)两种方式原创 2022-02-22 21:36:12 · 162 阅读 · 0 评论 -
https://www.xshell.com/zh/xshell/
https://www.xshell.com/zh/xshell/原创 2022-02-13 16:53:30 · 6018 阅读 · 0 评论 -
InfiniBand& RDMA
InfiniBand(直译为“无限带宽”技术,缩写为IB)是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。InfiniBand也用作服务器与存储系统之间的直接或交换互连,以及存储系统之间的互连。RDMA是Remote Direct Memory Access的缩写,意思是远程直接数据存取,就是为了解决网络传输中服务器端数据处理的延迟而产生的。网络可扩展...转载 2022-02-17 21:41:33 · 741 阅读 · 0 评论 -
ASC - DAY2
转载 2022-02-17 22:39:02 · 148 阅读 · 0 评论 -
GPU并行与CUDA编程
区分两种API的前缀驱动: cu_运行: cuda_important:CUDA函数库全部库: http://developer.nvidia.com/gpu-accelerated-librariesnvcc编译器,注意后缀CUDA硬件环境:芯片是对于架构的实现并行计算:深度学习适合并行编程stencil是以某一固定模板的形式读取数据(只能是读相邻元素的关系)编写CUDA程序习惯:h_ CPUd_ GPU分配内存空间CPU的数据复制给GPU: cudoME...转载 2022-02-11 22:58:16 · 324 阅读 · 0 评论 -
cProfile
cProfile是Python自带的性能分析模块,可以用于程序的热点分析个人理解:需要一定的python脚本用于ASC22-DeepMD的热点分析实例:运行脚本:python -m cProfile /home/religiousj/dp.py train input.json输出结果保存到dp.out, 可以进一步分析输出结果python -m cProfile -o /home/religiousj/dp.out /home/religiousj/dp.py train input.j原创 2022-02-07 12:18:49 · 2184 阅读 · 0 评论 -
Xshell 7学生版
link原创 2022-02-13 17:00:44 · 1289 阅读 · 0 评论 -
dp compress
compress a model压缩模型,先要freezedp compress -i graph.pb -o graph-compress.pbThe model compression interface requires the version of deepmd-kit used in original model generation should be 2.0.0-alpha.0 or above. If one has a frozen 1.2 or 1.3 model, one ca原创 2022-02-22 21:35:24 · 244 阅读 · 0 评论 -
CUDA.
from asc-22CPU与GPU并用的“协同处理”转载 2022-01-23 20:02:27 · 99 阅读 · 0 评论 -
OpenMP
通过使用预处理指令来让程序并行化1#pragma omp 指令 [子句[子句]…]#include <stdio.h>#include <omp.h>int main(int argc, char* argv[]){ int i; // YOUR CODE HERE #pragma omp parallel for // END OF YOUR CODE for (i = 0; i < 10; i++) { printf("i = %d原创 2022-03-10 21:36:27 · 320 阅读 · 0 评论 -
linux shell
linux shell原创 2022-03-02 23:13:54 · 63 阅读 · 0 评论 -
CUDA code
1用host指代CPU及其内存,用device指代GPU及其内存CUDA程序中既包含host程序,又包含device程序host与device之间可以进行通信,之间可以进行数据拷贝GPU并行化的工作流程:CPU发送一种称为kernel的函数到GPUGPU同时运行该函数的多个版本,称为threads;thread可以组合成block,一个kernel里的所有thread称为一个grid__global__是CUDA C/C++的函数修饰符表示该函数为一个kernel函数, 且在调用原创 2022-03-09 20:37:22 · 188 阅读 · 0 评论 -
MPI code
1#include <mpi.h>#include <stdio.h>int main(int argc, char **argv){ MPI_Init(&argc, &argv); printf("Hello World!\n"); MPI_Finalize(); return 0;}2include <stdio.h>#include <mpi.h>int原创 2022-03-09 19:49:48 · 247 阅读 · 0 评论 -
TensorFlow GPU优化(1)
GPU 加速深度学习,剖析深度神经网络NVIDIA一nvidia-smi功耗是 GPU 利用率的另一个重要指标。通常,启动的 CUDA 或 Tensor 核心越多,消耗的 GPU 功率越高。GPU-Util显示利用率深度学习领域中提高 GPU 利用率最常使用的优化技术—几乎占用所有 GPU 内存的批次大小二nvidia-smi dmon以滚动方式列出更多的 GPU 统计数据每一个 GPU 都有多个串流多处理器(streaming multiprocessors),执行 CUDA 核心原创 2022-03-10 19:26:25 · 739 阅读 · 0 评论