[DirectX12学习笔记] 计算着色器

本文介绍了如何使用DirectX12的计算着色器实现高斯模糊效果,包括计算着色器的基础知识、线程组的概念、资源输入输出、渲染到贴图以及高斯模糊的实现原理和代码示例。强调了计算着色器在GPU并行计算的优势,以及在处理数组边界和同步问题时的注意事项。
摘要由CSDN通过智能技术生成
  • 注意!本文是在下几年前入门期间所写(young and naive),其中许多表述可能不正确,为防止误导,请各位读者仔细鉴别。

用计算着色器实现高斯模糊


计算着色器简介

计算着色器在渲染管线中的位置可以这么理解
在这里插入图片描述

GPU的并行执行能力非常强,非常适合安排多线程任务,英伟达的硬件现在是一个warp包含32个线程,ATI的则是一个wavefront包含64个线程,所以为了均匀分配任务,我们写程序的时候开的线程数最好是32和64的倍数,也就是64的倍数。
在compute shader里线程会分成很多个组,每个thread group包含很多个thread,而且thread group和thread都有三个维度
thread group的数量通过Dispatch来规定

void ID3D12GraphicsCommandList::Dispatch(
	UINT ThreadGroupCountX,
	UINT ThreadGroupCountY,
	UINT ThreadGroupCountZ);

这个dispatch其实就是执行计算着色器的命令,类似于draw call,输入参数是三个轴的group的数量,然后每个group里包含了多少个thread,则是在Compute Shader前的方括号里标出:

// The number of threads in the thread group. The threads in a group can
// be arranged in a 1D, 2D, or 3D grid layout.
[numthreads(16, 16, 1)]
void CS(int3 dispatchThreadID : SV_DispatchThreadID)
// Thread ID
{
   
	// Sum the xyth texels and store the result in the xyth texel of
	// gOutput.
	gOutput[dispatchThreadID.xy] = gInputA[dispatchThreadID.xy] +	gInputB[dispatchThreadID.xy];
}

上面的代码则是表示每个group里有16*16个thread。
可以看到代码里用了SV_DispatchThreadID来获取当前线程的id,其实线程id有4种,如下

  1. SV_GroupID可以获取group id,是一个标识group的三维向量
  2. SV_GroupThreadID可以获取组内的id,即相对与组的开头的id偏移,也是个三维的
  3. SV_DispatchThreadID可以获取总的id,总的id是这么计算的:

dispatchThreadID.xyz =
groupID.xyz * ThreadGroupSize.xyz + groupThreadID.xyz

  1. SV_GroupIndex系统值是一个线性版本的DispatchThreadID,是这样计算出来的:

groupIndex =
groupThreadIDzThreadGroupSize.xThreadGroupSize.y + groupThreadID.y*ThreadGroupSize.x + groupThreadID.x;

有的时候任务的数量不是刚好是线程数的整数倍,比如256个线程,然后输入的有200个数据,那么会多出来一些线程,数组会越界,不过不用担心,因为数组越界的读默认会读出0,而越界的写默认是空操作,当然有的时候还是会出问题,比如下面的高斯模糊的例子,所以要注意一下。

然后,要用计算着色器,创建PSO的时候也不再是填D3D12_GRAPHICS_PIPELINE_STATE_DESC了,而是填一个D3D12_COMPUTE_PIPELINE_STATE_DESC,后者要填的参数要少很多,编译CS和创建PSO的方法如下:

mShaders[“wavesUpdateCS”] = d3dUtil::CompileShader(L"Shaders\WaveSim.hlsl", nullptr, "UpdateWavesCS", "cs_5_0");

···

D3D12_COMPUTE_PIPELINE_STATE_DESC wavesUpdatePSO = {
   };
wavesUpdatePSO.pRootSignature = mWavesRootSignature.Get();
wavesUpdatePSO.CS =
{
   
	reinterpret_cast<BYTE*>(mShaders["wavesUpdateCS"]->GetBufferPointer()), mShaders[“wavesUpdateCS”]->GetBufferSize()
};
wavesUpdatePSO.Flags = D3D12_PIPELINE_STATE_FLAG_NONE;
ThrowIfFailed(md3dDevice->CreateComputePipelineState(
	&wavesUpdatePSO,
	IID_PPV_ARGS(&mPSOs[“wavesUpdate”])));

shader输入和输出

我们要用compute shader,那么自然就涉及到一个输入和输出的问题,我们要把数据从cpu上传到gpu让gpu来算,然后算完之后再从gpu读回cpu(有的时候不用,比如算完后当作输出到屏幕的资源或者拿去做别的处理之类的)。以下提几种输入或者输出的方法,以及要注意的点。

输入纹理
创建一个输入纹理我们以前已经做过很多次了,绑srv就行。
然而这里和以前创建贴图的SRV不同的是,要用CreateCommittedResource创建成GPU资源(因为以前读贴图的时候用了DirectX::CreateDDSTextureFromFile12,这个方法包含了gpu资源的创建,而这里我们是创建一个空的,不再是读贴图了,所以要手动创建一下gpu资源),然后创建srv的时候把gpu资源传入第一个参数。
输出纹理
要绑UAV,绑UAV的方法类似于绑SRV,这里不再列代码。此外,必须用CreateCommittedResouce创建GPU资源,而且申请resource的时候必须要带D3D12_RESOURCE_ALLOW_UNORDERED_ACCESS这个flag,只有srv的resource在申请的时候可以不带flag,因为默认就是srv的resource,其他的如render target等都要一个ALLOW的flag。
然后shader里要声明一个输出的纹理,应该这么声明:

Texture2D gInput            : register(t0);
RWTexture2D<float4> gOutput : register(u0);

可以看到第二个是存在u0里的而不是t0,而且是RWTexture2D,表示可以读写,这是个模板类,float4声明了输出的类型,写的时候直接用赋值的语法写就行。
Sample Level
Compute Shader里采样不能再用Sample函数了,而是要用Sample Level,和Sample不同的是,首先采样坐标归一化了,传入的uv必须是0~1之间的浮点数,第二是多了第三个参数,也就是mipmap level,是个浮点数,0表示最高级的,1表示最高级下面一级的mipmap,浮点数则用来在不同级别mipmap之间插值。
Structured Buffer Resources
绑定到shader的t和u寄存器的不一定是纹理,可以像下面这样自己定义输入输出的类型

struct Data
{
   
float3 v1;
float2 v2;
};
StructuredBuffer<Data> gInputA : register(t0);
StructuredBuffer<Data> gInputB : register(t1);
RWStructuredBuffer<Data> gOutput : register(u0);

对应的SRV和UAV可以和之前创建vb和ib一样,用CreateDefaultBuffer或者CreateUploadBuffer来做,但是要注意的一点是,uav的D3D12_RESOURCE_FLAG_ALLOW_UNORDERED_ACCESS这个flag必须要指定一下,而且指定这个flag是个好习惯。
然后可以不用table而用root descriptor来接收参数(这种做法只适用于用srv和uav来缓存resource而不是texture),然后传入的时候传入mInputBuffer->GetGPUVirtualAddress()。
拷贝CS输出到内存
如果要建一个read back buffer,用CreateCommittedResource来创建一个GPU资源,然后创建的时候要指定堆的类型为D3D12_HEAP_TYPE_READBACK,这个gpu资源就可以用SetGraphicsRootUnorderedAccessView来绑定给uav。
注意这里的UAV是root parameter而不是buffer的GPU地址,UAV是在创建RootParameter的时候就创建了,而这个SetGraphicsRootUnorderedAccessView只是改变root parameter这个UAV里的内容。
此外还要注意,heap有cpu地址和gpu地址,cpu的用来创建(CreateShaderResourceView),GPU的用来传入(SetGraphicsRootDescriptorTable),创建的时候用heap的GetCPUDescriptorHandleForHeapStart获取heap的cpu首地址再offset取得srv或者uav的cpu地址,传入的时候则是用heap的GetGPUDescriptorHandleForHeapStart来获得heap的gpu首地址再offset到srv或者uav的gpu地址。
然后用mCommandList->CopyResource(mReadBackBuffer.Get(), mOutputBuffer.Get());来把输出数据读入到read back buffer里,然后用mReadBackBuffer->Map来把资源map到cpu的一个buffer里,在cpu上读取就行。
示例的代码如下

void VecAddCSApp::BuildBuffers()
{
   
	// Generate some data.
	std::vector<Data> dataA(NumDataElements);
	std::vector<Data> dataB(NumDataElements);
	for(int i = 0; i < NumDataElements; ++i)
	{
   
		dataA[i].v1 = XMFLOAT3(i, i, i);
		dataA[i].v2 = XMFLOAT2(i, 0);

		dataB[i].v1 = XMFLOAT3(-i, i, 0.0f);
		dataB[i].v2 = XMFLOAT2(0, -i);
	}

	UINT64 byteSize = dataA.size()*sizeof(Data);

	// Create some buffers to be used as SRVs.
	mInputBufferA = d3dUtil::CreateDefaultBuffer(
		md3dDevice.Get(),
		mCommandList.Get(),
		dataA.data(),
		byteSize,
		mInputUploadBufferA);

	mInputBufferB = d3dUtil::CreateDefaultBuffer(
		md3dDevice.Get(),
		mCommandList.Get(),
		dataB.data(),
		byteSize,
		mInputUploadBufferB);

	// Create the buffer that will be a UAV.
	ThrowIfFailed(md3dDevice->CreateCommittedResource(
		&CD3DX12_HEAP_PROPERTIES(D3D12_HEAP_TYPE_DEFAULT),
		D3D12_HEAP_FLAG_NONE,
		&CD3DX12_RESOURCE_DESC::Buffer(byteSize, D3D12_RESOURCE_FLAG_ALLOW_UNORDERED_ACCESS),
		D3D12_RESOURCE_STATE_UNORDERED_ACCESS,
		nullptr,
		IID_PPV_ARGS(&mOutputBuffer)));
	
	ThrowIfFailed(md3dDevice->CreateCommittedResource(
		&CD3DX12_HEAP_PROPERTIES(D3D12_HEAP_TYPE_READBACK),
		D3D12_HEAP_FLAG_NONE,
		&CD3DX12_RESOURCE_DESC::Buffer(byteSize),
		D3D12_RESOURCE_STATE_COPY_DEST,
		nullptr,
		IID_PPV_ARGS(&mReadBackBuffer)));
}

void VecAddCSApp::DoComputeWork()
{
   
	// Reuse the memory associated with command recording.
	// We can only reset when the associated command lists have finished execution on the GPU.
	ThrowIfFailed(mDirectCmdListAlloc->Reset());

	// A command list can be reset after it has been added to the command queue via ExecuteCommandList.
	// Reusing the command list reuses memory.
	ThrowIfFailed(mCommandList->Reset(mDirectCmdListAlloc.Get
这段代码实现了一个并查集数据结构。并查集是一种树型的数据结构,用于处理一些不相交集合(Disjoint Sets)的合并及查询问题。它支持两种操作: - 查找(Find):确定元素属于哪一个子集。它可以被用来确定两个元素是否属于同一子集。 - 合并(Union):将两个子集合并成同一个集合。 并查集可以用于解决很多实际问题,例如: - 判断无向图中是否有环 - 在图像处理中,判断连通区域 - 在游戏开发中,判断游戏中角色的关系 在这段代码中,类 UnionFindSet 的初始化函数 __init__ 接收两个参数:起始点 start 和结束点 n。接着定义了两个列表 pre 和 rank,用于存储每个节点的父节点和树的深度。其中,pre[i] 表示节点 i 的父节点,如果 pre[i] = i,则 i 为该集合的代表元素。 接下来的函数 init 用于初始化并查集,将每个节点的父节点设置为自身,深度为 1。 函数 find_pre 用于查找节点 x 的代表元素,同时实现了路径压缩的优化,即将查找路径上的所有节点都直接连接到代表元素上,减少查找时间。 函数 is_same 用于判断节点 x 和节点 y 是否在同一个集合中,即是否具有相同的代表元素。 函数 unite 用于合并两个集合,即将 x 所在的集合和 y 所在的集合合并为一个集合。首先查找 x 和 y 的代表元素,如果它们已经在同一个集合中,则直接返回 False。否则,将深度较小的集合连接到深度较大的集合上,并更新代表元素和深度。 最后,函数 is_one 用于判断整个并查集是否只有一个集合。它首先找到起始点的代表元素 temp,然后遍历起始点到结束点之间的所有节点,如果存在任意一个节点的代表元素不等于 temp,则说明存在多个集合,返回 False;否则,所有节点都在同一个集合中,返回 True。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值