目前并行程序设计的状况是:①并行软件的发展落后于并行硬件;②和串行系统的应用软件相比,现今的并行系统应用软件甚少且不成熟;③并行软件的缺乏是发展
并行计算的主要障碍;④而且这种状态仍在继续.
其原因是:①并行程序设计不但包含了串行程序设计,而且还包含了更多的富有挑战性的问题;②串行程序设计仅有一个普遍被接受的冯*诺依曼模型,而
并行计算模型虽有好多,但没有一个被共同认可;③并行程序设计对环境工具的要求远比串行程序设计先进得多;④串行程序设计比较适合于自然习惯,且人们在过去积累了大量的编程知识和宝贵的软件财富.
并行程序设计:对于所希望的应用,很多并行代码似乎不存在的;即使有,也常不能用于用户的并行机上.因为并行代码原来都是为不同的并行结构写的.
它的问题是:至今
并行算法范例不能被很好地理解和广泛地接受;并行程序设计是建立在
不同的计算模型上的,而它们没有能像冯*诺依曼模型那样被普遍的接受和认可.绝大部分被使用的并行
程序设计语言都是Fortran和C的推广,他们都不能够充分地表达不同并行结构的特点,既不成熟也
不通用.并行程序设计工具依赖于具体的并行结构和计算机代的更迭,既不通用也不稳定,在某个并行平台上开发的并行程序很难移植到别的或将来的并行机上.
目前并行编程类型逐渐汇聚于两类:用于PVP,SMP和DSW的
共享变量的单
地址空间模型和用于MPP和
机群的
消息传递的多地址空间模型.
并行编程模型逐渐汇聚于三类标准模型:数据并行(如:HPF),消息传递(如:MPI和PVM),和共享变量(如OpenMp).
现在人们希望高性能的并行机应是 具有单一
系统映像的巨大的工作站,使得很多用户都能利用增强处理能力和储存容量来运行多个串行作业,这就是所谓的
串行程序并行系统SPPS.
当我们在实际的并行机上设计并行程序时,绝大部分均是采用扩展Fortran和C语言的办法,目前有三种扩展的办法:一是库函数法:除了串行语言所包含的库函数外,一组新的支持
并行性和交互操作的库函数(如MPI消息传递库和POSIXPthreads多线程库)引入到并行程序设计中。二是新语言结构法:采用某些新的语言结构来帮助并行程序设计以支持
并行性和交互操作(如Fortran 90 中的聚集
数组操作); 三是编译制导法:
程序设计语言保持不变,但是将
称之为编译制导的格式注释引入到并行程序中.
并发是用来描述并行执行的方式(看上去一起发生的事件,例如目前操作系统的多任务调度程序,看上去桌面上有许多程序在同时运行.),并发是形容词.
并行是指通过并发将一个操作分解成一组粒度更细的工作单元,并且这些工作单元可以在不同的处理器内核上运行.并行是动词,指必须有两个以上的事件发生.
工作单元,以粒度可分为最小到单一CPU指令,大到函数或系统任务.
并行有数据并行性与任务并行性
数据并行性指对许多数据执行相同的并行操作,比如对一组数的每个数进行加法操作.
任务并行性指对相同的一组数据执行不同的并行操作,比如一个执行加法操作,而另一个执行乘法操作.
优秀的多核微处理器:AMD Multicore Opteron、Intel Core2 Duo
并行编程的麻烦
内存一致模型简称内存模型
缓存一致性(cache coherency) 将缓存与主内存数据进行同步
内存一致性模型(memory consistency model)
CPU可以对内存的读取或写入操作重新排序(乱序执行Out of Order),而导致内存一致性的产生.就是指CPU中实际内存访问操作与程序代码中内存访问操作的不一致性程度.
CPU的硬件架构决定了内存模型的强度,强度越高写代码就会更容易.
x86/64架构的CPU有较强的内存一致性模型,而安腾系列处理器Itanium(IA-64)是较弱的模型.它为了提高性能(不必根踪缓存行的状态)不会主动刷新缓存,而是提供指令操作缓存刷新到主内存.
还有一些软件实现的内存模型,比如java虚拟机和.NET CLR,它们都是比较强的内存模型,而且不考虑具体的硬件实现.
解决办法:内存栅栏(memory fence)
内存栅栏可以阻止目标架构对指令进行重排.利用语言平台的特性或原子方法可以实现内存栅栏,比如.net中的Interlocked类方法,c++中的volatile变量.
附录一些并行库:
Single Unix Specification的POSIX线程库.
Intel的TBB线程库.
Standard Template Adaptive Parallel Library,STAPL:标准模板适配并行库.
最后并行编程库必须得到操作系统的支持,如果系统没有相应功能api,上面那些并行库也就一无是处了.
扩展阅读“
http://www.doc88.com/p-715689960200.html