
对于R600核心的上半部分,我们已经介绍完毕了,下面,我们将着重介绍Stream Processing Units流处理器单元,在前面Radeon HD 2900XT的架构图中,我们看到了其核心流处理器部分主要分四个矩阵,每个矩阵内又分别拥有16个小流处理器矩阵,继续划分,每个小矩阵实际上是采用的5路超标量体系结构的着色处理器,如果按照这样计算话,Radeon HD 2900XT将拥有惊人的320个流处理器单元!而我们所熟知的GeForce 8800GTX,即G80核心产品的流处理器不过为128个而已;

我们深入矩阵内来了解一下R600核心的流处理器架构,可以看出,在矩阵内,R600拥有5路超标量体系结构的着色处理器,即在单时钟周期内,每个矩阵最大可以进行5个标量MAD(乘加)运算,而在这5路超标量体系结构的着色处理器中,有一个与其他四个并不完全相同,也就是架构图中的第一个,这个着色器能够处理Sin、Cos、LOG及EXP等相关指令的运算,在R600的流处理器运算浮点精度上,则可以达到32bit!另外它也能够支持整数和逐位的操作;
此外,在这个流处理器矩阵内,我们还注意到了一个Branch Execution Unit的分支执行单元,这个分支执行单元负责进行流控制和条件运算,即通过它可以分配任务至空闲的流处理器处,并可以完全舍去相关的相关控制分配的资源开销,最大限度地提高运行效率。

作为统一架构流处理器的背后支持者,我们也看到了相关的内存读取/写入缓存部件,这也是提高整体运行效率的一个关键部件,在R600的身上,我们见到了许多上一代产品的影子,首先这个内存读取/写入缓存能够允许显存溢出,而且它居然能够支持大部分单指令多数据单元的读取或写入,只是纹理及顶点缓存只支持读取,通过这个内存读取/写入缓存部件,使线程内通讯、渲染到顶点缓冲及为几何着色数据溢出寄存器,使相关的计算能够在流处理器端得到充分的运行效率;
此,为了进一步提高运行效率,R600的内存读取/写入缓存部件还能够向流输出缓存输出相关数据,而这个Stream Out Buffer则可以不必通过渲染器后端和色彩缓冲进行最终的着色输出,这也大大降低了渲染器后端的负载,并大幅提高了综合运行效率!