所以时间为:4N+t
31. 在CARY1机器上,设向量长度均为32,s是标量寄存器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入寄存器及启动功能部件(包括寄存器)各需要1拍。则下面的指令组完成所需要的拍数是:
V3←存储器 V2←V0+V1 V4←V2×V3 存储器←V4
A.87 B.88 C.89 D.86
32.nv表示向量流水方式的工作速度优于标量串行方式工作时间时所需要的向量长度的临界值。请问该参数主要衡量那些标准?
衡量建立时间,也衡量标量向量的速度比对性能的影响。
33.有关半性能向量长度,下面哪种说法正确? A.该值是最大性能的一半
B.该值越大说明向量计算机性能越好
C.该值是为达到一半最大性能所需要的向量长度 D.该值必须是整数,计算的时候应该向下取整
34.考虑一个如图所示的4级加法流水线,其中X和Y为流水线输入线,Z为输出线。流水线输出端有一个寄存器R,他用来暂时存储中间结果并且在适当时刻反馈带S1。输入X和Y分别与输出R,Z经相应多路开关接到S1和2个输入端。假设向量A的所有元素以每个周期一个元素速率,通过输入端送入流水线。如果需要计算N个元素的向量累加和,则最少需要多少个时钟周期?约定无操作数输入,就认为是将1个0值送入,而且流水线的设置时间可以忽略不计。
ZXYS1S2S3S4R
N+11
如图所示, 当进行完第4个周期, 开始第5个周期时, 暂存在寄存器R中的A(1)将和Y输入端输入的A(5)相加, 其和放入S1, 当进入下一个周期, A(1)+A(5)进入S2, 而A(2)+A(6)放入S1, …… 依次递推。
当第N个周期完成时, S1中放的是A(1)+A(5)+A(9)+A(13)+…; S2中放的是A(2)+A(6)+A(10)+A(14)+…; S3中放的是A(3)+A(7)+A(11)+A(15)+…; S4中放的是A(4)+A(8)+A(12)+A(16)+…;
然后该计算这四段的总和, 不妨设这四段分别为Y1,Y2,Y3,Y4, 又经过4个周期, S1中做Y1+Y2, 再经过4个周期, S1中做(Y1+Y2)+(Y3+Y4), 然后还需要3个周期将最终结果由Z输出。
故最小时间为Nτ+4τ+4τ+3τ=(N+11)τ。即N+11个时钟周期。
35.下列那一项不是可扩展性的目标? A.延时可扩展性
B.规模可扩展性 C.换代可扩展性 D.问题可扩展性
36. 查看下面三条指令: V3←A V2←V0+V1 V4←V2*V3
假设向量长度是32,且前后其他的指令均没有相关性,数据进入和流出每个功能部件,包括访问存储器都需要一拍的时间。三条指令采用链接的方法,那么执行的时间是多少?
A.46 B.47 C.48 D.49 8+9+31
37.一台机器向量处理速度是标量的10倍。如果想将一个完全标量执行的程序所需要的时间减少到原来的80%,通过向量化的方法,至少该程序多大比例能够向量化?
A.33.3% B.22.2% C.30% D.35% [a/10+(1-a)/1]/1=80%
39. 在CARY1机器上,设向量长度均为32,s是标量寄存器,加法需要6拍,乘法需要7拍,从存储器读数需要6拍,打入寄存器及启动功能部件(包括寄存器)各需要1拍。则下面的指令组完成所需要的拍数是:
(1)
V0←存储器 V1←V2+V3 V4←V5×V6
并行执行,以最长指令为准:9+31=40 (2)
V0←存储器 V1←V2+V3 V4←V5×V6 s0←s1+s2
标量看成1个分量的向量: 9+31+8=48