第五章课后习题答案

2019-08-29 20:10

5.10 假设对指令Cache的访问占全部访问的75%；而对数据Cache的访问占全部访问的25%。Cache的命中时间为1个时钟周期，失效开销为50 个时钟周期，在混合Cache中一次load或store操作访问Cache的命中时间都要增加一个时钟周期，32KB的指令Cache的失效率为0.39%，32KB的数据Cache的失效率为4.82%，64KB的混合Cache的失效率为1.35%。又假设采用写直达策略，且有一个写缓冲器，并且忽略写缓冲器引起的等待。试问指令Cache和数据Cache容量均为32KB的分离Cache和容量为64KB的混合Cache相比，哪种Cache的失效率更低？两种情况下平均访存时间各是多少？

解：（1）根据题意，约75%的访存为取指令。因此，分离Cache的总体失效率为：（75%×0.15%）＋（25%×3.77%）＝1.055%；容量为128KB的混合Cache的失效率略低一些，只有0.95%。（2）平均访存时间公式可以分为指令访问和数据访问两部分：

平均访存时间＝指令所占的百分比×（读命中时间＋读失效率×失效开销）＋数据所占的百分比×（数据命中时间＋数据失效率×失效开销）

所以，两种结构的平均访存时间分别为：

分离Cache的平均访存时间＝75%×（1＋0.15%×50）＋25%×（1＋3.77%×50）＝（75%×1.075）＋（25%×2.885）＝1.5275

混合Cache的平均访存时间＝75%×（1＋0.95%×50）＋25%×（1＋1＋0.95%×50）＝（75%×1.475）＋（25%×2.475）＝1.725

因此，尽管分离Cache的实际失效率比混合Cache的高，但其平均访存时间反而较低。分离Cache提供了两个端口，消除了结构相关。

5.11 给定以下的假设，试计算直接映象Cache和两路组相联Cache的平均访问时间以及CPU的性能。由计算结果能得出什么结论？

（1）理想Cache情况下的CPI为2.0，时钟周期为2ns，平均每条指令访存1.2次；（2）两者Cache容量均为64KB，块大小都是32字节；（3）组相联Cache中的多路选择器使CPU的时钟周期增加了10％；（4）这两种Cache的失效开销都是80ns；（5）命中时间为1个时钟周期；（6） 64KB直接映象Cache的失效率为1.4％，64KB两路组相联Cache的失效率为1.0％。

解：平均访问时间＝命中时间＋失效率×失效开销平均访问时间1-路=2.0+1.4% *80=3.12ns

平均访问时间2-路=2.0*(1+10%)+1.0% *80=3.0ns 两路组相联的平均访问时间比较低

CPUtime=（CPU执行+存储等待周期）*时钟周期

CPU time=IC（CPI执行+总失效次数/指令总数*失效开销） *时钟周期 =IC（（CPI执行*时钟周期）+（每条指令的访存次数*失效率*失效开销*时钟周期）） CPU time 1-way=IC(2.0*2+1.2*0.014*80)＝5.344IC CPU time 2-way=IC(2.2*2+1.2*0.01*80)＝5.36IC

相对性能比：

CPUtime?2wayCPUtime?1way?5.36/5.344=1.003

直接映象cache的访问速度比两路组相联cache要快1.04倍，而两路组相联Cache的平均性能比直接映象cache要高1.003倍。因此这里选择两路组相联。

5.12 假设一台计算机具有以下特性：（1） 95％的访存在Cache中命中；（2）块大小为两个字，且失效时整个块被调入；（3） CPU发出访存请求的速率为109字/s；（4） 25％的访存为写访问；（5）存储器的最大流量为109字/s（包括读和写）；（6）主存每次只能读或写一个字；（7）在任何时候，Cache中有30％的块被修改过；（8）写失效时，Cache采用按写分配法。现欲给该计算机增添一台外设，为此首先想知道主存的频带已用了多少。试对于以下两种情况计算主存频带的平均使用比例。

（1）写直达Cache；（2）写回法Cache。解：采用按写分配

（1）写直达cache访问命中，有两种情况：

读命中，不访问主存；

写命中，更新cache和主存，访问主存一次。访问失效，有两种情况：

读失效，将主存中的块调入cache中，访问主存两次；

写失效，将要写的块调入cache，访问主存两次，再将修改的数据写入cache和主存，访问主存一次，共三次。上述分析如下表所示。

访问命中 Y Y N N 访问类型读写读写频率 95%*75%=71.3% 95%*25%=23.8% 5%*75%=3.8% 5%*25%=1.3% 访存次数 0 1 2 3

一次访存请求最后真正的平均访存次数=(71.3%*0)+(23.8%*1)+(3.8%*2)+(1.3%*3)＝0.35

已用带宽=0.35×109/10 9 =35.0%

（2）写回法cache访问命中,有两种情况：

读命中，不访问主存；

写命中，不访问主存。采用写回法，只有当修改的cache块被换出时，才写入主存；

访问失效,有一个块将被换出，这也有两种情况：

如果被替换的块没有修改过，将主存中的块调入cache块中，访问主存两次；如果被替换的块修改过，则首先将修改的块写入主存，需要访问主存两次；然后将主存中的块调入cache块中，需要访问主存两次，共四次访问主存。访问命中 Y Y N 块为脏 N Y N 频率 95%*70%=66.5% 95%*30%=28.5% 5%*70%=3.5% 访存次数 0 0 2 N Y 5%*30%=1.5% 4 所以：

一次访存请求最后真正的平均访存次数=66.5％*0＋28.5%*0+3.5%*2+1.5%*4=0.13

已用带宽＝0.13×10 9/10 9＝13%

5.12

（1）写直达法：

有5%的访存操作直接访问主存，其中75%为读主存，写直达法无需替换，所以读操作引起的存储器流量为：

5%×75%×2×109＝0.075×109（字/s）

有5%的访存操作直接访问主存，其中25%为写主存，写直达法无需替换，所以写操作引起的存储器流量为：

5%×25%×2×109＝0.025×109（字/s）

95%的访存操作直接访问cache，读命中无需访问主存，其中25%写操作直接对应主存。所以写操作引起的存储器流量为：

95%×25%×109＝0.2375×109 （字/s）

主存频带的利用率为（0.075＋0.025＋0.2375）=0.3375

（2）写回法：

有5%的访存操作直接访问主存，其中75%为读主存，写回法30%需替换，所以读操作引起的存储器流量为：

5%×75%×（1＋30%）×2×109＝0.0975×109（字/s）

有5%的访存操作直接访问主存，其中25%为写主存，写回法30%需替换，所以写操作引起的存储器流量为：

5%×25%×（1＋30%）×2×109＝0.0325×109（字/s）

95%的访存操作直接访问cache，读命中和写命中均无需访问主存。主存频带的利用率为（0.0975＋0.0325）=0.13

5.13 在伪相联中，假设在直接映象位置没有发现匹配，而在另一个位置才找到数据（伪命中）时，不对这两个位置的数据进行交换。这时只需要1个额外的周期。假设失效开销为50个时钟周期，2KB直接映象Cache的失效率为9.8%，2路组相联的失效率为7.6%；128KB直接映象Cache的失效率为1.0%，2路组相联的失效率为0.7%。

（1）推导出平均访存时间的公式。（2）利用（1）中得到的公式，对于2KBCache和128KBCache，计算伪相联的平均访

存时间。解：

不管作了何种改进，失效开销相同。不管是否交换内容，在同一“伪相联”组中的两块都是用同一个索引得到的，因此失效率相同，即：失效率伪相联＝失效率2路。

伪相联cache的命中时间等于直接映象cache的命中时间加上伪相联查找过程中的命中时间*该命中所需的额外开销。

命中时间伪相联＝命中时间1路＋伪命中率伪相联×1

交换或不交换内容，伪相联的命中率都是由于在第一次失效时，将地址取反，再在第二

次查找带来的。

因此伪命中率伪相联＝命中率2路－命中率1路＝（1－失效率2路）－（1－失效率1路）

＝失效率1路－失效率2路。交换内容需要增加伪相联的额外开销。

平均访存时间伪相联＝命中时间1路＋（失效率1路－失效率2路）×1

＋失效率2路×失效开销1路

将题设中的数据带入计算，得到：

平均访存时间2Kb=1+(0.098-0.076)*1+(0.076 *50 ) =4.822 平均访存时间128Kb=1+(0.010-0.007)*1+(0.007 *50 ) =1.353 显然是128KB的伪相联Cache要快一些。

5.14 假设采用理想存储器系统时的基本CPI是1.5，主存延迟是40个时钟周期；传输速率为4字节/时钟周期，且Cache中50%的块是修改过的。每个块中有32字节，20%的指令是数据传送指令。并假设没有写缓存，在TLB失效的情况下需要20时钟周期，TLB不会降低Cache命中率。CPU产生指令地址或Cache失效时产生的地址有0.2%没有在TLB中找到。

（1）在理想TLB情况下，计算均采用写回法16KB直接映象统一Cache、16KB两路组

相联统一Cache和32KB直接映象统一Cache机器的实际CPI；

（2）在实际TLB情况下，用（1）的结果，计算均采用写回法16KB直接映象统一Cache、

16KB两路组相联统一Cache和32KB直接映象统一Cache机器的实际CPI；

其中假设16KB直接映象统一Cache、16KB两路组相联统一Cache和32KB直接映象统一Cache的失效率分别为2.9%、2.2%和2.0%；25%的访存为写访问。

解： CPI=CPI 执行+存储停顿周期数/指令数

存储停顿由下列原因引起：

? 从主存中取指令

? load和store指令访问数据 ? 由TLB引起

存储停顿周期数取指令停顿数据访问停顿＋TLB停顿＝＋指令数指令数指令数停顿周期数存储访问＝?失效率?失效开销指令数指令数存储停顿周期数TLB停顿??R指令P指令?＋（f数据R数据P数据）＋指令数指令数（1）对于理想TLB，TLB失效开销为0。而对于统一Cache，R指令=R数据

P指令=主存延迟＋传输一个块需要使用的时间＝40＋32/4＝48（拍）

若为读失效，P数据＝主存延迟＋传输一个块需要使用的时间＝40＋32/4＝48（拍）若为写失效，且块是干净的，

P数据＝主存延迟＋传输一个块需要使用的时间＝40＋32/4＝48（拍）

若为写失效，且块是脏的，

P数据＝主存延迟＋传输两个块需要使用的时间＝40＋64/4＝56（拍）

CPI=1.5+[RP+(RP*20%)+0 ]

指令访存全是读，而数据传输指令Load或Store指令，

f数据*P数据＝读百分比*（f数据*P数据）＋写百分比*（f数据*P干净数据*其对应的百分比

＋f数据*P脏数据*其对应的百分比）

＝20%*（75％×48＋25％*（50％*48+50％*（48＋16）））=50（拍）

代入上述公式计算出结果为：

配置 16KB 直接统一映象 16KB两路统一映象 32KB直接统一映象失效率 0.029 0.022 0.020 CPI 4.4 3.4 3.2

TLB停顿存储访问次数TLB访问?（?）?TLB失效率?TLB失效开销

指令数指令数存储访问次数将f数据（数据访问指令频率），Rt和P（分别是TLB的失效率和失效开销），Rc和Pw（分t

别是Cache的失效率和写回的频率）代入公式得：

TLB停顿/指令数={[1+f数据]*[Rc(1+Rw)]}RtPt

其中，1+f数据：每条指令的访问内存次数；Rc(1+Rw)：每次内存访问需要的TLB访问次数。

由条件得：TLB停顿/指令数={[1+20%]*[Rc(1+25%)]}0.2%×20

（2）

配置 16KB 直接统一映象 16KB两路统一映象 32KB直接统一映象失效率 0.029 0.022 0.020 理想TLB的CPI 4.0 3.4 3.2

第五章课后习题答案.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档