外文科技文献译文
SL2(1)?SL2(N) (4)
(N?Nsha(N)?1)re投影的命中率对于不同大小的高速缓存中,平方根规则的拇指是典型的应用,该款机型缓存缺失率
Mrate(1MB)Mrate(SL2(1))?SL2(1)/S1MB (5)
S1MB是一兆。对于一些应用,所述平方根模型(5)中比工作集模型,不准确的
地方的命中率保持不变,为高速缓存大小的增加,直到工作组适合在高速缓存中,随后,在命中率急剧脱落。由于高速缓存大小的命中率相关性是应用具体的,单个核心的命中率是在模拟多个高速缓存大小与工业周期精确模拟器以确定个别适当的命中率模型应用程序。根据在宽的应用范围的模拟,平方根模型提供了最准确的逼近平均命中率。
建模每个周期指令(IPC)的多核处理器,有限的片外存储器带宽的影响被捕获通过Lmiss(Fclk)分离成两个分量为
Lmem(Fclk)Lmiss(Fclk)??Llink(Fclk). (6)
Npr片外DRAM内存延迟,计算作为周期的平均数目DRAM阵列中使用Lmem(Fclk),
了取得数据。在建模外的顺序利用非阻塞核心内存级并行(MLP),Lmem(Fklc)是因为平均数并行内存请求(Npr)分每个请求块中的处理器总数的一小部分内存延迟[11]。对于顺序阻断核心,Npr等于之一。Llink(Fclk),总的链路延迟,包括延迟OFTHE物理片环节,排队等待时间(例如,守候在思念处理状态寄存器
5
外文科技文献译文
(MSHRs)和总线队列)。Llink(Fclk)被计算为周期为一个平均数片外存储器的访问。Llink(Fclk)被分离成两个分量如
Llin(kFcl) k?Ls(Fcl)k?Lq(Fcl)k (7)
Ls(Fclk)和Lq(Fclk)是服务和排队延迟每个高速缓存未命中,分别。Ls(Fclk)是物理片链路延时数据对面的链接遍历处理器的DRAM芯片和背部,在没有传输假设错误。Lq(Fclk)被计算为平均排队延迟。假设物理片连接到内存代表一个M/D/1队列(马尔可夫到达率与要求一个确定性的服务时间和要求提供无限多源),被
Lq(Fclk)被建模为
ULs(Fclk)Lq(Fclk)?2(1?U) (8)
U是链路利用率。使用小定律,U被计算为
U??Ls(Fcl) k. (9)
?该参数是每个周期的存储器请求的数目,其计算公式为
??IPC(N)Mrat(eSL2(1)) (10)
IPC(N)代表了IPC的多核处理器与N核心。由(7) - (9),总链路等待时间
的计算如
?(Ls(Fclk))2 Llink(Fclk)?Ls(Fclk)?. (11)
2(1??Ls(Fclk)) 如在页面的底部,在IPC中所述(12)对于多核处理器从(3),(6),并计算出(11)[10]。从?是IPC(N)的一种函数,IPC(N)(12)简化为一元二次方程,其中的根源,公式导致的显式IPC(N)表达式。Ls(Fclk)和Lmem(Fclk)依赖于Fclk被
建
模
为
Lmem(Fclk)?Lmem(Fclk,nom)?Fclk/Fclk,nom和
Ls(Fclk)?Ls(Fclk,nom)?Fclk/Fclk,nom,,Fclk,nom是标称处理器的时钟频率。假设所有N
6
外文科技文献译文
核具有相同的Fclk吞吐量(TP)中的说明每秒的多核处理器的计算(13)在该页面的底部。CPImem,lat(Fclk)/Fclk和CPImem,bw(Fclk)/Fclk代表了内存延迟和通过带宽的组件,这被建模为
CPImem,lat(Fclk)Fclk?Mrate(SL2(1))Lmem(Fclk,nom)Fclk,nomNpr (14)
和(15)中在该页面的底部。额外的假设适用于权衡精度运行效率:1)吨基准测试是完全并行(即只有水货MT的应用部分为蓝本);2)平均基准性能是一个合适的指标,用于评估一般趋势,以及3)将附加的线程间的相互作用和操作 系统开销当在多核调度线程处理器可以忽略不计。
在(13)的分析模型 - (15)被验证为单线程(ST)和高度并行的应用程序的MT。对于意法半导体的应用,1芯被假定为具有访问整个L2缓存。虽然该模型主要针对的表现高度并行的MT的应用中,分析模型是容易通过调整命中率修改为ST的应用Mrate(SL2(1))到Mrate(SL2(N))。在验证分析型号为ST的应用,平均的模型预测IPC从460工作负荷与工业相比,周期精确模拟器不同的核心类型和缓存尺寸。 460的工作负载包括服务器,多媒体,游戏,SPEC2K,和办公室生产力应用程序。唯一的工作量,具体型号参数CPIcom,Mrate(1MB),和Npr.CPIcom是通过用一个完美的L2缓存操作模拟器中提取;
IPC(N)?N?CPI(1)N(12) 2L(F)?(Ls(Fclk))?Mrate(SL2(1))(memclk?Ls(Fclk)?)Npr2(1??Ls(Fclk))CPICOM
TP(N)?IPC(N)Fclk?NCPIcomCPImem,lat(Fclk)CPImem,bw(Fclk)??FclkFclkFclk (13)
1Fclk?Ls(Fclk,nom)1?()CPImem,bw(Fclk)Ls(Fclk,nom))2Fclk (15) ?Mrate(SL2(1))Fclk?Ls(Fclk,nom)FclkFclk,nom1?()Fclk,nom7
外文科技文献译文
Mrate(1MB)和N通过操作提取具有1 MB高速缓存。CPI,Mrate(1MB)和Ncomprpr在分析模型应用价值代表平均跨越460工作量提取的值。比较分析模式跨产业周期精确模拟器各种核心类型和L2高速缓存大小,该模型预测的IPC平均为460的工作负载是在模拟的4%结果。
在证实为高度并行的应用程序的MT的分析模型,工控机模型(12)与阿西模拟比较[12]在图1,适用于各种识别,挖掘,以及合成(RMS)指标[13]跨越核心的数量中所含的多核心处理器。这些基准有效值着眼于矩阵面向数据操作的基本构建块并且越来越多地被利用的计算建模和过程的复杂系统[13]。基准
DAt包括:1)k均值,模糊聚类cmeans;2),A基质稀疏矩阵(A)由对角矩阵
(D)由乘法稀疏矩阵的转置A(At);3)sparse_mvm_sym,对称稀疏矩阵向量乘法;4)dense_mmm,稠密矩阵 - 矩阵乘法,以及5)sparse_mvm,疏矩阵向量乘法。在阿西模拟器[12]的计算结果每个工作负载,同时捕捉多个核心的作用, 共享二级缓存,和之间的互连网络L2高速缓存和片外DRAM内存。在图的比较。1是基于2宽的有序内核与一个32 MB二级高速缓存,128字节的高速缓存行大小,和200周期的内存延迟。从Npr?1用作核心,唯一的工作量,具体投入到分析模型是CPIcom和Mrate(1MB)。其中被提取从阿西模拟器一个核心。为3的基准(k均值,ADAt和dense_mmm),平方根(5)高速缓存未命中率模型被应用。对于其他两个基准(sparse_mvm_sym和sparse_mvm),工作组模型被用于估计缓存未命中率。对于k均值,ADAt,dense_mmm,和sparse_mvm基准,分析模型非常同意阿西姆模拟,其中最坏情况下的误差小于5%。该sparse_mvm_sym基准包含大段串行执行的,导致了22%的最坏情况模型误差。虽然该模型是不准确的对于MT的应用与串行执行的大部分,多核处理器的吞吐量模型吻合与阿西模拟器MT与应用大段并行执行,并与一个工业周期精确模拟器为ST的应用。如前面所讨论的,分析模型主要目标高度并行工作负载的MT
微不足道的串行执行。在本文的其余部分,MT的应用被认为完美地并行化,其中该分析模型是足够准确的。如果MT的应用与串行执行的大部分被认为在未来的工作,那么在分析吞吐量模型(13) - (15 )可以是延长[14] ,以改善这些应用程序的准确性。
8
外文科技文献译文
3.多核心处理器设计
在第IV节优化多核处理器和在探索参数变化的多核的影响处理器FMAX和吞吐量在第六节,三个独立的多核处理器进行了评价。这三款处理器
图.1从(12)IPC模型预测与阿西模拟器比较[12],适用于各种基准RMS[13]相对于芯的数目。
包含任一小型,中型或大型来调查范围的多核处理器的设计选项。此外,一个传统的单核处理器,包含一个单一的核心,作为比较的基线。小,中,大 核心是基于英特尔奔腾P54C(按顺序)[15],该英特尔奔腾III(出序)[16],而英特尔酷睿2(先进外的顺序)[17]的微处理器,分别。在图。 2,本产品引进技术的产生,核心面积,平均Fclk,归一化平均吞吐量的SPECint,高速缓存的大小,电源电压(VDD)和核心功率为每核心[20] - 类型是基于历史数据[15]总结。注该核心区不包括二级缓存区。
9