计算机系统结构__《张晨曦、王志英》课后习题参考答案-Linux大棚

admin 管理员组

文章数量: 1184232

2024年12月31日发(作者：css选择器菜鸟教程)

计算机系统结构__《张晨曦、王

志英》课后习题参考答案

第1章计算机系统结构的基本概念

1.1 解释下列术语

层次机构：按照计算机语言从低级到高级的次序，把计算机系

统按功能划分成多级层次结构，每一层以一种不同的语言为特

征。这些层次依次为：微程序机器级，传统机器语言机器级，

汇编语言机器级，高级语言机器级，应用语言机器级等。

虚拟机：用软件实现的机器。

翻译：先用转换程序把高一级机器上的程序转换为低一级机器

上等效的程序，然后再在这低一级机器上运行，实现程序的功

能。

解释：对于高一级机器上的程序中的每一条语句或指令，都是

转去执行低一级机器上的一段等效程序。执行完后，再去高一

级机器取下一条语句或指令，再进行解释执行，如此反复，直

到解释执行完整个程序。

计算机系统结构：传统机器程序员所看到的计算机属性，即概

念性结构与功能特性。

在计算机技术中，把这种本来存在的事物或属性，但从某种角

度看又好像不存在的概念称为透明性。

计算机组成：计算机系统结构的逻辑实现，包含物理机器级中

的数据流和控制流的组成以及逻辑设计等。

计算机实现：计算机组成的物理实现，包括处理机、主存等部

件的物理结构，器件的集成度和速度，模块、插件、底板的划

分与连接，信号传输，电源、冷却及整机装配技术等。

系统加速比：对系统中某部分进行改进时，改进后系统性能提

高的倍数。

Amdahl定律：当对一个系统中的某个部件进行改进后，所能

获得的整个系统性能的提高，受限于该部件的执行时间占总执

行时间的百分比。

程序的局部性原理：程序执行时所访问的存储器地址不是随机

分布的，而是相对地簇聚。包括时间局部性和空间局部性。

CPI：每条指令执行的平均时钟周期数。

测试程序套件：由各种不同的真实应用程序构成的一组测试程

序，用来测试计算机在各个方面的处理性能。

存储程序计算机：冯·诺依曼结构计算机。其基本点是指令驱

动。程序预先存放在计算机存储器中，机器一旦启动，就能按

照程序指定的逻辑顺序执行这些程序，自动完成由程序所描述

的处理工作。

系列机：由同一厂家生产的具有相同系统结构、但具有不同组

成和实现的一系列不同型号的计算机。

软件兼容：一个软件可以不经修改或者只需少量修改就可以由

一台计算机移植到另一台计算机上运行。差别只是执行时间的

不同。

向上（下）兼容：按某档计算机编制的程序，不加修改就能运

行于比它高（低）档的计算机。

向后（前）兼容：按某个时期投入市场的某种型号计算机编制

的程序，不加修改地就能运行于在它之后（前）投入市场的计

算机。

兼容机：由不同公司厂家生产的具有相同系统结构的计算机。

模拟：用软件的方法在一台现有的计算机（称为宿主机）上实

现另一台计算机（称为虚拟机）的指令系统。

仿真：用一台现有计算机（称为宿主机）上的微程序去解释实

现另一台计算机（称为目标机）的指令系统。

并行性：计算机系统在同一时刻或者同一时间间隔内进行多种

运算或操作。只要在时间上相互重叠，就存在并行性。它包括

同时性与并发性两种含义。

时间重叠：在并行性概念中引入时间因素，让多个处理过程在

时间上相互错开，轮流重叠地使用同一套硬件设备的各个部

分，以加快硬件周转而赢得速度。

资源重复：在并行性概念中引入空间因素，以数量取胜。通过

重复设置硬件资源，大幅度地提高计算机系统的性能。

资源共享：这是一种软件方法，它使多个任务按一定时间顺序

轮流使用同一套硬件设备。

耦合度：反映多机系统中各计算机之间物理连接的紧密程度和

交互作用能力的强弱。

紧密耦合系统：又称直接耦合系统。在这种系统中，计算机之

间的物理连接的频带较高，一般是通过总线或高速开关互连，

可以共享主存。

松散耦合系统：又称间接耦合系统，一般是通过通道或通信线

路实现计算机之间的互连，可以共享外存设备（磁盘、磁带等）。

计算机之间的相互作用是在文件或数据集一级上进行。

异构型多处理机系统：由多个不同类型、至少担负不同功能的

处理机组成，它们按照作业要求的顺序，利用时间重叠原理，

依次对它们的多个任务进行加工，各自完成规定的功能动作。

同构型多处理机系统：由多个同类型或至少担负同等功能的处

理机组成，它们同时处理同一作业中能并行执行的多个任务。

1.2 试用实例说明计算机系统结构、计算机组成与计算机

实现之间的相互关系。

答：如在设计主存系统时，确定主存容量、编址方式、寻

址范围等属于计算机系统结构。确定主存周期、逻辑上是否采

用并行主存、逻辑设计等属于计算机组成。选择存储芯片类型、

微组装技术、线路设计等属于计算机实现。

计算机组成是计算机系统结构的逻辑实现。计算机实现是

计算机组成的物理实现。一种体系结构可以有多种组成。一种

组成可以有多种实现。

2) / 129500＝1.776

（2）MIPS速率＝f/ CPI ＝400/1.776 ＝225.225MIPS

（3）程序执行时间= (45000×1＋75000×2＋8000×4

＋1500×2)／400=575s

1.7 将计算机系统中某一功能的处理速度加快10倍，但该

功能的处理时间仅为整个系统运行时间的40%，则采用此增强

功能方法后，能使整个系统的性能提高多少？

解由题可知：可改进比例 = 40% = 0.4 部件加速

比 = 10

根据Amdahl定律可知：

系统加速比1.5625

0.4



10.4





采用此增强功能方法后，能使整个系统的性能提高到原来的

1.5625倍。

1.8 计算机系统中有三个部件可以改进，这三个部件的部

件加速比为：

部件加速比

=30；部件加速比

=20；部件加

速比

=10

（1）如果部件1和部件2的可改进比例均为30%，那

么当部件3的可改进比例为多少时，系统加速比才可以达到

10？

（2）如果三个部件的可改进比例分别为30%、30%和

20%，三个部件同时改进，那么系统中不可加速部分的执行

时间在总执行时间中占的比例是多少？

解：（1）在多个部件可改进情况下，Amdahl定理的扩展：



(1



)



已知S

＝30，S

＝20，S

＝10，S

＝10，F

＝0.3，F

＝0.3，

得：

10

1（-0.30.3F

）（0.3/300.3/20F

/10）

得F

＝0.36，即部件3的可改进比例为36%。

（2）设系统改进前的执行时间为T，则3个部件改进前

的执行时间为：（0.3+0.3+0.2）T = 0.8T，不可改进部分的执行

时间为0.2T。

已知3个部件改进后的加速比分别为S

＝30，S

＝20，S

＝10，因此3个部件改进后的执行时间为：

0.3T0.3T0.2T

0.045T

302010

改进后整个系统的执行时间为：Tn = 0.045T+0.2T =

0.245T

那么系统中不可改进部分的执行时间在总执行时间中占

的比例是：

0.2T

0.82

0.245T

1.9 假设某应用程序中有4类操作，通过改进，各操作获

得不同的性能提高。具体数据如下表所示：

操作类型

操作1

操作2

操作3

操作4

程序中的数量

（百万条指令）

改进前的执行时间

（周期）

改进后的执行时间

（周期）

（1）改进后，各类操作的加速比分别是多少？

（2）各类操作单独改进后，程序获得的加速比分别是多

少？

（3）4类操作均改进后，整个程序的加速比是多少？

解：根据Amdahl定律

S

可得

(1Fe)

操作类型

操作1

操作2

操作3

操作4

各类操作的指令条数在

程序中所占的比例F

11.1%

33.3%

38.9%

16.7%

各类操作的加速比S

1.33

3.33

各类操作单独改进后，

程序获得的加速比

1.06

1.09

1.37

1.14

4类操作均改进后，整个程序的加速比：

2.16

(1



)



第2章指令集结构的分类

2.1 解释下列术语

堆栈型机器：CPU 中存储操作数的单元是堆栈的机器。

累加器型机器：CPU 中存储操作数的单元是累加器的机

器。

通用寄存器型机器：CPU 中存储操作数的单元是通用寄存

器的机器。

CISC：复杂指令集计算机

RISC：精简指令集计算机

寻址方式：指令系统中如何形成所要访问的数据的地址。

一般来说，寻址方式可以指明指令中的操作数是一个常数、一

个寄存器操作数或者是一个存储器操作数。

数据表示：硬件结构能够识别、指令系统可以直接调用的

那些数据结构。

2.2 区别不同指令集结构的主要因素是什么？根据这个

主要因素可将指令集结构分为哪3类？

答：区别不同指令集结构的主要因素是CPU中用来存储操

作数的存储单元。据此可将指令系统结构分为堆栈结构、累加

器结构和通用寄存器结构。

2.3 常见的3种通用寄存器型指令集结构的优缺点有哪

些？

答：

指令系统结构类型优点

指令字长固定，指令结构简

寄存器-寄存器型

（0，3）

洁，是一种简单的代码生成

模型，各种指令的执行时钟

周期数相近。

可以在ALU指令中直接对

寄存器-存储器型

（1，2）

存储器操作数进行引用，而

不必先用load指令进行加

载。容易对指令进行编码，

目标代码比较紧凑。

缺点

与指令中含存储器操作数的指令系统结构相比，

指令条数多，目标代码不够紧凑，因而程序占用

的空间比较大。

由于有一个操作数的内容将被破坏，所以指令中

的两个操作数不对称。在一条指令中同时对寄存

器操作数和存储器操作数进行编码，有可能限制

指令所能够表示的寄存器个数。指令的执行时钟

周期数因操作数的来源（寄存器或存储器）不同

而差别比较大。

指令字长变化很大，特别是3操作数指令。而且

存储器-存储器型目标代码最紧凑，不需要设每条指令完成的工作也差别很大。对存储器的频

繁访问会使存储器成为瓶颈。这种类型的指令系

统现在已不用了。

（2，2）或（3，3）置寄存器来保存变量。

2.4 指令集应满足哪几个基本要求？

答：对指令集的基本要求是：完整性、规整性、高效率和兼

容性。

完整性是指在一个有限可用的存储空间内，对于任何可解

的问题，编制计算程序时，指令集所提供的指令足够使用。

规整性主要包括对称性和均匀性。对称性是指所有与指令

集有关的存储单元的使用、操作码的设置等都是对称的。均匀

性是指对于各种不同的操作数类型、字长、操作种类和数据存

储单元，指令的设置都要同等对待。

高效率是指指令的执行速度快、使用频度高。

2.5 指令集结构设计所涉及的内容有哪些？

答： (1) 指令集功能设计：主要有RISC和CISC两种技术

发展方向； (2) 寻址方式的设计：设置寻址方式可以通过对

基准程序进行测试统计，察看各种寻址方式的使用频率，根据

适用频率设置必要的寻址方式。 (3) 操作数表示和操作数类

型：主要的操作数类型和操作数表示的选择有：浮点数据类型、

整型数据类型、字符型、十进制数据类型等等。 (4) 寻址方

式的表示：可以将寻址方式编码于操作码中，也可以将寻址方

式作为一个单独的域来表示。 (5) 指令集格式的设计：有变

长编码格式、固定长度编码格式和混合型编码格式3种。

2.6 简述CISC指令集结构功能设计的主要目标。从当

前的计算机技术观点来看，CISC指令集结构的计算机有什

么缺点？

答：主要目标是增强指令功能，把越来越多的功能交由硬

件来实现，并且指令的数量也是越来越多。

缺点： (1) CISC结构的指令集中，各种指令的使用频率相

差悬殊。（2）CISC结构指令的复杂性带来了计算机体系结构的

复杂性，这不仅增加了研制时间和成本，而且还容易造成设计

错误。（3）CISC结构指令集的复杂性给VLSI设计增加了很大

负担，不利于单片集成。（4）CISC结构的指令集中，许多复杂

指令需要很复杂的操作，因而运行速度慢。 (5) 在CISC结构

的指令集中，由于各条指令的功能不均衡性，不利于采用先进

的计算机体系结构技术（如流水技术）来提高系统的性能。

2.7 简述RISC指令集结构的设计原则。

答（1）选取使用频率最高的指令，并补充一些最有用的

指令；（2）每条指令的功能应尽可能简单，并在一个机器周期

内完成；（3）所有指令长度均相同；（4）只有Load和Store

操作指令才访问存储器，其它指令操作均在寄存器之间进行；

(5) 以简单有效的方式支持高级语言。

2.8 指令中表示操作数类型的方法有哪几种？

答：操作数类型有两种表示方法：（1）操作数的类型由操

作码的编码指定，这是最常见的一种方法；（2）数据可以附上

由硬件解释的标记，由这些标记指定操作数的类型，从而选择

适当的运算。

2.9 表示寻址方式的主要方法有哪些？简述这些方法的

优缺点。

答：表示寻址方式有两种常用的方法：（1）将寻址方式编

于操作码中，由操作码在描述指令的同时也描述了相应的寻址

方式。这种方式译码快，但操作码和寻址方式的结合不仅增加

了指令的条数，导致了指令的多样性，而且增加了CPU对指令

译码的难度。（2）为每个操作数设置一个地址描述符，由该地

址描述符表示相应操作数的寻址方式。这种方式译码较慢，但

操作码和寻址独立，易于指令扩展。

2.10 通常有哪几种指令格式，请简述其适用范围。

答： (1) 变长编码格式。如果系统结构设计者感兴趣的是

程序的目标代码大小，而不是性能，就可以采用变长编码格式。

（2）固定长度编码格式。如果感兴趣的是性能，而不是程序

的目标代码大小，则可以选择固定长度编码格式。 (3) 混合

型编码格式。需要兼顾降低目标代码长度和降低译码复杂度

时，可以采用混合型编码格式。

2.11 根据CPU性能公式简述RISC指令集结构计算机和

CISC指令集结构计算机的性能特点。

答：CPU性能公式：CPU时间＝IC×CPI×T

其中，IC为目标程序被执行的指令条数，CPI为指令平均

执行周期数，T是时钟周期的时间。

相同功能的CISC目标程序的指令条数IC

CISC

少于RISC

的IC

RISC

，但是CISC的CPI

CISC

和T

CISC

都大于RISC的CPI

RISC

和T

RISC

，因此，CISC目标程序的执行时间比RISC的更长。

3.1解释下列术语

流水线：将一个重复的时序过程，分解成为若干个子过程，而

每一个子过程都可有效地在其专用功能段上与其它子过程同

时执行。

单功能流水线：指流水线的各段之间的连接固定不变、只能完

成一种固定功能的流水线。

多功能流水线：指各段可以进行不同的连接，以实现不同的功

能的流水线。

静态流水线：指在同一时间内，多功能流水线中的各段只能按

同一种功能的连接方式工作的流水线。当流水线要切换到另一

种功能时，必须等前面的任务都流出流水线之后，才能改变连

接。

动态流水线：指在同一时间内，多功能流水线中的各段可以按

照不同的方式连接，同时执行多种功能的流水线。它允许在某

些段正在实现某种运算时，另一些段却在实现另一种运算。

部件级流水线：把处理机中的部件进行分段，再把这些部件分

段相互连接而成。它使得运算操作能够按流水方式进行。这种

流水线也称为运算操作流水线。

处理机级流水线：又称指令流水线。它是把指令的执行过程按

照流水方式进行处理，即把一条指令的执行过程分解为若干个

子过程，每个子过程在独立的功能部件中执行。

处理机间流水线：又称为宏流水线。它是把多个处理机串行连

接起来，对同一数据流进行处理，每个处理机完成整个任务中

的一部分。前一个处理机的输出结果存入存储器中，作为后一

个处理机的输入。

第3章流水线技术

线性流水线：指各段串行连接、没有反馈回路的流水线。数据

通过流水线中的各段时，每一个段最多只流过一次。

非线性流水线：指各段除了有串行的连接外，还有反馈回路的

流水线。

顺序流水线：流水线输出端任务流出的顺序与输入端任务流入

的顺序完全相同。

乱序流水线：流水线输出端任务流出的顺序与输入端任务流入

的顺序可以不同，允许后进入流水线的任务先完成。这种流水

线又称为无序流水线、错序流水线、异步流水线。

吞吐率：在单位时间内流水线所完成的任务数量或输出结果的

数量。

流水线的加速比：使用顺序处理方式处理一批任务所用的时间

与按流水处理方式处理同一批任务所用的时间之比。

流水线的效率：即流水线设备的利用率，它是指流水线中的设

备实际使用时间与整个运行时间的比值。

数据相关：考虑两条指令i和j，i在j的前面，如果下述条件

之一成立，则称指令j与指令i数据相关：

（1）指令j使用指令i产生的结果；

（2）指令j与指令k数据相关，而指令k又与指令i数据

相关情况下的加速比是多少？

解：没有控制相关时流水线的平均CPI＝1

存在控制相关时：由于无条件分支在第二个时钟周期结束

时就被解析出来，而条件分支

要到第3个时钟周期结束时才能被解析出来。所以：

（1）若使用排空流水线的策略，则对于条件分支，有两

个额外的stall，对无条件分支，有一个额外的stall：

CPI = 1+20%*2+5%*1 = 1.45

加速比S=CPI/1 = 1.45

（2）若使用预测分支成功策略，则对于不成功的条件分

支，有两个额外的stall，对无条件分支和成功的条件分支，有

一个额外的stall 1：

CPI = 1+20%*(60%*1+40%*2) +5%*1 = 1.33

加速比S=CPI/1 = 1.33

（3）若使用预测分支失败策略，则对于成功的条件分支，

有两个额外的stall；对无条件分支，有一个额外的stall；对不

成功的条件分支，其目标地址已经由PC 值给出，不必等待，

所以无延迟：

CPI = 1+20%*(60%*2 + 40%*0) +5%*1 = 1.29

加速比S=CPI/1 = 1.29

3.18 在CRAY-1机器上，按照链接方式执行下述4条向量

指令（括号中给出了相应功能部件的执行时间），如果向量寄

存器和功能部件之间的数据传送需要1拍，试求此链接流水线

的通过时间是多少拍？如果向量长度为64，则需多少拍才能得

到全部结果？

←存储器（从存储器中取数：7拍）

←V

（向量加：3拍）

←V

（按（A

）左移：4拍）

←V

∧V

（向量逻辑乘：2拍）

解：通过时间就是每条向量指令的第一个操作数执行完毕需

要的时间，也就是各功能流水线由空到满的时间，具体过程

如下图所示。要得到全部结果，在流水线充满之后，向量中

后继操作数继续以流水方式执行，直到整组向量执行完毕。

访存

存储器

V0V1V2V3V4V5

向量加左移

向量逻

辑乘

通过

＝（7＋1）＋（1＋3＋1）＋（1＋4＋1）＋（1＋2＋1）＝23（拍）

总共

T

通过

＋（64－1）＝23＋63＝86（拍）

3.19 某向量处理机有16个向量寄存器，其中V

中分

别放有向量A、B、C、D、E、F，向量长度均为8，向量各元

素均为浮点数；处理部件采用两条单功能流水线，加法功能部

件时间为2拍，乘法功能部件时间为3拍。采用类似于CARY-1

的链接技术，先计算（A+B）*C，在流水线不停流的情况下，

接着计算（D+E）*F。

（1）求此链接流水线的通过时间？（设寄存器入、出各需

1拍）

（2）假如每拍时间为50ns，完成这些计算并把结果存进

相应寄存器，此处理部件的实际吞吐率为多少

MFLOPS？

解：（1）我们在这里假设A＋B的中间结果放在V6中，（A

＋B）×C地最后结果放在V7中，D＋E地中间结果放在V8

中，（D＋E）×F的最后结果放在V9中。具体实现参考下图：

V0AV1BV6V2CV7

向量加向量乘

V3DV4EV8V5FV9

通过时间应该为前者（（A＋B）×C）通过的时间：

通过

= (1+2+1)+(1+3+1) =9（拍）

（2）在做完（A＋B）×C之后，作（C＋D）×E就不需要

通过时间了。

V6←A＋B

V7←V6×C

V8←D＋E

TT

通过

＋（8－1）824（拍）1200(ns)

TP26.67MFLOPS

V9←V8×F

第4章指令级并行

4.1解释下列术语

指令级并行：简称ILP。是指指令之间存在的一种并行性，利

用它，计算机可以并行执行两条或两条以上的指令。

指令调度：通过在编译时让编译器重新组织指令顺序或通过硬

件在执行时调整指令顺序来消除冲突。

指令的动态调度：是指在保持数据流和异常行为的情况下，通

过硬件对指令执行顺序进行重新安排，以提高流水线的利用率

且减少停顿现象。是由硬件在程序实际运行时实施的。

指令的静态调度：是指依靠编译器对代码进行静态调度，以减

少相关和冲突。它不是在程序执行的过程中、而是在编译期间

进行代码调度和优化的。

保留站：在采用Tomasulo算法的MIPS处理器浮点部件中，

在运算部件的入口设置的用来保存一条已经流出并等待到本

功能部件执行的指令（相关信息）。

CDB：公共数据总线。

动态分支预测技术：是用硬件动态地进行分支处理的方法。在

程序运行时，根据分支指令过去的表现来预测其将来的行为。

如果分支行为发生了变化，预测结果也跟着改变。

BHT：分支历史表。用来记录相关分支指令最近一次或几次的

执行情况是成功还是失败，并据此进行预测。

分支目标缓冲：是一种动态分支预测技术。将执行过的成功分

支指令的地址以及预测的分支目标地址记录在一张硬件表中。

在每次取指令的同时，用该指令的地址与表中所有项目的相应

字段进行比较，以便尽早知道分支是否成功，尽早知道分支目

标地址，达到减少分支开销的目的。

前瞻执行：解决控制相关的方法，它对分支指令的结果进行猜

测，然后按这个猜测结果继续取指、流出和执行后续的指令。

只是指令执行的结果不是写回到寄存器或存储器，而是放到一

个称为ROB的缓冲器中。等到相应的指令得到“确认”（即确

实是应该执行的）后，才将结果写入寄存器或存储器。

ROB：ReOrder Buffer。前瞻执行缓冲器。

超标量：一种多指令流出技术。它在每个时钟周期流出的指令

条数不固定，依代码的具体情况而定，但有个上限。

超流水：在一个时钟周期内分时流出多条指令。

超长指令字：一种多指令流出技术。VLIW处理机在每个时钟

周期流出的指令条数是固定的，这些指令构成一条长指令或者

一个指令包，在这个指令包中，指令之间的并行性是通过指令

显式地表示出来的。

循环展开：是一种增加指令间并行性最简单和最常用的方法。

它将循环展开若干遍后，通过重命名和指令调度来开发更多的

并行性。

4.2 简述Tomasulo算法的基本思想。

答：核心思想是：① 记录和检测指令相关，操作数一旦

就绪就立即执行，把发生RAW冲突的可能性减小到最少；②

通过寄存器换名来消除WAR冲突和WAW冲突。寄存器换名

是通过保留站来实现，它保存等待流出和正在流出指令所需要

的操作数。

基本思想：只要操作数有效，就将其取到保留站，避免指

令流出时才到寄存器中取数据，这就使得即将执行的指令从相

应的保留站中取得操作数，而不是从寄存器中。指令的执行结

果也是直接送到等待数据的其它保留站中去。因而，对于连续

的寄存器写，只有最后一个才真正更新寄存器中的内容。一条

指令流出时，存放操作数的寄存器名被换成为对应于该寄存器

保留站的名称（编号）。

4.3 根据需要展开下面的循环并进行指令调度，直到没有

任何延迟。指令的延迟如表4.4。

LOOP:

L.D F0,0(R1)

F0,F0,F2 MUL.D

L.D F4,0(R2)

ADD.D

S.D F0,0(R2)

DSUBI

BNEZ

F0,F0,F4

R1,R1,#8

R2,R2,#8

R1,LOOP

解：将循环展开两次，进行指令调度，即可以消除延迟，

代码如下：

LOOP： L.D F0，0（R1）

L.D F10，-8（R1）

MUL.D F0，F0，F2

MUL.D F10，F10，F2

L.D F4，0（R2）

L.D F14，-8（R2）

ADD.D F0，F0，F4

ADD.D F10，F10，F14

DSUBI R1，R1，16

S.D 0（R2），F0

DSUBI R2，R2，16

BNEZ R1，LOOP

S.D 8（R2），F10

4.4 假设有一条长流水线，仅仅对条件转移指令使用分支

目标缓冲。假设分支预测错误的开销为4个时钟周期，缓冲不

命中的开销为3个时钟周期。假设：命中率为90%，预测精度

为90%，分支频率为15%，没有分支的基本CPI为1。

（1）求程序执行的CPI。

（2）相对于采用固定的2个时钟周期延迟的分支处理，哪

种方法程序执行速度更快？

解：（1）程序执行的CPI = 没有分支的基本CPI（1） + 分

支带来的额外开销

分支带来的额外开销是指在分支指令中，缓冲命中但预测

错误带来的开销与缓冲没有命中带来的开销之和。

分支带来的额外开销= 15% * (90%命中×10%预测错误

×4 + 10％没命中×3)= 0.099

所以，程序执行的CPI ＝ 1 ＋ 0.099 = 1.099

（2）采用固定的2 个时钟周期延迟的分支处理CPI = 1 +

15%×2 = 1.3

由（1）（2）可知分支目标缓冲方法执行速度快。

4.5 假设分支目标缓冲的命中率为90%，程序中无条件转

移指令的比例为5%，没有无条件转移指令的程序CPI值为1。

假设分支目标缓冲中包含分支目标指令，允许无条件转移指令

进入分支目标缓冲，则程序的CPI值为多少？

解：设每条无条件转移指令的延迟为x，则有：

1＋5%×x＝1.1

x＝2

当分支目标缓冲命中时，无条件转移指令的延迟为0。

所以程序的CPI ＝ 1 ＋ 2 × 5% ×(1 －90%) ＝

1.01

4.6 下面的一段MIPS汇编程序是计算高斯消去法中的关

键一步，用于完成下面公式的计算：

Y = a  X + Y

其浮点指令延迟如表4.3所示，整数指令均为1个时钟周

期完成，浮点和整数部件均采用流水。整数操作之间以及与其

它所有浮点操作之间的延迟为0，转移指令的延迟为0。X中

的最后一个元素存放在存储器中的地址为DONE。

FOO:

L.D F2,0(R1)

F4,F2,F0

F6,F4,F6

R1,R1,#8

R2,R2,#8

DSUBIU R3,R1,#DONE

BNEZ R3, FOO

(1) 对于标准的MIPS单流水线，上述循环计算一个Y值需要

多少时间？其中有多少空转周期？

(2) 对于标准的MIPS单流水线，将上述循环顺序展开4次，不

MUT.D

ADD.D

DADDIU

L.D F6,0(R2)

S.D F6,0[R2]

进行任何指令调度，计算一个Y值平均需要多少时间？加

速比是多少？其加速是如何获得的？

(3) 对于标准的MIPS单流水线，将上述循环顺序展开4次，优

化和调度指令，使循环处理时间达到最优，计算一个Y值

平均需要多少时间？加速比是多少？

(1) 对于采用如图4.8前瞻执行机制的MIPS处理器（只有一个

整数部件）。当循环第二次执行到

BNEZ R3,FOO

时，写出前面所有指令的状态，包括指令使用的保留站、指

令起始节拍、执行节拍和写结果节拍，并写出处理器当前的

状态。

(2) 对于2路超标量的MIPS流水线，设有两个指令流出部件，

可以流出任意组合的指令，系统中的功能部件数量不受限

制。将上述循环展开4次，优化和调度指令，使循环处理时

间达到最优。计算一个Y值平均需要多少时间？加速比是

多少？

(3) 对于如图4.13结构的超长指令字MIPS处理器，将上述循

环展开4次，优化和调度指令，使循环处理时间达到最优。

计算一个Y值平均需要多少时间？加速比是多少？

解：（1）

L.D F2, 0(R1) 1

Stall

MUT.D F4, F2, F0 2

L.D F6, 0(R2) 3

Stall

ADD.D

Stall

S.D F6, 0[R2] 5

DADDIU

BNEZ

R1, R1, #8 6

R2, R2, #8 7

DSUBIU R3, R1, #DONE 8

R3, FOO 9

F6, F4, F6 4

Stall

所以，共有14 个时钟周期，其中有5 个空转周期。

（2）循环顺序展开4 次，不进行任何指令调度，则指令

1～5 及其间的stall 都是必要的，只是指令6～9 只需执行一

次，因此，共有 10 × 4 ＋ 4 ＝ 44 个时钟周期，计算出4 个

Y 值，所以计算一个Y 值需要11 个时钟周期，加速比为：14/11

= 1.27 。加速主要是来自减少控制开销，即减少对R1、R2 的

整数操作以及比较、分支指令而来的。

（3）循环顺序展开4 次，优化和调度指令，如下：

L.D F2, 0(R1)

L.D F8, 8(R1)

L.D F14, 16(R1)

L.D F20, 24(R1)

MUT.D F4, F2, F0

MUT.D F10, F8, F0

MUT.D F16, F14, F0

MUT.D F22, F20, F0

L.D F6, 0(R2)

L.D F12, 8(R2)

L.D F18, 16(R2)

L.D F24, 24(R2)

ADD.D F6, F4, F6

ADD.D F12, F10, F12

ADD.D F18, F16, F18

ADD.D F24, F22, F24

S.D F6, 0[R2]

S.D F12, 8[R2]

S.D F18, 16[R2]

S.D F24, 24[R2]

DADDIU R1, R1, #32

DADDIU R2, R2, #32

DSUBIU R3, R1, #DONE

BNEZ R3, FOO

共用了24 个时钟周期，则计算一个Y 值平均需要 24/4 =

6 个时钟周期，

加速比：14/6 = 2.33

（4）

指令执行时钟

指令

流出执行写结果确认

L.D F2, 0（R1） 1 2 3 4

MUL.D F4, F2, F0 2 4 5 6

L.D F6, 0（R2） 3 4 6 7

ADD.D F6, F4, F6 4 8 9 10

S.D

DADDIU

F6, 0（R2） 5 11 12 13

R1, R1, #8

7 8

DADDIU

R2, R2, #8

8 9

DSUBIU

R3,R1,#DON

9 10

BNEZ

FOO

R3,

L.D F2, 0（R1） 10 11 13 14

MUL.D F4, F2, F0 11 13 14 15

L.D F6, 0（R2） 12 13 15 16

ADD.D F6, F4, F6 13 17 18 19

S.D

DADDIU

F6, 0（R2） 14 20 21 22

R1, R1, #8

16 17

DADDIU

R2, R2, #8

17 18

DSUBIU

R3,R1,#DON

18 19

BNEZ

FOO

R3,

名称

保留站

Busy Op Vj Vk Qj Qk Dest A

Add1 yes ADD.D Regs[F4] Regs[F6 ]

Add2 no

Add3 no

Mult1 yes

Mult2 no

项号

ROB

Busy

yes

ADD.D

S.D

指令

F6, F4, F6

F6, 0（R2）

状态

执行

流出

Mem[0+Regs[R2]

]

目的

Value

Regs[F4]＋Regs[F6]

字段

浮点寄存器状态

yes

F10

…

F30

ROB项编号

Busy

（5）

整数指令

L.D F2, 0(R1)

L.D F8, 8(R1)

L.D F14, 16(R1)

L.D F20, 24(R1)

L.D F6, 0(R2)

L.D F12, 8(R2)

L.D F18, 16(R2)

L.D F24, 24(R2)

DADDIU R1, R1, #32

S.D F6, 0(R2)

S.D F12, 8(R2)

S.D F18,16(R2)

S.D F24, 24(R2)

DADDIU R2, R2, #32

DSUBIU R3, R1,

#DONE

BNEZ R3, FOO

MUT.D

ADD.D

F12

ADD.D

F18

ADD.D

F24

F24, F22,

F18, F16,

F4, F2, F0

F10, F8, F0

F16, F14, F0

F22, F20, F0

F6, F4, F6

F12, F10,

浮点指令

时钟周期

数

计算一个Y值需要 16/4 = 4 个时钟周期，加速比 = 14/4 =

3.5

（6）

访存1

2, 0(R1)

14, 16(R1)

6, 0(R2)

18, 16(R2)

访存2

L.D F8, 8(R1)

20, 24(R1)

12, 8(R2)

24, 24(R2)

浮点指令1

4, F2,

16,

F14, F0

6, F4,

18,

F16, F18

浮点指令2

10, F8,

22, F20,

12, F10,

F12

24, F22,

F24

DADDIU R2, R2, #32

DSUBIUR3, R1,

#DONE

BNEZ

R3, FOO

DADDIU R1, R1, #32

整数指令

时钟

周期

6, -32(R2)

18,-16(R2)

12, -24(R2)

24, -8(R2)

计算一个Y值需要 11/4 个时钟周期，加速比 = 14/(11/4)

= 56/11

4.7 对于两路超标量处理器，从存储器取数据有两拍附加

延迟，其它操作均有1拍附加延迟，对于下列代码，请按要求

进行指令调度。

LW R4,(R5)

LW R7,(R8)

DADD R9,R4,R7

LD R10,(R11)

DMUL R12,R13,R14

DSUB R2,R3,R1

SW R15,(R2)

DMUL R21,R4,R7

SW R23,(R22)

SW R21,(R24)

（1）假设两路功能部件中同时最多只有一路可以是访问存

储器的操作，同时也最多只有一路可以是运算操作，指令

顺序不变。

（2）假设两路功能部件均可以执行任何操作，指令顺序不

变。

（3）假设指令窗口足够大，指令可以乱序（out-of-order）

流出，两路功能部件均可以执行任何操作。

解：（1）

第一路

DADD

DMUL

DSUB

DMUL

SW R21, (R24)

R9, R4, R7

R12, R13, R14

R2, R3, R1

R21, R4, R7

LD R10, (R11)

SW R15, (R2)

SW R23, (R22)

R4, (R5)

R7, (R8)

第二路

（2）

第一路

DADD

DMUL

R9, R4, R7

R12, R13, R14

R15, (R2)

R23, (R22)

R21, (R24)

R4, (R5) LW

DSUB

DMUL

第二路

R7, (R8)

R10, (R11)

R2, R3, R1

R21, R4, R7

（3）

第一路

DSUB

DADD

R4, (R5)

R2, R3, R1

R23, (R22)

R9, R4, R7

DMUL

第二路

R7, (R8)

R12, R13, R14

R21, R4, R7

LD R10, (R11)

SW R15, (R2)

SW R21, (R24)

4.8 对于例4.5，在相同的条件下，如果展开7遍循环，求：

（1）每遍循环的平均时钟周期；

（2）每个时钟周期流出指令数；

（3）操作槽（功能部件）的使用效率；

（4）如果展开10遍，会出现哪些问题？

解：展开7遍循环

访存指令1

L.D F0,0（R1）

访存指令2

L.D F6,-8（R1）

浮点指令1

浮点指令2

整数/转移指令

-56

S.D F28,8（R1）

BNE R1,Loop

L.D F10,-16（R1） L.D F14,-24（R1）

L.D F18,-32（R1） L.D F22,-40（R1） ADD.D F4,F0,F2 ADD.D F8,F6,F2

L.D F26,-48（R1）

ADD.D F12,F10,F2 ADD.D F16,F14,F2

ADD.D F20,F18,F2 ADD.D F24,F22,F2

S.D F4,0（R1） S.D F8,-8（R1） ADD.D F28,F26,F2

S.D F12,-16（R1） S.D F16,–24（R1）

S.D F20,-32（R1） S.D F24,–40（R1） DADDIU R1,R1,#

这段程序的运行时间为9个时钟周期，每遍循环平均约1.28

个时钟周期。9个时钟周期内流出了23条指令，每个时钟周期

2.55条。9个时钟周期共有操作槽9



5=45个，有效槽的比例为

51.1%。

4.9 设指令流水线由取指令、分析指令和执行指令3个部件

构成，每个部件经过的时间为△t，连续流入12条指令。分别

画出标量流水处理机以及ILP均为4的超标量处理机、超长指

令字处理机、超流水处理机的时空图，并分别计算它们相对于

标量流水处理机的加速比。

解：标量流水处理机的时空图：

执行

分析

取指

时间

执行完12条指令需T

＝14△t。

超标量流水处理机与超长指令字处理机的时空图：

执行

分析

取指

时间

取指

超长指令字处理机时空图

时间

超标量处理机时空图

超标量流水处理机中，每一个时钟周期同时启动4条指令。

执行完12条指令需T

＝5△t，相对于标量流水处理机的加速

比为：



14t

2.8

5t

超长指令字处理机中，每4条指令组成一条长指令，共形

成3条长指令。执行完12条指令需T

＝5△t，相对于标量流

水处理机的加速比为：



14t

2.8

5t

超流水处理机的时空图：

执行

分析

取指

5.75

时间

超流水处理机中，每1/4个时钟周期启动一条指令。执行

完12条指令需T

＝5.75△t，相对于标量流水处理机的加速比

为：



14t

2.435

5.75t

5.1解释下列术语

多级存储层次：采用不同的技术实现的存储器，处在离CPU

第5章存储层次

不同距离的层次上，各存储器之间一般满足包容关系，即任何

一层存储器中的内容都是其下一层（离CPU更远的一层）存

储器中内容的子集。目标是达到离CPU最近的存储器的速度，

最远的存储器的容量。

全相联映象：主存中的任一块可以被放置到Cache中任意一个

地方。

直接映象：主存中的每一块只能被放置到Cache中唯一的一个

地方。

组相联映象：主存中的每一块可以放置到Cache中唯一的一组

中任何一个地方（Cache分成若干组，每组由若干块构成）。

替换算法：由于主存中的块比Cache中的块多，所以当要从主

存中调一个块到Cache中时，会出现该块所映象到的一组（或

一个）Cache块已全部被占用的情况。这时，需要被迫腾出其

中的某一块，以接纳新调入的块。

LRU：选择最近最少被访问的块作为被替换的块。实际实现都

是选择最久没有被访问的块作为被替换的块。

写直达法：在执行写操作时，不仅把信息写入Cache中相应的

块，而且也写入下一级存储器中相应的块。

写回法：只把信息写入Cache中相应块，该块只有被替换时，

才被写回主存。

按写分配法：写失效时，先把所写单元所在的块调入Cache，

然后再进行写入。

不按写分配法：写失效时，直接写入下一级存储器中，而不把

相应的块调入Cache。

命中时间：访问Cache命中时所用的时间。

失效率：CPU访存时，在一级存储器中找不到所需信息的概率。

失效开销：CPU向二级存储器发出访问请求到把这个数据调入

一级存储器所需的时间。

强制性失效：当第一次访问一个块时，该块不在Cache中，需

要从下一级存储器中调入Cache，这就是强制性失效。

容量失效：如果程序在执行时，所需要的块不能全部调入Cache

中，则当某些块被替换后又重新被访问，就会产生失效，这种

失效就称作容量失效。

冲突失效：在组相联或直接映象Cache中，若太多的块映象到

同一组（块）中，则会出现该组中某个块被别的块替换（即使

别的组或块有空闲位置），然后又被重新访问的情况。

2：1Cache经验规则：大小为N的直接映象Cache的失效率约

等于大小为N /2的两路组相联Cache的实效率。

相联度：在组相联中，每组Cache中的块数。

Victim Cache：位于Cache和存储器之间的又一级Cache，容

量小，采用全相联策略。用于存放由于失效而被丢弃（替换）

的那些块。每当失效发生时，在访问下一级存储器之前，先检

查Victim Cache中是否含有所需块。

故障性预取：在预取时，若出现虚地址故障或违反保护权限，

就会发生异常。

非故障性预取：在预取时，若出现虚地址故障或违反保护权限，

不发生异常。

非阻塞Cache：Cache在等待预取数据返回时，还能继续提供

指令和数据。

尽早重启动：在请求字没有到达时，CPU处于等待状态。一旦

请求字到达，就立即发送给CPU，让等待的CPU尽早重启动，

继续执行。

请求字优先：调块时，首先向存储器请求CPU所要的请求字。

请求字一旦到达，就立即送往CPU，让CPU继续执行，同时

从存储器调入该块的其余部分。

虚拟Cache：地址使用虚地址的Cache。

多体交叉存储器：具有多个存储体，各体之间按字交叉的存储

技术。

存储体冲突：多个请求要访问同一个体。

TLB：一个专用高速存储器，用于存放近期经常使用的页表项，

其内容是页表部分内容的一个副本。

5.2 简述“Cache—主存”层次与“主存—辅存”层次的区别。

答：

存储层次

比较项目

目的

存储管理的实现

访问速度的比值

（第一级比第二级）

典型的块（页）大小

CPU对第二级的访问方式

“Cache—主存”层次

为了弥补主存速度的不足

全部由专用硬件实现

几比一

几十个字节

可直接访问

“主存—辅存”层次

为了弥补主存容量的不足

主要由软件实现

几万比一

几百到几千个字节

均通过第一级

5.3 地址映象方法有哪几种？它们各有什么优缺点？

答：(1) 全相联映象。实现查找的机制复杂，代价高，速

度慢。Cache空间的利用率较高，块冲突概率较低，因而Cache

的失效率也低。（2）直接映象。实现查找的机制简单，速度快。

Cache空间的利用率较低，块冲突概率较高，因而Cache的失

效率也高。（3）组相联映象。组相联是直接映象和全相联的一

种折衷。

5.4 降低Cache失效率有哪几种方法？简述其基本思想。

答：常用的降低Cache失效率的方法有下面几种：

（1）增加Cache块大小。增加块大小利用了程序的

空间局部性。

（2）增加Cache的容量。

（3）提高相联度，降低冲突失效。

（4）伪相联Cache，降低冲突失效。当对伪相联

Cache进行访问时，首先是按与直接映象相同的方式进行

访问。如果命中，则从相应的块中取出所访问的数据，送

给CPU，访问结束。如果不命中，就将索引字段的最高

位取反，然后按照新索引去寻找“伪相联组”中的对应块。

如果这一块的标识匹配，则称发生了“伪命中”。否则，就

访问下一级存储器。

（5）硬件预取技术。在处理器提出访问请求前预取指

令和数据。

（6）由编译器控制的预取，硬件预取的替代方法，在

编译时加入预取的指令，在数据被用到之前发出预取请

求。

（7）编译器优化，通过对软件的优化来降低失效率。

不命中时CPU是否切换不切换切换到其它进程

（8） “牺牲”Cache。在Cache和其下一级存储器的

数据通路之间增设一个全相联的小Cache，存放因冲突而

被替换出去的那些块。每当发生不命中时，在访问下一级

存储器之前，先检查“牺牲”Cache中是否含有所需的块。

如果有，就将该块与Cache中某个块做交换，把所需的块

从“牺牲”Cache 调入Cache。

5.5 简述减小Cache失效开销的几种方法。

答：让读失效优先于写、写缓冲合并、请求字处理技术、

非阻塞Cache或非锁定Cache技术、采用二级Cache。

5.6 通过编译器对程序优化来改进Cache性能的方法有哪

几种？简述其基本思想。

答：（1）数组合并。通过提高空间局部性来减少失效次数。

有些程序同时用相同的索引来访问若干个数组的同一维，这些

访问可能会相互干扰，导致冲突失效，可以将这些相互独立的

数组合并成一个复合数组，使得一个Cache块中能包含全部所

需元素。（2）内外循环交换。循环嵌套时，程序没有按数据在

存储器中的顺序访问。只要简单地交换内外循环，就能使程序

按数据在存储器中的存储顺序进行访问。（3）循环融合。有些

程序含有几部分独立的程序段，它们用相同的循环访问同样的

数组，对相同的数据作不同的运算。通过将它们融合成一个单

一循环，能使读入Cache的数据被替换出去之前得到反复的使

用。（4）分块。通过改进时间局部性来减少失效。分块不是对

数组的整行或整列进行访问，而是对子矩阵或块进行操作。

5.7 在“Cache—主存”层次中，主存的更新算法有哪两

种？它们各有什么特点？

答：（1）写直达法。易于实现，而且下一级存储器中的数

据总是最新的。

（2）写回法。速度快，“写”操作能以Cache存储器的速

度进行。而且对于同一单元的多个写最后只需一次写回下一级

存储器，有些“写”只到达Cache，不到达主存，因而所使用

的存储器频带较低。

5.8 组相联Cache的失效率比相同容量直接映象Cache的

失效率低。由此能否得出结论：采用组相联一定能带来性能上

的提高？为什么？

答：不一定。因为组相联命中率的提高是以增加命中时间

为代价的，组相联需要增加多路选择开关。

5.9 写出三级Cache的平均访问时间的公式。

解：平均访存时间＝命中时间＋失效率×失效开销

只有第I层失效时才会访问第I＋1。

设三级Cache的命中率分别为H

L1、

l2、

L3，

失效率

分别为M

l1、

l2、

L3，第三级

Cache的失效开销为P

L3。

平均访问时间T

＝H

＋M

)}

5.10 假设对指令Cache的访问占全部访问的75%；而对

数据Cache的访问占全部访问的25%。Cache的命中时间为1

个时钟周期，失效开销为50 个时钟周期，在混合Cache中一

次load或store操作访问Cache的命中时间都要增加一个时钟

周期，32KB的指令Cache的失效率为0.39%，32KB的数据

Cache的失效率为4.82%，64KB的混合Cache的失效率为

1.35%。又假设采用写直达策略，且有一个写缓冲器，并且忽

略写缓冲器引起的等待。试问指令Cache和数据Cache容量均

为32KB的分离Cache和容量为64KB的混合Cache相比，哪

种Cache的失效率更低？两种情况下平均访存时间各是多

少？

解：（1）根据题意，约75%的访存为取指令。

因此，分离Cache的总体失效率为：（75%×0.15%）＋

（25%×3.77%）＝1.055%；

容量为128KB的混合Cache的失效率略低一些，只有

0.95%。

（2）平均访存时间公式可以分为指令访问和数据访问两

部分：

平均访存时间＝指令所占的百分比×（读命中时间＋读

失效率×失效开销）＋数据所占的百分比×（数据命中时间

＋数据失效率×失效开销）

所以，两种结构的平均访存时间分别为：

分离Cache的平均访存时间＝75%×（1＋0.15%×50）

＋25%×（1＋3.77%×50）

＝（75%×1.075）＋（25%×2.885）＝1.5275

混合Cache的平均访存时间＝75%×（1＋0.95%×50）

＋25%×（1＋1＋0.95%×

50）

＝（75%×1.475）＋（25%×2.475）＝1.725

因此，尽管分离Cache的实际失效率比混合Cache的高，

但其平均访存时间反而较低。分离Cache提供了两个端口，消

除了结构相关。

5.11 给定以下的假设，试计算直接映象Cache和两路组

相联Cache的平均访问时间以及CPU的性能。由计算结果能

得出什么结论？

（1）理想Cache情况下的CPI为2.0，时钟周期为2ns，平均

每条指令访存1.2次；

（2）两者Cache容量均为64KB，块大小都是32字节；

（3）组相联Cache中的多路选择器使CPU的时钟周期增加了

10％；

（4）这两种Cache的失效开销都是80ns；

（5）命中时间为1个时钟周期；

（6） 64KB直接映象Cache的失效率为1.4％，64KB两路组相

联Cache的失效率为1.0％。

解：平均访问时间＝命中时间＋失效率×失效开销

平均访问时间

路

=2.0+1.4% *80=3.12ns

平均访问时间

路

=2.0*(1+10%)+1.0% *80=3.0ns

两路组相联的平均访问时间比较低

CPU

time

=（CPU

执行

+存储等待周期）*时钟周期

CPU

time

=IC（CPI

执行

+总失效次数/指令总数*失效开销） *

时钟周期

=IC（（CPI

执行

*时钟周期）+（每条指令的访存次数*失效

率*失效开销*时钟周期））

CPU

time 1-way

=IC(2.0*2+1.2*0.014*80)＝5.344IC

CPU

time 2-way

=IC(2.2*2+1.2*0.01*80)＝5.36IC

相对性能比：

CPU

time2way

time1way



5.36/5.344=1.003

直接映象cache的访问速度比两路组相联cache要快1.04

倍，而两路组相联Cache的平均性能比直接映象cache要高

1.003倍。因此这里选择两路组相联。

5.12 假设一台计算机具有以下特性：

（1） 95％的访存在Cache中命中；

（2）块大小为两个字，且失效时整个块被调入；

（3） CPU发出访存请求的速率为10字/s；

（4） 25％的访存为写访问；

（5）存储器的最大流量为10字/s（包括读和写）；

（6）主存每次只能读或写一个字；

（7）在任何时候，Cache中有30％的块被修改过；

（8）写失效时，Cache采用按写分配法。

现欲给该计算机增添一台外设，为此首先想知道主存的频

带已用了多少。试对于以下两种情况计算主存频带的平均使用

比例。

（1）写直达Cache；

（2）写回法Cache。

解：采用按写分配

（1）写直达cache访问命中，有两种情况：

读命中，不访问主存；

写命中，更新cache和主存，访问主存一次。

访问失效，有两种情况：

读失效，将主存中的块调入cache中，访问主

存两次；

写失效，将要写的块调入cache，访问主存两

次，再将修改的数据写入cache和主存，访问主存

一次，共三次。上述分析如下表所示。

访问命访问

中

频访存

次数

95%*75

95%*25

5%*75%

5%*25%

类型率

读

写

读

写

%=71.3%

%=23.8%

=3.8%

=1.3%

一次访存请求最后真正的平均访存次数

=(71.3%*0)+(23.8%*1)+(3.8%*2)+(1.3%*3)＝0.35

已用带宽=0.35×10

/10

=35.0%

（2）写回法cache访问命中,有两种情况：

读命中，不访问主存；

写命中，不访问主存。采用写回法，只有当修

改的cache块被换出时，才写入主存；

访问失效,有一个块将被换出，这也有两种情况：

如果被替换的块没有修改过，将主存中的块调入

cache块中，访问主存两次；

如果被替换的块修改过，则首先将修改的块写入主

存，需要访问主存两次；然后将主存中的块调入cache块

中，需要访问主存两次，共四次访问主存。

访问命块为

中

频访存

率

95%*70%=

66.5%

95%*30%=

28.5%

5%*70%=3.

次数

脏

所以：

一次访存请求最后真正的平均访存次数=66.5％*0＋

28.5%*0+3.5%*2+1.5%*4=0.13

已用带宽＝0.13×10/10＝

13%

5.13 在伪相联中，假设在直接映象位置没有发现匹配，而

在另一个位置才找到数据（伪命中）时，不对这两个位置的数

据进行交换。这时只需要1个额外的周期。假设失效开销为50

个时钟周期，2KB直接映象Cache的失效率为9.8%，2路组

相联的失效率为7.6%；128KB直接映象Cache的失效率为

1.0%，2路组相联的失效率为0.7%。

（1）推导出平均访存时间的公式。

（2）利用（1）中得到的公式，对于2KBCache和

128KBCache，计算伪相联的平均访存时间。

解：

不管作了何种改进，失效开销相同。不管是否交换内容，在

同一“伪相联”组中的两块都是用同一个索引得到的，因此失

效率相同，即：失效率

伪相联

＝失效率

路

。

伪相联cache的命中时间等于直接映象cache的命中时间加

上伪相联查找过程中的命中时间*该命中所需的额外开销。

命中时间

伪相联

＝命中时间

路

＋伪命中率

伪相联

×1

交换或不交换内容，伪相联的命中率都是由于在第一次失

5%*30%=1.4

9 9

效时，将地址取反，再在第二次查找带来的。

因此伪命中率

伪相联

＝命中率

路

－命中率

路

＝（1－失效率

）－（1－失效率

路

）

＝失效率

路

－失效率

路

。交换内容需

要增加伪相联的额外开销。

平均访存时间

伪相联

＝命中时间

路

＋（失效率

路

－失效率

路

）

×1

＋失效率

路

×失效开销

路

将题设中的数据带入计算，得到：

平均访存时间

2Kb

=1+(0.098-0.076)*1+(0.076

*50 ) =4.822

平均访存时间

*50 ) =1.353

显然是128KB的伪相联Cache要快一些。

5.14 假设采用理想存储器系统时的基本CPI是1.5，主存

延迟是40个时钟周期；传输速率为4字节/时钟周期，且Cache

中50%的块是修改过的。每个块中有32字节，20%的指令是

数据传送指令。并假设没有写缓存，在TLB失效的情况下需

要20时钟周期，TLB不会降低Cache命中率。CPU产生指令

地址或Cache失效时产生的地址有0.2%没有在TLB中找到。

（1）在理想TLB情况下，计算均采用写回法16KB直接映

象统一Cache、16KB两路组相联统一Cache和32KB直

128Kb

=1+(0.010-0.007)*1+(0.007

接映象统一Cache机器的实际CPI；

（2）在实际TLB情况下，用（1）的结果，计算均采用写回

法16KB直接映象统一Cache、16KB两路组相联统一

Cache和32KB直接映象统一Cache机器的实际CPI；

其中假设16KB直接映象统一Cache、16KB两路组相联

统一Cache和32KB直接映象统一Cache的失效率分别为

2.9%、2.2%和2.0%；25%的访存为写访问。

解： CPI=CPI

执行

+存储停顿周期数/指令数

存储停顿由下列原因引起：

 从主存中取指令

 load和store指令访问数据

 由TLB引起

存储停顿周期数取指令停顿数据访问停顿＋TLB停顿

＝＋

指令数指令数指令数

停顿周期数存储访问

＝失效率失效开销

指令数指令数

存储停顿周期数TLB停顿





指令



＋（f

数据

）＋

指令数指令数

（1）对于理想TLB，TLB失效开销为0。而对于统一Cache，

指令

数据

指令

=主存延迟＋传输一个块需要使用的时间＝40＋

32/4＝48（拍）

若为读失效，P

数据

＝主存延迟＋传输一个块需要使用的

时间＝40＋32/4＝48（拍）

若为写失效，且块是干净的，

数据

＝主存延迟＋传输一个块需要使用的时间

＝40＋32/4＝48（拍）

若为写失效，且块是脏的，

数据

＝主存延迟＋传输两个块需要使用的时间

＝40＋64/4＝56（拍）

CPI=1.5+[RP+(RP*20%)+0 ]

指令访存全是读，而数据传输指令Load或Store指令，

数据

＝读百分比*（f

数据

）＋写百分比*（f

数据

干净数据

*其对应的百分比

＋f

数据

脏数据

*其对应的百分比）

＝20%*（75％×48＋25％*（50％*48+50％*

（48＋16）））=50（拍）

代入上述公式计算出结果为：

配置

16KB 直接统一映象

16KB两路统一映象

32KB直接统一映象

失效率

0.029

0.022

0.020

CPI

4.4

3.4

3.2

（2）

TLB停顿存储访问次数TLB访问

（）TLB失效率TLB失效开销

指令数指令数存储访问次数

将f

数据

（数据访问指令频率），R

和P

（分别是TLB的失

效率和失效开销），R

和P

（分别是Cache的失效率和写回的

频率）代入公式得：

TLB停顿/指令数={[1+f

数据

]*[R

(1+R

)]}R

其中，1+f

数据

：每条指令的访问内存次数；R

(1+R

)：每次内

存访问需要的TLB访问次数。

由

条件得：TLB停顿/指令数

={[1+20%]*[R

(1+25%)]}0.2%×20

配置

16KB 直接统一映象

16KB两路统一映象

32KB直接统一映象

失效率

0.029

0.022

0.020

理想TLB的CPI

4.0

3.4

3.2

第6章输入输出系统

6.1 解释以下术语

响应时间：从用户键入命令开始，到得到结果所花的时间。

可靠性：指系统从某个初始参考点开始一直连续提供服务的能

力，它通常用平均无故障时间来衡量。

可用性：指系统正常工作的时间在连续两次正常服务间隔时间

中所占的比率。

可信性：指服务的质量，即在多大程度上可以合理地认为服务

是可靠的。

RAID：廉价磁盘冗余阵列或独立磁盘冗余阵列。

分离事务总线：将总线事务分成请求和应答两部分。在请求和

应答之间的空闲时间内，总线可以供给其它的I/O使用。采用

这种技术的总线称为分离事务总线。

通道：专门负责整个计算机系统输入/输出工作的专用处理机，

能执行有限的一组输入输出指令。

通道流量：指一个通道在数据传送期间，单位时间内能够传送

的数据量。

虚拟DMA：它允许DMA设备直接使用虚拟地址，并在DMA

传送的过程中由硬件将虚拟地址转换为物理地址。

异步I/O：允许进程在发出I/O请求后继续执行，直到该进程

真正访问这些数据而它们又尚未就绪时，才被挂起。

6.2 假设一台计算机的I/O处理时间占10%，当其CPU

性能改进为原来的100倍，而I/O性能仅改进为原来的2倍时，

系统总体性能会有什么样的变化？

解：

加速比

10%/2

90%/100

16.94

6.3 RAID有哪些分级？各有何特点？

答：(1)RAID0。亦称数据分块，即把数据分布在多个盘上，

实际上是非冗余阵列，无冗余信息。(2)RAID1。亦称镜像盘，

使用双备份磁盘。每当数据写入一个磁盘时，将该数据也写到

另一个冗余盘，这样形成信息的两份复制品。如果一个磁盘失

效，系统可以到镜像盘中获得所需要的信息。镜像是最昂贵的

解决方法。特点是系统可靠性很高，但效率很低。(3)RAID2。

位交叉式海明编码阵列。即数据以位或字节交叉的方式存于各

盘，采用海明编码。原理上比较优越，但冗余信息的开销太大，

因此未被广泛应用。(4)RAID3。位交叉奇偶校验盘阵列，是单

盘容错并行传输的阵列。即数据以位或字节交叉的方式存于各

盘，冗余的奇偶校验信息存储在一台专用盘上。(5)RAID4。专

用奇偶校验独立存取盘阵列。即数据以块(块大小可变)交叉的

方式存于各盘，冗余的奇偶校验信息存在一台专用盘上。

(6)RAID5。块交叉分布式奇偶校验盘阵列，是旋转奇偶校验独

立存取的阵列。即数据以块交叉的方式存于各盘，但无专用的

校验盘，而是把冗余的奇偶校验信息均匀地分布在所有磁盘

上。(7)RAID6。双维奇偶校验独立存取盘阵列。即数据以块(块

大小可变)交叉的方式存于各盘，冗余的检、纠错信息均匀地

分布在所有磁盘上。并且，每次写入数据都要访问一个数据盘

和两个校验盘，可容忍双盘出错。

6.4 同步总线和异步总线各有什么优缺点？

答：(1) 同步总线。同步总线上所有设备通过统一的总线

系统时钟进行同步。同步总线成本低，因为它不需要设备之间

互相确定时序的逻辑。但是其缺点是总线操作必须以相同的速

度运行。 (2) 异步总线。异步总线上的设备之间没有统一的系

统时钟，设备自己内部定时。设备之间的信息传送用总线发送

器和接收器控制。异步总线容易适应更广泛的设备类型，扩充

总线时不用担心时钟时序和时钟同步问题。但在传输时，异步

总线需要额外的同步开销。

6.5计算机系统字长32位，包含两个选择通道和一个多路

通道，每个选择通道上连接了两台磁盘机和两台磁带机，多路

通道上连接了了两台行式打印机，两台读卡机，10台终端，假

定各设备的传输率如下：

磁盘机：800KBps

磁带机：200KBps

行打机：6.6KBps

读卡机：1.2KBps

终端：1KBps

计算该计算机系统的最大I/O数据传输率。

解：本题要求计算通道的吞吐率，而且机器有一个多路通

道，这就有两种可能：字节多路通道和数组多路通道。因为如

果将多路通道组织成数组多路通道，某个时刻通道只能为一台

设备传送数据，所以它的传输率是所有设备的传输率的最大

值，而如果将它组织成字节多路通道，该通道的最大传输率就

是所有设备的传输率之和。

所以在本题中，从性能上考虑，应组织成字节多路通道形式。

所以此类通道的最大传输率为：

（1）f

BYTE

＝∑fi＝f

打印机传输率

×2＋f

读卡机传输率

×2＋f

终端传输率

10＝25.6KBps （i＝1..14）

（2）两个选择通道连接的设备相同，所以只要计算其中

一个通道的传输率既可。因为磁盘机的传输率大于磁带机。所

以此类通道的传输率为：

max{800，200}＝800KBps

所以本系统的最大数据传输率为： f

系统

＝2×800＋25.6＝

1625.6KBps。

6.6 简述通道完成一次数据传输的主要过程。

答：（1）在用户程序中使用访管指令进入管理程序，由

CPU通过管理程序组织一个通道程序，并启动通道。 (2) 通

道处理机执行CPU为它组织的通道程序，完成指定的数据I/O

工作。 (3) 通道程序结束后向CPU发中断请求。CPU响应这

个中断请求后，第二次进入操作系统，调用管理程序对I/O中

断请求进行处理。

6.7 试比较三种通道的优缺点及适用场合。

答：（1）字节多路通道。一种简单的共享通道，主要为多

台低速或中速的外围设备服务。（2）数组多路通道。适于为高

速设备服务。（3）选择通道。为多台高速外围设备（如磁盘存

储器等）服务的。

6.8 一个字节多路通道连接有6台设备，它们的数据传输

率如下表所示。

设备名称

DDDDDD

数据传输速

554221

率（B/ms）

0 0 0 5 5 0

（1）计算该通道的实际工作流量。

（2）若通道的最大流量等于实际工作流量，求通道的工作

周期Ts+T

。

解：（1）通道实际流量为

byte





505040252510200B/ms

i1

（2）由于通道的最大流量等于实际工作流量，即有

maxbyte

200B/ms

TT

可得，通道的工作周期Ts+T

= 5μs。

6.9 设某个字节多路通道的设备选择时间Ts为9.8μs，传

送一个字节的数据所需的时间T

为0.2μs。若某种低速外设

每隔500μs发出一次传送请求，那么，该通道最多可连接多

少台这种外设？

解：字节多路通道的最大流量为：

maxbyte



字节多路通道的实际流量为：

byte





i1

T

其中，p为通道连接的外设台数，f

为外设i的数据传输速率。

因为连接的是同样的外设，所以f

=…=f

=f，故有f

byte

=pf。

通道流量匹配的要求有：f

max-byte

≥f

byte

即有：

pf

T

；可得：

p

T

已知Ts = 9.8μs，T

= 0.2μs，1/f = 500μs，可求出通道

最多可连接的设备台数为：

p

500



50

T

)f(9.80.2)



6.10 在有Cache的计算机系统中，进行I/O操作时，会

产生哪些数据不一致问题？如何克服？

答：（1）存储器中可能不是CPU产生的最新数据，所以

I/O系统从存储器中取出来的是陈旧数据。

（2）I/O系统与存储器交换数据之后，在Cache中，被

CPU使用的可能就会是陈旧数据。

第一个问题可以用写直达Cache解决。

第二个问题操作系统可以保证I/O操作的数据不在cache

中。如果不能，就作废Cache中相应的数据。

6.11 假设在一个计算机系统中：

（1）每页为32KB，Cache块大小为128字节；

（2）对应新页的地址不在Cache中，CPU不访问新页中

的任何数据；

（3） Cache中95%的被替换块将再次被读取，并引起一

次失效；

（4） Cache使用写回方法，平均60%的块被修改过；

（5） I/O系统缓冲能够存储一个完整的Cache块；

（6）访问或失效在所有Cache块中均匀分布；

（7）在CPU和I/O之间，没有其它访问Cache的干扰；

（8）无I/O时，每100万个时钟周期内有18000次失效；

（9）失效开销是40个时钟周期。如果被替换的块被修改

过，则再加上30个周期用于写回主存；

（10）假设计算机平均每200万个周期处理一页。

试分析I/O对于性能的影响有多大？

解：每个主存页有32K/128＝256块。

因为是按块传输，所以I/O传输本身并不引起Cache

失效。但是它可能要替换Cache中的有效块。如果这些被

替换块中有60％是被修改过的，将需要（256×60％）×30

＝4608个时钟周期将这些被修改过的块写回主存。

这些被替换出去的块中，有95％的后继需要访问，从

而产生95％×256＝244次失效，将再次发生替换。由于这

次被替换的244块中数据是从I/O直接写入Cache的，因

此所有块都为被修改块，需要写回主存（因为CPU不会直

接访问从I/O来的新页中的数据，所以它们不会立即从主

存中调入Cache），需要时间是244×（40＋30）＝17080

个时钟周期。

没有I/O时，每一页平均使用200万个时钟周期，Cache

失效36000次，其中60％被修改过，所需的处理时间为：

（36000×40％）×40＋（36000×60％）×（40＋30）＝2088000

（时钟周期）

时钟I/O造成的额外性能损失比例为

（4608＋17080）÷（2000000＋2088000）＝0.53％

即大约产生0.53％的性能损失。

本文标签：指令执行流水线时间分支

版权声明：本文标题：计算机系统结构__《张晨曦、王志英》课后习题参考答案内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/p/1735669645a1682627.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

计算机系统结构__《张晨曦、王志英》课后习题参考答案

更多相关文章

怎么查苹果手机激活时间？立即get这3个方法

苹果当前系统时间与服务器不一致,苹果iOS14时钟Bug与系统时间不同 比系统时间慢了3小时...

计算机系统日期无法保存,电脑维修：更换电子后电脑系统时间依然不准确且主板不能保存时间...

终极指南：Armbian系统时间同步与NTP服务配置

电脑时间同步不了？别慌，这些解决方法总有一个适合你

电脑显示的时间不对？一文教你如何正确设定时间

告别时间迷宫，用简单的步骤校准你的本地时间！

Windows 11 LTSC系统升级秘籍：顺畅进入微软应用市场

_ux环境下玩转Linux系统时间：实用命令大揭秘

一键搞定CentOS6！掌握系统时间设置技巧，让日期不再漂浮不定

_ux系统下的Linux：时间管理秘籍大公开

学会这个技能，CentOS6中的日期设定从此一劳永逸！

解析ISO8601：让你在时间上更专业、更准确

腾达路由器安全测试揭秘：MISP和ubifs固件模拟的应用与实践

掌握Windows下的效率工具：通过批处理快速检测网络延时

时间掌控者：如何在Flash中心利用系统时间子系统

Flash时间攻略：SWF内部系统时间获取大法

[Linux小技巧] 一行命令让CPU占用率达到100％_交换机如何增加cpu利用率

CUDA initialization failure with error: 999

从零开始，利用Project 2013定制日历功能，打造个性化项目管理方案！

发表评论

推荐文章

当Word启动困难重重，安全模式解密，轻松解决！

拨号网络与远程访问服务API详解

如何查看自己windows电脑的IP地址_windows查看ip地址

QQ表情包存储位置解析_qq表情包路径

Symbian上播放H264文件_多slice解码

热门文章

厂区热门聚焦：即时解读SWF、Flash中心、Adobe Flash Player的热点事件

电脑开机、启动慢如蜗牛？三大技巧帮你快速提升启动速度！

Windows 中的 pagefile.sys 可以删除吗？若可以，怎么删除？

网络性能测试工具MiniSMB-如何测试协议限速_minismb

MAC登陆steam玩dota2_dota2 mac

win10的PrintScreen键不可用全屏截图_win+printscreen用不了

企业IT运维实战：批量修改192.168.0.1密码的自动化方案

How to Download a Windows 10 ISO Without the Media Creation Tool_shamster

PHP为什么在网页上打不开_php网页运行不出来

计算机使用中常用截图与标注方法_电脑截图怎么标注箭头

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

苹果当前系统时间与服务器不一致,苹果iOS14时钟Bug与系统时间不同比系统时间慢了3小时...