微处理器性能分析与优化

为什么需要性能分析

流片前：快速搭建模型辅助决策，设计空间探索
流片后：根据实际流完的片改进流片前的模拟器，进行软件相关优化（编译器 os适配）

龙芯2号性能分析环境

定义：多个处理器性能模拟器和相关辅助工具，龙芯2号实现了如下工具

cycle accurate model ict-godson 模拟器
exec-driven perf-model
RTL仿真环境
FPGA仿真环境
硅后优化软件

ict-godson 模拟器（未开源，但是systemc可以替代）

详细的硬件模拟。模拟了龙芯 2 号处理器内部的所有硬件包括存储器、寄存器、触发器和连线，和 RTL 的逻辑行为几乎完全一致。
全系统模拟。模拟了必要的外设（如串口、磁盘、内存），能够运行操作系统
比较完善的调试功能。通过命令行调试接口可以逐拍运行模拟器，设置断点，选择记录某些事件到事件日志，以及检查处理器内部状态等等。它还支持检查点（checkpoint）保存和恢复，极大地方便了调试。
多角度的数据收集功能。能够生成基于事件的统计、基于流水级的统计、基于指令的统计、基于数据分布的统计，从各种角度反映处理器的行为。
RTL 测试向量生成。能够将模块级接口上的输入输出数据转化为 RTL 测试向量。
并行运行
可以作为一个可执行的硬件设计文档
性能 50-100k/s

==TODO: 如果我们来做cycle accurate model，要实现哪些功能==

1. systemc 模拟所有硬件模块功能
2. systemc tlm 模拟总线
3. checkpoint支持，硬件计数器
4. systemc不支持并行，并且由于上下文切换成本高，线程越多越慢，如何优化？
5. 优秀的文档
6. 可以不考虑性能，只要正确性达标

sim-godson模拟器（开源）

速度快，500k inst/s
灵活性高，功能和时序模拟分离，exec-driven
支持spec cpu2000，一小时内跑完
支持功耗模拟
支持全系统模拟和用户模拟

RTL仿真环境

可以用verilator , vcs替代

fpga仿真环境

IO需要改进

硅后优化工具

硬件计数器
分析硬件计数器
链接优化器
trace generator

ICT-godson详细设计

为什么性能分析选用串行的c语言？

verilog难以和软件配合
仿真需要和商业软件配合，不能针对特定代码优化

难点

软件模拟并发
硬件中的赋值并不是立刻生效，而是有一定延迟，由于这个延迟的存在，硬件描述语言里可以直接交换两个寄存器的值，而 C/C++中不引入中间变量无法交换两个变量的值。
数据类型表示。例如，硬件描述语言中可以表示任意长的线，可以表示不确定值 X，高阻 Z 等

why not systemc?

SystemC 采用进程来对硬件并发行为建模。每个进程是一个独立的控制流，在某些事件或者信号值的改变时被唤醒进行一些处理，完成处理后挂起等待下一次唤醒。对于赋值延迟问题，SystemC 引入 delta cycle 的概念来解决。一个 delta cycle 是用户不可见的很小的时间单位，每个赋值在一个 delta cycle 之后才能被其它进程观察到。

缺点：

开销大，一个复杂系统的模型需要用到大量的进程（或者线程），它们之间的通信、同步等开销会相当可观
效率低，一个简单的相加都需要调用一个函数来完成。因此在性能上并不能比 RTL 模型高很多

ict-godson如何解决难点

赋值延迟，使用一对变量来表示所有的寄存器和存储器。例如寄存器 R 用 r 和 r_bak 表示。每一拍中，寄存器输出端的值用 r 表示，输入端的值用 r_bak 表示。所有寄存器赋值对输入端操作，一拍结束后统一“采样”到输出端（即把输入端的值拷贝到输出端）
数据类型问题，ICT-godson 用 C 的标量类型定义了各种 64 位以下的线和寄存器。大于 64 位的类型以及模块间的总线使用结构来表示，无法表示信号的 X 和 Z 值，但这些值主要用于测试复位逻辑，对性能分析没有实质影响
并发行为表现在信号级模拟器的 C 语言实现中是调用次序的问题，C 语言中函数和语句只能以一个固定的次序执行，这样其中一些逻辑上同时发生的事件会被指定某种次序，进而导致问题。可以看作一个信号传播的问题。解决并发的问题即如何保证本拍信号的稳定值能够传播到每个模块，使用一种重复调用的策略，要求每个模块能在一个周期内执行多次而不影响其有效输出。因为，每个模块的输出只依赖寄存器的（输出端）值和输入总线的值，寄存器值在一拍内不会被修改，因此只要输入相同，每次调用的输出一定是相同的。迭代若干次之后，信号必定会稳定下来。

数据收集

调试

实现了检查点（checkpoint）支持，它能够把某个时刻的处理器内部状态记录到文件，利用该文件以后可以迅速恢复到该时刻的状态。可以把操作系统完成启动时的状态保存为一个检查点，并利用这个检查点节省模拟操作系统启动的时间。还有运行、单步执行、设置断点、单步跟踪等功能

可视化

批处理

要考察某个配置上所有 SPEC CPU2000 程序的性能，只需要一个命令将该配置提交给作业管理器。作业管理器会选择空闲节点运行所有的模拟，最后从各节点收集生成的数据，并自动生成汇总表格

设计加速

ict-godson经过软件优化提速300%，优化如下：

消除寄存器拷贝

寄存器还包括各类存储器，例如CACHE和分支预测器的RAM 等等，也有类似的读写次序问题

对于 clock_begin 中的拷贝，只要模块没有引用寄存器输入端的值，而且寄存器不是有条件赋值，忽略

对于clock_end，可以将输入和输出端用同一个变量表示，需保证引用都出现在赋值后面。编程风格需要将生成输出的代码放在输入处理代码前面

run_one_cycle: 
 for (I=0;I<MAX_ITERATION;I++) {  //为了达到稳定状态需要的循环次数
 clock_begin();  //把寄存器输入端的值恢复为本拍开始时输出端的值
 module_a(); 
 module_b(); 
 …
 module_…(); 
 }
 clock_end () // 把输入端的值复制到输出端,即使得寄存器的新值对下一拍可见

主循环削减和代码分区

每个模块的代码可以划分成三个部分：

第一部分只由寄存器值生成输出总线；只依赖内部状态，只要在第一个循环运行

第二部分通过输入总线和寄存器生成下一拍的寄存器；不影响其它模块,只要输入准备好后运行一次就可以

第三部分则通过输入总线和寄存器生成输出总线；看情况决定，一般需要两个循环都运行，但这种代码很少

数据结构和算法替换

使用profiling加速，例如，ICT-godson 的 Load/Store 队列模块，它一度占 24%以上的总运行时间。使用主循环削减和代码分区之后大约减少了一半的时间，再通过各种代码变换最后减少到 4%左右。

总线无效时避免空操作。早期 ICT-godson 按硬件的习惯，不管是否有有效输出，输出总线每个域的生成逻辑都会运行。可以利用有效位来避免没有意义的逻辑操作
及早退出循环。很多队列操作都是遍历整个队列从中找出满足某个条件的项。针对硬件的写法通常对所有的项生成是否满足的条件，然后从中挑出满足的项。C 模拟器中可以利用队列的有序性，往往只需要查看很少的几项就能完成任务
hash表代替TLB查找
拷贝优化: for循环按字节拷贝替换为 memcpy

Sim-godson模拟器

相比cycle accurate的ict-godson 更灵活，支持设计空间探索，硅前性能预测，运行更快，支持大程序评估，支持simpoint等功能。基于simplescalar改，做了如下工作：

mips体系结构支持

mips指令集寄存器定义、指令译码、功能实现
elf parser
实现对目标操作系统调用的代理。Simplescalar 采用一种被称为“代理（proxy）”的方法来处理应用程序中的系统调用。它首先从被模拟系统中得到目标系统调用的相关参数，然后调用主机操作系统的系统调用实现该功能，最后根据主机系统调用的结果设置被模拟系统的寄存器和内存，使得它看起来象刚完成一个系统调用，主要工作是识别系统调用的类型和参数，以及转换目标操作系统与主机操作系统的数据结构

微架构实现

exec-driven

独立的指令执行引擎来解释和执行指令，性能模型部分只维护确定指令流动时序所需要的微体系结构，不关心实际的数据。

例如，访问 CACHE 时，性能模型只需要知道访问是否命中（以计算访存指令的延迟），而不关心实际的数据。大体上性能模型里只有控制通路，没有数据通路。==疑问：那怎么知道cache是否miss？你并没有存数据==

逆向调用流水

模块 A 要输出数据给模块 B，而是否被接受依赖于模块 B 送给 A 的允许信号，模块 A 要根据输出是否被接受来更新自己的寄存器。

ict-godson 通过多次调用解决

sim-godson把 B 中允许信号的生成逻辑放到 A 中就能以先 A 后 B 的次序解决问题

消除这种向后的控制之后，流水级只向前传递数据，那么以和流水进行方向相反的次序调用流水级，就能保证流水级之间生成、使用数据次序正确。避免了流水级管理的开销，能够显著地提高速度

多重误预测支持

一旦发现分支预测错误，指令执行引擎进入猜测模式，此时所有对体系结构状态（寄存器和内存）的改变都不直接生效，而是暂存在其它结构里（采用 Copy-on-write 方式）。误预测的分支被纠正时，猜测模式的结果被抛弃，指令执行引擎重新从正确路径开始执行。多重误预测引入了错误层次，增强了指令执行引擎的体系结构状态读写接口。

寄存器重命名

不需要进行实际的重命名，而只关心寄存器值什么时候可用，只维护指令间的依赖关系，实际硬件情况维护空闲物理寄存器数目，在空闲数小于4时停止重命名

功能部件

能够模拟可变延迟的功能部件、端口竞争等情况

发射

精确模拟，软件实现

访存

详细模拟了访存部件的各流水级，未采用event-driven

软件优化

软件来缓存常用的数据，例如最近访问的 TLB 项，CACHE 项等，降低查找开销
用指针传递来完成指令在流水级间的流动，最小化数据复制
用一个数据结构表示每条运行中的指令所有信息。系统初始化时分配足够的指令信息结构，用一个链表保存（1200 lines）

全系统模拟

高性能微处理器的性能不仅仅取决于处理器核心。处理器的接口、外围芯片组、编译器以及操作系统等都会影响最终系统性能。

Sim-godson 的处理器性能模型既可以独立进行用户级模拟，也可以作为 SIMOS 的一个 CPU 模块参与全系统模拟。其中SIMOS类比Qemu

快速性能评估

有3种方法：

截断法，只模拟整个程序的一个片断。具体运行方式类似DeepLearning，分为从头开始运行一定指令数后停止；先快速模拟前 X 条指令（希望能跳过不感兴趣的初始化部分）再切换到详细模拟方式模拟 Y 条，类似深度学习动态学习率；在快速模拟 X 条指令后，详细模拟 Y 条指令来预热微体系结构状态，然后再统计 Z 条指令，warmup
缩小输入集，但保证程序的缩小集特性和原输入集特性全面相似非常困难
采样法，simpoint先完整地运行程序（用踪迹生成工具或快速模拟器），得到每个样本中所有基本块执行次数所构成的基本块矢量（BBV, basic block vector[SPC01]），再根据 BBV 的相似性通过聚类算法把所有样本分成若干类，然后为每类挑选一个样本来做为代表，最后得到一组作为代表的样本。BBV 与具体结构没有关系，因此选中的样本并不依赖于具体微体系结构。

Simpoint实现

使用simpoint的前提是得到bbv

得到目标工作负载的 BBV方法1：能够解释执行指令的功能模拟器。这样的模拟器相对比较快：在 3.0G Pentium4 处理器上，Sim-godson 的快速版本每秒可以模拟 20M 条以上的指令，约几小时。
得到目标工作负载的 BBV方法2：基于ALTO生成。(ALTO 是 Muth 等人在 Alpha 平台开发的一个链接级优化器，它能够对已经链接好的可执行程序进行再优化。通过充分利用此时所拥有的整个程序的信息，它能够取得良好的效果)
对比两种方法，ALTO更快但是不准

接着使用simpoint选择样本，再用模拟器模拟选定的样本，把各样本的数据按其权重综合起来得到对整体性能的估计。

最终sim-godson加速比从 13 到 586 不等，多数程序的 IPC 误差甚至在 1%以内，但是simpoint会低估存储系统的影响。

SMARTS严格采样法

模拟器必须同时支持快速功能模拟和详细模拟，以及它们之间的切换。模拟器还需要支持有选择的数据统计，以便支持预热。大部分情况很准确，但是分支预测误差率有时比较大。

模拟器验证

（1）根据目标微体系结构特性设计微基准程序（尽可能全面地覆盖目标微体系结构特性

（2）用微基准程序验证模拟器

（3）根据误差分析结果修正模拟器。回到步骤（2）

（4）采用更实际的工作负载验证，目前采用 SPEC CPU2000

（5）分析验证误差

a) 如果迹象显示误差可能由某些特性模拟偏差所致，回到步骤（1），增加针对该特性的微基准程序

b) 根据误差分析结果修正模拟器。回到步骤（2）

一些经验：

分析spec cpu的误差比分析第一步的误差困难很多，3 和 5 的反馈相当重要：

==我们不止一次发现，修正了一个问题后，某些程序误差小了，但另一些原先结果貌似正确的测试程序却出现较大的偏差。这是因为几个实现问题有时会互相掩盖。进行了任何修改都应该重新验证所有的程序==

仅仅比较运行时间或者 IPC，有时会得出错误的结论

==未经验证的 Sim-godson 运行 SPEC CPU2000，很多程序的 IPC 误差小于 10％，只有 bzip2、crafty、twolf 等几个程序误差较大。但是，该版本模拟器的浮点部件延迟、发射策略、分支预测等都还存在严重的问题。如果我们检查其它统计数据，如分支预测率等，就会发现异常之处==

3.利用模拟器提供的数据收集功能，我们可以从事件计数统计、流水级吞吐统计以及按指令的统计数据等多种角度进行分析

微基准程序

分为控制类、执行类、访存类，每个程序都比较简单，通过考察每个微体系结构特性是否被正确模拟来进行验证。

==除访存类以外，所有程序都驻留在 ICACHE、DCACHE 和 TLB 里，以排除存储访问部件的影响== （是因为足够小1.

控制类程序考察bpu

C-cond : if-then-else 语句循环，其分支指令按一次跳转、一次不跳转的规律变化       2bit饱和计数器
C-recur : 递归调用一个函数 1000 次，该函数把两个参数相加                        ras
C-switch1、C-switch2、C-switch3 : 测试 switch-case 语句，只是选中各case语句的频率不同  btb

执行类程序考察func unit和流水线设计

E-I 是一系列不相关的整数加指令集合
E-F 是一系列不相关的浮点加指令集合
E-D{1-6}是一系列的相关指令链，用于考察指令调度和发射策略
D1 表示每条指令和其上一条相关，
D2 则是和上上条指令相关。
E-DM1 是一系列的相关整数乘法指令，用来考察整数乘法器的延迟。

访存类质量，考察存储层次
```
M-I 包含一系列不相关的CACHE命中的 Load 操作，测试dcache带宽
M-F 包含一系列不相关的CACHE命中的 Load，但是 Load 的结果是一个浮点数，用于累加
M-D 包含一系列连续相关 Load，每个 Load 都在 CACHE 中命中，用于考察cache延迟
M-M 通过一系列 CACHE 不命中的相关 Load 指令来测试访存延迟
```
微程序验证发现的问题举例

例1 ：==ghr（g-share 预测器的全局历史寄存器）的更新有问题。在表达式 ghr=ghr<<1 | taken，taken 值应为 0 或 1，实际却用到饱和计数器的值，可能取 0-3，导致 C-cond 的 IPC 只有 0.55==

那么是如何发现的？指令统计信息显示其中一个转移指令全部猜测错误

例2 ：==最初的 Sim-godson 中 M-F 的 IPC 为 1.23，而 ICT-godson 为 0.99。==

分析汇编代码和 ICT-godson 的指令统计信息可以发现，原本应该不相关的浮点 load 操作在龙芯 2 号中表现为相关。这是由于龙芯2 号在 MIPS I 兼容模式下用一个 64 位物理寄存器存储两个 32 位浮点寄存器，写一个 32 位浮点寄存器先要把目标寄存器读出，以保留另 32 位的值，造成浮点 load 操作对目标寄存器的隐性依赖。

例3 ：==一些微基准程序的 IPC 还存在微小的误差==

随机因素可能导致两个模拟器中核心循环的初始状态不同，而循环初始状态对循环的性能影响有时会比较明显

spec cpu2000

微基准测试只能考察各个单元部件（类似单元测试），没有考虑各部件的相关关系，测试不重复。spec cpu2000每个程序最多运行 10 亿条指令，能全面考察处理器模型。

在实际工作中发现的问题如下：

第一轮验证发现了模拟器的几个功能错误，包括一些死锁情况和内存越界访问 ==模块间bug==
第二轮中，发现大多数程序 IPC 误差已经小于 10％，但还有几个程序的 IPC 误差很大（20%以上），包括 crafty、 twolf、bzip2、gap 等。调查发现其中 crafty、twolf 等程序的分支预测失效率明显高于 ICT-godson，有时甚至达到 2 倍，其原因是 ghr 寄存器更新时机模拟不正确 ==模块内bug==
第三轮中，针对少数误差偏大的程序，更多的细节模拟，包括把定点乘、除指令分解为两个内部操作；实现指令 CACHE 的 hit under miss 支持（即在一个取指访问失效访存时，另一个取指访问能够继续在指令 CACHE 命中） ==性能调优==

RTL和Fpga仿真环境

RTL 模型：处理器的逻辑行为，使用vcs或者candence相关工具进行综合仿真

FPGA ：处理器和目标系统的配合情况，主要用于功能验证，但是也能用于性能摸的交叉验证。

RTL与cycle accurate model交叉验证： difftest / ca model产生测试向量输入rtl仿真

RTL与perf model交叉有验证：通过上面的微基准测试进行

Files

微处理器性能分析与优化.md

Latest commit

History

微处理器性能分析与优化.md

File metadata and controls

微处理器性能分析与优化

为什么需要性能分析

相关背景介绍

workload介绍

性能模型设计技术

加速技术 （看 Openxiangshan/NEMU

误差分析和验证 (以下结论均来自paper)

硅后优化

相关工作介绍

alpha-sim

powerPC

SimpleScalar

simos

Intel P4

SIMICS

RSIM

龙芯1号