优化: 速度与大小之间的博弈

每个人都想要程序变得即快又小，但是同时满足这两个条件是不可能的。这部分讨论rustc提供的不同的优化等级，和它们是如何影响执行时间和一个程序的二进制项的大小。

优化速度

自2018-09-18开始 rustc 支持三个 "优化速度" 的等级: opt-level = 1, 2 和 3 。当你运行 cargo build --release 时，你正在使用的是release配置，其默认是 opt-level = 3 。

opt-level = 2 和 3 都以二进制项大小为代价优化速度，但是等级3比等级2做了更多的向量化和内联。特别是，你将看到在opt-level等于或者大于2时LLVM将展开循环。循环展开在 Flash / ROM 方面的成本相当高(e.g. from 26 bytes to 194 for a zero this array loop)但是如果条件合适(迭代次数足够大)，也可以将执行时间减半。

现在还没有办法在opt-level = 2和3的情况下关闭循环展开，因此如果你不能接受它的开销，你应该选择优化你的程序的大小。

优化大小

自2018-09-18开始rustc支持两个"优化大小"的等级: opt-level = "s" 和 "z" 。这些名字传承自 clang / LLVM 且不具有描述性，但是"z"意味着它产生的二进制文件比"s"更小。

如果你想要发布一个优化了大小的二进制项，那么改变下面展示的Cargo.toml中的profile.release.opt-level配置。

[profile.release]
# or "z"
opt-level = "s"

这两个优化等级极大地减小了LLVM的内联阈值，一个用来决定是否内联或者不内联一个函数的度量。Rust其中一个概念是零成本抽象；这些抽象趋向于去使用许多新类型和小函数去保持不变量(e.g. 像是deref，as_ref这样借用内部值的函数)因此一个低内联阈值会使LLVM失去优化的机会(e.g. 去掉死分支(dead branches)，内联对闭包的调用)。

当优化大小时，你可能想要尝试增加内联阈值去观察是否会对你的二进制项的大小有影响。推荐的改变内联阈值的方法是在.cargo/config.toml中往其它rustflags后插入-C inline-threshold 。

# .cargo/config.toml
# 这里假设你正在使用cortex-m-quickstart模板
[target.'cfg(all(target_arch = "arm", target_os = "none"))']
rustflags = [
  # ..
  "-C", "inline-threshold=123", # +
]

用什么值?从1.29.0开始，这些是不同优化级别使用的内联阈值:

opt-level = 3 使用 275
opt-level = 2 使用 225
opt-level = "s" 使用 75
opt-level = "z" 使用 25

当优化大小时，你应该尝试225和275 。

The Embedded Rust Book

优化: 速度与大小之间的博弈

无优化

优化依赖

优化速度

优化大小