The tail at large scale 阅读笔记
本人曾支持业务优化大规模服务容量,长尾请求是优化的最大瓶颈之一。本文结合论文和经验做小结沉淀:
- 构建模型分析长尾请求对服务的影响、衡量消除长尾请求的收益。
- 针对 Paper 的观点,谈谈工程领域具体实现方案,以及方案适用条件和优缺点。
注:本文很多经验来自不同团队,本人整理用于个人学习。
模型分析
业务采用 SLI、Latency 黄金指标衡量服务稳定性,SLI 计算如下:
QPS_success = QPS_total - QPS_error
SLI = QPS_success / QPS_total
通常大部分错误请求为超时的长尾请求。
服务 SLI 成本模型
服务 SLI 和营收有密切关系,SLI 过低通常对业务有损,表现为用户的体验下降甚至直接影响营收;其次大量 SLI 告警影响研发同学效率。
增加硬件资源通常可以提升服务的 SLI,一个典型微服务的 SLI 和服务 CPU 利用率关系如下,在资源固定的情况,随着服务请求上涨,CPU 利用率近乎线性上升,服务 SLI 缓慢下降,直到某个临界点服务 SLI 急剧降低:
- SLI 99% 时,服务 CPU 平均利用率为 60%
- SLI 99.9% 时,服务 CPU 平均利用率为 50%
- SLI 99.99% 时,服务 CPU 平均利用率约为 20%
This content is only supported in a Feishu Docs 每提升服务 SLI 一个 9,需要付出越来越大资源成本,单业务收益呈现指数递减,因此服务 SLO 本质资源开销和业务收益的权衡。我们优化的目标是在给定资源下,通过多种手段降低因长尾导致的错误请求,提升 SLI,为业务优化容量奠定基础;进而在满足 SLO 的条件下,通过缩容降低资源成本,最终提升资源效率。
服务 SLI 稳定性模型
如 Paper 所言,造成长尾请求的因素多种,单机维度因素占主要部分。针对某个服务,假定每个节点请求的成功率为 p,它需要依赖会汇聚来自 n 个节点的请求,简化版的服务层面请求的成功率(SLI)为:
SLI = f(p),其中f(p) = p^n
引起长尾因素
造成长尾请求的因素有多种,本人所见和 Paper 大体相似,如下为一些典型场景: 节点层面
- 机器故障:机器故障导致问题,在百万节点的系统中,每天故障机器的数量非常可观。
- 硬件差异:不同的机型在磁盘、CPU、网卡的能力不同,差机型更容易成为瓶颈。
- 资源共享:超售和混部导致资源竞争,比如 CPU 受限、磁盘和网卡打满,影响服务稳定性。
- 流量差异:服务框架层(mesh)流量不均,造成部分实例热点问题。
非节点层面
- 网络拓扑问题,如交换机网卡故障或者网络打满。
- 业务自身问题。
方案
it advantageous to develop tail-tolerant techniques that mask or work around temporary latency pathologies, instead of trying to eliminate them altogether.
非常认同 Paper 如上观点,长尾问题持续困扰研发同学,并且多个团队持续投入了大量精力优化。手段可以分为两类:1. 持续提升节点请求的成功率 p;2. 优化稳定性模型,给定 p 下提升服务的 SLI。
提升请求成功率 p
事前消除潜在风险
解决或者缓解导致长尾的因素是最直接的手段,其思路在于找出根因和从根本上解决问题。影响节点请求成功率的因素原因多种多样而难以穷举,很难提前预测与防范,通常由问题驱动,分锅到家,往往耗费巨大的人力用于定位问题、分析原因、提供方案和 A/B 验证效果,如下是常见的问题,每一类问题都可以展开非常大的篇幅进行讨论。
- 单机稳定性:超售、混部等环境下,资源竞争和较低隔离能力造成大量的单机抖动问题。
- 流量均衡问题:因框架原因导致热点实例流量过高而引起的问题。
- 硬件能力:老旧机型算力差、HDD 磁盘、故障率高导致老旧机型成为木桶短板。
- 业务问题。
事后降低影响范围
单机因素导致实例异常时,异常通常会持续较长一段的时间。通过引入反馈机制,该机制快速鉴别异常实例,实施措施,降低异常实例影响时间,从而提升请求成功率 p。
该措施依赖如下约束:
- 指标系统:一套描述服务实例指标,一套实时、稳定的指标存储、索引系统。
- 异常规则:定义异常的指标规则。
- 实施措施:通过移除或者重建异常实例,降低异常实例的影响时间。
具体落地上,可实施的系统为:
- 服务框架:基于业务实例的 SLI、时延和持续时间等指标,采用限流和熔断措施降低异常实例的影响。
- 运营系统:基于机器和实例的基础指标,如 load (可引入业务指标),识别和下线异常机器,驱逐和异地重建异常实例。
反馈机制属于事后规避,其实时性和准确性受指标链路、异常规则的影响;而通用性是其优点。从实际经验来看,反馈机制是落地难度较低,效果良好。
优化容错模型
对冲请求
Paper 中对冲请求指的是针对每个请求,当该请求在一定时间(如 p99)未完成,那么再发送一个请求。从服务 SLI 稳定性模型来看,此时 SLI 和 p 的关系如下:
f(p) =(p + p(1-p))^n ;其中 p + p(1-p) > p
举例来看,假定 p 为 0.99,n 为 1,通过额外发送 1% 的请求,可以将成功率提升至 0.9999。
大规模的实施对冲请求存在很多客观约束,具体落地上,合适实施的系统为框架层或者 Mesh。
- 指标系统:一套描述服务实例的指标,一套实时、稳定性的指标存储、索引系统。
- 时延评估:服务时延是一个动态的指标,它随着请求量而上下波动,也随着业务需求和服务迭代而动态变化,二次
请求的阈值需要精准的评估标准。
- 标准化的服务框架:归类时延错误,封装和抽象重试触发条件和操作。
- 服务幂等的规范性:重试仅仅适用幂等操作,用户需要在幂等性上规范。
理论上对冲请求付出较低资源开销,即可良好地消除长尾问题。它的缺点是:1. 依赖标准的框架和规范的接口,同时要求精确的设定时延阈值;2. 提升链路追踪的复杂度;3. 极端情况或加剧雪崩。
Paper 还提到“Tied Requests”概念,即发送两个请求,当其中一个请求被处理时,该请求和会向另外一个请求发送一个取消的指令。该思路大大增加系统交互的复杂度,笔者其通用性表示质疑。
分级思想
Paper 简单的提及服务分级,并在一些系统中优先处理高级别的服务。从模型上来看,既然平均请求的成功率是一定的,可以通过牺牲低优服务的成功率,提升高优服务的成功率,从而优化服务的整体质量。
分级的思想在很多个层面会用到,比如在容灾上对业务进行分级,当出现大规模资源故障,或者流量突发时,通常保证有限的资源供给给高优的服务,对低优的服务进行降级,保障系统的整体运行。在在离线混部,我们会对资源进行分级,针对不同级别的资源提供不同的 QoS 能力,这些能力贯穿 CPU、内存、网络和磁盘 IO。
分级的难点在落实级别的定义,以及针对每个级别,多个系统需要提供的 QoS 具体的如何,各个系统的 QoS 是否具备良好的协同等等。
业务兜底
在一些 feed 流系统上,为了获取最佳的排序效果,一个请求可能会依赖非常多的下游做出最佳的排序,而不少下游服务是 nice to have 的,因此针对此类场景。业务侧可以提供多个层次的兜底措施,请求时延和请求结果上进行权衡。从模型来看,业务兜底本质降低了对 n 的依赖,从而在 p 一定的条件下提升服务整体的 SLI。
业务兜底的具体实现因场景而异,诸如兜底的级别、策略等等。常见于 feed 流系统,比如视频、广告、商品等业务场景的排序,而 feed 流通常是非常核心的系统,因此通常会引入多个层次的兜底手段,保证系统的高可靠性。