Day 8 Hard Distributed Systems Messaging Kafka / SQS Delivery / Backpressure / DLQ

消息队列 — 异步是解耦的代价，也是它的全部价值Kafka vs RabbitMQ vs SQS · Delivery Semantics · Backpressure · Dead Letter Queue

问题场景与约束

设计一个电商「订单事件总线」：用户下单后，订单服务产生一条 order.created 事件，要被 5 类下游 各自独立消费——库存扣减、积分发放、推荐更新、数据仓库入仓、风控审计。这些下游处理速度天差地别：库存扣减 2ms，数仓批量入仓一条要 200ms。

硬约束：

规模：日订单 5000 万，大促峰值 50 万 events/s（含订单的下游放大）。
不丢单：订单事件丢一条 = 一笔钱对不上。要求至少一次（at-least-once） 投递。
下游可独立扩缩：数仓慢，不能拖垮库存；任一下游挂掉，恢复后能补上积压。
同一订单的事件有序：created → paid → shipped 不能乱序，否则状态机错乱。
毒消息隔离：某条事件让某个消费者反复崩溃，不能阻塞整条流。

今天讲：为什么这个场景必须用消息队列而非同步 RPC、Kafka / RabbitMQ / SQS 怎么选、投递语义的本质、backpressure 与消费积压、以及 DLQ 怎么兜底毒消息。

高层架构

graph LR Prod["订单服务
Producer"] K["Kafka Topic
order.events
按 order_id 分 partition"] subgraph CG["独立 Consumer Group (各自 offset)"] C1["库存消费者
快 2ms"] C2["积分消费者"] C3["推荐消费者"] C4["数仓消费者
慢 200ms 批量"] C5["风控消费者"] end DLQ["DLQ
order.events.dlq"] Prod -->|"ack=all
幂等 producer"| K K --> C1 K --> C2 K --> C3 K --> C4 K --> C5 C1 -.->|"重试耗尽"| DLQ C4 -.->|"毒消息"| DLQ classDef bus fill:#2a1530,stroke:#ff7ab6,color:#e8eef5 classDef dlq fill:#3a2010,stroke:#ffb450,color:#e8eef5 class K bus class DLQ dlq

核心思路：一份事件、多个独立 Consumer Group，各自维护 offset，互不影响——这是 pub/sub fan-out。Producer 用 ack=all + 幂等保证不丢；按 order_id 分区保证单订单有序；慢消费者积压只影响自己；重试耗尽的消息进 DLQ 不阻塞主流。

关键技术点

1. 选型：Log (Kafka) vs Broker (RabbitMQ) vs Managed (SQS)

核心 trade-off：留存可重放的日志 vs 灵活路由的智能 broker vs 零运维的托管队列。

原理：三者是三种不同的抽象。Kafka 是分布式 append-only log：消息写入 partition 后不因被消费而删除，consumer 只是移动自己的 offset，因此天然支持多订阅者 fan-out、回放历史、高吞吐顺序 IO。RabbitMQ 是智能 broker：消息经 exchange 按 routing key 投到 queue，消费 ack 后即删除，强在灵活路由（topic/fanout/header exchange）和单条消息粒度控制。SQS 是 AWS 全托管队列：无需运维，弹性近无限，但功能最简（标准队列无序、FIFO 队列有序但限流）。

维度	Kafka	RabbitMQ	SQS
抽象	持久化 log	broker + queue	托管 queue
消费后	保留（按 TTL）	ack 即删	ack 即删
重放历史	✅ 重置 offset	❌	❌
吞吐	极高（百万/s）	中（万/s）	高（自动弹）
路由灵活性	弱（topic+key）	✅ 强	弱
运维	重（自管集群）	中	零

怎么选：

事件流 / 多订阅者 / 要重放 / 超高吞吐 → Kafka。本场景订单事件被 5 个下游消费、要能回放补数据，选 Kafka。
复杂路由 / 任务分发 / 低延迟单条控制（如优先级队列、RPC 回复）→ RabbitMQ。
AWS 上、不想运维、流量波动大、队列语义够用 → SQS。

现实案例：

Cloudflare：用 Kafka 做跨服务 message bus，单条总线日处理超 1 万亿消息，14 个集群约 330 节点，把资源生命周期事件（增/改/删）以 Protobuf 广播给下游。
Uber：业内最大 Kafka 部署之一，日处理数万亿消息、多 PB 数据，并自研 uReplicator（跨区复制）、Chaperone（端到端审计）。
RabbitMQ：广泛用于任务分发（Celery / Sidekiq 后端）、需要灵活 routing 的微服务命令总线。

2. 投递语义：at-most-once / at-least-once / exactly-once

核心 trade-off：不丢 vs 不重 不可兼得（无幂等时）；工程上的「恰好一次」= 至少一次 + 幂等。

原理：投递语义取决于 ack 与处理的先后。At-most-once：先 ack（提交 offset）再处理——崩溃则消息丢失，绝不重复，适合可丢的指标采样。At-least-once：先处理再 ack——崩溃在 ack 前则重投，绝不丢失但可能重复，是绝大多数业务的默认选择。Exactly-once：网络层面不可达（两将军问题），但可以通过至少一次投递 + 消费端幂等/去重在「效果上」实现每条恰好生效一次。

三种语义的取舍：

At-most-once：✅ 最快、零重复；❌ 丢消息。仅用于可容忍丢失的遥测、日志采样。
At-least-once：✅ 不丢；❌ 有重复 → 消费端必须幂等。本场景订单不能丢，选它。
Exactly-once：Kafka 通过幂等 producer（序列号去重）+ 事务（跨 partition 原子写）实现「读-处理-写」EOS；但代价是吞吐下降、且只在 Kafka 内闭环——一旦写到外部系统（DB / 第三方 API），仍需自己做幂等。

伪代码 · at-least-once 消费 + 幂等去重

def consume(msg):
    if dedup.exists(msg.event_id):   # 去重表 / 唯一约束
        commit_offset(msg); return     # 重复投递, 跳过
    process(msg)                       # 业务: 扣库存 / 加积分
    dedup.insert(msg.event_id)
    commit_offset(msg)                 # 先处理后提交 = at-least-once
    # 崩在 process 后 / commit 前 → 重投, 靠 dedup 兜住

现实案例：

Confluent / Kafka：Kafka 0.11 引入 EOS——幂等 producer + 事务，Streams API 一个开关即可启用；官方也明确 EOS 边界仅限 Kafka 内的流处理。
支付/订单系统：普遍走 at-least-once + idempotency key（见 Day 7），把「恰好一次」下沉到业务层去重。

3. Backpressure 与消费积压：慢消费者不能拖垮上游

核心 trade-off：buffer（吸收突发） vs drop / 限流（保护系统）——队列把同步背压变成了可观测的 lag。

原理：生产速率 > 消费速率时，消息堆积。同步 RPC 里这表现为调用方阻塞、线程耗尽、级联雪崩；消息队列把它转化为 consumer lag（offset 落后量），是一个可监控、可缓冲的指标。应对手段分两类：扩容消费（加 consumer，但受 partition 数上限——一个 partition 同组内只能被一个 consumer 消费）；限制生产（producer 限流 / 拒绝，把压力推回源头）。Kafka 的 log 模型让积压「躺在磁盘上」相对安全；RabbitMQ 队列积压在内存/磁盘则可能触发 flow control 阻塞 producer。

积压三种应对，代价不同：

加 consumer 扩并行：最直接，但并行度上限 = partition 数。partition 太少则扩不动 → 建 topic 时要预留分区。
提高单 consumer 吞吐：批量拉取 + 批量处理 + 异步提交。数仓那种慢消费者尤其依赖批处理。
对生产端 backpressure：当 lag 超阈值，限流甚至拒绝非关键事件（如先丢「推荐更新」保「库存扣减」）。

伪代码 · 监控 lag + 自适应批量

while True:
    batch = consumer.poll(max_records=500, timeout=100ms)
    lag = end_offset(partition) - current_offset
    if lag > HIGH_WATERMARK:
        scale_out_signal()        # 触发 autoscaler 加 consumer
    process_batch(batch)          # 批处理摊薄固定开销
    consumer.commit()             # 批量提交一次 offset

现实案例：

Uber：自研 uForwarder（push-based consumer proxy），把 pub-sub 消费从「consumer 受限于 partition 数」解放出来，1000+ 服务接入，解决慢消费者与并行度耦合问题。
Kafka 通用实践：用 consumer lag（如 Burrow / Cruise Control 监控）作为扩缩容信号，是流处理运维的核心 SLI。

4. Dead Letter Queue：毒消息的隔离区

核心 trade-off：无限重试（阻塞队列） vs 丢弃（丢数据） vs DLQ（隔离 + 留证据）。

原理：某条消息因数据畸形、下游 bug、依赖永久不可用而反复处理失败，称为毒消息（poison message）。若无限重试，它会卡住整个 partition / queue（尤其有序队列，后面的消息全被堵）；若直接丢，则丢数据无追溯。DLQ 的做法：重试 N 次仍失败，把消息连同失败上下文移到一个专门的死信队列，主流继续前进；之后人工或自动分析 DLQ，修复后 redrive 回主队列重放。

关键设计点：

重试次数与退避：N 次指数退避后才进 DLQ，避免瞬时抖动误判为毒消息。
区分可重试 vs 不可重试错误：网络超时该重试；JSON 解析失败重试一万次也没用，应直接进 DLQ。
DLQ 要带元数据：原 topic、失败原因、堆栈、重试次数——否则 DLQ 变成无法排查的垃圾桶。
DLQ 也要监控告警：消息进 DLQ 是「沉默的故障」，必须有告警，否则数据静默丢失。

伪代码 · 重试 → DLQ

def handle(msg):
    try:
        process(msg)
    except NonRetryable as e:     # 畸形数据, 重试无意义
        to_dlq(msg, reason=e); return
    except Retryable as e:
        if msg.attempts >= MAX_RETRY:
            to_dlq(msg, reason=e, attempts=msg.attempts)
        else:
            requeue(msg, delay=backoff(msg.attempts))

现实案例：

AWS SQS：原生 DLQ + redrive——超过 maxReceiveCount 自动移入 DLQ；FIFO 队列里毒消息会阻塞整个 message group 直到它被处理或移入 DLQ。
RabbitMQ：用 dead-letter exchange（DLX）+ TTL 实现延迟重试与死信路由，是业界标准做法。

扩展与优化

分区数要预留：partition 数决定消费并行度上限，且减少 partition 很麻烦（会破坏 key→partition 映射）。建 topic 时按未来峰值估容量，宁多勿少（但太多会增加 broker 元数据与 rebalance 开销）。
有序性的代价：全局有序 = 单 partition = 无法并行。本场景只需单订单有序，所以按 order_id 分区——既有序又能横向扩展。这是「分区键即并行单元」的核心权衡。
Tiered Storage：Kafka 把冷数据卸到对象存储（S3），让长留存（回放、合规审计）不再受本地磁盘限制。
Schema Registry：用 Avro/Protobuf + schema registry 做兼容性演进，避免上游改字段打挂所有下游（事件总线的隐形杀手）。
多区域 / 灾备：MirrorMaker 2 / uReplicator 跨区复制；要想清楚 active-active 下的 offset 与去重问题。

常见陷阱与面试问题

1. 以为「用了 Kafka 就 exactly-once 了」。 EOS 只在 Kafka 内闭环。一旦消费后写外部 DB 或调第三方，仍是 at-least-once + 必须自己幂等。面试问 EOS 时，期待你点出这个边界。

2. 消费端不幂等。 at-least-once 必然重复投递。没有去重表/唯一约束，重复扣款、重复发货就来了。这是消息系统第一坑。

3. 用全局有序换来零并行。 把所有消息塞一个 partition 保证全局顺序，结果消费吞吐打不上去。99% 的场景只需按 key 局部有序。

4. 没有 DLQ，靠无限重试。 一条毒消息能让有序队列彻底卡死，后面所有消息饿死。必须有 DLQ + 区分可重试错误。

5. 不监控 consumer lag。 lag 是消息系统最重要的健康指标。不监控 = 数仓积压几小时都不知道，等下游发现数据缺失才暴雷。

面试可能追问：

Kafka 和 RabbitMQ 的本质区别？什么场景非 Kafka 不可、什么场景 RabbitMQ 更合适？
at-least-once 怎么做到「效果上 exactly-once」？幂等 key 放哪、去重表怎么清理？
一个 topic 100 个 partition，consumer group 里 150 个 consumer，会发生什么？
消费积压了 1 亿条，怎么快速追上？有哪些手段、各自代价？
有序队列里出现一条毒消息，整条队列卡死，怎么办？DLQ 怎么设计？
Producer ack=0/1/all 分别什么语义？什么时候会丢消息？

深入资源

《Designing Data-Intensive Applications》Ch 11 §Stream Processing（Kleppmann）：消息系统、log、投递语义最完整的工业级讨论。
Confluent — Exactly-Once Semantics Are Possible: Here's How Kafka Does It：幂等 producer + 事务的权威讲解。
Confluent Docs — Message Delivery Guarantees for Apache Kafka：三种投递语义的官方定义与配置。
Cloudflare — Using Apache Kafka to process 1 trillion inter-service messages：trillion 级 message bus 的真实架构与踩坑。
Uber — Disaster Recovery for Multi-Region Kafka at Uber：超大规模 Kafka 的多区域容灾实践。
AWS — Using dead-letter queues in Amazon SQS：DLQ、redrive、FIFO 阻塞行为的官方文档。

深入思考

1. 一个 topic 有 100 个 partition，consumer group 里放了 150 个 consumer，会发生什么？为什么？

结果：50 个 consumer 完全空闲。因为 Kafka 的并行单元是 partition——同一个 consumer group 内，一个 partition 在任一时刻只能被一个 consumer 消费（保证组内不重复）。100 个 partition 最多被 100 个 consumer 瓜分，多出的 50 个抢不到任何 partition，纯属浪费。

推论：消费并行度的上限 = partition 数。想扩到 150 并行，必须先把 partition 加到 ≥150。但加 partition 有代价：(1) 基于 key 的 hash 路由会变（hash(key) % N 中 N 变了），同一 key 的历史消息和新消息可能落到不同 partition，破坏有序性；(2) partition 越多，broker 元数据、文件句柄、rebalance 时间都上升。

所以建 topic 时就要按未来峰值规划 partition 数，这是少数「事前决策远比事后补救便宜」的参数。这也解释了为什么 Uber 要做 uForwarder——用 push proxy 解耦「消费并行度」与「partition 数」。

2. 数仓消费者积压了 1 亿条消息，老板要你 1 小时内追上。给至少 3 种手段并分析代价。

先算量级：1 亿条 / 3600s ≈ 要 2.8 万/s 的净追赶速率（还得高于实时进来的速率）。单 consumer 200ms/条只有 5 条/s，差了 4 个数量级，必须并行 + 批处理。

① 临时扩 consumer 到 partition 数上限：若有 200 个 partition，拉满 200 个 consumer。代价：要这么多 partition 才行；rebalance 期间短暂停顿。
② 批量化：把「一条 200ms」改成「500 条一批入仓」，摊薄网络/事务固定开销，单 consumer 吞吐可能涨 10-50 倍。代价：批失败的重试粒度变粗、延迟变大。
③ 旁路加速 topic：临时起一个独立 consumer group 从积压头开始猛拉，写到一个「快速通道」，原 group 保持实时。代价：架构临时复杂化，要处理两路合并。
④ 降级非关键处理：积压期间数仓只落原始数据、跳过重计算，事后离线补算。代价：短期数据不完整。

更深一层：能 1 小时追上的前提是 partition 数和下游写入能力早就预留了余量。如果 partition 只有 10 个,任你怎么加 consumer 也只有 10 并行——积压恢复能力是设计期决定的，不是故障期能临时变出来的。这正是「log 模型让积压安全躺在磁盘上」的价值：它给了你恢复的时间窗口，但恢复速度仍受架构上限约束。

3. 「至少一次 + 幂等 = 恰好一次」——那为什么还要 Kafka 的 exactly-once 事务？它解决了幂等解决不了的什么问题？

消费端幂等解决的是「同一条消息重复处理」。但有一类问题它解决不了：「读-处理-写」的原子性——consumer 从 topic A 读、处理后写到 topic B，然后提交 A 的 offset。这三步若非原子，崩溃点不同会出问题：写了 B 但没提交 A 的 offset → 重启后重新处理、B 里出现重复；提交了 offset 但没写 B → B 里丢数据。

Kafka 事务把「写 B + 提交 A 的 offset」包在一个原子事务里，配合幂等 producer（按序列号去重），实现流处理的 EOS：要么都成功，要么都回滚。这是消费端幂等做不到的，因为 offset 提交和外部写本就是两个系统的动作。

但关键边界：这只在「Kafka → Kafka」闭环成立。一旦你写的是外部 Postgres 或调 Stripe，Kafka 事务管不到那边——又回到 at-least-once + 业务幂等。所以 EOS 不是银弹，它精确地解决「Kafka 内流处理」这一类问题，理解它的适用边界比记住它存在更重要。

4. 同步 RPC 也能解耦服务，为什么订单这种关键链路反而要引入消息队列这个「额外的会丢消息的中间件」？

这是个反直觉点：加一个组件不是增加了故障面吗？答案在于把什么样的故障换成什么样的故障。

同步 RPC 的问题：订单服务要同步调用 5 个下游。(1) 时间耦合：任一下游慢/挂，下单就慢/失败——5 个下游的可用性相乘，整体可用性暴跌；(2) 级联雪崩：数仓慢 → 订单服务线程阻塞堆积 → 订单服务自己挂 → 拖垮上游；(3) 扇出耦合：加第 6 个下游要改订单服务代码。

消息队列的转换：订单服务只需把事件可靠写入队列（一次本地 + 一次队列写，配 Outbox 可做到原子），就立即返回。下游各自异步消费——下游挂了不影响下单，恢复后从 offset 续上；加下游只需新增 consumer group，订单服务零改动；慢消费者只积压自己。

代价是：(1) 最终一致——下游状态有延迟，UI 要兜底（「处理中」）；(2) at-least-once 的重复——要幂等;(3) 多了个要运维的中间件。本质是用「最终一致 + 幂等复杂度」换「时间解耦 + 抗级联 + 易扩展」。对订单这种「下单必须快且稳、下游可异步」的场景，这笔交易划算；对「必须同步拿到结果」的场景（如实时风控拒绝），则该留同步调用。