高并发抢票场景下的线程池配置：每个参数都有理由

以兴趣社交平台"趣玩搭"的限量活动抢票功能为例，记录线程池参数是怎么一步步推导出来的，而不是凭经验拍脑袋。

一、业务场景

趣玩搭是一个基于 LBS 的兴趣社交平台，用户可以在上面发起各种线下活动。部分热门活动（比如限量 50 人的露营、剧本杀等）会在固定时间开放抢名额，开抢瞬间会涌入数千并发请求。

抢票的核心链路如下：

用户请求 → Tomcat接收 → 参数校验(本地) → Redis Lua扣减库存 → 发送MQ消息 → 异步创建订单

整体来看，本地 CPU 计算量很小（参数校验），大部分时间花在等待 Redis 和 MQ 的网络响应上——这是一个典型的 IO 密集型 任务。

二、参数推导过程

2.1 链路耗时分析

在正式配置线程池之前，我先用 JMeter 模拟并发请求做了一轮压测，统计单次抢票请求在各环节的平均耗时：

环节	平均耗时	类型
本地参数校验	~2ms	CPU
Redis Lua 扣减库存	~15ms	IO（网络等待）
MQ 消息发送	~10ms	IO（网络等待）
其他（序列化等）	~3ms	CPU
合计	~30ms	—

从中可以提取两个关键数字：CPU 计算时间约 5ms，IO 等待时间约 25ms。

2.2 理论线程数计算

对于 IO 密集型任务，业界常用的经验公式是：

最佳线程数 = CPU核心数 × (1 + IO等待时间 / CPU计算时间)

服务器配置是 4 核 CPU，代入公式：

理论线程数 = 4 × (1 + 25 / 5) = 4 × 6 = 24

这个值是一个起点，不是最终答案。实际配置需要根据压测结果微调。

2.3 最终线程池配置

ThreadPoolExecutor ticketExecutor = new ThreadPoolExecutor(
    20,                                // corePoolSize
    40,                                // maximumPoolSize
    60, TimeUnit.SECONDS,              // keepAliveTime
    new SynchronousQueue<>(),          // workQueue
    new NamedThreadFactory("ticket"),  // threadFactory
    new CallerRunsPolicy()             // handler
);

下面逐一说明每个参数的选择理由。

三、每个参数的选择理由

3.1 corePoolSize = 20

理论值是 24，但我设为 20，略低于理论值。原因是这台机器上不只跑抢票服务，还有监控指标上报、健康检查、日志异步写入等后台任务，需要预留一些 CPU 资源。如果核心线程数设满 24，高峰期其他任务可能出现调度延迟。

3.2 maximumPoolSize = 40

设为核心线程数的 2 倍，用来应对突发流量。当 20 个核心线程全部繁忙时，线程池会创建额外的临时线程（最多到 40 个），60 秒空闲后回收。

为什么不设更大？压测发现线程数超过 40 之后，CPU 使用率已经到了 75% 以上，线程上下文切换开销显著增加，接口 RT 反而上升。40 是实测出来的性能拐点。

3.3 workQueue = SynchronousQueue

这是整个配置中最关键的选择，也是最容易踩坑的地方。

常见的选择有三种队列：

LinkedBlockingQueue（有界队列）。 任务先入队排队，队列满了才创建新线程。问题是：抢票请求如果在队列里排了 500ms，等到被处理时票可能早就被抢完了。用户等了半天拿到一个"票已售罄"，体验极差。

ArrayBlockingQueue。 和 LinkedBlockingQueue 类似，只是底层用数组实现，同样存在排队延迟问题。

SynchronousQueue。 不缓冲任何任务，生产者线程必须等消费者线程来取任务。效果是：要么立即有空闲线程接手处理，要么触发创建新线程，线程数到上限后走拒绝策略。

抢票场景的核心语义是"快速成功或快速失败"——用户要么在几百毫秒内知道抢到了，要么立刻知道没抢到。SynchronousQueue 完美契合这个语义，排队等待在这个场景下毫无价值。

3.4 handler = CallerRunsPolicy

拒绝策略同样有讲究。JDK 提供了四种内置策略：

策略	行为	适用场景
AbortPolicy	抛出 RejectedExecutionException	需要调用方感知过载
DiscardPolicy	静默丢弃任务	可容忍丢失
DiscardOldestPolicy	丢弃队列最老的任务	偏好新任务
CallerRunsPolicy	由调用线程自己执行	需要负反馈限流

我选择了 CallerRunsPolicy，原因有两个：

第一，不丢弃请求。被拒绝的任务由 Tomcat 的工作线程自己执行，用户仍然能得到一个结果（虽然会慢一些），而不是收到一个冷冰冰的系统异常。

第二，天然的负反馈限流。当 Tomcat 线程去执行抢票任务时，它就暂时无法从 Socket 接收新请求了。这意味着系统在过载时会自动降低接收新请求的速率，形成一个优雅的反压机制，防止雪崩。

3.5 配合外层限流

线程池是最后一道防线，不应该单独扛所有压力。在线程池之前，我在网关层配置了 Sentinel 按活动维度的 QPS 限流：

// Sentinel 限流规则：单个活动最大 3000 QPS
FlowRule rule = new FlowRule();
rule.setResource("grab_ticket_" + activityId);
rule.setGrade(RuleConstant.FLOW_GRADE_QPS);
rule.setCount(3000);
rule.setControlBehavior(RuleConstant.CONTROL_BEHAVIOR_DEFAULT); // 直接拒绝

超过阈值的请求在网关层就被拦截返回"排队中请稍后重试"，根本不会到达抢票服务的线程池。这样形成了两层保护：Sentinel 挡住了洪水，线程池处理的是经过限流后的"涓流"。

四、压测验证

配置完成后，用 JMeter 模拟了 5000 并发用户同时抢票的场景进行验证：

指标	结果
单机吞吐量	3000+ QPS
P99 响应时间	< 100ms
平均响应时间	~35ms
线程池拒绝率	< 5%
CPU 使用率（峰值）	~70%
错误率	0%（拒绝走 CallerRunsPolicy，不报错）

同时观察了线程池的运行时指标：

// 通过 Spring Actuator 暴露线程池监控指标
logger.info("活跃线程: {}, 池大小: {}, 完成任务: {}, 队列大小: {}",
    executor.getActiveCount(),     // 高峰期在 30-38 之间波动
    executor.getPoolSize(),        // 最大到过 40
    executor.getCompletedTaskCount(),
    executor.getQueue().size()     // SynchronousQueue 始终为 0
);

高峰期活跃线程数在 30-38 之间波动，偶尔触顶到 40，说明 maximumPoolSize 的设置是合理的——刚好够用，没有浪费。

五、避坑指南

在线程池配置这件事上，我踩过或见过的坑：

别用 Executors 工厂方法。 Executors.newFixedThreadPool() 使用的是无界的 LinkedBlockingQueue，高并发下任务堆积可能导致 OOM。Executors.newCachedThreadPool() 的 maximumPoolSize 是 Integer.MAX_VALUE，可能创建出几万个线程把系统拖垮。永远手动创建 ThreadPoolExecutor，明确每个参数。

给线程起名字。 出了问题时 jstack 导出线程栈，如果看到的全是 pool-1-thread-37 这种默认名字，根本分不清是哪个业务的线程池。自定义 ThreadFactory 给线程命名（比如 ticket-worker-1）是排查问题的基础。

监控线程池运行指标。 将活跃线程数、队列大小、拒绝次数等指标接入 Prometheus + Grafana。线程池的问题往往在上线后一段时间才暴露，没有监控就是盲人摸象。

参数不是一成不变的。 我们后来把服务器从 4 核升级到 8 核，线程池参数也相应调整为 corePoolSize=40、maximumPoolSize=80。硬件变了、业务量变了，线程池参数就要跟着变。

六、总结

线程池配置不是背公式就能搞定的事情。正确的做法是：先分析业务链路的耗时构成（CPU 密集还是 IO 密集），用公式算出理论值作为起点，再通过压测不断微调，找到吞吐量和延迟的最佳平衡点。每个参数的选择都应该有业务语义上的支撑，而不是"我看别人这么配的"。

最后总结一下本文的线程池配置思路：

1. 分析链路耗时 → 判断 IO 密集型
2. 理论公式计算 → 得到基准线程数
3. 选择队列策略 → SynchronousQueue（快速失败）
4. 选择拒绝策略 → CallerRunsPolicy（负反馈限流）
5. 配合外层限流 → Sentinel 网关层拦截
6. 压测验证调参 → 找到性能拐点
7. 接入监控告警 → 持续观察优化

如果这篇文章对你有帮助，欢迎访问我的博客 robinzhu.top 获取更多实战分享。

本文由困困鱼原创，采用 CC BY-NC-SA 4.0 许可协议，转载请注明出处。