缓存系统源码怎样读？

访客源码剖析 2026-06-05 17:56:58 1

本文目录导读：

从源码结构到核心算法深度解析

📖 目录导读

许多开发者认为读源码只是为了应对面试八股文,但真正掌握缓存源码的人，能轻松应对高并发、数据一致性、内存泄漏等工程难题，当你在项目中遇到缓存雪崩或穿透时，直接修改 Redis 配置往往无效；而理解其底层数据结构与驱逐策略后，你甚至可以设计出专属于业务的缓存组件。

核心价值：

在打开 GitHub 之前，先掌握以下分类（否则你会迷失在几百个文件中）：

概念	说明	典型实现
存储结构	缓存数据的组织方式（哈希表、跳表、树）	Redis 的 `dictEntry`，Caffeine 的 `ConcurrentHashMap`
淘汰策略	内存满时如何决定删除哪些数据	`LRU`（最近最少使用）、`LFU`（最不经常用）、`FIFO`
过期机制	数据何时被认为失效	惰性删除（访问时检查）、定期扫描（每 100ms 抽样）
并发控制	多线程读写时如何保证数据一致	`CAS`、`ReadWriteLock`、分段锁

建议：先画一张“缓存系统的概念地图”，标注出各个模块的依赖关系，Redis 的 expire.c 文件里同时处理了惰性删除和定期删除，而 evict.c 负责 LRU 的实现，两者通过 dict 结构关联。

缓存系统通常围绕 1~2 个核心数据结构展开。
- Redis：全局哈希表 dict + 跳表 zskiplist（用于有序集合）。
- Guava Cache：LocalCache 内部维护了 Segment[] 数组，每个 Segment 包含一个 ConcurrentHashMap。
技巧：用 clion 或 source insight 绘制类图，标注每个字段的作用。

选择最经典的算法：LRU 驱逐。
找源码实现：
- Redis 的 LRU 并非严格实现，而是采样 5 个 key，选出空闲时间最长的删除。
- 代码位置：evict.c 中的 freeMemoryIfNeeded() 函数。
提问：为什么用采样而非全量扫描？—— 为了性能，全量扫描在千万级 key 上会阻塞主线程。

关键发现：Redis 的 dict 使用拉链法解决哈希冲突，且 dictType 结构体允许自定义 Hash 函数，这解释了为什么不同的 value 类型（string、list）可以共享同一个哈希表。

LocalCache.get() 内部使用 ConcurrentHashMap 的分段锁。
key 不存在，则 lockingGetOrLoad() 会：
1. 获取当前段（Segment）的锁。
2. 再次检查（双重检查锁定模式）。
3. 调用 load() 方法填充缓存。
设计模式：模板方法模式，CacheLoader 抽象了加载数据的逻辑。

误解	事实
缓存系统源码必须一行行读完	错误，应该按模块读，如先读 `expire` 模块，再读 `evict` 模块
LRU 实现越精确越好	不，精确 LRU 需要维护全局链表，锁竞争严重；实际采用近似 LRU（如 Redis 的采样策略）
源码全靠自研	许多系统（如 Caffeine）借鉴了 `ConcurrentHashMap` 的设计，阅读时先理解 JDK 源码
只看源码就能优化	需要结合 `perf` 或 `flamegraph` 性能分析工具，定位热点代码