B2C Data

Posted: **Wed May 21, 2025 3:15 am**

在 WhatsApp 这种超大规模、高并发的分布式系统中，索引设计是数据库性能优化的基石。索引设计策略需要仔细平衡读取性能、写入成本、存储空间和系统的可扩展性。

WhatsApp 的索引策略将是高度定制化和精细化的，以满足其核心业务需求：快速检索消息、用户和群组信息。

1. 索引设计的核心原则
读写平衡：索引加速读取，但会增加写入（插入、更新、删除）的开销，因为每次数据修改都需要更新索引。必须根据读写比重进行权衡。WhatsApp 是一个读写都极其频繁的系统，所以会非常谨慎。
查询模式驱动：索引应该为最频繁和最关键的查询路径服务。在 WhatsApp 中，这主要是“获取某个聊天会话的历史消息”和“查找特定用户”。
避免冗余和不必要索引：减少维护成本和存储空间。
利用数据库特性：不同的数据库（关系型 vs. NoSQL）对索引有不同的实现和最佳实践。WhatsApp 大量使用 NoSQL (如 Cassandra)，其索引设计会遵循 NoSQL 的模式。
分片感知：索引通常是针对每个分片内部的数据。跨分片查询的索引策略需要单独考虑（通常通过数据冗余或全局二级索引）。
2. WhatsApp 的主要表和索引设计策略
a. 消息表 (Messages - 最核心)
这是 WhatsApp 写入量最大、查询最频繁的表。

主索引/聚集索引 (Primary Index/Clustering Key):

字段： (chat_id, timestamp) 或 (group_id, timestamp)
设计： chat_id (或 group_id) 作为分区键（用于数据分片），timestamp 作为聚集键（在该分区内按时间排序）。
作用：这是最关键的索引，直接支持以下核心查询：
获取特定聊天会话的历史消息： SELECT * FROM Messages WHERE chat_id = '...' ORDER BY timestamp DESC LIMIT N;
高效写入：消息是按 chat_id 路由到特定分片，并在该分片内按时间追加。
数据库实现：在 Cassandra 或 ScyllaDB 中，这直接就是表的主键定义，数据会根据此键在磁盘上物理组织。
辅助/二级索引 (Secondary/Auxiliary Indexes): 对于加密后的消息内容，无法直接建立索引。这些索引主要用于消息的元数据。

(sender_id, chat_id, timestamp)：
作用：用于查询某个用户在所有聊天中发 阿尔巴尼亚 whatsapp 数据库 送过的消息（例如，用于内部审计或统计）。chat_id 的加入可以使查询更具体，如果需要查询特定用户在某个聊天中的消息。
考虑：这可能是全局二级索引，或者在 NoSQL 中，通过创建物化视图（Materialized Views）或冗余表来实现。直接在 sender_id 上建二级索引可能导致写入放大或性能问题，因为它可能涉及扫描多个分片。
(message_status, timestamp)：
作用：用于内部系统管理，例如查找所有处于“未送达”或“发送失败”状态的消息，以便重试。
(is_starred, user_id, timestamp)：
作用：支持用户查看自己星标的消息。user_id 用于限定特定用户。
b. 用户表 (Users)
主键： user_id (代理键，BIGINT)。
作用：作为所有其他表引用用户的唯一、不可变标识符，保证高效的内部关联。
唯一索引： phone_number_standardized (E.164 格式的标准化电话号码)。
作用：这是用户登录、查找联系人和唯一识别用户的核心业务键。必须是唯一的。
辅助索引：
last_seen_timestamp：用于快速查询用户在线状态或最后上线时间（可能用于维护最近活跃用户列表）。
(country_code, national_number)：如果存在按国家/地区查询用户的需求。
c. 联系人/好友关系表 (Contacts / Friendships)
主键/复合索引： (user_id_A, user_id_B)
作用：表示 user_id_A 是 user_id_B 的联系人。这种复合键确保唯一性并支持高效查找 user_id_A 的所有联系人。
辅助索引： (user_id_B, user_id_A)
作用：如果需要反向查找，例如，谁将 user_id_B 添加为联系人。
d. 群组表 (Groups) 和群组成员表 (GroupMembers)
Groups 表：
主键： group_id (代理键)。
索引： creator_user_id (查找某个用户创建的所有群组)。
GroupMembers 表：
主键/复合索引： (group_id, user_id)
作用：查找特定群组的所有成员。
辅助索引： (user_id, group_id)
作用：查找某个用户加入的所有群组。
3. 特殊考虑和挑战（NoSQL 环境）
LSM-tree 数据库（如 Cassandra/ScyllaDB）：
主键即索引： PRIMARY KEY (partition_key, clustering_key) 天然提供高效的写入和基于主键的读取。
二级索引的限制： Cassandra 的二级索引在设计上有限制，不适合高基数或高写入负载的列。如果需要其他访问模式，通常会通过**创建冗余表（也称为反范式化）或物化视图（Materialized Views）**来实现。WhatsApp 可能会大量使用这种模式来支持不同的查询维度。
写入放大：每一个索引都会增加写入操作的成本。在设计索引时，必须仔细权衡读性能提升与写入成本的增加。
跨分片索引：大部分索引是本地的（Local Index），即只索引当前分片的数据。对于需要跨越多个分片进行搜索的场景，通常会：
避免在实时路径中使用。
使用数据冗余或物化视图来创建基于不同分片键的副本。
在离线数据仓库中进行分析。
通过上述策略，WhatsApp 能够有效地管理其海量数据，并保证在用户体验关键路径上的高性能读写。

B2C Data

索引设计策略是什么？

索引设计策略是什么？