
SQL实时统计需兼顾高并发、低延迟与可维护性,核心在于结构设计、节奏控制与风险规避,通过物化视图+增量刷新、窗口函数精准截取、CTE分步逻辑、缓存代理层等手段实现可控实时。
SQL实时统计不是简单写个COUNT(*)或GROUP BY就完事——它得扛住高并发、数据持续流入、结果秒级可见,还要能灵活响应业务维度变化。核心不在“会不会写”,而在“怎么组织结构+怎么控制节奏+怎么避免翻车”。下面用一个真实电商后台的实时销量看板案例拆解关键设计逻辑。
某平台需每30秒更新“近1小时各品类销量Top10”。若每次查原始订单表(日增500万+记录),即使加索引也会拖慢查询、挤占资源。
sales_summary_1h,只存category_id、hour_start、total_qty、updated_at
ON CONFLICT (category_id, hour_start) DO UPDATE做幂等合并,避免重复累加运营要查“每个用户最近3次下单的平均间隔(小时)”,不能简单WHERE order_time > NOW() - INTERVAL '7 days'——活跃用户数据多,沉默用户可能压根没7天内订单,结果偏差大。
ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY order_time DESC)给每人订单倒序编号rn ,再用LAG()算相邻两次时间差,最后AVG()
统计“昨日新客中,24小时内完成首单且复购率>15%的城市”涉及新客识别、首单时效判断、复购行为追踪三层逻辑,硬写成一长串JOIN极易出错。
new_users AS (SELECT DISTINCT user_id FROM users WHERE register_time::date = CURRENT_DATE - 1)
first_orders AS (SELECT user_id, MIN(order_time) AS first_time FROM orders WHERE user_id IN (SELECT user_id FROM new_users) GROUP BY user_id)
qualified_users AS (SELECT user_id FROM first_orders WHERE first_time - (SELECT register_time FROM users u WHERE u.user_id = first_orders.user_id)
大促期间看板QPS从200飙到2000,DB直连必然抖动。我们没上Redis存结果,而是用PostgreSQL的MATERIALIZED VIEW + 定时REFRESH + 应用层缓存兜底:
基本上就这些。实时不是追求“绝对零延迟”,而是让延迟可控、逻辑可维护、结果可验证。别迷信流计算框架——
很多场景,用好SQL的增量、窗口、CTE和物化能力,比搭一套Flink作业更稳、更快、更省心。