贝利信息

SQL 中 DISTINCT 的去重逻辑

日期:2026-01-25 00:00 / 作者:舞夢輝影
SQL的DISTINCT按整行去重,非单列;NULL被视为相同值;ORDER BY字段须出现在SELECT中;无法指定保留哪行,替代方案为GROUP BY或窗口函数。

SQL 的 DISTINCT 是按行去重,不是按列

很多人误以为 DISTINCT 是对某个字段单独去重,其实它作用于整个 SELECT 结果行。只要两行在所有被选中的列上完全一致,才会被合并为一行。

比如 SELECT DISTINCT name, age FROM users,不会只看 name 去重,而是看 (name, age) 这个组合是否重复。哪怕 name 相同但 age 不同,也会保留两条记录。

NULL 在 DISTINCT 中被视为相同值

SQL 标准规定:所有 NULL 在去重时被认为是相等的。也就是说,多行中若某列全为 NULL,它们会被当作重复行合并。

例如:SELECT DISTINCT status FROM orders,若表中有 5 行 statusNULL,结果里只会出现一个 NULL

DISTINCT 和 ORDER BY 的配合有隐含约束

当使用 ORDER BY 时,排序字段必须出现在 SELECT 列表中——前提是用了 DISTINCT。否则多数数据库(如 PostgreSQL、SQL Server)会报错;MySQL 8.0+ 也默认启用该检查。

错误示例:SELECT DISTINCT name FROM users ORDER BY created_at → 报错,因为 created_at 没出现在 SELECT 中。

替代 DISTINCT 的常见场景与陷阱

真正想“取每组第一条”时,DISTINCT 往往不是正确工具。它不保证返回哪一条,也不支持指定优先级。

比如“每个部门取薪资最高的人”,写成 SELECT DISTINCT dept, MAX(salary) FROM emp GROUP BY dept 是对的;但

若写成 SELECT DISTINCT dept, name, salary FROM emp ORDER BY salary DESC,结果既不确定,也无法保证 nameMAX(salary) 匹配。

实际用的时候,最常被忽略的是:DISTINCT 的语义边界完全由 SELECT 子句决定,它不理解业务主键,也不承诺稳定性。一旦涉及“取代表行”或“带条件去重”,就得换思路。