HashSet 是去重首选,O(1) 时间复杂度,不保证顺序,依赖 hashCode() 和 equals(),允许一个 null,线程不安全;LinkedHashSet 保持插入顺序,开销略高;TreeSet 支持排序,O(log n),基于红黑树;Stream.distinct() 底层用 LinkedHashSet,语法糖。
绝大多数场景下,HashSet 是首选:插入、查找、删除平均时间复杂度都是 O(1),底层基于 HashMap 实现,只存 key,value 固定为 Presentation(Java 8+ 是 PRESENT 这个静态对象)。它依赖元素的 hashCode() 和 equals() 判断重复。
hashCode() 和 equals(),否则去重失效null 元素Collections.synchronizedSet() 或 ConcurrentHashMap.newKeySet())当需要去重同时保持「第一次出现的顺序」时,LinkedHashSet 是直接替代方案。它继承自 HashSet,内部用双向链表维护插入顺序,所以迭代顺序 = 插入顺序。
HashSet 相同(O(1) 平均),但常数更大(要维护链表指针)hashCode() 和 equals()
null
如果去重后还希望元素天然有序(升序),且能接受 O(log n) 的操作代价,TreeSet 是合适选择。它基于红黑树,支持自然排序或自定义 Comparator。
Comparable,要么构造时传入 Comparator
null 值在无 Comparator 时会抛 NullPointerException;有 Comparator 且明确处理 null 才可存compareTo() 或 compare() 返回 0,而非 equals() —— 这点容易踩坑:若比较逻辑和 equals() 不一致,行为可能违反集合契约Java 8+ 中常用 stream().distinct() 做链式去重,例如:
Listunique = list.stream().distinct().collect(Collectors.toList());
它本质是用 LinkedHashSet 缓存已见元素(保证顺序),所以等价于手动 new 一个 LinkedHashSet 再转回 List。注意:
Integer, String)没问题;自定义对象仍需 hashCode()/equals()
collectingAndThen + toMap 等组合方案HashSet,因涉及 Stream 管道开销