Java容器 | 基于源码分析Map集合体系

逆变薄雾
• 阅读 1012

一、容器之Map集合

集合体系的源码中,Map中的HashMap的设计堪称最经典,涉及数据结构、编程思想、哈希计算等等,在日常开发中对于一些源码的思想进行参考借鉴还是很有必要的。

Java容器 | 基于源码分析Map集合体系

  • 基础:元素增查删、容器信息;
  • 进阶:存储结构、容量、哈希;

API体系

在整个Map和Set的API体系中,最重要的就是HashMap的实现原理:

  • HashMap:基于哈希表管理元素;
  • LinkedHashMap:基于HashMap和双向链表;
  • HashSet:底层维护HashMap结构;
  • LinkedHashSet:继承HashSet,双向链表;

所以Map和Set的系列中,除特殊API之外,基本原理都依赖HashMap,只是在各自具体实现时,适用于不同特点的元素管理。

二、数据结构

在看HashMap之前,先理解一种数据结构:数组+链表的结构。

Java容器 | 基于源码分析Map集合体系

基于数组管理元素的位置,元素的存储形成链表结构,既然是链表那么就可以是单双向的结构,这需要针对具体的API去分析,通过这个结构可以得到几个关键信息:

  • 扩容:基于数组则面对扩容问题;
  • 链表:形成链表结构的机制;
  • 哈希:哈希值计算与冲突处理;

三、HashMap详解

1、结构封装

既然上面简单描述了数组+链表的结构,那么从源码角度看看是如何封装的:

transient Node<K,V>[] table;

在HashMap中数组结构的变量命名为table(表),并且是基于Node<K,V>的节点:

static class Node<K,V> implements Map.Entry<K,V> {
    final int hash;
    final K key;
    V value;
    Node<K,V> next;
}

实现Map.Entry接口,并定义节点的结构变量,和节点自身的相关方法。

2、构造方法

在知道HashMap中的基础结构后,可以看其相关的构造方法,初始化哪些变量:

无参构造

public HashMap() {
    this.loadFactor = DEFAULT_LOAD_FACTOR;
}
  • float DEFAULT_LOAD_FACTOR = 0.75f;
  • this.loadFactor = DEFAULT_LOAD_FACTOR;

实际上还要关注一个核心参数:

static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // 16

即数组默认的初始化容量DEFAULT_INITIAL_CAPACITY为16,扩容的阈值loadFactor为0.75,即表示当数组中元素达到12个便会进行扩容操作。

有参构造

当然也可以通过有参构造方法去设置两个参数:即容量和扩容的阈值:

public HashMap(int initialCapacity, float loadFactor) ;

通过两个构造方法的源码可知:当直接创建新的HashMap的时候,不会立即对哈希数组进行初始化,但是可以对关键变量做自定义设置。

3、装载元素

顺着HashMap的使用方法,看元素添加:

public V put(K key, V value) {
    return putVal(hash(key), key, value, false, true);
}

在put的时候并没有做过多直接操作,而是调用两个关键方法:

  • hash():计算key的hash值;
  • putVal():元素添加过程;

这里必须看一个关键方法,哈希值的计算:

static final int hash(Object key) {
    int h;
    return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
}

并不是直接获取Object中hashCode的返回值,计算key对应的hashCode值,和hashCode值右移16位的值,并对两个结果进行异或运算,以此拉低哈希冲突发生的概率。

再看putVal()方法,这里的操作就相当精彩:

Java容器 | 基于源码分析Map集合体系

核心步骤总结:

  • 首次执行判断并初始化底层数组;
  • 基于哈希值计算结果添加元素;
  • 根据添加元素后的容量来判断是否扩容;

这里还需要说明一个问题:

HashMap基于红黑树来处理哈希冲突问题,如果hash冲突过多,对O(n)的查询性能的影响非常大,当冲突节点链表的冲突元素数量到达8时,并且数组的长度到达64时,会使用红黑树结构代替链表来处理哈希冲突的查询性能问题,关于树结构可以移步之前的相关文章。

4、自动化扩容

容器在一定边界内可以不断添加元素,其核心的机制就是扩容,HashMap的扩容遵循最小可用原则,当然容量到达阈值,便会触发自动扩容机制。

阈值:threshold=capacity*loadFactor,默认即 16*0.75=12

核心方法:resize;

Java容器 | 基于源码分析Map集合体系

核心步骤总结:

  • 判断扩容的边界参数:threshold;
  • 核心参数计算:容量和阈值;
  • 基于新参数创建一个新的空数组;
  • 原数组为null则过程可以理解为初始化;
  • 原数组不为null则扩容并迁移数据;

很显然如果涉及数组扩容则会很影响效率,所以在日常开发中,可以在使用HashMap的时候预先估计好HashMap的大小,保证阈值大于存储的元素数量,尽可能避免进行多次扩容操作。

5、查询元素

getNode查找方法,通过hash值的计算,然后依次经过数组、红黑树、链表进行遍历查询:

Java容器 | 基于源码分析Map集合体系

6、删除元素

removeNode删除方法,首先通过hash值的计算,找到要删除的节点,然后判断索引位置是红黑树还是链表结构,分别执行各自的删除流程:

Java容器 | 基于源码分析Map集合体系

7、补充说明

这里对两个方法做个简单的说明:hashCode()equals(),通常来说重写equals方法的时候需要重写hashCode方法。

Java容器 | 基于源码分析Map集合体系

这两个方法都可以用来比较两个对象是否相等,但是hash值有存在冲突的情况,可能存在两个对象的hash值冲突,这时候可以通过equals判断对象值是否相同,==判断值对象,地址判断引用对象。

在HashMap的结构中,链表上的hash值相同情况还要通过equals方法来判断具体值是否相同,才能找到相应的对象。

四、源代码地址

GitEE·地址
https://gitee.com/cicadasmile/java-base-parent
点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
美凌格栋栋酱 美凌格栋栋酱
6个月前
Oracle 分组与拼接字符串同时使用
SELECTT.,ROWNUMIDFROM(SELECTT.EMPLID,T.NAME,T.BU,T.REALDEPART,T.FORMATDATE,SUM(T.S0)S0,MAX(UPDATETIME)CREATETIME,LISTAGG(TOCHAR(
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Wesley13 Wesley13
3年前
java集合系列之HashMap源码
java集合系列之HashMap源码HashMap的源码可真不好消化!!!首先简单介绍一下HashMap集合的特点。HashMap存放键值对,键值对封装在Node(代码如下,比较简单,不再介绍)节点中,Node节点实现了Map.Entry。存放的键值对的键不可重复。jdk1.8后,HashMap底层采用的是数组加链表、红黑树的数据结构,因此实现起
Wesley13 Wesley13
3年前
java基础之HashMap——第一节
前两篇文章粗略的介绍了java中的List,既然已经讲了两种java的数据结构,那么这篇就接着讲java中的数据结构了。HashMap作为最常用的一种Map,就放在第一个讲了。Map是一个较复杂的结构,本身内容不是太难,但是各个实现的思想完全不同,所以可能关于Map的介绍会比较多,源码分析会放在后边,主要是算法分析。要讲HashM
Wesley13 Wesley13
3年前
java8新特性
Stream将List转换为Map,使用Collectors.toMap方法进行转换背景:User类,类中分别有id,name,age三个属性。List集合,userList,存储User对象1、指定keyvalue,value是对象中的某个属性值。 Map<Integer,StringuserMap1userList.str
御弟哥哥 御弟哥哥
4年前
HashMap深度解析:一文让你彻底了解HashMap
前言HashMap是Map族中最为常用的一种,也是JavaCollectionFramework的重要成员。本文首先给出了HashMap的实质并概述了其与Map、HashSet的关系,紧接着给出了HashMap在JDK中的定义,并结合源码分析了其四种构造方式。最后,通过对HashMap的数据结构、实现原理、源码实现三
Wesley13 Wesley13
3年前
FLV文件格式
1.        FLV文件对齐方式FLV文件以大端对齐方式存放多字节整型。如存放数字无符号16位的数字300(0x012C),那么在FLV文件中存放的顺序是:|0x01|0x2C|。如果是无符号32位数字300(0x0000012C),那么在FLV文件中的存放顺序是:|0x00|0x00|0x00|0x01|0x2C。2.  
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Python进阶者 Python进阶者
1年前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这