MD5还安全吗？深入了解MD5的优缺点

MD5大概是普通人听说最多的哈希算法了——网上下载软件有MD5校验值，密码存储有MD5加密，文件完整性验证也用MD5。但问题是，MD5现在还能用吗？答案有点扎心：在安全领域，MD5基本已经"死"了。但它在某些场景下仍然有用武之地。下面我们细细道来。

MD5是什么？

MD5（Message-Digest Algorithm 5）是1991年由罗纳德·里维斯特（Ronald Rivest）设计的哈希算法，全称"消息摘要算法第5版"。它接收任意长度的输入，经过一系列复杂的数学运算，输出一个128位（16字节）的哈希值，通常用32位十六进制字符串表示。

比如：

MD5被设计时追求四个特性：

这四个目标MD5在前三个上表现得都不错——至少最初是这样。可惜后来发生的事情证明，MD5的抗碰撞性其实并没有那么可靠。

碰撞（Collision）就是指两个不同的输入产生了相同的哈希值。这是哈希算法的大忌。

2004年，山东大学的王小云教授团队发表了一系列震惊密码学界的论文，展示了如何在几小时内找到MD5的碰撞。关键方法是构造特殊前缀碰撞——给定一个已知的合法文件，可以在它的基础上构造一个恶意文件，两者MD5值完全相同，但内容完全不同。

这个发现立刻引发了连锁反应。2007年，密码学家们用类似的方法，构造出了两个完全不同但MD5相同的X.509数字证书。这就是著名的火焰病毒（Flame virus）利用的方法——攻击者用伪造的MD5签名证书，冒充合法的微软代码签名。

随着研究深入，MD5碰撞的生成成本一路走低：

成本的急剧下降意味着，任何一个有基本编程能力的攻击者都能制造MD5碰撞。这在密码学领域，等同于宣判了MD5的死刑。

用MD5存储密码曾经很流行——数据库里存MD5哈希而不是明文，登录时把用户输入的密码做MD5后比对哈希值。这样即使数据库泄露，攻击者也不知道用户的原始密码。

但这个方案有个致命问题：彩虹表攻击。攻击者预先计算好常见密码的MD5值（比如"123456"、"password"、"iloveyou"），存在一张大表里。数据库泄露后，直接查表匹配——几乎所有简单密码都能秒破。

更先进的方案是用bcrypt或Argon2这类专门为密码设计的哈希算法，它们内置了盐值（salt）和计算成本参数，能有效抵抗彩虹表和暴力破解。

数字签名要求哈希算法具有抗碰撞性——否则攻击者可以构造一份合法合同和一份恶意合同，两者哈希值相同，用同一个签名签署，事后替换成恶意版本。MD5的碰撞漏洞让这种攻击成为可能。

浏览器曾经用MD5来生成SSL证书的指纹。MD5碰撞使得伪造合法证书成为可能——这是HTTPS安全的基石，绝对不能有闪失。

别急着把MD5从你的工具箱里删掉——它在对安全性要求不高的场景下，仍然是简单好用的选择：

如果你只是想知道"下载的文件是否和服务器上的一致"，MD5完全够用。这种场景不需要抗碰撞性，只需要"任何损坏都会导致哈希值变化"——MD5的雪崩效应仍然有效。下载软件后对照MD5值，是一种简单有效的防损坏手段。

Git的内部存储用的也是SHA-1（虽然也在往SHA-256迁移），文件系统的块去重也经常用MD5做快速比对。

128位的MD5值比原始数据短得多，非常适合做数据库索引和快速比对。比如大文件的分块去重——把每个分块的MD5存起来，新文件进来时比对MD5值，就能快速判断哪些块是重复的，不需要逐字节比较。

MD5在密码学以外的地方大量使用，比如生成唯一标识符、快速缓存键、内容寻址存储……这些场景不涉及安全对抗，只要哈希值分布均匀、计算速度快就行，MD5完全胜任。

如果你需要更强的安全性，有这些选择：

MD5不是不能用，而是要看用在哪里。不要把MD5用在任何涉及安全对抗的地方——密码存储、数字签名、证书指纹——这些地方MD5已经彻底不可靠了。

但在文件校验、快速去重、内容寻址这些非安全场景，MD5仍然是一个高效的选择。它计算速度快、实现简单、128位的输出长度也刚好够用。

如果你不确定该用哪个，最保守的选择就是SHA-256。它的安全性经过了时间检验，广泛应用于互联网的各个角落。想知道SHA-256为什么这么可靠？可以读读我们关于SHA-256和哈希与加密的区别的文章。