找回密码
 立即注册
搜索
查看: 184|回复: 0

服务器内存的可用性和可靠性不容忽视,IT 人员需留意内存故障

[复制链接]

2万

主题

0

回帖

6万

积分

管理员

积分
69580
发表于 2024-11-10 07:30:09 | 显示全部楼层 |阅读模式
【51CTO独家翻译】由于大多数注意力都集中在服务器的处理能力、网络带宽和存储IOPS(每秒输入输出操作数)上,因此很容易忽视服务器内存的可用性和可靠性。虽然处理器是任何服务器的核心组件,但工作负载的所有指令和数据都存储在内存中。

在当今的虚拟化数据中心中,单个服务器可以运行许多虚拟机,每个虚拟机都作为文件驻留在内存中。但当新服务器添加更多、更快的内存以满足更大的计算需求时,内存可靠性问题就变得尤为重要。 IT 人员必须了解内存故障并利用旨在增强内存可用性的服务器功能。

如今,企业级服务器在预制模块中配备了 TB 级 64 位内存,这些模块的设计和制造符合联合电子设备工程委员会 (JEDEC) DDR3 和 DDR3L(低电压)标准。这使得企业可以轻松地从众多内存制造商处购买价格合理的内存,但符合标准并不能保证可靠性。

对内存可靠性的最大威胁不是彻底的故障,而是可能发生由制造缺陷、电气事件和其他物理异常引起的故障。具体来说,对服务器内存的最大威胁来自随机位错误——单个位的自发反转。如果不加以控制,仅仅一位错误就可能会突然改变指令或改变数据流,并且可能造成灾难性的后果。

位错误自然会发生。内存模块错误率范围从大约每兆字节内存每小时 1 位(有时标记为 1010/bit*h)到每世纪每兆字节内存 1 位(1017/bit*h)。这个范围差异很大,但随着内存子系统变得更快、电气工作电压变得更低、服务器上的内存总量增加,位被“误解”并影响工作负载的可能性变得相当大。 。

其他因素可能会加剧单位错误,例如背景辐射(阿尔法粒子)、寄生电气事件(例如附近的电磁干扰)、不良的主板屏蔽或设计,甚至 DIMM 插槽上的电气触点损坏或质量差。



增强内存可用性的功能

缺乏可用内存一直是一个问题,奇偶校验等错误检测技术已经存在多年。奇偶校验对于检测单位错误来说简单而有效,但它不能纠正单位错误,因此在服务器中没有广泛使用。幸运的是,有许多可用或新兴的附加功能可以帮助增强内存可靠性。您可能希望考虑以下选项:

•ECC。系统供应商不依赖奇偶校验,而是依赖纠错码 (ECC) 技术。 ECC 基于奇偶校验检查,它使用一种算法为每 64 位内存(每个地址总共 72 位)创建并存储一个 8 位代码。除了检测多位错误并防止系统使用损坏的数据之外,该算法和编码还允许系统实时检测和纠正单位错误。 ECC 通常是许多通用服务器上使用的默认技术,以确保内存可靠性。

•高级ECC。高级ECC将ECC方法扩展到多种存储设备,允许ECC检测并纠正多位故障,只要这些故障发生在同一存储设备中。然而,ECC和高级ECC不支持任何类型的故障转移机制,因此您仍然必须关闭系统(或依靠其他系统技术)来排除有问题的内存模块。许多企业服务器(例如 IBM 或 Dell 的服务器)都提供某种高级 ECC。

•内存错误跟踪。处理内存错误的一个方面是首先密切跟踪它们。新兴的服务器设计开始通过列出错误率和位置列表来密切跟踪可纠正的错误。一些服务器还将错误信息存储在内存模块上的可重写串行存在检测 (SPD) 内存空间中 - 可以读取这些信息以供将来评估和分析。一旦系统可以跟踪可纠正的内存错误并将该信息传输到系统的管理工具,就可以通过记录错误率突然增加的 DIMM 来预测可能的内存故障。错误跟踪是更高级内存可靠性功能的先驱,包括 DIMM 故障转移或在物理内存空间内移动数据。



•热备内存。热备用概念在磁盘存储中很常见,但最近才在服务器设计中流行起来。这是因为在决定将数据移动到备用内存模块之前,系统必须具有一定的智能来识别和跟踪可纠正的内存错误。内存错误跟踪方面的技术进步使服务器的内存控制器能够将数据从存在不可接受错误的 DIMM 移至同一通道中的备用 DIMM。这也称为内存插槽备份(Rank)。这种方法的缺点是需要向服务器添加内存,而在错误发生之前,服务器一直处于低效状态。

•设备标签( )。一种内存故障转移技术是基于 BIOS 的技术,称为设备标记。当系统跟踪错误率增加的内存模块时,系统实际上可以将数据从有问题的内存移动到 ECC 内存,从而有效地将 ECC 内存用作小型热备用。这有望减少内存故障,但同时无法在这部分内存中进行错误检测和纠正。设备标记用作权宜之计,以保持系统运行,直到更换有问题的内存模块。

•内存镜像。完美的内存可靠性技术是将服务器内存的内容从一个通道复制到另一个配对通道。这实际上建立了内存的RAID 1机制。如果一个通道发生内存故障,内存控制器会切换到配对通道,不会产生任何干扰;修复工作完成后(如果需要修复),可以重新同步通道。镜像方式的缺点与存储侧的RAID 1相同;由于内存的内容被复制,存储容量减少了一半,或者说内存成本实际上增加了一倍。

现在,内存在现代虚拟化服务器中发挥着更加关键的作用,解决和减轻内存错误的破坏性影响比以往任何时候都更加重要。 IT 专业人员可以使用越来越多的内存可靠性功能,但他们必须首先更仔细地评估其内存可用性需求,然后才能部署具有满足这些需求的功能的服务器。

【编者推荐】
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|【远见汇智】 ( 京ICP备20013102号-17 )

GMT+8, 2025-5-14 06:35 , Processed in 0.061537 second(s), 20 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表