现在,我们描述了硬件亚病房故障的外部根本原因,例如温度变化,电源不足,环境条件和配置错误。这些外部原因会使故障排除复杂,因为症状可能不确定,并且只能在同一在线场景中复制,但在离线(办公室)测试中无法观察到。
5.1温度
为了使温度保持正常运行,风扇或散热器必须正常工作。这是监视工具未检测到的温度变化的根本原因。
空气过滤器堵塞:在一份报告中,空气滤清器堵塞会导致开关中的光学组件由于高温而开始故障,导致数据包损耗率最高为10%。清洁空气过滤器后,开关恢复正常速度,但仅暂时恢复。高温可能损坏了开关的内部组件。
寒冷的环境:寒冷的温度也会导致较低的健康失败[19]。在一个部署中,一些磁盘输入读取第一和写模式。检查后,计算机室具有“地板地板冷空气”系统,过去更常见。机架底部的磁盘的性能率很高。这表明温度变化也可能源于部署环境。
风扇损坏:风扇等冷却系统有时会整体工作,而不是一个人。在某种情况下,计算节点中的风扇停止工作,并且为了补偿这个故障的风扇,其他计算节点中的风扇开始以最大的速度运行,这会产生严重的噪音和振动,从而降低了磁盘性能。同样,这是级联例外根本原因的一个例子(第3.4节)。
风扇固件问题:风扇完全工作,但其速度由风扇固件控制。在一种情况下,当CPU密集型工作运行时,粉丝固件反应不够快,因此CPU进入热节流(降低速度)之前,在风扇有机会冷却CPU之前。
不正确的设计/组装/操作:故事之一是自定义主板设计为“坏”,并使NIC在CPU和内存后面的主板上焊接。 CPU的热量会影响NIC,导致许多数据包错误和重试。在另一个相关的故事中,CPU HeatSink由于组装差而无法与CPU进行物理接触,从而导致许多节点过热。在另一种情况下,新磁盘被插入带有“非常旧”风扇的计算机中。风扇无法为较新的磁盘提供足够的冷却,从而导致磁盘缓慢运行。
5.2电源
电源不足很容易触发硬件的次卫生旋转桌。这是电源不足的根本原因。
电容器不足:在定制的主板设计中,主板电源控制逻辑上的电容器不能在特定负载下为CPU提供足够的电压。这使处理器不符合规格,从而导致损坏和重新计算。由于无法可靠地重现该问题,因此诊断时间为几个月。为了解决这个问题,在现场成千上万的节点中添加了一个小电容器。在类似的情况下,导致电压下降的电容器也不足,但仅当多个核心同时从平静到性能状态改善时才发生(极端情况)。因此,对更新的BIOS和软件的独立测试没有再现该问题。
PCU固件错误:在一种情况下,电源控制单元(PCU)的固件进入“怪异”状态,无法提供足够的电源,并且整个机架无法关闭电源控制。这是一个暂时的故障,有时可以通过重置控制器,有时会刷新固件来修复,并且在极少数情况下更改PCU。
部分电源故障:在一次部署中,每四个机器都会共享一个电源。但是,当一个电源失败时,没有足够的电源以正常容量运行所有四台机器,因此每台机器上的CPU受到50%的限制。当这些计算机用于索引服务时,问题就会出现,无法跟上请求的数量。这个问题花了几天时间才能解决,因为操作员无法理解电源的健康状况。这个问题也很有趣,因为两个电源并不意味着一个是一个完全有效的备用电源,而降低的电源足以保持机器运行。
功耗邻居:某些节点的运行缓慢,因为同一机架中的其他节点会消耗大量功率,从而导致机架电源不稳定和架子各个部分的电源降低。它花了几个月的时间来诊断此问题,因为它不是源于慢速机器,并且只有在相邻节点上运行功率消耗的应用程序时才发生。
主板传感器错误:在延长较慢的机器的调试后,操作员发现主板上有传感器故障,向操作系统报告了故障值,从而导致操作系统配置CPU以节能模式下以较慢的速度运行。
5.3环境
如下所示,各种环境条件可能会导致硬件中的次卫生故障。
高度引起的重大事件:我们收集的最有趣的报告之一是在7500英尺的高度部署。在此高度,一些CPU会变热并输入热节流(性能降低)。显然,故障不在CPU上,而是在供应商的冷却设计中,在如此高的海拔高度上不能提供足够的冷却。在另一个仍处于相同高度的报告中,一些内存系统经历了比平时更频繁的多位故障(ECC检查和维修),然后将其运回供应商,并配备了更多的内存保护。
松散的互连:松散的网络电缆和挤压纤维会导致网络延迟高达数百毫秒,从而导致存储簇的表现异常。由于症状不确定,诊断问题需要几天。电缆松动/挤出的原因可能是振动或人为因素。在其他情况下,SSD和PCIE插槽之间的PCIE连接松动会导致设备驱动程序层重试多次重试操作。在另一个故事中,当操作员急于维修机器时,NVDIMM未正确插入。尽管速度要低得多,但机器仍然可以正常工作。
振荡:部署在机架中时,有些磁盘驱动器降至100 kb/s,但在办公室进行测试时,驱动器最多可达100 mb/s。显然,节点周围的底盘风扇故障会引起这种强大的振动,使驱动器进入恢复模式。解决方案是在八个硬盘螺钉中的每一个中添加减震器,并在所有节点中更换大约10%的系统风扇。
环境和操作条件不匹配:在一种机制中,根据已发布的时钟频率,温度范围和电压范围正确配置系统。但是,由于未知的环境条件,它不能最佳地工作,解决方案是稍微降低时钟,将软件监视器放在处理器温度和电压上,如果电压/温度接近拳击值的边缘(即,死节点比慢节点更好),则杀死节点。由于无法可靠繁殖,诊断时间为几个月。在另一种情况下,开关环境不支持“跳帧”,从而导致10 Gbps吞吐量网络的吞吐量较低。修复程序是将MTU大小重新配置为1500字节。
未知原因:在一份有趣的报告中,所有独立驱动器中的所有独立驱动器同时报告了数十亿个SAS错误,持续了五分钟。报告说,这发生在技术人员在另一台机器上进行维护时。
5.4配置
尽管硬件通常以默认配置运行,但当今的硬件具有允许配置参数的“旋钮”。可以通过手动操作员或软件/固件层(例如BIOS)修改此类配置。在我们的发现中,硬件中的亚卫生失败可能是由以下错误配置引起的。
有缺陷的BIOS固件:在组织中,其中一个系统通常每分钟获得28亿个值,但是价值写作时间增加了一段时间,并且在开始的几分钟内处理所有值需要一分钟以上的时间。操作员添加了更多节点(认为这将平衡负载按请求峰取得平衡)。与直觉相反,添加更多节点会增加写入时间。诊断持续了一个月。根本原因是,BIOS在添加到数据库群集中的新机器的CPU上进行了错误的时钟关闭。这些机器向前“ lim”,但分配了相同数量的负载(例如带有正确时钟的机器)。类似地,如其他地方所述[16,§3.6],有缺陷的初始化配置也禁用处理器缓存。
人为错误:关于SSD连接,并非所有PCIE插槽都具有相同数量的通道。当将PCIE卡映射到具有不同频道的PCIE插槽时,人类操作员偶尔会遇到错误,这导致完整连接的带宽利用率不足。在另一种情况下,在Xtnird.ini中设置的参数不正确。这是通过Infiniband管理高速网络(HSN)的网络配置,该网络无法正确设置,从而导致网络在节流。关于配置错误,有很多相关的工作[5,42]。我们认为,还有更多的配置错误可能导致硬件故障在生产日志中未记录。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请联系本站,一经查实,本站将立刻删除。如若转载,请注明出处:http://www.cclywdj.com/html/tiyuwenda/7625.html