电脑出现软错误与硬错误故障
据了解,所谓的“软错误”和“硬错误”对于普通的电脑用户来说,“软错误”的世界是一个黑暗区域,下一代电脑芯片的科学家很担心这个问题,因其与功率有关;而与“软错误”相比,硬件厂商提及“硬错误”问题的频率甚至更低。当你电脑崩溃时,通常是故障软件的问题。一直以为电脑科学家开始将审视的目光投向硬件故障。他们认识到问题在于,另一种类型的电脑问题出现硬件故障的频率要更高。业内人士认为“软错误”(soft error)问题,也就是指由构成地球低强度背景辐射的核粒子引起的芯片内部电荷贮存状态的改变,这种改变虽然不会对芯片产生有形损坏,但将产生错误数据并造成设备的临时故障。晶体管的尺寸不断变小令每个晶体管本身对背景辐射的影响更加敏感,而芯片复杂性的大幅度提高也意味着芯片上某一部分遭受一个软错误的影响的机率大幅提高。
由于某种原因“软错误”只是问题的一部分内容。在过去一些研究人员已经对某些非常巨大的电脑系统进行了严格的检查;认识到在许多情况下,我们所使用的电脑硬件确实就是会损坏。热量或是制造缺陷会导致部件随着时间的推移而磨损,导致电子从一个晶体管渗漏到另一个晶体管,或是导致旨在传输电流的芯片出现故障。这些就是所谓的“硬错误”(hard error)。“软错误”的世界是一个黑暗区域。芯片厂商不喜欢谈论他们的产品出故障的频率,认为这种信息是一种自有的秘密,而普通用户也很难看到好的研究报告。“软错误”是个问题,但硬件厂商提及另一个问题的频率甚至更低。据多伦多大学的一个研究人员团队称,当电脑的DRAM(动态随机存取存储器)出故障时,更有可能是硬件老化或是制造缺陷(也就是“硬错误”)的问题,而不是“软错误”的问题。
在一些电脑系统中,DRAM故障率基本上都是相同的,在DRAM存储芯片中,“硬错误”出现的频率要高于“软错误”。但跟英特尔一样,AMD的研究人员也并未发布有关一般用途微处理器SRAM(静态随机存储器)的任何研究结果。如芯片厂商需要更严肃地对待“硬错误”的问题。当今的高端芯片会使用各种技巧,比如说是错误纠正代码等——来补救“软错误”,但在处理“硬错误”的问题上则做得不够好。而且,这所导致的问题比大多数人所认识到的问题都更多一些。高端超级电脑可能拥有错误纠正代码来修复“软错误”,但对个人电脑来说则并非如此。“大多数移动设备和消费者级别的笔记本和台式机都没有错误纠正代码,其部分原因在于错误模型一直都是DRAM中的错误主要是由‘软错误’造成的。”
而后收集谷歌的数据中心信息,其内容与谷歌特制的Linux系统的故障频率有关。与发现的故障数量远远超出预期;而且,大约8%的谷歌存储芯片需为90%的问题负责。有些时候,每几分钟就会发生一次故障。在进行过更加严密的检查以后,发现那些故障看起来是集中在电脑存储芯片的特定区域中的,而且倾向于在年头更老的电脑中发生。所发现的问题是“硬错误”,而不是“软错误”;而且,这些问题的严重性要远远超出研究人员的预期。
文章作者:auq2010
本文地址:http://www.jiangqingbo.com/305.html
版权所有 © 转载时必须以链接形式注明作者和原始出处!