固态硬盘市场五花八门:从廉价、性能平平的入门款,到耐用性极高、延迟极低却价格不菲的高端型号,选择多到让人眼花。对数据中心管理者而言,采购时往往要同时应对市场供货、预算、性能规格和迫切的上线需求等多重压力。但选对硬盘,从来不是"挑个最低价"或"在规格表里找跑分最高的那块"这么简单。
我们和数百位客户、经销商及 OEM 制造商聊过他们的选盘思路,也因此听到不少颇有意思的"翻车"案例。结合这些经验,我们梳理出企业为数据中心选盘时最常犯的四个错误。
错误一:拿消费级当企业级用
这听起来像常识,但最常见的失误恰恰是用消费级产品顶替企业级。原因不外乎几点:价格更低、品牌更眼熟、拆换策略通用、随处都能买到。问题在于,消费级产品和企业级有本质区别——极少有消费级硬盘是为高强度、7×24 小时不间断运行而设计的。

企业级硬盘会在企业平台上验证,也就是带 RAID 控制器的服务器,而非桌面环境。事实上,没在企业平台上测试过的硬盘,装上去时甚至可能根本无法被识别。消费级硬盘起初也许运行正常,可一旦你部署成百上千块,就会发现它们根本扛不住长时间运行的企业级应用。
此外,新一代客户端硬盘往往采用特殊的缓存机制——动态重配 NAND,把一部分闪存挪去做缓存。说白了,在 RAID 配置里塞客户端硬盘再跑重载工作负载,等于自找麻烦。
这种做法对压低采购成本或许有点甜头,可真要在全企业范围铺开就相当危险。如今的硬盘都是按应用场景定制的,一旦用错场景,技术问题只会更多。更糟的是,在企业应用里用客户端固态硬盘出了问题,几乎不可能从厂商那里拿到支持。
错误二:选错耐用性等级或读写密集度
没人会因为买了"用不坏"的固态硬盘被炒鱿鱼,但人们确实容易高估自己的写入需求——因为估算时还在沿用"240GB 和 1TB 硬盘都按 1DWPD 算"这类老经验。为真实的企业应用选对耐用性等级,会直接影响系统的 BOM 成本。
不同环境的读写密集度差别也很大。如果你的应用读多写少(比如点播流媒体或数据库仓储),却买了写入耐用性很高的硬盘,那就是花钱买了用不上的规格。反过来,给数据库日志或缓存服务挑读取密集型硬盘也不合适,因为这类是典型的写入密集场景。
在"用满全部容量"还是"预留空间(OP,Over-Provisioning)"之间取舍时,耐用性问题同样会冒头。如果买的是可写满 250GB / 500GB / 1TB 全容量的硬盘,你会损失性能:一旦容量用到约 90%,数据必须先彻底擦除再覆写,这会拖累随机读写和延迟,造成性能大幅下滑。而采用带 OP 的硬盘,大部分删除/重写能在干净状态下完成,因为擦除动作发生在预留空间内,不会波及应用性能。
错误三:用错误的脚本测试,且忽视负面测试
评估硬盘有两条路:要么直接信厂商规格表,要么用你自己的真实配置和测试脚本去实测。如果只信规格,你永远不会知道那些最高值或平均值是怎么测出来的,更不知道这块盘是否真的适合你的工作环境。因此我们建议:先用你专属的基准测试跑一轮,再决定大规模采购。
我们在多个服务器平台、配合第三方或 OEM 的多种 RAID 控制器对企业级产品做验证,通过一整套严格的兼容性、IO 性能、延迟和寿命测试来考核硬盘,并评估各扇区之间的一致性。客户端硬盘的测试模式根本不会跑这些项目,因为大多数客户端盘只盯着"在单处理器、单应用下表现良好"这一点。
我们还会动用各种不同的脚本和数据集。在记录性能数据之前,会对固态硬盘做较长时间的预处理(preconditioning),确保硬盘进入稳定状态后再测。我们测的是整块盘,而不是只取其中一段,然后公布真实结果。IOPS 和延迟以较短间隔采样(每次 I/O 或每 ½ 秒一次,用于获取 QoS 指标);而客户端硬盘的采样间隔可能长达 5 秒,这会扭曲真实的性能表现。
错误四:图便宜,不买靠谱品牌的固态硬盘
我们曾听说一家大型电影制片厂,仅仅因为某些高管发现了便宜货,就直接从消费电商平台下单买盘。但如果你不通过可靠的企业级渠道经销商采购,很可能反受其害——从面向消费者的零售电商买货,拿到杂牌产品、或买到与预期不符的设备,都不是稀奇事。
多数渠道经销商、乃至制造商本身,都设有专门团队帮你为特定应用找最合适的方案。有时是市场上的现成产品,他们不仅卖盘,还在出问题时提供工程级的直接支持;有时你需要的是为定制系统专门挑选的组件,这时让你的工程师与制造商直接对话,更有助于厘清真实工况、数据过度消耗,以及系统中针对特定应用的限制因素。
几年前,有家定制服务器厂商图便宜,用 24 块杂牌消费级硬盘在一个系统里组 RAID。他们的算盘是:盘这么便宜,坏了拆下来换新的就行。头一年半还算正常,可之后开始每周坏 7 到 10 块。到某个临界点,贪便宜的杂牌盘就会适得其反——以这种频率换盘,零散成本越积越多,最终把总成本推高。
这家公司后来改用了可靠的企业级固态硬盘,很快就在使用寿命、性能和厂商直接支持上尝到甜头。借助与供应商打通的工程沟通渠道,他们能更有底气地快速排障,也能在硬盘停产、召回或新一代产品发布时规避供应风险。
小结:先搞清需求,再去找盘
弄清这些常见错误之后,我们就能尽量避开它们。现成产品随时可以采购,但花点时间真正摸清自己的需求,再去匹配合适的固态硬盘,长期来看才最划算。