PCがエラー訂正RAMを使用しないのはなぜですか? 「インテルだから」とLinusは言います


拡大/私たちは過去数年間、より優しくて優しいLinusTorvaldsを楽しんでいます。 。しかし、それは彼が意見を持つのをやめたという意味ではありません。

今週の月曜日、Linuxカーネルの作成者であるLinus Torvaldsは、コンシューマーPCにエラー訂正チェックサム(ECC)RAMがないことについて不満を募らせました。

…「消費者はECCを必要としない」という誤った方向性と逆方向のポリシーにより、ECCメモリの市場は消滅します。

ECCに対する議論は常に完全であり、まったくゴミでした。今では、メモリメーカーでさえ、絶対に必要であるという事実を最終的に所有しているため、内部でECCを実行し始めています。

ECC RAMに精通していない場合は、サーバーグレードのCPUとマザーボードを使用して専用サーバーを構築または指定していないことが原因である可能性があります。実際にECCを見つける唯一の場所。一言で言えば、ECC RAMには、エラーの検出と修正に使用される少量の追加メモリが含まれています。

メモリエラーと確率

最近のほとんどの実装では、これは64ビットごとを意味します。 RAMに格納されているビットワードには、8つのチェックビットがあります。シングルビットエラー(0が1に反転、または1が0に反転)は、自動的に検出および修正できます。同じワードで反転した2ビットは検出できますが、修正できません。同じワードで反転した3つ以上のビットが検出される可能性がありますが、検出は保証されません。

ビット反転は、宇宙線の影響や単純なハードウェア障害など、さまざまな理由で発生する可能性があります。 Googleサーバーの大規模な調査によると、Googleのフリート内のすべてのサーバーの約32%(およびすべてのDIMMの8%)で、1年に少なくとも1つのメモリエラーが発生しています。しかし、これらの大部分はシングルビットエラーです。また、GoogleはサーバーCPUとECC RAMを使用しているため、これは問題のマシンがトラックを正しく維持することを意味します。

詳細

コンシューマーマシンでは、これらのシングルビットエラー(Googleのデータによるとマルチビットエラーよりも40倍以上発生する可能性が高い)でさえ検出されず、導入される可能性があります。システムの不安定性とデータの破損。

ビットフリップが常に偶発的であるとは限りません

すべてのRAMエラーがハードウェア障害または意図しないEMF問題の結果であるとは限りません。近年、研究者は、1つのアプリケーションがアクセスできるRAMの領域で制御された高速ビットフリップを使用して、RAMの隣接する領域のデータの値を推測または変更することにより、ますます実用的な物理ベースのサイドチャネル攻撃を開発しました。 。

ECC RAMは、隣接するメモリの値を推測するRAMBleedスタイルの攻撃を軽減することはできませんが、通常、RAMの1つの領域のビットをすばやく反転させると、隣接する領域のビットが変化するRowhammer攻撃を阻止できます。

ECCがRowhammer攻撃がシステムに影響を与えるのを積極的に防ぐことができない場合でも(たとえば、1ワードの複数のビットを反転する場合)、少なくともシステムに問題を警告できます。ほとんどの場合、Rowhammer攻撃がダウンタイムを引き起こす以外のことをしないようにします(ほとんどのECCシステムは、修正不可能なエラーが検出された場合にマシン全体を停止するように構成されています)。

TorvaldsはIntelを非難します

およびメモリメーカーc経済性と低電力のためです。そして、彼らは嘘をついている。これらの問題がすでに数世代にわたってどのように存在していたかについて、もう一度ロウハンマーを指摘させてください。しかし、これらのファッカーは壊れたハードウェアを消費者に喜んで販売し、それが常に「攻撃」であったと主張しました。 「私たちは「手抜きをしている」。

実際の非攻撃負荷での純粋な不運だけで、ビットフリップのようなロウハンマーが何回発生したかはわかりません。Intelがたわごとを推し進めていたからです。

Torvaldsは、消費者向けテクノロジーにECC RAMがないことは、同社の人工的なポリシーによるIntelの責任であるという大胆な立場を取っています。市場の細分化。インテルは、資金力のあるビジネスを、必然的に利益率の低い消費者向け部品を効果的に使用させるのではなく、より高価で収益性の高いサーバーグレードのCPUに向けて推進することに強い関心を持っています。

サポートの削除サーバーの世界を直接ターゲットにしていないCPUからのECCRAMの場合、Intelがそれらを維持している方法の1つです。市場は強くセグメント化されています。ここでのTorvaldsの主張は、Intelが消費者向けの部分でECC RAMをサポートすることを拒否したことと、そのスペースでの事実上のほぼ独占が、ECCがサーバースペースの外でほとんど利用できない本当の理由であるということです。

広告

消費者向けテクノロジーにECCが存在しない理由についての通常の議論はコストを中心に展開しますが、ここではTorvaldsがその権利を持っていると思われます。 ECC RAMは本質的に見つけるのが難しい特殊部品ですが、通常、小売店で非ECCよりもDIMMあたりのコストが約20%高くなります。本当の問題は、ECC RAMをサポートするマザーボードとCPUがないと、コストがかからないことです。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です