Proč počítače nepoužívají opravu chyb RAM? „Protože Intel,“ říká Linus


Zvětšit / Posledních pár let jsme si užívali laskavějšího, jemnějšího Linuse Torvaldse. … ale to neznamená, že přestal mít názory.

Toto pondělí vytvořil tvůrce linuxového jádra Linus Torvalds frustrovaný chvástat o nedostatku RAM pro kontrolu chyb (ECC) RAM ve spotřebitelských počítačích a notebooky.

… zavádějící a zadek politika „spotřebitelů nepotřebuje ECC“, trh s pamětí ECC zmizí.

Argumenty proti ECC byly vždy úplné a naprosté nesmysly. Nyní dokonce i výrobci paměti začínají dělat ECC interně, protože nakonec vlastnili až do té míry, že to absolutně musí.

Pokud nejste obeznámeni s pamětí ECC RAM, je to pravděpodobně proto, že nevytváříte ani nešpecifikujete dedikované servery využívající CPU a základní desky serverové kvality – což bohužel je o jediné místo, kde skutečně najdete ECC. Stručně řečeno, ECC RAM obsahuje malé množství extra paměti používané k detekci a opravě chyb.

Chyby a pravděpodobnost paměti

Ve většině moderních implementací to znamená pro každých 64 bitové slovo uložené v RAM, existuje osm kontrolních bitů. Jednobitovou chybu – 0 převrácenou na 1 nebo 1 převrácenou na 0 – lze detekovat a opravovat automaticky. Dva bity převrácené ve stejném slově mohou být detekovány, ale neopraveny. Pravděpodobně budou detekovány tři nebo více bitů převrácených ve stejném slově, ale detekce není zaručena.

Bitové převrácení může nastat z mnoha důvodů, počínaje dopadem kosmického záření nebo jednoduchým selháním hardwaru. Rozsáhlá studie serverů Google zjistila, že zhruba 32 procent všech serverů (a 8 procent všech DIMM) ve flotile Google zaznamenává alespoň jednu chybu paměti ročně. Ale naprostá většina z nich jsou jednobitové chyby – a protože Google používá CPU serverů a ECC RAM, znamená to, že dotyčné stroje udržují správné dopravní prostředky.

Zobrazit více

Ve spotřebitelských počítačích zůstávají i tyto jednobitové chyby – které jsou podle údajů Google více než 40krát pravděpodobnější než vícebitové chyby – nezjištěné nestabilita v systémech a poškození dat.

Bitové převrácení není vždy náhodné

Ne každá chyba paměti RAM je výsledkem selhání hardwaru nebo neúmyslného problému EMF. V posledních letech vyvinuli vědci stále praktičtější útoky na boční kanály založené na fyzice, využívající řízené, rychlé bitové převrácení v oblastech RAM přístupných jedné aplikaci k odvození nebo úpravě hodnot dat v sousedních oblastech RAM, které by neměli být schopni .

Ačkoli ECC RAM nemůže „zmírnit útoky typu RAMBleed, které odvozují hodnoty přilehlé paměti, může obecně zastavit útoky Rowhammeru – kdy rychle převrácené bity v jedné oblasti RAM způsobí změnu bitů v sousední oblasti.

I když ECC nemůže aktivně zabránit útoku Rowhammerů na dopad na systém – například když převrátí více bitů jedním slovem – může alespoň upozornit systém na problém a v ve většině případů zabraňte útoku Rowhammerů v tom, že neudělá nic jiného než způsobí prostoje. (Většina systémů ECC je nakonfigurována tak, aby zastavila celý stroj, pokud bude zjištěna neopravitelná chyba.)

Torvalds viní Intel

A výrobci paměti c omezit to kvůli ekonomice a nižší síle. A oni lžou bastardi – dovolte mi ještě jednou poukázat na kladivo o tom, jak tyto problémy existují již několik generací, ale tito f * ckři šťastně prodávali rozbitý hardware zákazníkům a tvrdili, že to byl „útok“, když to vždy bylo „my řešíme rohy.“

Kolikrát se stalo kladivo jako bit-flip jen čistou smůlou na skutečné neútočné zatížení? Nikdy se to nedozvíme. Protože Intel tlačil do prdele spotřebitelům.

Torvalds zaujímá odvážné stanovisko, že nedostatek paměti ECC RAM ve spotřebitelské technologii je chybou společnosti Intel kvůli politice společnosti umělé segmentace trhu. Společnost Intel má skutečný zájem tlačit podniky s hlubšími kapsami směrem k dražším – a ziskovějším – procesorům na serverové úrovni, než aby těmto entitám umožnila efektivně využívat spotřební součásti s nutně nižší marží. pro ECC RAM z procesorů, které nejsou zaměřeny přímo na svět serverů, je jedním ze způsobů, jak si Intel tyhle zachoval trhy silně segmentované. Argumentem Torvaldse je, že odmítnutí společnosti Intel podporovat ECC RAM v jeho částech zaměřených na spotřebitele – spolu s de facto téměř monopolem v tomto prostoru – je skutečným důvodem, proč je ECC mimo serverový prostor téměř nedostupný.

Reklama

Obvyklý argument, proč ECC není ve spotřebitelské technice, se točí kolem nákladů, ale máme podezření, že zde má Torvalds na to právo. Přestože je ECC RAM v zásadě těžko vyhledatelnou speciální částí, stojí obvykle na DIMM jen o 20 procent více než jiné než ECC v maloobchodu. Skutečným problémem je, že bez základních desek a procesorů, které ji podporují, to nebude jste v pořádku.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *