AIインフラにおいてハードドライブが今も重要である理由

多くの人がAIインフラと聞くと、話題はたいていGPU、High Bandwidth Memory(HBM)、あるいは超高速のソリッドステートストレージに向かいます。人工知能はすべて最先端のハードウェア上で動いていて、あらゆるものがナノ秒や毎秒テラバイト単位で語られる、というイメージです。

その見方は間違ってはいません。ただ、完全ではありません。

AIインフラにおいてハードドライブが今も重要である理由

実際には、現代のAIシステムはいまもデータセンターで最も古い技術のひとつに大きく依存しています。それが機械式ハードドライブです。

これは少し奇妙に聞こえるかもしれません。以前の記事 NANDはなくならないが、AIサーバーはもはやフラッシュだけに依存していない では、AIサーバーが従来のフラッシュメモリだけでは足りなくなっていることを取り上げました。また、High Bandwidth Memory(HBM) のような技術が、GPUのボトルネックを避けるために、AIシステムへ十分な速さでデータを供給するうえで重要になっている理由も説明しました。

しかし、この話にはあまり注目されない別の側面があります。それは、純粋なスケールです。

AIに必要なのは、高速なストレージだけではありません。AIには、ほとんど想像しにくいほど大量のストレージが必要です。

そして、その容量を業界が現実的に支えられるコストで提供できる技術は、今でもハードドライブしかありません。

AIストレージ階層を理解する

現代のAIインフラを理解するいちばん簡単な方法は、1台のコンピュータとして考えるのをやめ、ひとつの大きな物流システムとして考えることです。

HBMは、データが驚くほど高速に移動する荷受け場のような役割を果たします。DRAMは、情報が絶えず処理される作業スペースのようなものです。NANDフラッシュは、すぐ近くにある棚に近く、高速アクセスが重要でありながら、長期的な保持も必要になってくる場所です。

一方、ハードドライブは倉庫です。

作業の中でいちばん派手な部分ではありません。最速でもありません。しかし、間違いなく最も大きな部分です。

技術 一般的な容量 主な強み AIでの主な役割
HBM 80GB〜192GB 極めて高い帯域幅 GPUによるアクティブな計算
DRAM 数百GB 低レイテンシ 作業メモリ
NAND SSD 複数TB 高速な永続ストレージ データセットのステージングとキャッシュ
ハードドライブ ペタバイトからエクサバイト 容量効率 大量保存とアーカイブ

この違いが重要なのは、AIのトレーニングシステムが、通常のコンピューティングではほとんどの人が経験しない規模でデータを消費するからです。

一般的なノートパソコンなら、数テラバイトのデータを保存できるかもしれません。高性能なワークステーションでも、せいぜい数十テラバイト程度でしょう。AIインフラは、その何桁も上の規模で動いています。

一般的なノートパソコンがテラバイト単位で考える一方で、AIクラスターはエクサバイト単位で考えます。

1エクサバイトは、100万テラバイトに相当します。

現代のエンタープライズ向けハードドライブが30TBを保存できるとしても、1エクサバイトの生容量を構築するには、3万3,000台を超えるハードドライブが必要になります。

大規模なAI事業者は、1エクサバイトだけを構築しているわけではありません。地域ごと、冗長化レイヤーごと、トレーニング環境、バックアップシステム、アーカイブストレージにまたがって、複数のエクサバイトを構築しています。

エクサバイト問題

大規模言語モデルのトレーニングには、テキスト、画像、動画、テレメトリ、チェックポイント、保存されたトレーニング状態など、ペタバイト規模のデータが関わります。いったん収集されたデータセットは、ほとんど削除されません。モデルが再トレーニングされ、改良され、拡張されるたびに、データは増え続けます。

AIトレーニング中、システムは継続的にチェックポイントを作成します。これは、モデルが学習している途中の巨大な保存状態のようなものです。数週間にわたるトレーニングの途中でクラスターに障害が発生した場合、そのチェックポイントが、数百万ドル分の計算時間を失わずに済む唯一の手段になることがあります。

つまり、ストレージインフラは単なる速度の問題ではなく、巨大なアクセス可能データプールを維持する問題になっているのです。

ここで、ハードドライブは静かに支配的な役割を保っています。

2010年当時、2TBのハードドライブは非常に大きく感じられました。エンタープライズ環境では300GBや600GBのSASドライブが一般的に使われ、数テラバイトを超えるものはプレミアム容量と見なされていました。

現在では、24TBや30TBのエンタープライズ向けハードドライブが、大規模データセンター内で標準的に導入されつつあります。メーカーはすでに、HAMR(Heat-Assisted Magnetic Recording)などの技術を使って40TB超のドライブをテストしています。これは、ドライブ自体の物理サイズを大きくせずに面記録密度を高める技術です。

この成長をわかりやすく言えば、現代のストレージラック1台だけで、2010年当時の中規模エンタープライズデータセンター全体よりも多くのデータを収められるようになっています。

それほどまでに、ストレージ需要は劇的に変化しました。

そしてAIは、その大きな理由のひとつです。

AIは速度だけで動いているわけではない

AIに関する一般的な議論は、GPUに集中しがちです。GPUは目に見える仕事をするからです。答えを生成し、画像を作り、トークンを処理します。

ストレージは、その知能パイプライン自体を保持するという、見えにくい仕事を担っています。

GPUは、膨大なトレーニングデータへ継続的にアクセスできて初めて役に立ちます。

そのデータは、どこかに存在していなければなりません。

HBMの中ではありません。DRAMの中でもありません。そして、高価なNANDストレージ層だけにすべて置くわけにもいきません。

そのデータの多くは、大規模なハードドライブインフラ上に存在しています。

現代のAIデータセンターには、数百ペタバイトの保存データが含まれることがあります。一部のハイパースケール環境では、それをはるかに超えてエクサバイト規模のアーキテクチャに達している可能性があります。これらすべてをNANDフラッシュだけに保存しようとすれば、最大手のクラウドプロバイダーであっても、財務的に現実的ではありません。

AIハードウェアを語るとき、多くの人が見落としているのはこの部分です。

性能は重要です。しかし、経済性も同じくらい重要です。

業界はIOPSやベンチマークの数字を宣伝するのが好きですが、大規模AI導入は最終的に総所有コストによって制約されます。

ハードドライブは、大規模導入において今も最も低いテラバイト単価を提供しています。また、コールドデータ、アーカイブ済みデータセット、バックアップスナップショット、モデルチェックポイント、ナノ秒単位のアクセス時間を必要としない大量のトレーニング情報を保存するうえで、非常に効率的です。

なぜハードドライブはAIでもまだ使えるのか

ここで、もうひとつ解消しておきたい誤解があります。多くの人は、ハードドライブはAI環境では使いものにならないほど遅いと思いがちです。

それは完全には正しくありません。

単体のハードドライブは、DRAMやNANDフラッシュと比べれば確かに遅いです。しかしAIデータセンターは、単体のドライブで動いているわけではありません。数千台のディスクに同時並列アクセスする、巨大なストレージアレイで運用されています。

さらに重要なのは、多くのAIワークロードが、小さなランダムトランザクションではなく、大規模データセットのシーケンシャルストリーミングを伴うことです。シーケンシャルワークロードは、現代のエンタープライズ向けハードドライブアレイが今でも意外なほど得意とする分野です。

言い換えると、AIインフラが常に「可能な限り最速のストレージは何か?」と尋ねているわけではありません。

ときには、こう尋ねているのです。

会社を破産させずに500ペタバイトを保存する、現実的に最速の方法は何か?

これは、まったく別のエンジニアリング課題です。

AIインフラは階層化されたメモリエコシステムになりつつある

このことは、新しい技術が古い技術を完全に置き換えるのではなく、AIシステムの中に階層として追加されている理由も説明しています。

ストレージクラスメモリ:DRAMとNANDの間にある欠けた層 についての記事では、業界が速度、永続性、経済性のバランスを取るために、中間レイヤーを作り続けていることを説明しました。

また、NANDがメモリに近い性能へ近づこうとしている流れについては、High Bandwidth Flash:NANDはついにメモリのように振る舞えるのか でも取り上げました。

AIインフラは、まさにそのような階層化されたメモリエコシステムになりつつあります。

HBMは即時の計算を処理します。DRAMはアクティブなワークロードを管理します。NANDフラッシュは高速な永続ストレージ処理を受け持ちます。ストレージクラス技術はレイテンシの隙間を埋めようとします。そしてハードドライブは、そのすべての下にある巨大な容量基盤を提供します。

AIストレージの未来は、ひとつの技術が別の技術を置き換えることではありません。

複数の技術が積み重なっていくことです。なぜなら、どの単一のメモリ技術も、すべての問題をうまく解決できるわけではないからです。

これが、今日のAIインフラをめぐる最大の誤解かもしれません。人々は、新しい技術が出れば古い技術は自動的に消えると考えがちです。

しかし、コンピューティングの歴史は、めったにそのようには進みません。

ハードドライブがSSDの登場後も生き残ったのは、世界がフラッシュ価格の下落よりも速くデータを生み出し続けたからです。そして今、AIがその流れをさらに加速させています。生成され、保持され、コピーされ、再トレーニングに使われる情報量は爆発的に増えており、容量そのものが戦略的資源になっています。

皮肉なことに、AIが高度になるほど、それを支える大規模ストレージインフラの重要性も増していきます。

つまり、データセンターで最も古い技術のひとつが、多くの人の予想よりもはるかに長く、AIにおいて重要な役割を果たし続ける可能性があるのです。


編集部注:この記事は、GetUSB.infoが公開しているAIインフラとメモリアーキテクチャに関する継続シリーズの一部です。記事は、構成と読みやすさのためにAI支援の編集サポートを用いて調査・執筆され、その後、技術的正確性、連続性、明確さを確認するためにGetUSB編集チームがレビューし、調整しました。

この記事で使用している画像は、GetUSB.infoチームが撮影したオリジナル写真であり、ストック写真ではありません。