「原因不明のエラー」の原因
2000年、銀行のオンラインシステムなどに使われる、ある高性能サーバーに重大なトラブルが発生した。痕跡が残らず「原因不明のエラー」として片付けられていたその原因が、半導体ソフトエラー(soft error)という、放射線によってLSI(large scale integration 大規模集積回路)のデータが一時的に書き換えられてしまう現象であることがわかり、これを機に、半導体やコンピューターのメーカーが問題視するようになった。ソフトエラーはどのように起きる?
ソフトエラーを引き起こす主な放射線は、α線と中性子である。α線はLSIのパッケージ材料などにもともと含まれる微量のウランやトリウムなどから放出されるもので、中性子は宇宙から地上に降り注ぐ宇宙線に含まれている。α線が物質の中を通過すると、その飛跡に沿って、-の電荷をもつ電子と+の電荷をもつ正孔のペアを作る。そのときトランジスタの近くで発生した電子が、電界を受けて移動して端子部に収集されると、ソフトエラーノイズが発生する。このノイズの電荷量が、データを保持するために必要な臨界電荷量を超えると、“0”と“1”で表されたデータが反転してソフトエラーを引き起こす。最先端SRAM(static random access memory “AND”“OR”“NOT”などの演算処理を行う論理回路のデータを一時記録する高速メモリー)の臨界電荷量は約1fC(フェムトクーロン:1000兆分の1C)で、これは電子約6000個分に相当するが、ウランが放出するα線は約100万個の電子を発生し、その一部が収集されるだけでソフトエラーが発生することになる。
中性子は電荷をもたず、大部分はLSIを通り抜けるが、わずかな確率で半導体のシリコン原子核と原子核反応を起こして、さまざまな粒子を発生させ、その中の荷電粒子がソフトエラーを引き起こす。1980年代に問題となったα線によるDRAM(dynamic random access memory 比較的簡単な構造の主記憶装置向けメモリー)のソフトエラーは、材料中の放射性不純物の徹底除去で解決したため、90年代以降、宇宙線がソフトエラーの主要因となっている。
ソフトエラーのリスクが広がる
LSIの微細化とともにトランジスタの臨界電荷量が小さくなるため、ソフトエラー発生率(SER:soft error rate)は増大する傾向にある。さらに最近では、論理回路のロジックLSIでもこの問題が顕在化してきた。論理回路内で発生したソフトエラーノイズは、回路内を伝播し、データ保持回路の入力時にクロック(複数の回路の同期をとるために一定のリズムを刻む周期信号)と同期すると、保持データにエラーが発生する。このエラーはクロック周波数が高くなるほど増加する。現在、マイクロプロセッサーでこのタイプのソフトエラーが問題となり、高性能サーバーをはじめ、パソコンのような民生機器にも影響が及んできた。さまざまな電子機器がネットワークを介して無数に接続されている現在、ある機器で発生したソフトエラーが、ネットワークを伝播して他の機器に悪影響を及ぼす危険性もある。
対策のためには評価が必要
ソフトエラーの発生率は半導体の加工工程やデバイス構造によって大きく変わるので、対策を講じるためには評価が重要となる。評価法は、(1)1000個程度のLSIを実際に数カ月間動作させて発生率を測定するフィールド試験、(2)高エネルギー粒子加速器で生成される中性子ビームを照射して発生率を測定する加速試験、(3)原子核反応のシミュレーターをもとにLSIの構造を考慮して発生率を計算するシミュレーションの3通りがあり、組み合わせて評価を行う。どのような対策が可能か?
宇宙線中性子は数mのコンクリートさえ通り抜けるため、機器自体をシールドすることは容易ではない。しかし現在、機器を構成するさまざまな段階での対策が可能となっている。デバイスレベルの対策としては、トランジスタに付加キャパシタ(蓄電部)を付けて臨界電荷量を大きくする方法がある。また、SOI(silicon on insulator 半導体デバイスのチャンネル部の下を絶縁膜で覆う)構造では、絶縁体層で発生した電子が移動できないため、効果がある。回路レベルでは、エラー訂正回路(ECC:error correction code)がメモリーには有効である。論理回路にはエラー訂正が使えないが、複数演算した結果から多数決方式で正しいデータを選ぶシステムレベルの対策もある。
これらの対策はすでに実用化されており、ソフトエラーの脅威から我々を守ってくれている。
ソフトエラー問題、今後はどうなる?
LSIの微細化とともに、臨界電荷量は減少、チップ当たりのトランジスタの数は増加、論理回路の動作周波数は高くなるため、ソフトエラー発生率の増加要因となる。一方、トランジスタが小さくなれば、放射線が当たる確率は低くなるなど、デバイスの種類によってソフトエラーの発生率は異なる。DRAMのチップ当たりの発生率は微細化が進んでもほぼ一定で、SRAMは増加、ロジックLSIでは急激に増加する。LSIの線幅が45nm(ナノメートル:10億分の1m)以下に達すると、ロジックLSIのエラー発生率が、エラー訂正対策を施していないSRAMを上回る可能性もある。ソフトエラーは電子機器の信頼性を揺るがす重大な問題であるが、ここ十数年の研究により現象と対策の効果に対する理解が深まった。適切な評価と対策で致命的なダメージを防ぐ努力を続けることが、ますます重要となるだろう。