2022年6月16日木曜日

集積回路における信頼性問題の具体例

忘れるのでメモ.

・ハードエラー関係
Intel、新チップセット「Intel 6シリーズ」で不具合、一部店舗で対応製品の販売停止も
https://tech.nikkeibp.co.jp/it/pc/article/news/20110201/1029919/
Intel Sandy Bridge chipset flaw prompts recall
https://www.expertreviews.co.uk/pcs/motherboards/23631/intel-sandy-bridge-chipset-flaw-prompts-recall

Atom C2000ファミリに18カ月前後の動作で起動できなくなるエラッタ
https://pc.watch.impress.co.jp/docs/news/1045715.html
Semi-Critical Intel Atom C2000 SoC Flaw Discovered, Hardware Fix Required
https://www.anandtech.com/show/11110/semi-critical-intel-atom-c2000-flaw-discovered

Apollo Lakeが長期稼働で信号劣化し品質基準を満たさず。ステッピング変更へ
https://pc.watch.impress.co.jp/docs/news/1206703.html

ソースが無いが,2件ともコアトランジスタに IO 電源をつないでしまったためのHCIでの劣化が原因と言われていた気がする.

・ソフトエラー関係
HOW TO KILL A SUPERCOMPUTER: DIRTY POWER, COSMIC RAYS, AND BAD SOLDER
https://spectrum.ieee.org/how-to-kill-a-supercomputer-dirty-power-cosmic-rays-and-bad-solder
日本語の記事はこちらが詳しい
スーパーコンピューターの系譜 Chen博士がCRAYの後に手がけたSS-1
https://ascii.jp/elem/000/001/130/1130264/
ECC によって保護されていないため宇宙線による誤動作が多発し,その部分を無効化して性能を猛烈に悪化させつつ使うか,そもそもまともに長時間動かせなくて諦めた,というお話である.

Intel reveals Itanium 2 glitch (23/11/07追記)
https://www.cnet.com/tech/tech-industry/intel-reveals-itanium-2-glitch/
「高温下において特定のデータを特定の順番で処理を実施した」時に,システムが不正にシャットダウンし保存データに異常が発生するとのこと.対策として周波数を800MHzまで落とすか,マザーボードを作り替えるか,CPUを入れ替えるらしい.結局何が原因なのかはわからなかったが,状況から考えるとIR-Dropかdi/dtノイズだろうか.

・パッケージ関係
富士通の HDD コントローラ突然死
http://www.shippai.org/fkd/cf/CA0000624.html
https://xtech.nikkei.com/dm/article/NEWS/20050506/104444/
富士通の HDD に積んだ Cirrus Logic 製のコントローラ LSI がパッケージに起因する経年劣化で死亡するという話.日経では「富士通が製造を委託した」とあるが,がっつり Cirrus Logic のロゴが入っているし LSI チップを買ったようだ.パッケージ材料である住友ベークライトの「EME-U」に含まれる無機リンを構成する赤リンおよびその皮膜が高温高湿下でリン酸になり,それがピンの材料である Ag を溶かし配線を短絡した.

パッケージ起因のソフトエラー
[1] T. C. May and M. H. Woods, “Alpha-Particle-Induced Soft Errors in Dynamic Memories,” IEEE Trans. Electron Devices, vol. 26, no. 1, pp. 2–9, 1979, doi: 10.1109/T-ED.1979.19370.
パッケージに含まれる残留放射性元素がアルファ崩壊したときに放射されるアルファ線が集積回路に突入して生じるソフトエラー.不具合として「システムノイズ」「最低動作電圧」「センスアンプ」「特定パターン依存」など候補があったが,この論文によって放射性粒子起因の誤動作というのが新しい候補になった(?).「ソフトエラー」という一過性の胡椒や「クリティカルチャージ」という集積回路が"0","1"を反転するのに必要な電荷量の差などが定義された論文みたい.

・コンデンサ関係 (23/02/11追記)
第四級アンモニウム塩を利用したコンデンサが液漏れを起こし電解液が基盤や基板上の部品を腐食させる事故が一時期多発していた.Wikipediaの記事にもなっている.

NEC Tokin のプロートライザが使用中に劣化するらしく,デカップリング容量として採用したノートパソコンの死亡例が一時期よく観察された.腕に自信のある人はプロートライザを剥がしてタンタルコンデンサに入れ替えるらしいが...

タンタルコンデンサは小さい逆電圧でも電流が流れる上,短絡モードで故障するので,使い方にはかなり気をつけないといけない.交流や電源電圧・電流がグラグラ動く箇所のデカップリングコンデンサとして使うと壊れる可能性があります.テクトロはタンタルコンデンサが好きなのか,燃えて壊れた報告がいくつか[1][2]あります.

0 件のコメント:

コメントを投稿