Abstract
Reliability is one of the most challenging problems in the context of three-dimensional network-on-chip (3D NoC) systems. Reliability analysis is prominent for early stages of the manufacturing process in order to prevent costly redesigns of a target system. This article classifies the potential physical faults of a baseline TSV-based 3D NoC architecture by targeting two-dimensional (2D) NoC components and their inter-die connections. In this paper, through-silicon via (TSV) issues, thermal concerns, and single event effect (SEE) are investigated and categorized, in orderto propose evaluation metrics for inspecting the resiliency of 3D NoC designs. A reliability analysis for major source of faults is reported in this article separately based on their mean time to failure (MTTF). TSV failure probability induced by inductive and capacitive coupling is also discussed. Finally, the paper provides a formal reliability analysis on the aggregated faults that affect TSV. This formal analysis is critical for estimating the resiliency of different components in order to mitigate the redundancy cost of fault-tolerant design or to examine the efficiency of any proposed fault-tolerant methods for 3D NoC architectures
چکیده
قابلیت اطمینان یکی از چالش برانگیزترین مسائل در زمینه ی سیستم های شبکه روی تراشه ی سه بعدی (3D NoC) است. تجزیه و تحلیل قابلیت اطمینان برای مراحل اولیه ی فرآیند تولید و به منظور جلوگیری از طراحی مجدد و پرهزینه ی سیستم هدف بسیار مورد توجه است. این مقاله، خطاهای فیزیکی بالقوه ی معماری NoC سه بعدی مبتنی بر TSV پایه را تقسیم بندی می کند و اجزای NoC (دو بعدی) و ارتباطات داخلی آنها را هدف قرار می دهد. در این مقاله، مسائل مربوط به سیلیکون (TSV)، نگرانی های گرمایی و اثر رویداد تک (SEE) مورد بررسی قرار گرفته و طبقه بندی شده است تا به این طریق معیارهای ارزیابی را برای بررسی انعطاف پذیری طراحی های NoC سه بعدی ارائه دهد. تجزیه و تحلیل قابلیت اطمینان منابع عمده ی خطا به طور جداگانه در این مقاله مبتنی بر زمان میانگین شکست (MTTF) گزارش شده اند. احتمال شکست TSV ناشی از تزویج القایی و خازنی است که در ادامه نیز مورد بحث قرار گرفته اند. در نهایت این مقاله یک روند تحلیل قابلیت اطمینان کلی را برای خطاهای تجمعی ارائه می کند که روی TSV تأثیر می گذارد. این روند تحلیل رسمی برای برآورد انعطاف پذیری اجزای مختلف و کاهش هزینه های افزونگی طراحی مقاوم در برابر خطا و یا بررسی بهره وری روش های پیشنهادی تحمل پذیر خطا برای معماری های NoC سه بعدی بسیار مهم هستند.
1-مقدمه
مقیاس بندی فناوری با بهبود عملکرد ترانزیستوری با فرکانس بالاتر، طراحی معماری های جدید و کاهش انرژی تولید شده در هر عملیات منطقی بسیار مهم هستند تا بتوان عملکرد محاسباتی را افزایش داده و بهبود بخشید. علاوه بر این، بهره وری انرژی از اهمیت زیادی برخوردار است به خصوص برای ابررایانه های آینده و سیستم های توکار [1]. قابلیت اطمینان یکی از چالش های اصلی طراحان منحصر به فرد تراشه است و به عنوان عملکرد محاسباتی مقیاس Peta لحاظ می شود و سیستم های مقیاس exa را برای دهه ی آینده هدف قرار می دهد...