چکیده
توسعه های اخیر در هرس کردن شبکه های عصبی عمیق (DNN) منجر به معرفی تُنُکی داده برای امکان پذیر کردن کاربردهای یادگیری عمیق میشود تا به صورت کارآمدتر بر روی پلت فرمهای سخت افزاری دارای منابع و انرژی محدود اجرا شوند. با این حال، این مدلهای تُنُک نیاز به ساختارهای ساخت افزاری مخصوص دارند تا از تُنُکی تا حد امکان برای بهبود ذخیره سازی، تأخیر و راندمان استفاده کنند. در این کار، پردازشگر شتاب دهنده عصبی تنک (SNAP) را جهت بهره برداری از تنکی ساختار نیافته در شبکه های عصبی عمیق ارائه می کنیم. پردازشگر شتاب دهنده عصبی تُنُک از جستجوی انجمنی موازی استفاده میکند تا جفت داده های معتبر وزن (W) و فعال سازی ورودی (IA) را از آرایه داده های IA و W که تُنُک، ساختار نیافته و فشرده هستند؛ کشف کنند. جستجوی انجمنی به معماری SNAP امکان میدهد تا به طور متوسط، بهره مندی محاسباتی 75% را حفظ کند. معماری SNAP یک جریان داده کانال-اول را دنبال میکند و از جریان داده ساده سازی دو سطحی جمع جزئی (psum) استفاده میکند تا رقابت در دسترسی را در بافر خروجی حذف کند و ترافیک بازنویسی جمع جزئی را در مقایسه با جدیدترین طرح های شتاب دهنده DNN تا 22 برابر کاهش دهد. جریان داده ساده سازی جمع جزئی SNAP میتواند در دو مد پیکربندی شود تا از لایه های کانولوشن عمومی (CONV)، کانولوشن نقطه ای، و اتصال کامل پشتیبانی کند. یک تراشه SNAP نمونه در تکنولوژی 16-nm CMOS پیاده سازی شده است. این تراشه آزمایشی دارای مساحت 2.3mm2 است و حداکثر راندمان موثر آن در ولتاژ V 0.55 و فرکانس MHz 260 برای لایه های کانولوشن با چگالی های وزن و فعال سازی معادل با 10% برابر با TOPS/W 21.55 اندازه گیری شده است. این تراشه آزمایشی با عملکرد بر روی یک شبکه ResNet-50 هرس شده به ماکزیمم توان عملیاتی 90.98 فریم/ثانیه در ولتاژ V0.80 و فرکانس MHz480 دست مییابد، که mW348 را تلف میکند.
1-مقدمه
یادگیری عمیق یا به طور دقیق تر، شبکه های عصبی عمیق (DNN) به عنوان یک رویکرد کلیدی برای حل مسائل یادگیری و شناختی پیچیده ظهور کرده اند [1،2]. جدیدترین شبکه های عصبی عمیق [3-9] به بیلیون ها عملیات و صدها مگابایت حافظه برای ذخیره کردن فعال سازی ها و وزن ها نیاز دارند....