Abstract
In this paper, we present new methods for parameterizing the connections of neural networks using sums of direct products. We show that low rank parameterizations of weight matrices are a subset of this set, and explore the theoretical and practical benefits of representing weight matrices using sums of Kronecker products. ASR results on a 50 hr subset of the English Broadcast News corpus indicate that the approach is promising. In particular, we show that a factorial network with more than 150 times less parameters in its bottom layer than its standard unconstrained counterpart suffers minimal WER degradation, and that by using sums of Kronecker products, we can close the gap in WER performance while maintaining very significant parameter savings. In addition, direct product DBNs consistently outperform standard DBNs with the same number of parameters. These results have important implications for research on deep belief networks (DBNs). They imply that we should be able to train neural networks with thousands of neurons and minimal restrictions much more rapidly than is currently possible, and that by using sums of direct products, it will be possible to train neural networks with literally millions of neurons tractably-an exciting prospect
چکیده
در این مقاله ، روشهای جدیدی برای پارامتریک کردن اتصالات شبکه های عصبی با استفاده از مجموع حاصلضرب مستقیم ارائه داده ایم.ما نشان می دهیم که پارامتریک کردن مرتبه پائین ماتریسهای وزن، زیرمجموعه ای از این مجموعه است و مزایای تئوری و عملی نمایش ماتریسهای وزن با استفاده از مجموع حاصلضرب کرونکر را بررسی می کنیم.نتایج ASR روی یک زیرمجموعه 50 ساعتی از مجموعه اخبار پخش شده انگلیسی نشان داد که این رویکرد نوید بخش است . بطور خاص نشان می دهیم که یک شبکه فاکتوریل در لایه پائینی با بیش از 150 برابر پارامترهای کمتر نسبت به همتاهای استاندارد بدون محدودیت آن از تخریب مینیمال WER رنج می برد . ما نشان می دهیم که با مجموع حاصاضرب کرونکر می توان همراه با حداقل کردن پارامترها ،گپ کارآیی WER را کم کرد. علاوه براین ،DBN مبتنی بر ضرب مستقیم برDBNاستاندارد با تعداد پارامتر یکسان ، برتری دارد . این نتایج تاثیرات مهمی بر تحقیقات شبکه های باور عمیق دارد . نتایج نشان می دهند که می توانیم شبکه های عصبی با هزاران نرون و حداقل محدودیت را خیلی سریعتر از روشهای فعلی آموزش دهیم . همچنین با استفاده از مجموع حاصلضرب مستقیم ،آموزش شبکه های عصبی با میلیونها نرون ممکن خواهد بود ( یک انتظار شگفت انگیز)
1-مقدمه
اخیراً اشتیاق زیادی در بکارگیری BDN برای وظایف یادگیری ماشین ایجاد شده است که از آن جمله می توان به ASR اشاره کرد [1,2] . این اشتیاق با الگوریتم های جدید ارائه شده برای آموزش DBN ،بیشتر شده است[3]. نتایج جدید، نشان دهنده بهبود قابل توجه کارآیی در کارهای عملی از جمله [1,2]ASR و وجود حجم زیادی از داده های آموزشی برای آن [4] بوده است . با وجود موفقیتهای اخیر که بدلیل افزایش روزافزون قابلیتهای محاسباتی ،آسان تر شده است ،DBN همچنان حتی برای آموزش شبکه های کوچک با تنها هزاران نرون (نود)،فوق العاده زمان بر بوده و ممکن است یادگیری آن مدتها به طول انجامد [4] . در نتیجه هم تعداد لایه هایی که می توان بکار گرفت و هم تعداد نرونها در لایه DBN به شدت با محدودیت مواجه می شود که به نوبه خود کارآیی بالقوه آنها را محدود می سازد. در حال حاضر اکثر DBNهایی که در عمل استفاده می شوند لایه به لایه آموزش دیده و محدودیت امکان اتصال بین نودها تنها در لایه های همسایه را دارند . مجموعه اتصالات بین لایه های مجاور (و ارزش آنها)،معمولاً با ماتریس وزن W نشان داده می شود . اگر لایه i از شبکه، m نود داشته باشد و لایه j ، n نود داشته باشد ، اتصال بین این دو لایه مجاور را می توان به صورت ماتریس M✕N به نام W نشان داد . این ماتریس وزن معمولاً یا بدون محدودیت (اتصالات M✕N ) یا به شدت محدود شده است (weight tying ) یا (weight zeroing).اخیراً محققان زیادی تلاش کرده اند که یادگیری ساختار ماتریس وزن بطور اتوماتیک صورت گیرد و در این کار از ایجاد محدودیتهایی نظیر ماتریس مرتبه پائین [2,6] یا اسپارس استفاده کرده اند ….