Abstract
Speech enhancement is vital for improved listening practices. Ad hoc microphone arrays are promising assets for this purpose. Most well-established enhancement techniques with conventional arrays can be adapted into ad hoc scenarios. Despite recent efforts to introduce various ad hoc speech enhancement apparatus, a common framework for integration of conventional methods into this new scheme is still missing. This paper establishes such an abstraction based on inter and intra subarray speech coherencies. Along with measures for signal quality at the input of subarrays, a measure of coherency is proposed both for subarray selection in local enhancement approaches, and also for selecting a proper global reference when more than one subarray are used. Proposed methods within this framework are evaluated with regard to quantitative and qualitative measures, including array gains, the speech distortion ratio, the PESQ measure, and the STOI intelligibility measure. Major findings in this work are the observed changes in the superiority of different methods for certain conditions. When perceptual quality or intelligibility of the speech are the ultimate goals, there are turning points where the MVDR and the LCMV are superior to Wiener-based methods. Also, for certain scenarios, local approaches may be preferred to global ones
چکیده
تقویت گفتار برای بهبود شیوه های شنیداری امری حیاتیست. برای همین منظور آرایه های موردی میکروفون سرمایه های مفید و امیدوار کننده ای محسوب می گردند. تکنیک های پیشرفته و اصلاح شده در حالات موردی می توانند با آرایه های معمولی انطباق داده شوند. علیرغم تلاش های اخیر جهت معرفی دستگاه های مختلف تقویت گفتار، هنوز هم در طرح جدید شاهد این هستیم که یک چارچوب مشترک برای ادغام روش های متعارف وجود ندارد. این مقاله یک نوع انتزاع مبتنی بر وابستگی های گفتاری درون و بین آرایه ای را ارائه می کند. برای انتخاب زیر آرایه در روش های محلی تقویت، در کنار مقیاس های کیفیت سیگنال در ورودی زیر آرایه ها، مقیاس سازگاری نیز پیشنهاد می گردد؛ همچنین این مقیاس برای انتخاب یک مرجع کلی مناسب در زمانیکه بیشتر از یک زیر آرایه داریم نیز باید مدنظر قرار بگیرد. روش های پیشنهاد شده در این چارچوب با توجه به معیارهای کمّی و کیفی نظیر گین های آرایه، نرخ تحریف گفتار، مقیاس PESQ و مقیاس هوش مصنوعی STOI ارزیابی می شوند. یافته های اصلی این تحقیق عملیاتی، تغییراتی هستند که در روش های مختلف برای شرایط خاص مشاهده شده اند. وقتی کیفیت ادراکی یا قابل فهم بودن گفتار هدف نهایی باشد، نقاط عطفی به وجود می آیند که نشان می دهند روش های MVDR و LCMV به روش وینر ارجحیت دارند. با این وجود در برخی حالات خاص، روش های محلی به روش های کلی ترجیح داده می شوند.
1-مقدمه
امروزه گوشی های هوشمند و دیگر دستگاه های قابل حمل (یا حتی قابل پوشیدن) به طور گسترده در زندگی ما سایه انداخته، پتانسیل های خود را به ما عرضه کرده و نیازهای فردی ما را نیز از نو تعریف می کنند. در نتیجه این دستگاه ها برای اکثر برنامه های نو ظهور پردازش سیگنال نظیر تقویت گفتار در نویز، تداخل و محیط های پر سر و صدا که هدف همین مقاله هم هست، به پایگاهی واقعی و بالفعل تبدیل شده اند. به همین منظور، دستگاه های تلفن همراه می توانند برای بهبود وضعیت محیط آکوستیک، به عنوان گره های آرایه موردی میکروفون به کار گرفته شوند....