Abstract
In this paper, we propose an algorithm to improve the performance of speaker identification systems. A baseline speaker identification system uses a scoring of a test utterance against all speakers' models; this could be termed as an evaluation at the observation level. In the proposed approach, and prior to the standard evaluation phase, an algorithm based on a frame level evaluation is applied. The speaker identification study is conducted using IVIE corpus and a randomly selected 120 speakers from TIMIT. Mel-frequency cepstral coefficients (MFCC) and Gaussian mixture model (GMM) are the main components in state of the art speaker identification systems and will be adopted in this work. Experimental results based on several systems with different training and testing conditions, showed that our proposed algorithm yielded to relative reduction in error rates of 24.4 and 37.3% over the baseline systems respectively for IVIE and TIMIT. The final performances reached measured by identification error rates are 3.4% and 5.2% for IVIE and TIMI corpuses
چکیده
در این مقاله یک الگوریتم برای بهبود عملکرد سیستم های تشخیص صدا ارائه می کنیم. یک سیستم تشخیص صدای baseline از آزمون گفتار در مقایسه با تمام مدل های گویندگان استفاده می کند؛ در مرحله مشاهده این کار یک ارزیابی است. در روش ارائه شده، و قبل از فاز ارزیابی استاندارد، یک الگوریتم مبتنی بر ارزیابی سطح فریم اعمال می شود. بررسی تشخیص صدا با استفاده از مجموعه IVIE و 120 گوینده که به صورت تصادفی از TIMIT انتخاب شدند انجام شد. ضرایب کپسترال فرکانس مل (MFCC) و مدل مخلوط گوسی (GMM) مولفه های اصلی پیشرفته ترین سیستم های تشخیص صدا هستند و در این کار استفاده می شوند. نتایج تجربی مبتنی بر چند سیستم با شرایط آموزش و آزمون متفاوت، نشان داد که الگوریتم ارائه شده کاهش نسبی در خطا به میزان 24.4 و 37.3 درصد بترتیب برای IVIE و TIMIT را به دنبال دارد. ارزیابی عملکرد نهایی نشان دهنده میزان خطای 3.4 و 5.2 بترتیب برای IVIE و TIMIT می باشد.
1-مقدمه
تشخیص صدا فرایند تشخیص خودکار اشخاص از روی صدای آن ها می باشد [1]. تشخیص صدا شامل دو کار عمده می باشد: تصدیق هویت گوینده و تشخیص هویت گوینده [2]. هدف از تصدیق هویت گوینده، قبول یا رد هویت ادعاشده توسط شخص از روی صدای شخص است، کاربردهای بالقوه ای در تصدیق زیست سنجی فرد وجود دارد مانند بررسی هویت هنگام پرداخت با کارت اعتباری و در پزشکی قانونی [3]و [4]. تشخیص صدا درواقع اختصاص یک صدای ناشناخته به یکی از گویندگان شناخته شده توسط سیستم می باشد؛ در این جا فرض می شود که صدا از یک مجموعه ثابت از گویندگان دریافت می شود...