Abstract
This paper describes an approach to HMM-based expressive speech synthesis which does not require any supervised labeling process for emphasis context. We use appealing-style speech whose sentences were taken from real domains. To reduce the cost for labeling speech data with an emphasis context for the model training, we propose an unsupervised labeling technique of the emphasis context based on the difference between original and generated F0 patterns of training sentences. Although the criterion for the emphasis labeling is quite simple, subjective evaluation results reveal that the unsupervised labeling is comparable to the labeling conducted carefully by a human in terms of speech naturalness and emphasis reproducibility
چکیده
این مقاله روشی را برای ترکیب گفتار توصیفی بر پایه HMM توضیح میدهد که به هیچ پروسه برچسب گزاری نظارت شده ای برای زمینه تاکید نیاز ندارد. ما از سبک جذاب گفتاری که جمله های آن از دامنه واقعی گرفته شده استفاده کردیم. برای کاهش دادن هزینه برچسب گزاری داده گفتار با زمینه تاکید برای آموزش مدل، ما روش برچسب گزاری نظارت نشده ای برای زمینه تاکید بر اساس تفاوت بین الگوهای اصلی و F0تولید شده جمله های آموزش پیشنهاد داده ایم. اگرچه معیار برچسب گزاری تاکید خیلی ساده است، نتایج بررسیهای مربوط نشان میدهند که برچسب گزاری نظارت نشده با برچسب گزاری که با دقت توسط انسان انجام شده از لحاظ طبیعی بودن گفتار و تکثیر تاکید قابل مقایسه است.
1-مقدمه
یکی از اهداف ترکیب متن-به-گفتار، تولید گفتار توصیفی همانند انسان است که بتواند اطلاعات مختلف پارا زبانشناسی مانند احساس، قصد و حالت صحبت کردن را توصیف کند. در این زمینه، واضح است که مشخصات عروضی نقش بسیار مهمی دارند. برای دوباره تولید کردن تغییرات عرضی گفتار توصیفی، ترکیب گفتار بر پایه HMM (1) به دلیل انعطافش در مدلسازی و تولید پارامتر روش محتملی است. به طور مثال، ما ثابت کرده ایم که توصیفات احساسی و حالتهای صحبت کردن، که ما از آنها به حالتها یاد میکنیم، به خوبی توسط چهارچوب بر پایه HMM مدلسازی میشوند (2). در مطالعات مرسوم، ما به طور عمده بر تکثیر مشخصات حالتهای جهانی که به طور مداوم در قسمتهای کلی نمونه های گفتار یک حالت هدف ظاهر میشوند، تمرکز کرده ایم. برای این گفتارهای حالت گرفته، عوامل وابسته به قراین مرسوم به خوبی با مدلسازی، ترکیب و گفتار مدل خواندنی کار میکنند…