Abstract
Avatars communicate through speech and gestures to appear realistic and to enhance interaction with humans. In this context, several works have analyzed the relationship between speech and gestures, while others have been focused on their synthesis, following different approaches. In this work, we address both goals by linking speech to gestures in terms of time and intensity, to then use this knowledge to drive a gesture synthesizer from a manually annotated speech signal. To that effect, we define strength indicators for speech and motion. After validating them through perceptual tests, we obtain an intensity rule from their correlation. Moreover, we derive a synchrony rule to determine temporal correspondences between speech and gestures. These analyses have been conducted on aggressive and neutral performances to cover a broad range of emphatic levels, whose speech signal and motion have been manually annotated. Next, intensity and synchrony rules are used to drive a gesture synthesizer called gesture motion graph (GMG). These rules are validated by users from GMG output animations through perceptual tests. Results show that animations using intensity and synchrony rules perform better than those only using the synchrony rule (which in turn enhance realism with respect to random animation). Finally, we conclude that the extracted rules allow GMG to properly synthesize gestures adapted to speech emphasis from annotated speech
چکیده
آواتار ها، از طریق گفتار و حرکات ارتباط برقرار می کنند تا واقع بینانه به نظر برسند و تعامل با انسان را افزایش دهند. در این زمینه، چند اثر به تجزیه و تحلیل رابطه بین گفتار و ژست ها می پردازد، در حالی که دیگران در سنتز خود روی پیدا کردن روش های مختلف متمرکز شده اند. در این کار، از طریق ایجاد ارتباط بین گفتار و ژست ها از نظر زمان و شدت و پس از آن استفاده از این دانش برای راه اندازی یک ترکیب کننده حرکت از یک سیگنال گفتار دستی، ما به هر دو هدف می پردازیم. به آن منظور، شاخص قدرت را برای بیان و حرکت تعریف می کنیم. پس از اعتبار سنجی آنها از طریق آزمایش های ادراکی، ما از ارتباط آن ها یک قانون شدت را به دست می آوریم. علاوه بر این، ما یک قانون انطباق برای تعیین ارتباط زمانی بین گفتار و حرکات استنتاج کردیم. این تجزیه و تحلیل ها بر روی عملکرد تهاجمی و بی طرف انجام شده است تا طیف گسترده ای از سطوح تاکید، که سیگنال گفتار و حرکت به صورت دستی تفسیر شده است را پوشش دهد. بعد، قوانین شدت و انطباق برای راه اندازی یک ترکیب کننده حرکت به نام نمودار حرکت ژست (GMG) استفاده می شود. این قوانین توسط کاربران انیمیشن های خروجی GMG ، از طریق آزمون های ادراکی اعتبار داده می شود. نتایج نشان می دهد که انیمیشن هایی که از قوانین شدت و انطباق استفاده می کنند عملکرد بهتری نسبت به آنهایی که تنها از قانون انطباق استفاده می کنند، دارند (که به نوبه خود موجب افزایش واقع گرایی با توجه به انیمیشن تصادفی می شود). در نهایت، ما به این نتیجه رسیدیم که قوانین استخراج شده به GMG اجازه می دهد که به درستی ترکیب حرکات را با تاکید گفتار حاصل از تفسیر گفتار وفق دهد.
کلید واژه ها: تعامل کامپیوتر و انسان، زبان بدن، تجزیه و تحلیل گفتار، تاکید گفتار، انیمیشن، ضبط حرکت، نمودار حرکت.
1- مقدمه
تعامل میان انسان و کامپیوتر در طول چند دهه گذشته از اولین لوازم جانبی، مانند صفحه کلید یا ماووس، به دوربین های عمق فعلی قادر به تشخیص حرکات تغییر کرده است (رن و همکاران، 2011). با این حال، نه تنها ارتباط انسان و کامپیوتر تغییر کرده است، اما خروجی کامپیوتر به دلیل پیشرفت های چشمگیر در زمینه گرافیک کامپیوتری تکامل یافته است. امروزه، هزاران برنامه کاربردی وجود دارد که از آواتارهای سه بعدی برای تعامل با کاربران در محیط های مجازی استفاده می کنند. به منظور افزایش واقع گراییشان ، آواتارها سعی به تقلید انسان تا آنجا که ممکن است از تفکر (هوش مصنوعی) تا حرکت (انیمیشن پجسا و پاندزیک،2012؛ ون ولبرگن و همکاران، 2012) و یا صحبت کردن (سنتز گفتار بولوت وهمکاران، 2007؛ اوین و همکاران، 2012؛ روخاتو همکاران، 2010) دارند. در مورد آواتارهای سخنگو ، ضروری است که سخنرانی آواتار با زبان بدن همزمان شود که تا آنجا که ممکن است شبیه انسانها شوند. زبان بدن، بنیادی در ارتباط است، چرا که با محتوای سخنرانی همراه می شود و آن را تایید می کند و همچنین اطلاعات بیشتری به مخاطب ارائه می کند (کویینتیلیان و باتلر، 1920).
تولید زبان بدن مناسب با یک جریان سخنرانی خاص کار پیچیده ای است. مشخص شده است که بیان و حرکات با هم در ارتباطند (مک نیل، 1985؛ لوئهر، 2004؛ لئونارد و کامینس، 2011). با این حال، دشوار است که مجموعه ای از قوانین که قادر به پوشش تنوع گسترده ای از حرکات طبقه بندی شده، باشند را استخراج کرده (مک نیل، 1992) (یاد، استعاره ای، بطور مستقیم نشان دهنده، ضربان) و سپس از آن اطلاعات برای برپا کردن سیستم سنتز حرکت استفاده کرد….