:: بازدید امروز : 5762
:: باردید دیروز : 2080
:: بازدید هفته : 11146
:: بازدید ماه : 23159
:: بازدید سال : 313267
:: بازدید کلی : 1774610

پایان نامه شناسایی چند حالت گفتاری در زبان فارسی با استفاده از ویژگیهای نوای گفتار به کمک شبکههای عص

نوشته شده توسط : admin

دانشگاه آزاد اسلامی
واحد تهران جنوب
دانشکده تحصیلات تکمیلی
“M.Sc” پایاننامه برای دریافت درجه کارشناسی ارشد
مهندسی برق ‐ الکترونیک
عنوان :
شناسایی چند حالت گفتاری در زبان فارسی با استفاده از ویژگیهای نوای گفتار به
کمک شبکههای عصبی
استاد راهنما :
دکتر غرویان
استاد مشاور :
دکتر شیخان
نگارش:
علیرضا ناظریه

چکیده
در سالهای اخیر، شناخت حالات گفتار انسانی بعلت تنوع کاربردهای آن، موجب افزایش استفاده از
چنین تکنولوژی شده است. در این تحقیق ابتدا تعریفی از حالت ارائه شده، سپس به برخی مشکلات
موجود در این کار که تشخیص را سختتر میکند پرداخته و راهحلهای متفاوت ارائه شده در این زمینه
معرفی میشود. بعد از آن به الگوریتمها و روشهای ارائه شده در زمینه بازشناسی حالت در گفتار
پرداخته و چند نمونه از تحقیقاتی که در این زمینه صورت گرفته ارائه شده است. همچنین به برخی مزایا
و معایب هر روش و اینکه هر کدام از این روشها برای چه شرایطی مفیدترند نیز، اشاره خواهد شد. در
نهایت برخی کاربردهای آن نیز مورد بررسی قرار میگیرد. در این تحقیق از شبکه های عصبیARTMAP
فازی برای شناسایی چهار حالت عادی، خشم، شادی، و پرسشی و با استفاده از 52 ویژگی استفاده شده
است. نتایج نشان میدهد که شبکههای عصبی میتوانند بهعنوان یک دستهبندی کننده خوب برای
شناسایی حالت گفتار استفاده شوند. نتایج این روشها زمانی بهتر خواهد بود که حالت گفتار ذکر شده
دارای تفاوتهای قابل توجهی نسبت به سایر حالات باشد.
بر این اساس دقت شناسایی حالت برای حالت عادی 87/76%، برای حالت سوالی 51/74%، حالت شادی 76/13%، و حالت خشم 93/65% به دست آمد.

مقدمه
چارلز داروین نخستین کتاب درباره بیان احساسات انسان و حیوان را در قرن نوزدهم نگاشت. پس از این
اثر مهم روانشناسان و متخصصان هوش مصنوعی به تدریج به جمعآوری دانش و اطلاعات در این زمینه
پرداختند. این مسئله موج جدیدی از توجه روانشناسان و متخصصان هوش مصنوعی را برانگیخته است.
که بعضی از دلایل آن عبارتند از:
پیشرفت فناوری در ثبت، ذخیره و تحلیل اطلاعات صوتی و تصویری، بالا رفتن سطح فناوری ارتباط
انسان و رایانه از نقطه و کلیک به حس و عاطفه و نرمافزارهای زندهوار مخصوص کمک به انسان و
های شرکت سونی که قادر به AIBO ، های شرکت تایگر FURBI روباتهای حیوان شکل خانگی از قبیل
درک و بیان احساسات میباشند. به تازگی زمینههای تحقیقاتی جدیدی در هوش مصنوعی تحت عنوان
محاسبه عاطفی ایجاد شده است. درحوزه رمزگشایی و توصیف و به تصویر کشیدن حالات در گفتار،
تاکنون روانشناسان به آزمایشات تجربی بسیاری دست زده و فرضیههایی ارائه دادهاند. از طرف دیگر
محققان هوش مصنوعی نیز در شاخههای زیر تحقیقات ارزندهای انجام دادهاند:
ساخت و ترکیب حالات گفتار، بازشناسی حالات گفتار و استفاده از نرمافزارهایی برای رمزگشایی و بیان

حالات استفاده میشوند. هدف، تحقیق و کاوش در راههای استفاده از بازشناسی حالات گفتار است که
درتجارت، یک کاربرد بالقوه آن، میتواند تشخیص حالت گفتاری، در یک مکالمه تلفنی و ایجاد فیدبک
به یک اپراتور یا سرپرست، به منظور نمایش باشد. کاربرد دیگر آن ذخیره پیامهای صوتی طبق حالت بیان
شده توسط تماس گیرنده میباشد. کاربردی دیگر از آن، استفاده از محتوای حالت احساسی مکالمات،
جهت ارزیابی عملکرد اپراتور است.
شناسایی خودکارحالت گفتار، با توجه با حالات صورت، حرکات بدن و یا ویژگیهای گفتار یکی از
روشهای بازشناسی حالت گفتار میباشد. بخصوص در زمینه سیستمهای امنیتی علاقهمندیهای بسیاری
مشاهده شده است.
حال باید دید، منظور از حالت در گفتار چیست؟ اگر تاکنون در چند سخنرانی شرکت کرده باشید
خواهید دید که برخی از سخنرانیها جذاب و برخی خستهکننده میباشند. این مشکل علاوه بر موضوع
سخنرانی به نحوه بیان سخنران نیز بستگی دارد. اگر سخنران گفتاری یکنواخت داشته باشد همانند یک
روبات خواهد بود، که باعث خوابآلودگی شنونده میشود. بنابراین سخنرانان حرفهای با تغییر آهنگ
گفتار خویش و با حرکات به موقع دست، سر و بدن خویش، با تاکید روی برخی کلمات، بیان برخی
جملات با تعجب برخی با افسوس و… حال و هوای سخنرانی را تغییر میدهند. این تغییرات در نحوه
بیان جملات و کلمات را “حالت در گفتار” گویند. بعبارت دیگر ادای جملات به هر شکلی غیر از حالت
عادی و یکنواخت بعنوان یک حالت شناخته میشود. حالات مختلف از قبیل: خشم، تنفر، ترس، شادی،
غم، هیجان، آرامش، کسالت، افسردگی و … میباشند. حتی در برخی از مواقع در مورد میزان یک حالت
بحث میشود، مثلا شاد با خیلی شاد در نظر گرفته میشود. اضافه کردن حالت عادی به این حالتها
معقول بنظر میرسد تا هر کدام از این حالتها درک شوند. یعنی برای در نظر گرفتن یک حالت جدید
یک سری تغییرات باید نسبت به یک مبدا وجود داشته باشد و در اینگونه کارها مبنا حالت عادی و بدون
حالت میباشد. این طبقهبندی بعنوان اساس مقایسه استفاده میشود. امروزه آمار عمومی از یک عبارت
بعنوان اساس کار است، اگر چه سعی در استفاده از ویژگیهای ذاتی موجود را دارند.
برای اطمینان از تشخیص صحیح، معقول است که تعداد و نوع حالتهای قابل تشخیص محدود و
متناسب با نیاز در آن کاربرد خاص باشد(برای طبقهبندی مناسب). هنوز بصورت فنی هیچ استاندارد
مشخصی برای تشخیص و طبقهبندی حالتهای گفتار موجود نیست. اغلب تمیز دادن، میان یک مجموعه
تعریف شده از حالتهای گفتار مجزا است، و برای تعداد و اسامی آنها ایدهء یکسانی موجود نیست. از
طرفی این تحقیقات در هر زبان و لهجهای خاص خود میباشد و چنانچه برای سایر زبانها استفاده شود،
دقت بازشناسی کاهش مییابد. مثلا نمیتوان سیستمی که برای زبان انگلیسی طراحی شده است را برای
زبان فارسی بکار برد. زیرا پایگاه دادهای که برای زبان انگلیسی طراحی شده ویژگیهای خاص خود را
دارد که برای زبان فارسی متفاوت است و کاربردی ندارد. البته ممکن است الگوریتم کاری آنها مشابه
باشد.
افراد با استفاده از اطلاعات حالت یا عاطفی راحتتر با یکدیگر ارتباط برقرار میکنند. و اهمیت آن در
برخی مواقع بیش از اطلاعات کلامی میباشد. با افزایش اهمیت اطلاعات غیر کلامی در زمینه رابطه
انسان با ماشین، مدتی است که این امر بعنوان موضوع تحقیقی در حوزه مهندسی مورد بحث و بررسی
قرار گرفته است. اگر رایانهای بتواند هیجانات و حالات انسانی را بهخوبی خود انسانها درک کند رابطه
فوق بهبود خواهد داشت.
برای مثال، رابطه میان انسان و رایانه را میتوان به گونهای ترتیب داد که واکنشهایی که در برابر کاربران
نشان میدهند، برحسب حالات عاطفی کاربر باشد. برای آگاهی از اینکه در یک عبارت چه نوع حالتی
نهفته است، ترکیبی از فونتیکها (آواشناسیها)، و فیزیولوژی تکنولوژی بازشناسی حالت میتواند مبنایی
برای یک مدل صوتی(گفتار) آماده سازد، که بتواند کیفیت بازشناسی و سنتز گفتار را بهبود دهد.
برخی کاربردهای مهم دیگر برای تکنولوژی بازشناسی حالات شامل سیستم گفتگوی اتوماتیک در مراکز
تلفن و برخی استفادههای ویژه برای افراد ناتوان و پیر نیز میتوان نام برد. امروزه تحقیق حالت در گفتار
بطور عمده بر نمونههای تک زبانه متمرکز شده و کمتر در زمینه چند زبانه کار شده است. نوای گفتار یک
نمایشگر اولیه اطلاعات حالت گوینده است.
راهحلهای بازشناسی حالت بستگی به حالتهایی دارد که دستگاه میخواهد بازشناسی نماید. همچنین
علاقهمندی به کاربرد تکنولوژیهای بازشناسی حالت برای سیستمهای پاسخگویی صوتی متقابل،
مخصوصا برای مراکز تلفن میباشد. این سیستمها محاورهای و از این رو جملات معمولا کوتاه هستند.
برای طبیعیتر بودن مسئله، مسیرتحقیق بازشناسی حالت از آنالیز گفتار ناآگاهانه گرفته میشود. حرکت
بعدی، معمولاً تلاش برای افزایش عملکرد سیستمهای رابط ماشین و انسان مانند خدمات تلفنی کنترل
صوتی است.
از مشکلات حالات ناآگاهانه در مقایسه با گفتارحقیقی برچسبزنی آنها است ، زیر ا دانستن حالات
حقیقی بطور قطعی غیر ممکن میشود.
مقایسه عملکرد بازشناسی حالت بدلیل نبود پایگاه داده مشترک سخت است. نتایج دستههای حالت پایه
مشترک، وابستگی به گوینده، حرفهای یا مردمان عادی، سن فرد گوینده، محیط ضبط صدا، یا نوع
جملات و (کلمات یا عبارات) را در پایگاه داده باید در نظر گرفت. مشکل میتوان گفت که کدام سیستم
در کل بهتر است. عملکرد بازشناسی حالت تا حد زیادی وابسته به این است که چگونه میتوان ویژگی –
های مناسب مستقل از گوینده، زبان و متن را استخراج کرد.
برای بازشناسی از شبکههای هوشمند استفاده میشود که از آن جمله شبکههای عصبی مصنوعی، مدل-
های مارکوف مخفی، مدلهای مخلوطکننده گوسی، درختهای تصمیمگیری، ماشینهای بردار پشتیبان،
آنالیز تفکیککننده خطی، آنالیز تفکیککننده درجه دوم و … میباشد.
در ادامه نتایج چند تحقیق که از روشهای مختلف برای منظورهای متفاوت استفاده کرده است، بررسی
شده و برخی نکات دیگر در آنها مطرح خواهد شد.