دوره 27، شماره 4 - ( 7-1403 )                   جلد 27 شماره 4 صفحات 204-194 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Hosseini S S, Yamaghani M R. MultiModal Emotional Recognition by Artificial Intelligence and its Application in Psychology. J Arak Uni Med Sci 2024; 27 (4) :194-204
URL: http://jams.arakmu.ac.ir/article-1-7585-fa.html
حسینی سید صادق، یمقانی محمد رضا. شناسایی احساسات چند حالته انسانی توسط هوش مصنوعی و کاربرد آن در روانشناسی. مجله دانشگاه علوم پزشكي اراك. 1403; 27 (4) :194-204

URL: http://jams.arakmu.ac.ir/article-1-7585-fa.html


1- دانشگاه ملایر، ملایر، ایران
2- گروه مهندسی کامپیوتر و فناوری اطلاعات، دانشگاه آزاداسلامی، واحدلاهیجان، لاهیجان، ایران ، o_yamaghani@liau.ac.ir
متن کامل [PDF 1780 kb]   (446 دریافت)     |   چکیده (HTML)  (1190 مشاهده)
متن کامل:   (134 مشاهده)
مقدمه
محاسبات احساسی توسط پروفسور ریکارد 1997 مطرح شد که شامل دو بخش شناسایی احساسات و تحلیل احساسات بود. ساخت دستگاه‌ها، برنامه‌ها و ابزاهایی که در این حیطه ساخته شوند از ایده‌آل‌های این حوزه پژوهشی شد. برای این کار باید تعریف احساسات مشخص و روش‌های شناسایی آنها معرفی می‌شدند. در سال‌های اخیر، پیشرفت چشمگیر فناوری هوش مصنوعی (Artifical Intelegence) فرصت‌های نوین و نویدبخشی را در حوزه‌های گوناگون از جمله پیش‌بینی مسابقات ورزشی (1)، بررسی کیفیت مواد غذایی (2)، تا مسائل پیش‌بینی‌ها در علوم مختلف (3 بالا بردن کیفیت تصاویر علوم پزشکی (4) به ویژه علوم رفتاری از جمله روان‌شناسی و روان‌درمانی و غیره ارائه داده است.
شناخت و تحلیل احساسات انسانی به عنوان یکی از مؤلفه‌های کلیدی در فهم رفتار و شرایط روحی افراد، از دیرباز مورد توجه محققین این عرصه بوده و اکنون با بهره‌گیری از قابلیت‌های AI، این توجه به سطحی دیگر ارتقا‌ یافته است. AI با توانایی‌های بی‌نظیر خود در کمک به جمع‌آوری، تجزیه ‌و تحلیل و فرآوری اطلاعات پیچیده می‌تواند به درک عمیق‌تری از احساسات و همچنین نظارت مداوم و دقیق بر تغییرات آن‌ها منجر ‌شود (5). اهمیت شناسایی و تحلیل دقیق و زمان‌بندی شده‌ احساسات توسط AI در روان‌شناسی و روان‌درمانی نیز به ویژه برای ارائه شیوه‌های درمانی متناسب و شخصی‌سازی شده، امری حیاتی است. استفاده از این تکنولوژی می‌تواند موجب افزایش کارآیی در شناسایی اختلالات روحی و همچنین فرایند تشخیص و درمان به‌موقع آن‌ها شود و یا استفاده در روشهای درمانی برای بهبود بهزیستی روانشناختی کاربرد دارد (6). علاوه بر این، AI می‌تواند در فهم بهتر پدیده‌های احساسی و تعاملات انسانی که در درمان‌های روان‌شناختی از اهمیت ویژه‌ای برخوردارند، نقش مؤثری ایفا نماید.
شناخت احساسات، یکی از جنبه‌های چالش‌برانگیز در روان‌شناسی است که می‌کوشد به درک دقیق و مدیریت بهتر حالات احساسی بشر دست یابد. با ظهور هوش مصنوعی، توانایی‌های ما در تجزیه و تحلیل رفتار انسانی توسعه یافته‌اند. از دهه 1990 به بعد، تحقیقات متعددی بر روی شناسایی احساسات از طریق بینایی ماشین و الگوریتم‌های تشخیص الگو انجام شد. اولین تلاش‌ها در این زمینه به پژوهش‌هایی بازمی‌گردد که تکنیک‌های تشخیص چهره و تجزیه و تحلیل گفتار را مورد بررسی قرار دادند (7).
رویکردهای مبتنی بر تشخیص چهره، حالات احساسی را از طریق تحلیل ویژگی‌های چهره شناسایی کردند. همزمان، تکنیک‌های پردازش سیگنال صوتی برای تجزیه و تحلیل لحن، صدا در گفتار افراد برای شناسایی احساسات استفاده شدند. واکاوی عمیق در تحقیقات نشان‌دهنده‌ی کوشش‌های پیوسته و تلاش‌ها برای درگیر کردن هوش مصنوعی در فهم پیچیدگی‌های احساسات انسان است. از ابتدایی‌ترین مدل‌های تشخیص الگو در سال‌های گذشته تا پیشرفت‌های اخیر در یادگیری عمیق و پردازش زبان طبیعی، مسیر توسعه در این حوزه، رو به رشد بوده است.
نخستین گام‌ها در این مسیر، مطالعاتی بودند که بر روی پردازش سیگنال‌های بیومتریک مانند ضربان قلب و فعالیت الکترودرمی تمرکز داشتند، که امکان ارزیابی واکنش‌های فیزیولوژیکی به محرک‌های احساسی را فراهم آوردند. سپس با پیشرفت در بینایی ماشین و پردازش تصویر، سیستم‌های تشخیص الگو شروع به شناسایی حالات چهره و لحن صدا به‌عنوان شاخص‌های احساسات کردند. ورود یادگیری ماشین، دورنمای تازه‌ای را ارائه داد. شبکه‌های عصبی با قدرت تشخیص الگوهای پیچیده، قابلیت‌های نوینی ایجاد کردند و در درک متن و گفتار دستیابی‌های قابل ملاحظه‌ای را به ارمغان آوردند (8). مدل‌های گفتار به متن  (STT)و پردازش زبان طبیعی  (NLP)در شناخت احساسات از متون مکتوب یا گفتاری، به شناسایی دقیق‌تر احساسات و ارتباطات غیرکلامی پرداختند. با پیشرفت در یادگیری ماشین و خصوصاً شبکه‌های عصبی عمیق، دستاوردهای مهمی در تجزیه و تحلیل احساسات حاصل شد. مدل‌های پیچیده‌تر که می‌توانند از داده‌های بزرگ و چند متغیره‌ای که رفتارهای احساسی را توصیف می‌کنند، یاد بگیرند، به ما امکان می‌دهند تا بینش‌های دقیق‌تر و منسجم‌تری از تجزیه و تحلیل احساسات به دست آوریم (9).
پیشرفت‌های اخیر در حوزه هوش مصنوعی همچنین شامل فناوری‌های پیش‌بینی‌کننده و تحلیل‌گر رفتار است، که می‌تواند نه تنها حالت احساسی کنونی بلکه پیش‌بینی رفتاری آتی فرد را نیز ممکن سازد. همچنین، تکنولوژی‌های همراه و ابزارهای هوشمند قابل پوشیدن، دسترسی به داده‌های فیزیولوژیک و رفتاری را در زمان واقعی و در محیط‌های طبیعی فراهم کرده‌اند، که این امکان را فراهم می‌کند تا تجزیه و تحلیل احساسات به طور غیر تهاجمی و مداوم‌تری انجام گیرد. پیشرفت‌های قابل توجه دیگر شامل استفاده از واقعیت مجازی و بازی‌های کامپیوتری برای موقعیت قراردادن افراد در محیط‌های کنترل‌ شده و ارزیابی واکنش‌های احساسی در شرایط شبیه‌سازی‌شده بود (10). علاوه بر این، استفاده از پردازش زبان طبیعی برای تحلیل احساسات از متن های مکتوب یا گفتارها، از جمله داده‌های شبکه‌های اجتماعی و مراکز تماس، نیز به شناخت بهتر احساسات و تصمیم‌گیری‌های احساسی کمک کرده است. این رشد قابل توجه، هر چند که امکانات جدیدی را در اختیار محققین و درمانگران قرار می‌دهد، اما با چالش‌های ناشی از حریم خصوصی، اخلاق کاربردی و نیاز به توسعه مدل‌های ارزیابی شده و مناسب برای فرهنگ‌های مختلف روبرو است. این پیشرفت‌ها و چالش‌ها را می‌توان در ادامه‌ی مسیر تحقیقاتی، به منظور دستیابی به درکی جامع و کاربردی‌تر از جایگاه هوش مصنوعی AI در فهم و تحلیل دقیق و کارآمد احساسات انسانی به کار برد (11).
نظریه احساسات در روان‌شناسی: احساسات، بخشی جدایی‌ناپذیر از تجربه‌های انسانی هستند و در روان‌شناسی به عنوان پدیده‌هایی پیچیده که شامل جنبه‌های فیزیولوژیکی، شناختی و عملکردی هستند، مطرح می‌شوند. در طول تاریخ، نظریه‌های متعددی پیرامون احساسات شکل گرفته‌اند که به تبیین و فهم بهتر این پدیده‌ها کمک کرده‌اند. در ادامه به مهم‌ترین نظریه‌ها اشاره می‌شود:
1- یکی از نخستین نظریه‌های احساسات نظریه جیمز-لانگه است که بیان می‌کند فعالیت‌های فیزیولوژیک واکنش‌های بدنی دلیل بروز احساسات هستند. به بیان دیگر، ما اول بدنی واکنش نشان می‌دهیم و سپس حس احساسی را تجربه می‌کنیم. این نظریه تأکید زیادی بر واکنش‌های فیزیولوژیک دارد (12).
در مقابل، نظریه کانن-بارد بیان می‌کند که تجربیات احساسی و واکنش‌های فیزیولوژیک به طور همزمان روی می‌دهند و از یکدیگر مستقل هستند. این یعنی بدن و ذهن به طور همزمان به یک محرک احساسی واکنش نشان می‌دهند (13).
2- نظریه شناختی انگیزشی لازاروس مطرح می‌کند که شناخت (ارزیابی آگاهانه یا ناآگاهانه) نقش مهمی در تجربه‌ی احساسات دارد. این نظریه ادعا می‌کند که تفسیر ما از یک وضعیت تأثیر مستقیمی بر نوع واکنش احساسی که تجربه می‌کنیم دارد (14).
علاوه بر این، تحقیقات مدرن بر نقش هوش احساسی، یعنی توانایی درک و مدیریت احساسات خود و دیگران، نیز تأکید دارند. این مفهوم به‌ ویژه در حوزه‌های ارتباط بین فردی و رهبری مورد توجه است. اخیراً، با پیشرفت‌های فناورانه، محققان در تلاشند به ‌کمک الگوریتم‌های یادگیری ماشین و تحلیل داده‌های بزرگ، درک بهتری از احساسات به دست آورند. این پژوهش‌ها نه تنها به فهم بهتر ویژگی‌های احساسی انسان کمک می‌کنند بلکه در کاربردهای عملی مانند توسعه‌ی کمک‌رسان‌های مجازی احساسی و سیستم‌های تشخیص احساسات برای بهبود تعاملات انسانی با ماشین‌ها نیز مورد استفاده قرار می‌گیرند (15).
روانشناسان بر تعریف اکمن که «احساسات به عنوان پاسخ های فیزیولوژیکی مغز و بدن به محرک‌های محیط تعریف می‌شود، احساسات علت مشخصی دارند، مدت کوتاهی دارند و از این رو نسبتاً شدید هستند» معرفی کرد اقبال بیشتری نشان دادند. طبق این تعریف احساسات انسانی به شش احساس اصلی شامل «شادی Happiness، غم Sadness، انزجار Disgust، ترس Fear، تعجب Surprise، عصبانیت Angre، حالت طبیعی Natural» تقسیم‌بندی می‌شوند (16) که در (شکل 1 -a) آمده است.
در مقابل، مدل چرخ پلوچیک شامل هشت احساس اساسی (شادی، اعتماد، ترس، تعجب، غم، انتظار، خشم، و انزجار) و نحوه ارتباط آنها با یکدیگر است (شکل 1 (b)). به عنوان مثال، شادی و غم متضاد هستند و انتظار به راحتی می‌تواند به هوشیاری تبدیل شود. این مدل چرخ همچنین به عنوان مدل مؤلفه‌ای شناخته می‌شود که در آن احساسات قوی‌تر در مرکز قرار گرفته، در حالی که احساسات ضعیف‌تر، بسته به سطح و شدت نسبی آنها، در حاشیه قرار می‌گیرند. این احساسات گسسته را می‌توان به طور کلی به سه نوع قطبیت (مثبت، منفی و خنثی) طبقه‌بندی کرد که اغلب برای تجزیه و تحلیل احساسات استفاده می‌شود (17).



شکل 1. دو مدل متمایز برای محاسبه احساسات (17)
(a) شش مدل احساسی اساسی که از طریق ایموجی‌ها نشان داده شده است (16).
(
b) مدل‌های جزئی، مانند مدل چرخ پلاچینگ (17).


اهمیت و کاربردهای هوش مصنوعی در شناسایی احساسات: مطالعات نشان‌دهنده تنوع و قدرت کاربردهای هوش مصنوعی در فهم و تفسیر احساسات هستند و چشم‌انداز وسیعی را برای کاربردهای آینده فراهم می‌آورند. همچنین، پیشرفت‌های فناوری، چه در حوزه داده‌های بزرگ چه در الگوریتم‌های هوش مصنوعی، این نوید را می‌دهد که تجزیه‌ و تحلیل احساسات همچنان به‌عنوان یک حوزه تحقیقاتی مهم و در حال گسترش باقی خواهد ماند. هوش مصنوعی به طور گسترده برای فهم و تفسیر احساسات استفاده شده است و بسیاری از مطالعات موردی در زمینه‌های مختلفی از پزشکی گرفته تا خدمات مشتری و تجربه کاربری به این موضوع پرداخته‌اند (18). در اینجا به بررسی مختصر چند مورد از این مطالعات می‌پردازیم:
روان‌درمانی و تحلیل احساسات برای مداخلات درمانی: تحقیقات نوظهور در زمینه‌ی روان‌درمانی نشان می‌دهد که AI می‌تواند به شناسایی الگوهای احساسی و رفتاری بیماران به صورت زمان واقعی کمک کند. در این مطالعه موردی، سیستم‌های پیشرفته توانسته‌اند نشانه‌هایی از استرس، اضطراب یا افسردگی را که توسط حرکات میکرو چهره‌برداری شده، تصاویر هوشمند و تحلیل گفتار تشخیص دهند و این داده‌ها را برای تنظیم مداخلات درمانی ارائه دهند (19).
حوزه پزشکی تشخیص بیماری‌های عصبی: مطالعات زیادی استفاده از هوش مصنوعی را برای تشخیص زودهنگام بیماری‌هایی مانند پارکینسون و افسردگی که هر دو می‌توانند با تغییرات در احساسات و انفعالات فرد مرتبط باشند، بررسی کرده است. عملکرد  AIدر تجزیه و تحلیل الگوهای زبان بدن و تغییرات در صدا، به پزشکان امکان داده‌ تا با دقت بیشتر و سریع‌تری این بیماری‌ها را تشخیص دهند (20).
پیش‌بینی انفعالات دارویی بر حالات احساسی: در صنعت داروسازی، هوش مصنوعی مورد استفاده برای پیش‌بینی چگونگی تأثیر داروها بر حالات احساسی بیماران قرار گرفته است. در یکی از مطالعات، داده‌های بزرگ حاصل از بررسی‌های بالینی و گزارش‌های بیماران تحت تأثیر الگوریتم‌های پیچیده تجزیه و تحلیل شده‌اند تا الگوهای احتمالی که می‌توانند به عنوان مبنایی برای تعیین دوزهای دقیق‌تر و پروتکل‌های درمانی بهتر باشند، شناسایی شوند (21).
بهبود خدمات مشتری با چت‌بات‌های احساسی: در صنعت خدمات مشتری، چت‌بات‌هایی که مجهز به تجزیه ‌و تحلیل احساسات هستند، قادر به درک بهتر نیازها و حالات مشتریان شده‌اند. چنین سیستم‌هایی می‌توانند واکنش‌های احساسی مشتریان را تشخیص داده و پاسخ‌های مناسب را ارائه دهند. به عنوان مثال، یک مطالعه موردی نشان داده است که ربات‌هایی با قابلیت تشخیص احساسات به کاهش تنش و افزایش رضایت مشتری کمک می‌کنند (22).
تحلیل واکنش‌های احساسی در تجربه‌ی کاربری: تحلیل واکنش‌های احساسی کاربران نیز یکی از کاربردهای مهم هوش مصنوعی است. برای مثال، در یک طراحی که از تشخیص چهره کاربران برای درک واکنش‌های آن‌ها به یک محصول یا خدمت وب استفاده می‌کند می‌تواند به بهبود طراحی محصولات و ارتقای تجربه کلی کمک کند (23).
این مطالعات موردی فقط نمونه‌هایی از نحوه کاربرد هوش مصنوعی در فهم و تفسیر احساسات انسانی هستند. هر مورد نشان‌دهنده‌ی پتانسیل گسترده‌ی  AIبرای ارتقاء درک ما از احساسات و بهبود تعاملات و پاسخ‌های انسانی در سیستم‌های کامپیوتری است.
در حوزه روان‌درمانی، استفاده از  AIمی‌تواند به درک و تفسیر احساسات پیچیده کمک کند و تجربه درمانی را ارتقا بخشد. کاربردهای AI در این زمینه شامل ارزیابی‌های دقیق‌تر، ردیابی تغییرات بلندمدت در حالات احساسی بیمار و ارائه بینش‌های کمکی به درمانگران است (24). در ادامه به توضیح دو بخش کلیدی از این کاربردها می‌پردازیم:
کاربردهای هوش مصنوعی در روان درمانی
تشخیص و ارزیابی احساسات
تحلیل گفتار و نوشتار: تکنیک‌های پردازش زبان طبیعی (NLP) در AI می‌توانند به تشخیص الگوهای کلامی مرتبط با اختلالات احساسات مثل افسردگی یا اضطراب کمک کنند. با تجزیه و تحلیل دقیق مکالمات و نوشته‌های بیماران، AI می‌تواند به درمانگران در شناسایی علائم زودهنگام اختلالات کمک کند یا پیشرفت بیمار را در طول درمان ردیابی کند (25).
تشخیص حالات چهره و بیان بدنی: سیستم‌های تشخیص چهره می‌توانند تغییرات احساسی را که بیمار ممکن است به صورت کلامی بیان نکند، تشخیص دهند. این برای درمانگر مفید است، به‌خصوص وقتی که بیماران قادر به شناساندن احساسات خود نیستند یا نمی‌خواهند در مورد آن‌ها صحبت کنند (26).
پشتیبانی و افزایش کارآیی درمان: الگوریتم‌های پیش‌بینی: AI می‌تواند به پیش‌بینی پاسخ بیماران به درمان‌های مختلف کمک کند. با تجزیه و تحلیل داده‌های بزرگ و پیچیده حاصل از تاریخچه بیماران، AI می‌تواند الگوهایی را کشف کند و به روانشناسان و روانپزشکان در انتخاب بهترین مسیر درمانی یا تغییر استراتژی کمک کند (27).
تعیین چارچوب درمانی: با تحلیل داده‌های حاصل از جلسات روان‌درمانی، AI می‌تواند برنامه‌های درمانی شخصی‌سازی‌شده‌ای تولید کند که به نیازها و ویژگی‌های فردی هر بیمار منطبق هستند. این امر موجب می‌شود که فرایند درمان برای هر فرد بهینه‌سازی شود (28).
چت‌بات‌ها و مجریان مجازی: چت‌بات‌های هوشمند و دستیاران مجازی می‌توانند به عنوان وسیله‌ای برای ارائه پشتیبانی احساسی فوری و مدیریت استرس در زمان‌هایی که دسترسی به یک درمانگر ممکن نیست، استفاده شوند. از  AIمی‌توان برای ارائه راهکارهای مقابله‌ای مبتنی بر شواهد و بازخورد فوری استفاده کرد. این کاربردها می‌توانند به ارتقاء کیفیت مراقبت‌های روانی و دسترسی به خدمات مؤثرتر و شخصی‌سازی ‌شده کمک کنند. با این حال، اهمیت دارد که به یاد داشته باشیم استفاده از  AIدر روان‌درمانی باید با نظارت متخصصان انجام شود (29).
تشخیص دقیق‌تر اختلالات: تحقیقات آینده می‌توانند بر توسعه مدل‌های پیشرفته  AIتمرکز کنند که قادر به تشخیص دقیق‌تر اختلالات روانشناختی از طریق تحلیل الگوهای بزرگ و چند بعدی داده‌ها هستند، اعم از متنی، بصری و صوتی. این آنالیزها می‌توانند به شناسایی نادیده گرفته‌شده‌های کنونی بین اختلالات و افزایش فهم ما از روابط بین شرایط روانشناختی مختلف کمک کنند (30).
شخصی‌سازی درمان: یکی از هدف‌های اصلی تحقیقات آتی توسعه سیستم‌هایی است که قادر به ارائه پیشنهادات شخصی‌سازی ‌شده برای درمان هستند. مبتنی بر تحلیل داده‌ها، AI می‌تواند به درمانگران کمک کند تا نه تنها اختلالات را تشخیص دهند بلکه بهترین روش‌های درمانی را برای هر فرد بر اساس ویژگی‌های اختصاصی‌اش توصیه کنند (31).
همراهی درمانی بی‌وقفه: در آینده، AI ممکن است به عنوان یک همراه درمانی دائمی عمل کند که بیماران را بین جلسات درمانی پشتیبانی می‌کند. این می‌تواند شامل کمک به مدیریت استرس، تشویق تکرار شیوه‌های مثبت، و ارائه بازخورد بر اساس ردیابی مداوم تغییرات رفتاری و احساسی باشد (31).
تحقیقات مورفولوژیک و عملکردی مغز: با گسترش داده‌های عصب‌شناختی و روانشناختی، تحقیقات بیشتری می‌توانند روابط بین ساختار و عملکرد مغز را با حالت‌های روانی مربوطه بررسی کنند. AI می‌تواند به کشف پیچیدگی‌های عصبی مرتبط با احساسات و رفتارها کمک کند (32).
ارتقاء درک انسان‌ها از ماشین‌ها و برعکس: توسعه سیستم‌های  AIکه قادر به تشخیص و پاسخ به احساسات انسانی هستند، می‌تواند به ارتقاء مفاهیم هوش مصنوعی همدلی‌مند و تعاملات انسان-ماشین مؤثر کمک کند. این امر می‌تواند تأثیر عمیقی بر طراحی محصول، خدمات مشتری و درمان‌های بهداشتی داشته باشد (33).
هوش مصنوعی و تشخیص احساسات: هوش مصنوعی (AI) به کمک مدل‌های یادگیری ماشینی و یادگیری عمیق (Deep Learning) DL قادر به شناسایی، تحلیل و حتی تفسیر احساسات انسانی شده است. این فناوری‌ها به ما امکان می‌دهند تا پیچیدگی‌های احساسی را که سابقاً تنها از طریق مراقبه و تفسیرهای انسانی قابل فهم بودند، با دقتی فزاینده و به طور خودکار تحلیل کنیم.


شکل 2. گردش کار یک سیستم MER، شامل سه مرحله اصلی است (38)
(1) استخراج ویژگی‌های چندوجهی. (2) ترکیب اطلاعات چندوجهی. (3) طراحی طبقه بندی کننده احساسات.

شناسایی احساسات از طریق یادگیری ماشینی: یادگیری ماشینی (Machine Learning) ML شاخه‌ای از AI است که به کامپیوترها این امکان را می‌دهد تا از داده‌های موجود یاد بگیرند و بدون دخالت برنامه‌نویسی صریح، الگوها و تصمیم‌گیری‌ها را ارائه دهند. در زمینه شناخت احساسی، ML می‌تواند برای تجزیه و تحلیل حالت‌های چهره، لحن صدا، زبان بدن و حتی محتوای کلامی به کار رود تا واکنش‌های احساسی را کشف کند. مدل‌های  MLمی‌توانند بر اساس داده‌های آموزشی مختلفی که به‌عنوان «داده‌های آموزشی» استفاده می‌شود، طبقه‌بندی احساسات را انجام دهند. این داده‌ها شامل تصاویر چهره، فایل‌های صوتی و متن‌هایی هستند که احساسات را بیان می‌کنند. سپس از الگوریتم هایی نظیر جنگل‌های تصادفی (Random Forests)، ماشین‌های بردار پشتیبان (Support Vector Machines) SVMs و regression شبکه‌های عصبی مصنوعی (Artificial Neural Networks) ANN برای کشف الگوهای موجود در این داده‌ها استفاده می‌شود (34).
یادگیری عمیق در تحلیل احساسات: یادگیری عمیق، یک زیرمجموعه از  MLاست که به مدل‌های پیچیده‌تر مانند شبکه‌های عصبی پیچشی (Convolutional Neural Networks)  CNNsو شبکه‌های عصبی بازگشتی (Recurrent Neural Networks) RNNs متکی است. CNNها در تجزیه و تحلیل تصویری برای شناسایی حالات چهره بسیار کارآمد هستند، زیرا قادرند ویژگی‌های دقیق صورتی را که حاوی اطلاعات احساسی هستند، استخراج کنند. به عنوان مثال، پایین کشیدن گوشه‌های دهان ممکن است نشان‌دهنده‌ احساس غم باشد. در مقابل، RNNها و شبکه‌های عصبی (Attention Neural Networks) در تحلیل نوشتار و گفتار، به خصوص در مواردی که الگوهای زمانی پیچیده و سیاق مهم است، استفاده می‌شوند. آن‌ها می‌توانند روی زمینه‌های مختلف هر کلمه یا جمله تأکید کرده و نحوه‌ی تأثیرگذاری آن بر تجربیات احساسی را شناسایی کنند (35).
علاوه بر این، مدل‌های یادگیری عمیق می‌توانند به کمک ویژگی‌ها، حالات احساسیواحساساتی را که پیچیده‌تر یا ظریف‌تر هستند، تشخیص دهند. این توانایی شامل شناسایی زیرمجموعه‌هایی از احساسات یا ترکیبی از احساسات چندگانه است. در نهایت، تلاش‌های متعددی جهت ایجاد سیستم‌هایی صورت گرفته است که توانایی تشخیص، پردازش و واکنش مناسب به احساسات را دارند، که این امر بر تجربیات انسانی در تعامل با ماشین و افزایش همدلی و اثربخشی در روان‌درمانی تأثیر می‌گذارد (36).
مهم‌ترین روش‌های شناسایی احساسات انسانی: تکنولوژی‌ها و متدهای تشخیص احساسات در زمینه هوش مصنوعی با محوریت توانایی تجزیه و تحلیل داده‌ها از منابع مختلف، گسترش یافته و به سرعت در حال پیشرفت هستند (37). این فناوری‌ها به چند دسته اصلی تقسیم می‌شوند:
تشخیص چهره: این فناوری از الگوریتم‌های بینایی کامپیوتری استفاده می‌کند تا ویژگی‌های چهره که حالات احساسی را نمایش می‌دهند، تشخیص دهد. شبکه‌های عصبی پیچشی (CNN) نقش مهمی در این زمینه ایفا می‌کنند، زیرا می‌توانند الگوهایی نظیر خطوط، کنتراست‌ها و بافت‌ها را تشخیص دهند (37). مهم‌ترین ویژگی‌های چهره که تجزیه و تحلیل می‌شوند شامل حرکت ابروها، کشیدگی یا فشردگی لب‌ها و تغییرات در ناحیه چشم‌ها است.
پردازش زبان طبیعی (NLP):  NLPفناوری‌ای است که به کامپیوتر اجازه می‌دهد تا متن و گفتار انسانی را درک کند. تحلیل احساسات یکی از مؤلفه‌های مهم در NLP است که به سیستم‌ها امکان می‌دهد احساسات نهفته در کلمات، جملات و گفتار را تشخیص دهند. ابزارهای تجزیه‌وتحلیل احساسات می‌توانند متن‌ها را به دسته‌هایی چون مثبت، منفی و خنثی طبقه‌بندی کنند یا حتی با دقت بیشتری طیف گسترده‌تری از احساسات را شناسایی نمایند.

روش کار
برای توسعه شناسایی احساسات چند حالته با در نظر گرفتن فعالیت‌های سایر محققین در این زمینه تحقیقاتی مدل پیشنهادی که سناریوی آن در شکل (2) آمده است معرفی گردید تا بتوان با ادغام اطلاعات صوت و متن و صوت و تصویر و ترکیب نتایج این دو روش به نتیجه این روش را بررسی کنیم. در شکل (2) معماری کلی از روش‌های مورد استفاده در تحقیق تشخیص احساسات آورده شده است.
معرفی مجموعه دادگان: در این پژوهش برای ارزیابی روش پیشنهادی از پایگاه‌داده احساسات (IEMOCAP) استفاده می‌کنیم. این مجموعه تقریباً 12 ساعت داده سمعی و بصری از جمله ویدئو، صوت، ضبط حرکت چهره و رونویسی متن دارد. 10 بازیگر حرفه‌ای (5 مرد و 5 زن) در دو سناریو مختلف بازی می‌کنند بازی متنی و دیالوگ فی‌البداهه در مکالمات دو نفره. طول هر مکالمه حدود 5 دقیقه است و به سطوح جمله تقسیم می‌شود. در این مطالعه از چهار دسته احساسی استفاده می‌کنیم عصبانی، شاد، غمگین و خنثی مشابه اکثر مطالعات قبلی که از این مجموعه دادگان استفاده می‌کنند. توجه داشته باشید که «شاد» و «هیجان زده» در حاشیه‌نویسی اصلی در کلاس «شاد» ادغام شده است. در آزمایش‌ها فقط جملاتی با توافق اکثریت استفاده می‌شود، یعنی حداقل دو نفر از سه نفر ارزیاب برچسب عاطفی نظر مشابهی دارند. توزیع کلاس‌ها عبارتند از: 0/20 درصد عصبانی، 6/19 درصد غمگین، 6/29 درصد خوشحال و 8/30 درصد خنثی. همچنین به دلیل صحت کم و اغراق در داده‌های اجرا شده، هنوز فاصله قابل‌توجهی بین داده‌های اجرا شده و احساسات عادی افراد در ارتباطات روزانه وجود دارد. در مقایسه با داده‌های اجرا شده، داده‌های بداهه معتبرتر هستند؛ بنابراین، با توجه ‌به صحت داده‌ها، از داده‌های بداهه برای تشخیص احساسات صوت استفاده می‌کنیم.
مراحل ساخت مدل‌ها: برای تحلیل داده‌ها، از تکنیک‌های متنوع آماری و محاسباتی استفاده کرده‌ایم که شامل مدل‌های پیش‌بینی و شبکه‌های عصبی عمیق است. این مدل‌ها به ما امکان می‌دهند تا الگوهای پیچیده‌ای که در داده‌های چندحالته وجود دارند را شناسایی کرده و با دقت بالایی احساسات را تشخیص دهیم. ما همچنین از روش‌های تحلیل محتوا برای تعیین معنای کلامی متون استفاده کرده‌ایم، که به ما کمک می‌کند تا درک بهتری از زمینه‌های ارتباطی و تأثیر آن‌ها بر احساسات به دست آوریم.
در تحلیل داده‌ها، یک رویکرد چند متغیره اتخاذ شده است تا از پیچیدگی‌های موجود در داده‌های صوتی، متنی و تصویری به شکلی جامع برخورد شود. تکنیک‌های استخراج ویژگی‌های داده‌های منفرد صوت و متن و تصویر و ترکیب ویژگی‌های مشترک و موثر از ترکیب صوت و متن و همچنین ترکیب و استخراج داده‌های مشترک و مؤثر از ترکیب صوت و تصویر و استفاده الگوریتم‌های یادگیری ماشینی مانند شبکه‌های عصبی عمیقCNN, RNN  و LSTM و Softmax Regration برای شناسایی و استخراج ویژگی‌های مهم از داده‌ها مورد استفاده قرار گرفته‌اند. این تحلیل‌ها به ما اجازه می‌دهند تا احساسات را با دقت بالایی تشخیص دهیم و درک ما از ارتباط بین داده‌های مختلف و حالت‌های احساسی را بهبود ببخشیم.از پایگاه داده احساسات (IEMOCAP) برای ارزیابی روش پیشنهادی استفاده می‌کنیم. ابتدا از کانال دوگانه CNN و
(Long Short-Term Memory) LSTM برای یادگیری ویژگی‌های احساسات آکوستیک استفاده شد. همچنین از Bi-LSTM (LSTM دو طرفه) برای استخراج ویژگی های متنی استفاده گردید.

علاوه بر این، یک شبکه عصبی عمیق برای یادگیری ویژگی‌های همجوشی به کار گرفته شد. مدل از شبکه‌های یادگیری عمیق استفاده کرده و از ویژگی‌های دست‌ساز و سطح بالا بهره برد و همچنین اطلاعات زمانی و متنی را نیز در داده‌ها در نظر گرفت. همزمان ترکیبی دو وجهی (A/V) مبتنی بر یادگیری عمیق با استفاده از شبکه عصبی کانولوشنال حافظه بلند‌مدت و کوتاه‌مدت و 2Inception-Res Net-v به ترتیب برای استخراج داده‌های ویژگی حالات چهره در صدا و ویدیو استفاده می‌شود. در همان زمان، ویژگی‌های به‌دست ‌آمده به واحد LSTM وارد می‌شوند و روش‌های منفرد برای به دست آوردن ویژگی‌های همجوشی با روش انتخاب ویژگی آزمون Chi-square به هم متصل می‌شوند و داده‌های ویژگی خروجی LSTM را در طبقه‌بندی کننده softmax وارد کرده تا احساسات را شناسایی نماید.


شکل 2. معماری کلی استخراج و ترکیب ویژگی‌ها و ادغام ویژگی های مشترک (38).

نتایج بر روی مجموعه دادگان IEMOCAP نشان می‌دهد که زمانی که وزن شبکه حدود 57/0 باشد و آزمون Chi-square اضافه شود، عملکرد تشخیص احساسات بهترین حالت است و توانایی انتخاب ویژگی لایه کاملاً متصل شبکه Inception-Res Net-v2  بهترین است. در این روش حذف افزونگی و حذف نویز ویژگی‌های داخلی در نظر گرفته می‌شود، اما در واقع، برخی همبستگی‌های مکمل بین اطلاعات بین ماژول‌ها وجود دارد. دراینجا، تمام ویژگی‌های تک حالته قبل از انتخاب ویژگی به یک فضای ویژگی یکپارچه نگاشت می‌شوند. در نهایت خروجی روش‌های ترکیبی (Audio/Text) و (Audio/Video) باهم ادغام شده و نتیجه تشخیص احساسات با استفاده از روش پیشنهادی (A/T/V) شناسایی احساسات با دقت 9/82 درصد استخراج گردید.
کارآیی ودقت: تحقیقات در زمینه تشخیص احساسات چندوجهی به طور مداوم در حالت کامل است، مکانیسم‌های همجوشی چند وجهی، نقش محوری در تشخیص همه جانبه احساسات ایفا می‌کند. بهینه‌سازی سیستم‌های تشخیص احساسات مدل پیشنهادی نشان‌دهنده یک جهش به جلو در تشخیص احساسات پیچیده است.
ادغام متوالی داده‌ها از روش‌های مختلف، ازجمله ویدئو-صوت، صوتی-متن و ادغام بعدی هرسه، براهمیت یکپارچه‌سازی نشانه‌های احساسی متنوع تأکید می‌کند. مدل‌های هوش مصنوعی، به‌ویژه شبکه‌های عصبی کانولوشن (CNN) و شبکه‌های حافظه کوتاه‌مدت و بلندمدت (LSTM) کارآمدی خود را د راستخراج ویژگی‌های احساسی از ورودی‌های صوتی به نمایش می‌گذارند. این فرایند استخراج بر معماری CNN-LSTM متکی است و بر ظرفیت مدل برای گرفتن عبارات هیجانی شنیداری ظریف تأکید دارد. به طور مشابه، استفاده از شبکه Inception-ResNet-v2 نشان‌دهنده مهارت آن در تشخیص حالات پیچیده چهره از داده‌های ویدیویی است. این ویژگی‌های استخراج ‌شده، پس از ادغام، به‌ عنوان ورودی‌های LSTM یا LSTM‌ های دوطرفه (Bi-LSTMs) عمل می‌کنند و قدرت مدل‌سازی متوالی را در گرفتن و تحلیل نشانه‌های اساسی نشان می‌دهند.
اهمیت روش تلفیقی در توانایی آن در ترکیب داده‌ها از طریق روش‌ها
نهفته است،که به روانشناسان اجازه می‌دهد به دیدگاهی جامع از عبارات احساسی دسترسی داشته باشند. این فرآیند ادغام ماهیت پیچیده احساسات انسانی را منعکس میکند و به روانشناسان در تجزیه و تحلیل جامع نشانه‌های عاطفی کمک می‌کند که درغیر اینصورت تشخیص دستی آنها ممکن است چالش برانگیز باشد.

شناسایی و تجزیه و تحلیل الگو: استفاده از شبکه‌های CNN-LSTM و Bi-LSTM به عنوان شاهدی بر ظرفیت مدل‌های هوش مصنوعی در شناسایی و تحلیل الگوهای پیچیده در داده‌های احساسی است. استفاده از CNN-LSTM به عنوان یک کانال باینری برای یادگیری ویژگی‌های احساسات صوتی، بر مهارت آن در گرفتن الگوهای صوتی ظریف نشان‌دهنده حالات عاطفی است. به طور همزمان، استفاده از Bi-LSTM برای استخراج ویژگی متن، مهارت آنرا در درک عبارات احساسی متنی ظریف نشان می‌دهد.
این مدل‌ها در تشخیص وابستگی‌های زمانی ظریف و الگوهای پیچیده در داده‌های عاطفی برتری دارند و با تلاش روان‌شناسان برای باز کردن تابلوی پیچیده احساسات انسانی همسو می‌شوند.
توانایی مدل‌های هوش مصنوعی در تشخیص الگوهای ظریف، در حمایت از تلاش‌های روان‌شناسان برای رمزگشایی نشانه‌های احساسی زیربنایی مؤثر است. با شناسایی و تجزیه و تحلیل این الگوهای ظریف در چندین روش، هوش مصنوعی توانایی‌های روانشناسان را برای کشف بینشهای عمیق‌تر در مورد حالات عاطفی افزایش می‌دهد و درک دقیق‌تر و جامع‌تری از احساسات انسانی ارائه می‌دهد.
تصمیم‌گیری تقویت شده: ادغام نتایج از طریق رگرسیون لجستیک، ماهیت مشترک سیستم‌های هوش مصنوعی با فرایندهای تصمیم‌گیری روانشناسان را نشان می‌دهد.
با ادغام ویژگی‌های احساسی از داده‌های صوتی، متنی و ویدیویی در یک چارچوب یکپارچه، این استراتژی ترکیبی با ارائه درک منسجمی از اطلاعات احساسی متنوع، تصمیم‌گیری را تقویت می‌کند. ماهیت تکراری تصمیم‌گیری در این زمینه، فرایند پالایش تکراری را که روانشناسان در درک و دسته‌بندی احساسات انجام می‌دهند، نشان می‌دهد. مدل‌های هوش مصنوعی، که به عنوان همراهان تحلیلی عمل می‌کنند، با ارائه دیدگاهی ظریف وچند حالته در ارزیابی‌های هیجانی، از روان‌شناسان در تصمیم‌گیری‌هایشان حمایت می‌کنندکه منجر به تصمیم‌گیری‌های آگاهانه‌تر و جامع‌تر در تنظیمات مختلف روان‌شناختی می‌شود.
یادگیری و بهبود مستمر: دقت تشخیص چشمگیر روش پیشنهادی 9/82 درصد در مجموعه دادگان IEMOCAP، ماهیت تکرار شونده مدل‌های تشخیص احساسات مبتنی بر هوش مصنوعی را برجسته می‌کند. این مدل‌ها جوهره یادگیری مداوم، سازگاری و اصلاح را در طول زمان تجسم می‌دهند. این به طور یکپارچه با پیگیری روانشناسان برای پیشرفت‌های مداوم و تنظیم دقیق روش‌های تشخیص عاطفی برای دستیابی به دقت و کارآمدی بالاتر در ارزیابی‌ها هماهنگ است. توانایی مدل برای انطباق و بهینه‌سازی عملکرد بر اساس قرار گرفتن مداوم در معرض داده های احساسی جدید، ماهیت پویایی آن را نشان می‌دهد.
مکانیسم‌های فرایادگیری که در این مدل‌های هوش مصنوعی تعبیه
شده‌اند، سازگاری سریع با زمینه‌های احساسی جدید را تسهیل می‌کنند و اطمینان می‌دهند که روانشناسان به آخرین بینش‌ها در تشخیص احساسات دسترسی دارند. علاوه بر این، استفاده از راهبردهای یادگیری فعال، روانشناسان را قادر می‌سازد تا به طور انتخابی نمونه‌های داده‌های مهم را برچسب گذاری کنند، عملکرد مدل را بهینه کنند و بهبود مستمر را بر اساس زمینه‌های عاطفی خاص یا تفاوت‌های ظریف فردی تسهیل کنند. تکامل و اصلاح مستمر مدل‌های تشخیص احساسات مبتنی بر هوش مصنوعی به عنوان ابزار ارزشمندی برای روانشناسان عمل می‌کند و به کاوش در مناظرهیجانی ظریف کمک می‌کند. همانطور که این مدل‌ها به طور مداوم یادمی‌گیرند و بهبود می‌یابند، بینش‌ها و روش‌های به ‌روزی را به روان‌شناسان ارائه می‌کنند و توانایی آنها را برای درک و تفسیر نشانه‌های احساسی با دقت و پیچیدگی روزافزون تقویت می‌کنند.

به نظر می‌رسد که ادغام روش‌های بدون تماس با یکدیگر و همچنین ادغام روش‌های شناسایی احساسات با تماس با هم و در نهایت ادغام نتایج با هم روش مناسب‌تری برای دست‌یافتن به نتایج بهتر در شناسایی احساسات به‌صورت کاربردی باشد. علت آن هم این است که در همه‌جا امکان استفاده تر روش‌های با تماس، امکان‌پذیر نیست و استفاده از تمام روش‌ها صرفاً در آزمایشگاهی جامع که بتواند تمام دیتاهای موردنیاز را از یک نمونه خاص استخراج کند وجود خواهد داشت.
از نکات قابل‌توجه این است که در سطح کاربردی باید روش‌های به کار گرفته شده و مدل‌های ارائه شده به نحوی باشد که کمترین میزان پردازش را داشته باشد؛ زیرا برای کار با داده‌های احساسی که اغلب از سیگنال‌های مختلف استفاده می‌کنند نیاز به پردازش‌های نسبتاً سنگینی
وجود دارد.

یکی از نکات قابل‌توجه در کارهای آینده ارائه روش‌هایی برای استفاده از داده‌های برخط و نیاز به مطالعه دقیق‌تر و معرفی مدل‌هایی است که بتواند از داده‌های برخط استفاده نموده و نتایج برخط را ارائه نماید که این مهم از نکات قابل‌توجه در استفاده‌های کاربردی از نتایج خواهد بود.
کسب رضایت آگاهانه و اشتراک‌گذاری نتایج از اصول اخلاقی در این پژوهش بود. این مطالعه با کد IR.MALAYERU.REC.1403.001 به تصویب کمیته اخلاق دانشگاه ملایر رسیده است.

یافته‌ها
  • برخی از احساسات بهتر از طریق صدا شناسایی می‌شوند (مانند غم و اندوه و ترس) درحالی‌که برخی دیگر به بهترین وجه از طریق ویدئو (مانند خشم و شادی) شناسایی می‌شوند. همچنین در طبقه‌بندی احساسات از صوت، عصبانیت و غم اشتباهی به‌عنوان حالت‌های شادی و خنثی تشخیص داده می‌شوند، درحالی‌که در طبقه‌بندی حالت چهره، خشم ممکن است با غم و شادی باحالت خنثی اشتباه گرفته شود.
  • طبقهبندی کننده متنی، موارد خشمگین، شاد و خنثی را به‌خوبی تشخیص میدهد. بااین‌حال، تشخیص موارد خشمگین و غمگین از یکدیگر با استفاده از متنی بسیار دشوار است. یکی از دلایل احتمالی این است که هر دو کلاس منفی هستند و کلمات مشابه زیادی برای بیان آنها
    استفاده می‌شود
    .
  • در مورد مدل صوتی، برای کلاسهای غمگین و خنثی دقت بهتری نسبت به حالت متنی مشاهده شد، اما برای کلاسهای شاد و عصبانی تفاوت به‌اندازه شاد و عصبانی نبود. طبقه‌بندی‌کننده، بسیاری از موارد شاد را به‌اشتباه طبقه‌بندی کرد. بااین‌حال، طبقه‌بندی‌کننده برای تمایز بین غم و عصبانیت بسیار خوب عمل کرد. همچنین مشاهده شد که برخی از موارد خوشحال اشتباهی به‌عنوان خنثی طبقه‌بندی شدند.
  •  اگرچه چهره‌های عصبانی و غمگین را میتوان به طور مؤثر طبقه‌بندی کرد، طبقه‌بندی کننده نوعی سردرگمی بین چهره‌های عصبانی و غمگین نشان داد. طبقات خنثی نیز بادقت بیشتری نسبت به سایر طبقات از هم تفکیک شدند، اگرچه سردرگمی‌هایی بین چهره‌های شاد و غمگین
    مشاهده شد.
  • در ترکیب صوت و متن و همچنین صوت و تصویر در تمام ویژگی‌ها دقت شناسایی بالاتر از حالت تک مدل است و آشفتگی‌ها در دسته‌بندی اشتباه کاهش می‌یابد.
  • در انواع آزمایشها، مدلهای دو وجهی و سه وجهی بهتر از مدلهای تک وجهی عمل کردند. به‌طورکلی، ادغام صوتی در همه مجموعه ‌داده عملکرد مناسبی داشته است.
مقایسه با کارهای دیگران: Mittal و همکاران، تشخیص احساسات چندوجهی ضربی (M3ER) را پیشنهاد کردند، اولاً، بردارهای ویژگی از سه روش خام استخراج می‌شوند. سپس، این ویژگی‌ها به مرحله بررسی مدل ها منتقل می‌شوند تا ویژگی‌های مؤثر را حفظ کرده و ویژگی‌های بی‌اثری را که برای بازسازی بردارهای ویژگی پراکسی استفاده می‌شوند، حذف کنند. در نهایت، ویژگی‌های انتخاب شده برای پیش‌بینی شش احساس بر اساس تلفیق سطح ویژگی نهایی همراه با ماژول توجه ترکیب می‌شوند. M3ER در IEMOCAP به دقت تشخیص 7/82 درصد دست یافت. نتایج نشان داد که دقت تشخیص مدل چندوجهی ارائه شده بیشتر از مدل تک وجهی و همچنین از سایر مدل‌های چندوجهی منتشر شده در مجموعه دادگان‌ آزمایشی که در جدول 1 آمده است بهتر است (39).
تحقیقات آینده باید به طور فزاینده‌ای بر مسائل اخلاقی و حفظ حریم خصوصی تمرکز کنند. اطمینان از استفاده مسئولانه و ایمن از داده‌های روانشناختی و محافظت از حقوق بیماران از اهمیت ویژه‌ای برخوردار خواهد بود. اغلب، AI به‌عنوان ابزاری برای تقویت توانایی‌های درمانگران عمل می‌کند، نه جایگزین آن‌ها. در کنار توانمندسازی متخصصان، موارد استفاده از AI به‌صورت خودکار (مانند چت‌بات‌های درمانی) نیز مورد بررسی قرار می‌گیرد، که می‌تواند به‌عنوان پشتیبانی دائمی بین جلسات درمان ارزشمند واقع شود. با این حال، اجرای موفقیت‌آمیز AI در روان‌درمانی نیاز به درک عمیق‌تری از چگونگی اثرگذاری فناوری بر انسان‌ها دارد و باید همواره با دقت اخلاقی انجام شود.
تحقیقات آتی باید نه‌تنها به جنبه‌های فنی، بلکه به جنبه‌های اخلاقی، اجتماعی و حقوقی استفاده از AI در این حوزه توجه کافی داشته باشد. ایجاد چارچوب‌های قانونی و اخلاقی برای حفاظت از داده‌های شخصی و تضمین استفاده مناسب از AI برای مقاصد روان‌درمانی می‌تواند به اطمینان از رعایت حقوق و حریم شخصی کاربران در فرایندهای درمانی کمک کند.
 


جدول 1. مقایسه نتایج به دست آمده شناسایی احساسات چند حالته در مجموعه دادگان IEMOCAP
مقاله سال نمایش ویژگی‌ها دسته‌بندی سطح ادغام پایگاه دادگان دقت (درصد)
صوت و متن
(35) 2020 A-DCNN, T-DNN
Self-attention
FC Feature-level IEMOCAP 4 classes 80.51
4 classes 79.22
(36) 2020 Acoustic features
Word embeddings
Pooling
Scalar weight fusion
Feature-level
Decision-level
IEMOCAP 65.1
63.9
پژوهش حاضر 2023 Common Features softmax Feature-level IEMOCAP 69.8
صدا و تصویر
پژوهش حاضر 2023 fusion softmax Feature-level IEMOCAP 71.4
صوت و متن و تصویر
 (37) 2020 Proxy and Attention
Multiplicative fusion
FC Feature-level IEMOCAP 4 classes 82.7
پژوهش حاضر 2023 Common feature and models combination Regration softmax Feature-level
Decision-level
IEMOCAP 4 classes 82.9
بحث
در نهایت، پیشرفت‌های تکنولوژیک در عرصه AI و روان‌درمانی باید به‌گونه‌ای هدایت شوند که به افزایش دسترسی به خدمات روانشناختی موثر، افزایش دقت تشخیصی و ارائه شیوه‌های درمانی بهینه‌سازی‌شده و شخصی‌سازی‌شده منجر شود، در حالی‌که ایمنی و حرمت انسانی را حفظ می‌کند. آینده تحقیقات AI در روان‌شناسی و روان‌درمانی از پتانسیل بسیار زیادی برای بهبود بهداشت روان و کیفیت زندگی افراد برخوردار است، اما با وجود فرصت‌های بزرگ، مسؤولیت‌های بزرگ‌تری نیز مطرح می‌شود که باید با دقت مدیریت شود.
درحالی که ادغام سیستم‌های تشخیص احساسات مبتنی بر هوش مصنوعی در روانشناسی و رواندرمانی نویدبخش است، چندین چالش و ملاحظات وجود دارد که باید مورد توجه قرار گیرند. در اینجا برخی از چالش‌های کلیدی و جهت‌گیری‌های بالقوه آینده برای این حوزه آورده شده است.
اطمینان از شیوههای اخلاقی در توسعه و استقرار سیستم‌های تشخیص احساسات مبتنی بر هوش مصنوعی بسیار مهم است.
ملاحظات اخلاقی شامل حفظ حریم خصوصی و امنیت داده‌‌‌ها، کسب رضایت آگاهانه از افرادی که از داده‌های آنها استفاده می‌شود، پرداختن به سوگیری‌های احتمالی در الگوریتم‌ها و احترام به تفاوت‌های فرهنگی در بیان احساسی است. چارچوب‌ها و دستورالعمل‌های اخلاقی قوی باید برای کنترل استفاده مسئولانه از این فناوری‌ها در عملکرد روان‌شناختی
ایجاد شود.

تنوع فرهنگی: احساسات و بیان آنها میتواند در فرهنگها و افراد متفاوت باشد. توسعه مجموعه داده‌های آموزشی متنوع که طیف گسترده‌ای از زمینه‌های فرهنگی و تغییرات زبانی را در برمی‌گیرد برای جلوگیری از سوگیری و افزایش دقت سیستم‌های تشخیص احساسات، بسیار مهم است. تحقیقات آینده باید بر درک تفاوت‌های فرهنگی در بیان احساسات و ترکیب این دانش در الگوریتم‌های هوش مصنوعی برای ترویج شیوه‌های حساس و فراگیر از نظر فرهنگی تمرکزکند.
درک زمینه‌ای احساسات: تنها تحت تأثیر نشانه‌های صوتی نیستند، بلکه توسط زمینه‌ای که در آن رخ می‌دهند نیز شکل می‌گیرند. سیستم‌های تشخیص هیجان باید تلاش کنند تا درک زمینه‌ای، مانند عوامل موقعیتی و محیطی را که می‌توانند بر بیان عاطفی تأثیر بگذارند، در خود بگنجانند. ادغام چندین روش تشخیص احساسات، مانند تجزیه و تحلیل صدا، متن و تصویر، می‌تواند درک جامع‌تری از حالات عاطفی در زمینه های روانی واجتماعی ارائه دهد.
ذهنیت و تفاوتهای فردی: احساسات تجربیات ذهنی هستند که می‌توانند بین افراد بسیار متفاوت باشند. الگوریتم‌های هوش مصنوعی باید به گونه‌ای طراحی شوند که تفاوت‌های فردی در بیان عاطفی را با درنظرگرفتن عواملی مانند ویژگی‌های شخصیتی، پیشینه فرهنگی و تاریخچه شخصی در نظر بگیرند. هدف سیستم‌های تشخیص احساسات باید به تصویر کشیدن تفاوت‌های ظریف و پیچیدگی‌های تجربیات عاطفی فردی برای ارائه بینش‌های شخصی و معنادار باشد.
اعتبار و قابلیت اطمینان: دقت و قابلیت اطمینان سیستم‌های تشخیص احساسات مبتنی بر هوش مصنوعی برای ادغام مؤثر آنها در عمل روانشناختی بسیار مهم است. برای ارزیابی عملکرد و تعمیم‌پذیری نسیستم‌ها در میان جمعیت‌ها، زبان‌ها و زمینه‌های فرهنگی مختلف، مطالعات اعتبار سنجی دقیق مورد نیاز است. تحقیقات در حال انجام برای اصلاح و بهبود الگوریتم‌ها، اطمینان از استحکام و قابلیت اطمینان آنها در تشخیص و تجزیه و تحلیل حالات احساسی مورد نیاز است.
پذیرش و اعتماد کاربر: ادغام موفقیت آمیز سیستم‌های تشخیص احساسات مبتنی بر هوش مصنوعی به پذیرش و اعتماد کاربر متکی است. مشارکت روانشناسان، درمانگران و متخصصان سلامت روان در توسعه و ارزیابی این سیستم‌ها ضروری است تا اطمینان حاصل شود که آنها با شیوه‌های بالینی هماهنگ هستند و نیازهای کاربران نهایی را برآورده می‌کنند. ارتباط شفاف در مورد قابلیت‌ها و محدودیت‌های این سیستم‌ها برای تقویت اعتماد در استفاده از آنها و به دست آوردن پذیرش در جامعه روانی بسیار مهم است.
همکاری بین رشته‌ای: تشخیص احساسات از طریق فناوری‌های هوش مصنوعی نیازمند همکاری بین روانشناسان، دانشمندان کامپیوتر، دانشمندان داده و کارشناسان هوش مصنوعی است. با تقویت مشارکت‌های بین رشته‌ای، محققان و متخصصان می‌توانند تخصص و بینش خود را برای ایجاد سیستم‌های قوی‌تر و مؤثرتر تشخیص احساسات ترکیب کنند. همکاری ها همچنین می‌تواند ادغام این سیستم‌ها را در مداخلات روانشناختی موجود تسهیل کند و راه را برای رویکردهای نوآورانه در درمان و ارزیابی بهزیستی عاطفی هموار کند.
ارزیابی و مداخلات طولی: برای دریافت ماهیت پویای احساسات، جهت گیری‌های آینده در تشخیص هیجان باید بر ارزیابی و مداخلات طولی متمرکز شود.
ردیابی تغییرات و الگوهای حالت‌های عاطفی در طول زمان می‌تواند بینش‌های ارزشمندی در مورد اثربخشی مداخلات درمانی و پیشرفت افراد در سفر بهزیستی عاطفی خود ارائه دهد. سیستم‌های تشخیص احساسات می‌توانند نقشی محوری در تسهیل نظارت طولانی‌‌مدت و مداخلات شخصی‌ شده بر اساس این ارزیابی‌های طولی ایفا کنند.
درحالی که چالش‌هایی برای شناسایی دقیق احساسات افراد وجود دارد، ادغام سیستم‌های تشخیص احساسات مبتنی بر هوش مصنوعی در روان‌شناسی و روان‌‌درمانی، نویدهای امیدوار کننده‌ای ‌کننده‌ای را ارائه می‌دهد. با پرداختن به ملاحظات اخلاقی، پذیرش تنوع فرهنگی، بهبود درک زمینه‌ای، درنظرگرفتن تفاوت‌های فردی و تقویت همکاری‌های بین رشته‌ای، می‌توانیم از پتانسیل هوش مصنوعی برای افزایش تشخیص احساسات، بهبود مداخلات درمانی و ارتقای رفاه روانی استفاده کنیم. ادامه تحقیق و توسعه در این فناوری‌ها در عمل روانشناختی حیاتی است.

نتیجه‌گیری
با پیشرفت هوش مصنوعی و تأثیر آن در تمامی علوم، ضروری به نظر می‌رسد که با استفاده از روش‌های علمی و نوین هوش مصنوعی بتوان در حوزه روانشناسی وارد شد و از ظرفیت‌های این علم بهره برد. این پژوهش نشان داد، می‌توان روشی برای شناسایی دقیق‌تر احساسات انسانی بدون تأثیرپذیری از عوامل خارجی تأثیرگذار بر سنجش دقیق بهره برد و به نتایج دقیق‌تری رسید. میزان دقت روش پیشنهادی در این پژوهش 9/82 در دیتاست IEMOCAP اندازه‌گیری شده است.

تشکر و قدردانی
بدینوسیله از همکاری گروه روانشناسی دانشگاه ملایر، گروه سنجش و اندازه‌گیری دانشکده روانشناسی دانشگاه علامه طباطبایی تهران و همچنین پژوهشکده علوم شناختی دانشگاه علامه طباطبایی تشکر و قدردانی می‌گردد.

سهم نویسندگان
تمامی نویسندگان معیارهای نویسندگی بر اساس پیشنهادات کمیته بین‌المللی ناشران مجلات پزشکی را دارا بوده و در انجام پژوهش
نقش داشته‌اند.


تضاد منافع
این مطالعه هیچگونه تعارض منافعی ندارد.
 
نوع مطالعه: پژوهشي اصیل | موضوع مقاله: روانپزشکی
دریافت: 1402/9/25 | پذیرش: 1403/4/4

فهرست منابع
1. Khobdeh SB, Yamaghani MR, Sareshkeh SK. Basketball action recognition based on the combination of YOLO and a deep fuzzy LSTM network. J Supercomput. 2024;80:3528-53. doi: 10.1007/s11227-023-05611-7
2. Nadim M, Ahmadifar H, Mashkinmojeh M. Application of image processing techniques for quality control of mushroom. Caspian J Health Res. 2019;4(3):72-5. doi: 10.29252/cjhr.4.3.72
3. Langeroudi MK, Yamaghani MR, Khodaparast S. "FD-LSTM A Fuzzy LSTM Model for Chaotic Time-Series Prediction. IEEE Intelligent Systems. 2022;37(4):70-8. doi: 10.1109/MIS.2022.3179843
4. Yamaghani M, Zargari F. Classification and retrieval of radiology images in H.264/AVC compressed domain. SIViP. 2017;11:573-80. doi: 10.1007/s11760-016-0996-0
5. Wang JZ, Zhao S, Wu C, Adams RB, Newman MG, Shafir T, et al. Unlocking the emotional world of visual media an overview of the science, research, and impact of understanding emotion drawing insights from psychology, engineering, and the arts, this article provides a comprehensive overview of the field of emotion analysis in visual media and discusses the latest research, systems, challenges, ethical implications, and potential impact of artificial emotional intelligence on society. Proc IEEE Inst Electr Electron Eng. 2023;111(10):1236-86. doi: 10.1109/JPROC.2023.3273517. pmid: 37859667
6. Bagheri Sheykhangafshe F, Abolghasemi A, Kafi Masouleh SM. Predicting Resilience Based on Dark Triad Personality and Psychological Wellbeing in Athletes Students [in Persian]. J Arak Uni Med Sci. 2021;24(2):230-45. doi: 10.32598/jams.24.2.6151.1
7. Anvarjon T, Mustaqeem, Kwon S. Deep-Net A Lightweight CNN-Based Speech Emotion Recognition System Using Deep Frequency Features. Sensors (Basel). 2020;20(18) 5212. doi: 10.3390/s20185212. pmid: 32932723
8. Bharti SK, Varadhaganapathy S, Gupta RK, Shukla PK, Bouye M, Hingaa SK, et al. Text-Based Emotion Recognition Using Deep Learning Approach. Comput Intell Neurosci. 2022;2645381. doi: 10.1155/2022/2645381. pmid: 36052029
9. Bharti SK, Varadhaganapathy S, Gupta RK, Shukla PK, Bouye M, Hingaa SK, et al. Text-based emotion recognition using deep learning approach. Comput Intell Neurosci. 2022;2022:2645381. doi: 10.1155/2022/2645381. pmid: 36052029
10. Rumpf HJ, Browne D, Brandt D, Rehbein F. Addressing taxonomic challenges for Internet Use Disorders in light of changing technologies and diagnostic classifications. J Behav Addict. 2020;9(4):942-4. doi: 10.1556/2006.2020.00094. PMID: 33289695.
11. Kong X, Zhang K. A novel text sentiment analysis system using improved depthwise separable convolution neural networks. PeerJ Comput Sci. 2023;9:e1236. doi: 10.7717/peerj-cs.1236. pmid: 37346624.
12. Ventura-Bort C, Wendt J, Weymar M. The role of interoceptive sensibility and emotional conceptualization for the experience of emotions. Front Psychol. 2021;12:0712418. doi: 10.3389/fpsyg.2021.712418. pmid: 34867591
13. Ventura-Bort C, Wendt J, Weymar M. The role of interoceptive sensibility and emotional conceptualization for the experience of emotions. Front Psychol. 2021;12:712418. doi: 10.3389/fpsyg.2021.712418. pmid: 34867591
14. Harmon TG. Understanding and addressing the individualized emotional impact of aphasia a framework for speech-language pathologists. Semin Speech Lang. 2023. doi: 10.1055/s-0043-1776418. Epub ahead of print. pmid: 37992735
15. Tavabie S, Bass S, Minton O. Emotional intelligence in palliative medical education. Br J Hosp Med (Lond). 2020;81(12):1-5. Doi: 10.12968/hmed.2020.0573. Epub 2020 Dec 22. PMID: 33377833.
16. Steidl S. (5 March 2011). "FAU Aibo Emotion Corpus". Pattern Recognition Lab. Available from: https://www5.cs.fau.de/en/our-team/steidl-stefan/fau-aibo-emotion-corpus/
17. Hao M, Cao WH, Liu ZT, Wu M, Xiao P. Visual-audio emotion recognition based on multi-task and ensemble learning with multiple features, Neurocomputing. 2020;391:42–51. doi: 10.1016/j.neucom.2020.01.048
18. Rauschert S, Raubenheimer K, Melton PE, Huang RC. Machine learning and clinical epigenetics a review of challenges for diagnosis and classification. Clin Epigenetics. 2020;12(1):51. doi: 10.1186/s13148-020-00842-4. pmid: 32245523
19. Das A, Mock J, Huang Y, Golob E, Najafirad P. Interpretable Self-Supervised Facial Micro-Expression Learning to Predict Cognitive State and Neurological Disorders. Proc AAAI Conf Artif Intell. 2021;35(1):818-26. doi: 10.1609/aaai.v35i1.16164 pmid: 34221694
20. Ozkanca Y, Öztürk MG, Ekmekci MN, Atkins DC, Demiroglu C, Ghomi RH. Depression screening from voice samples of patients affected by Parkinson's disease. Digit Biomark. 2019;3(2):72-82. doi: 10.1159/000500354. pmid: 31872172
21. Dong J, Wu Z, Xu H, Ouyang D. FormulationAI a novel web-based platform for drug formulation design driven by artificial intelligence. Brief Bioinform. 2023 Nov 22;25(1) bbad419. doi: 10.1093/bib/bbad419. pmid: 37991246.
22. Lee YH, Lee SHB, Chung JY. Research on how emotional expressions of emotional labor workers and perception of customer feedbacks affect turnover intentions emphasis on moderating effects of emotional intelligence. Front Psychol. 2019;9:2526. doi: 10.3389/fpsyg.2018.02526. pmid: 30662415
23. Zhai Y, Song X, Chen Y, Lu W. A study of mobile medical app user satisfaction incorporating theme analysis and review sentiment tendencies. Int J Environ Res Public Health. 2022;19(12):7466. doi: 10.3390/ijerph19127466. pmid: 35742713
24. Terhürne P, Schwartz B, Baur T, Schiller D, Eberhardt ST, André E, et al. Validation and application of the Non-Verbal Behavior Analyzer An automated tool to assess non-verbal emotional expressions in psychotherapy. Front Psychiatry. 2022;13:1026015. doi: 10.3389/fpsyt.2022.1026015. pmid: 36386975
25. Kameyama M, Umeda-Kameyama Y. Applications of artificial intelligence in dementia. Geriatr Gerontol Int. 2024;24(Suppl 1):25-30. doi: 10.1111/ggi.14709. PMID: 37916614
26. Owen S, Maratos FA. Recognition of subtle and universal facial expressions in a community-based sample of adults classified with intellectual disability. J Intellect Disabil Res. 2016;60(4):344-54. doi: 10.1111/jir.12253. pmid: 26857692
27. Wirries A, Geiger F, Hammad A, Redder A, Oberkircher L, Ruchholtz S, et al. Combined artificial intelligence approaches analyzing 1000 conservative patients with back pain-a methodological pathway to predicting treatment
28. efficacy and diagnostic groups. Diagnostics (Basel). 2021;11(11):1934. doi: 10.3390/diagnostics11111934. pmid: 34829286
29. Parekh AE, Shaikh OA, Simran, Manan S, Hasibuzzaman MA. Artificial intelligence (AI) in personalized medicine AI-generated personalized therapy regimens based on genetic and medical history short communication. Ann Med Surg (Lond). 2023;85(11):5831-3. doi: 10.1097/MS9.0000000000001320. pmid: 37915639
30. Khawaja Z, Bélisle-Pipon JC. Your robot therapist is not your therapist understanding the role of AI-powered mental health chatbots. Front Digit Health. 2023;5:1278186. doi: 10.3389/fdgth.2023.1278186. pmid: 38026836;
31. Ramzani Shahrestani M, Motamed S, Yamaghani MR. Recognition of Facial and Vocal Emotional Expressions by SOAR Model. Journal of Information Systems and Telecommunication (JIST). 2023; 11(3):209-21. doi: 10.61186/jist.39828.11.43.209
32. von Klipstein L, Riese H, van der Veen DC, Servaas MN, Schoevers RA. Using person-specific networks in psychotherapy challenges, limitations, and how we could use them anyway. BMC Med. 2020;18(1):345. doi: 10.1186/s12916-020-01818-0. pmid: 33222699
33. Ross ED. Differential Hemispheric Lateralization of Emotions and Related Display Behaviors Emotion-Type Hypothesis. Brain Sci. 2021;11(8):1034. doi: 10.3390/brainsci11081034. pmid: 34439653
34. Gweon H, Fan J, Kim B. Socially intelligent machines that learn from humans and help humans learn. Philos Trans A Math Phys Eng Sci. 2023;381(2251):20220048. doi: 10.1098/rsta.2022.0048. pmid: 37271177
35. Jain R, Rai RS, Jain S, Ahluwalia R, Gupta J. Real time sentiment analysis of natural language using multimedia input. Multimed Tools Appl. 2023;82:41021-36. doi: 10.1007/s11042-023-15213-3. pmid: 37362666
36. Huang F, Li X, Yuan C, Zhang S, Zhang J, Qiao S. Attention-Emotion-Enhanced Convolutional LSTM for Sentiment Analysis. IEEE Trans Neural Netw Learn Syst. 2022;33(9):4332-4345. doi: 10.1109/TNNLS.2021.3056664. pmid: 33600326
37. Jaksic C, Schlegel K. Accuracy in judging others' personalities the role of emotion recognition, emotion understanding, and trait emotional intelligence. J Intell. 2020;8(3):34. doi: 10.3390/jintelligence8030034. pmid: 32961916
38. Nourbakhsh A, Hoseinpour MM. Multiple feature extraction and multiple classifier systems in face recognition. In: Silhavy R, Silhavy P, Prokopova Z. (editors) Cybernetics Approaches in Intelligent Systems. Springer, Cham: CoMeSySo; 2017.
39. Mittal T, Bhattacharya U, Chandra R, Bera A, Manocha D. M3ER Multiplicative Multimodal Emotion Recognition using Facial, Textual, and Speech Cues, Proc. AAAI Conf. Artif Intell. 34(2020):1359–67. doi:10.1609/aaai.v34i02.5492
40. Hosseini SS, Yamaghani MR, Poorzaker Arabani S. Multimodal modelling of human emotion using sound, image and text fusion. SIViP. 2023;18:71-9. doi: 10.1007/s11760-023-02707-8

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
CAPTCHA

ارسال پیام به نویسنده مسئول


بازنشر اطلاعات
Creative Commons License این مقاله تحت شرایط Creative Commons Attribution-NonCommercial 4.0 International License قابل بازنشر است.

کلیه حقوق این وب سایت متعلق به مجله دانشگاه علوم پزشکی اراک می باشد.

طراحی و برنامه نویسی : یکتاوب افزار شرق

© 2025 CC BY-NC 4.0 | Journal of Arak University of Medical Sciences

Designed & Developed by : Yektaweb