تغییرات هورمونی نامرئی می توانند بر استفاده ما از فناوری های تشخیص صدا تاثیر بگذارند و ما در این گزارش قصد داریم بررسی کنیم که چگونه بدن ما می تواند مخل استفاده ما از فناوری های جدید باشد.

به گزارش اخبار استانی امروزه افراد زیادی از فناوری های تشخیص صدا استفاده می کنند. این فناوری در استفاده از دستیارهای صوتی همچون دستیار گوگل سیری الکسا کاربرد دارد. همچنین برای احراز هویت در برخی از سیستم های ایمنی و ترجمه و تایپ همزمان مورد استفاده قرار می گیرد. اما بدن ما با رشد و تکامل فناوری پیش نرفته است و برخی از تغییرات طبیعی بدن می تواند بر صدای ما تاثیر بگذارد و تغییر در صدای ما باعث بروز اختلال در چنین سیستم هایی می شود.
با افزایش سن و تغییرات هورمونی صدای انسان ها نیز تغییر می کند. از جمله عواملی که بر تغییر صدا تاثیر می گذارند می توان به کاهش الاستیسه و کشش تارهای صوتی تغییرات هورمونی اختلالات ساختاری و عملکردی و ضعف عضلات کنترل کننده صدا اشاره کرد.
به همین دلیل به نظر می رسد که فناوری تشخیص گفتار باید با تغییرات صدا در تمام مراحل زندگی احتمالا از طریق نمایه های شخصی سازی شده کاربر سازگار شود.
ما بیش از ۵۰ هورمون در بدن خود داریم که بر همه چیز از متابولیسم و رشد گرفته تا خلق و خو و رفتار تاثیر می گذارند. با این حال یکی از تاثیرات کمتر مورد توجه قرار گرفته تاثیر هورمون ها بر گفتار انسان است. هورمون ها الگوهای صدا و گفتار ما را در طول زندگی شکل می دهند و استرس های روزمره نیز می توانند نحوه صدای ما را تغییر دهند. در نظر گرفتن این موارد یک سؤال جالب را ایجاد می کند: هورمون ها چگونه بر اپلیکیشن های کاربردی که با فرمان صوتی و فناوری تشخیص گفتار کار می کنند تاثیر می گذارند؟
وقتی دهانمان را باز می کنیم هورمون ها نمایش خود را آغاز می کنند
تستوسترون استروژن کورتیزول دوپامین و سروتونین همگی بر جنبه های گفتار مانند لحن فصاحت و بیان شفاف تاثیر می گذارند. بلوغ یک نمونه کلاسیک از تاثیرات هورمون بر صداست و بارداری نیز مثال واضحی ارائه می دهد. در دوران بارداری افزایش استروژن و پروژسترون می تواند منجر به تغییرات موقت در زیر و بمی صدا شود.
یک مطالعه در سال ۲۰۱۸ تارهای صوتی زنانه را در مراحل مختلف چرخه قاعدگی بررسی کرد و هیچ تغییر قابل توجهی در معیارهای آکوستیک یا خودارزیابی پیدا نشد. با این حال الگوهای ریز عروقی در حنجره تغییر کردند که نشان می دهد تغییرات در سطوح پروژسترون شدت جریان خون به تارهای صوتی را تغییر می دهد. این به توضیح اینکه چرا صدا ممکن است در مراحل مختلف چرخه قاعدگی متفاوت باشد یا غیرعادی به نظر برسد کمک می کند.
کورتیزول که به عنوان هورمون استرس نیز شناخته می شود با افزایش سرعت و اختلال در فصاحت بر ویژگی های گفتار تاثیر می گذارد. یک فرد مضطرب ممکن است با سرعت بیشتری صحبت کند که باعث سردرگمی اپلیکیشن های تشخیص صدا می شود و زمانی که همان فرد در زمان دیگری آرام صحبت می کند می تواند به طور قابل توجهی متفاوت به نظر برسد و تشخیص دقیق دستورات را برای سیستم های خودکار دشوارتر کند.
تغییرات هورمونی به زنان محدود نمی شود. در یک مطالعه درباره مردان مسن بررسی شد که چگونه کاهش سطح هورمون می تواند بر پارامترهای صدا تاثیر بگذارد و مشخص شد که مردانی که سطح استروژن کمتری را تجربه می کنند نیز ممکن است متوجه تغییرات در ویژگی های صدای خود شوند.
بنابراین بدن ما می تواند در دوره های مختلف زندگی با تغییر هورمون ها و در نتیجه تغییر صدا لحن و طرز گفتار بر کیفیت تشخیص اپلیکیشن ها تاثیر بگذارد.
چرا اپلیکیشن های کاربردی مبتنی بر فرمان صوتی باید خود را با تغییرات انسان وفق بدهند؟
از آنجایی که فناوری تشخیص صدا به طور فزاینده ای در زندگی روزمره ما ادغام می شود مهندسان با چالش های تغییر صدا مواجه خواهند شد و باید سیستم ها را فراگیر و در برابر تغییرات هورمونی مقاوم کنند.
به گفته اسکار پنا-کاسرز (Oscar Pena-Cáceres) نویسنده ارشد یک مطالعه جدید در مورد یادگیری ماشینی مدل های تشخیص گفتار زمانی که با صداهایی که در طول زمان چه به دلیل سن استرس یا تغییرات هورمونی چرخه ای تغییر می کنند مواجه می شوند دچار مشکل می شوند.
به گفته پنیا کاسرز برای غلبه بر این چالش به یک رویکرد آموزشی پویاتر نیاز است. این رویکرد طیف گسترده ای از الگوهای گفتاری و تغییرات هورمونی مختلف را باید در نظر بگیرد.
در اپلیکیشن هایی که از صدا به عنوان یک روش احراز هویت بیومتریک استفاده می کنند تغییرات هورمونی می تواند بر قابل اطمینان بودن و امنیت سیستم تاثیر بگذارد زیرا تغییرات در صدا می تواند باعث شود سیستم کاربر را شناسایی نکند. بنابراین مهندسان باید تلاش کنند تا الگوریتم های تشخیص صدای تطبیقی را توسعه دهند که بتواند این تغییرات هورمونی را مدیریت کند. برای این کار ممکن نیاز به ایجاد مدل های یادگیری عمیق باشد که بر روی داده های متنوع آموزش داده می شوند و می توانند به طور مداوم یاد بگیرند که با تغییرات در طول زمان سازگار شوند.
از طرف دیگر هوش مصنوعی می تواند نوسانات فرکانس های صوتی و ویژگی های طیفی را تجزیه و تحلیل و نظارت کند که به آن این امکان را می دهد که الگوهای مرتبط با تغییرات هورمونی را تشخیص دهد. به عنوان مثال هورمون های استرس گاهی اوقات می توانند منجر به صدای بلندتر یا گفتار سریع تر و نامنظم شوند. در نتیجه استفاده از مدل های چندوجهی که داده های صوتی تاریخچه رفتار کاربر و تغییرات صوتی را با هم ادغام می کنند می تواند دقت را در شناسایی تغییرات صدا بهبود بخشد.
وقتی از صدای خودمان خوشمان نمی آید
محبوبیت پیام های صوتی در حال افزایش است با این حال بسیاری از مردم از شنیدن صدای خود بیزارند. جاستین توماس (Justin Thomas) محقق ارشد مرکز فرهنگ جهانی پادشاه عبدالعزیز (Itra) که با پروژه هایی در تلاقی فناوری روان شناسی و سلامت عمومی درگیر است گزارش می دهد که نزدیک به نیمی از افراد با صدای ضبط شده شان مشکل دارند. جالب این جاست که قرار گرفتن منظم در معرض صدای خودمان مانند گوش دادن به یادداشت های صوتی ممکن است منجر به پذیرش بیشتر صدا و در نهایت علاقه مند شدن به آن شود.
توماس همچنین تلاقی اضطراب اجتماعی و هوش مصنوعی را خاطرنشان می کند. افرادی که از قضاوت منفی می ترسند ممکن است صحبت با یک ربات را آسان تر از صحبت با یک انسان ببینند. با این حال این احساس امنیت می تواند باعث اتکای بیش از حد به چت بات ها شود. اگر کسی صدای خود را دوست نداشته باشد یا اگر هوش مصنوعی نتواند لهجه یا سرعت گفتار او را درک کند ممکن است مکالمه عمومی با هوش مصنوعی باعث ناراحتی شود که این باعث تشدید اضطراب می شود.
می توان موقعیت هایی را تصور کرد که باید با یک ربات در جمع صحبت کنید. این می تواند مشکلاتی ایجاد کند اگر صدای خود را دوست نداشته باشید. به خصوص اگر ربات نتواند لهجه یا عصبی بودن صدای شما را درک کند. توماس افزود: اضطراب می تواند به چرخه معیوب سوء تفاهم رباتیک منجر شود که منجر به اختلال بیشتر اضطرابی می شود.
قدرت صدا ظرافت هورمون ها
تحقیقات در مورد سندرم ویلیامز (WS) نشان می دهد که صدا موسیقی و هورمون ها چقدر با هم تعامل دارند. در یک مطالعه در سال ۲۰۱۲ شرکت کنندگان مبتلا به سندرم ویلیامز افزایش چشمگیری در سطح اکسی توسین هنگام گوش دادن به موسیقی نشان دادند.
سندروم ویلیامز یک نارسایی رشد عصبی نادر است که در آن چهره به سبب افتادگی پل دماغی به شکل پری وار درمی آید. مبتلایان به این نشانگان به شکل نامعمولی خوشرو و شاد و با ناآشنایان صمیمی هستند.
فراتر از موسیقی حتی بلندی صدای گوینده نیز بر ایجاد حس اعتماد تاثیر می گذارد. یک مطالعه در سال ۲۰۱۱ نشان داد که زنان تصور می کنند مردانی که صدای عمیق و بم تری دارند بیشتر در معرض خیانت هستند و این در حالی است که مردان معتقدند زنان با صدای بلندتر ممکن است کمتر وفادار باشند.
شکل دادن به آینده فناوری های تشخیص صدا
پنیا کاسرز استدلال می کند که با درک بهتر از نحوه تاثیر هورمون ها بر صدای انسان می توانیم سیستم های پیچیده تر و سازگارتری طراحی کنیم. مدل های تشخیص گفتار باید به اندازه کافی قوی باشند تا بتوانند تغییرات صدا را در مراحل مختلف زندگی از بلوغ تا یائسگی تا اواخر بزرگسالی درک کنند. برای رسیدن به چنین توانایی ممکن است نیاز به ایجاد پروفایل های کاربری منحصر به فرد برای ردیابی و سازگاری با نوسانات طبیعی در گفتار افراد باشد.
توسعه این سیستم ها به طور مسؤولانه نیاز به همکاری بین محققان هوش مصنوعی مهندسان نرم افزار زبان شناسان متخصصان غدد درون ریز و روانشناسان دارد. با تمرکز بر عدالت و فراگیری و با در نظر گرفتن جنسیت سن و تفاوت های فرهنگی افراد و گروه های مختلف می توان اطمینان حاصل کرد که نسل بعدی فناوری های تشخیص صدا نیاز به داشتن یک پایگاه جهانی از کاربران را برآورده می کنند و می توانند پا به پای کاربران هنگام بروز تغییرات زیستی در مرحله های مختلف پیش بروند و به وظیفه تشخیص صدای خود به خوبی عمل کنند.
همانطور که بازارهای مالی تحت تاثیر سیگنال های اقتصادی ظریف قرار می گیرند صدای ما نیز به طور پنهانی توسط ریتم های هورمونی شکل می گیرد. فناوری های صوتی تا سال ۲۰۳۲ به یک بازار ۸۴.۹۷ میلیارد دلاری تبدیل می شوند. اما همانطور که سیستم های تشخیص گفتار پیچیده تر می شوند باید برای درک تفاوت های ظریف زیست شناسی انسان نیز تکامل یابند. آینده نه تنها در گرو پیشرفت های الگوریتمی است بلکه به مهار تعامل ظریف بین صداهای زیستی و دیجیتال ما وابسته است.
انتهای پیام