تحقیقات جدید با تهدید صدای دیپ فیک مبارزه می کند
تحقیقات جدید با تهدید صدای دیپ فیک مبارزه می کند
روز به روز، به نظر میرسد که اعتماد به آنچه که در اینترنت میبینید و میشنوید، سختتر میشود. Deepfakes و صداهای تقلبی اکنون با کلیک دکمهای ساخته میشوند. تحقیقات جدیدی توسط سه دانشجوی دانشکده اطلاعات و فارغالتحصیلان این دانشکده به سادگی تشخیص اصالت یک کلیپ صوتی را ممکن میکنند.
رومیت باروا، گوتام کورما و سارا بارینگتون (all MIMS '23) ابتدا تحقیقات خود را در مورد شبیه سازی صدا به عنوان پروژه نهایی خود برای برنامه کارشناسی ارشد مدیریت اطلاعات و سیستم ها ارائه کردند. بارینگتون اکنون دانشجوی دکترای این مدرسه است.
این تیم با همکاری پروفسور هانی فرید، تکنیک های مختلفی را برای تمایز صدای واقعی از یک صدای شبیه سازی شده که برای جعل هویت یک شخص خاص طراحی شده بود، بررسی کردند.
برای شروع، تیم ابتدا نمونههای صوتی صداهای واقعی و جعلی را با مشاهده ویژگیها یا الگوهای ادراکی که میتوان به صورت بصری شناسایی کرد، تجزیه و تحلیل کرد. از این رو، آنها بر روی امواج صوتی تمرکز کردند و متوجه شدند که صدای واقعی انسان اغلب مکث بیشتری دارد و در طول کلیپ از نظر حجم متفاوت است. این به این دلیل است که افراد تمایل به استفاده از کلمات پرکننده دارند و ممکن است در حین ضبط از میکروفون دور شوند.
با تجزیه و تحلیل این ویژگیها، تیم توانست مکثها و دامنه (ثبات و تنوع در صدا) را بهعنوان عوامل کلیدی در هنگام تلاش برای تعیین صحت صدا مشخص کند. با این حال، آنها همچنین دریافتند که این روش - در عین حال که درک آن آسان است - ممکن است نتایج کمتر دقیق تری را به همراه داشته باشد.
سپس تیم رویکرد دقیق تری را در پیش گرفت و ویژگی های طیفی کلی را با استفاده از یک بسته تجزیه و تحلیل امواج صوتی "خارج از قفسه" در نظر گرفت. این برنامه بیش از 6000 ویژگی را استخراج میکند که شامل آمار خلاصه (میانگین، انحراف معیار و غیره)، ضرایب رگرسیون و غیره میشود. با تحلیل این ویژگیهای استخراج شده و مقایسه آنها با کلیپهای صوتی دیگر، بارینگتون، باروا و کورما از این ویژگیها برای ایجاد یک روش دقیقتر استفاده کردند.
اما نتایج دقیقتر آنها با ویژگیهای آموخته شده آنها اتفاق میافتد، که شامل آموزش یک مدل یادگیری عمیق است. برای انجام این کار، تیم صدای خام را به مدل میدهد، که از آن بازنماییهای چند بعدی را پردازش و استخراج میکند- که به آنها embeddings گفته میشود - انجام میدهد. پس از تولید، مدل از این embeddings برای تمایز صداهای واقعی و مصنوعی استفاده میکند.
این روش به طور مداوم از دو تکنیک قبلی در دقت بهتر عمل کرده و کمتر از 0% خطا را در تنظیمات آزمایشگاهی ثبت کرده است. علیرغم میزان دقت بالا، تیم متذکر شده است که درک این روش بدون زمینه مناسب دشوار است.
این تیم بر این باور است که این تحقیق ممکن است نگرانیهای فزاینده در مورد استفاده از شبیهسازی صدا و دیپفیک برای اهداف شوم را برطرف کند. بارینگتون توضیح داد: شبیه سازی صدا یکی از اولین مواردی است که در آن ما شاهد دیپ فیک با ابزارهای واقعی هستیم، چه برای دور زدن تأیید بیومتریک بانک یا تماس با یکی از اعضای خانواده که درخواست پول می کند.
"دیگر نه تنها رهبران و افراد مشهور جهان، بلکه مردم عادی نیز در معرض خطر هستند. این کار نشان دهنده گامی مهم در توسعه و ارزیابی سیستم های تشخیص به شیوه ای قوی و مقیاس پذیر برای عموم مردم است."
پس از انتشار آنلاین این تحقیق بر روی سرور preprint arXiv، Barrington، Barua و Koorma دعوت شدند تا یافتههای خود را در کنفرانسهای مختلف، از جمله اجلاس جایزه نوبل و کنفرانس IEEE WIFS (کارگاه آموزشی اطلاعات قانونی و امنیت) در نورنبرگ، آلمان ارائه کنند.
روز به روز، به نظر میرسد که اعتماد به آنچه که در اینترنت میبینید و میشنوید، سختتر میشود. Deepfakes و صداهای تقلبی اکنون با کلیک دکمهای ساخته میشوند. تحقیقات جدیدی توسط سه دانشجوی دانشکده اطلاعات و فارغالتحصیلان این دانشکده به سادگی تشخیص اصالت یک کلیپ صوتی را ممکن میکنند.