/ 

تحقیقات جدید با تهدید صدای دیپ فیک مبارزه می کند

تحقیقات جدید با تهدید صدای دیپ فیک مبارزه می کند

تحقیقات جدید با تهدید صدای دیپ فیک مبارزه می کند

روز به روز، به نظر می‌رسد که اعتماد به آنچه که در اینترنت می‌بینید و می‌شنوید، سخت‌تر می‌شود. Deepfakes و صداهای تقلبی اکنون با کلیک دکمه‌ای ساخته می‌شوند. تحقیقات جدیدی توسط سه دانشجوی دانشکده اطلاعات و فارغ‌التحصیلان این دانشکده به سادگی تشخیص اصالت یک کلیپ صوتی را ممکن می‌کنند.

 

رومیت باروا، گوتام کورما و سارا بارینگتون  (all MIMS '23)  ابتدا تحقیقات خود را در مورد شبیه سازی صدا به عنوان پروژه نهایی خود برای برنامه کارشناسی ارشد مدیریت اطلاعات و سیستم ها ارائه کردند. بارینگتون اکنون دانشجوی دکترای این مدرسه است.

 

این تیم با همکاری پروفسور هانی فرید، تکنیک های مختلفی را برای تمایز صدای واقعی از یک صدای شبیه سازی شده که برای جعل هویت یک شخص خاص طراحی شده بود، بررسی کردند.

 

برای شروع، تیم ابتدا نمونه‌های صوتی صداهای واقعی و جعلی را با مشاهده ویژگی‌ها یا الگوهای ادراکی که می‌توان به صورت بصری شناسایی کرد، تجزیه و تحلیل کرد. از این رو، آنها بر روی امواج صوتی تمرکز کردند و متوجه شدند که صدای واقعی انسان اغلب مکث بیشتری دارد و در طول کلیپ از نظر حجم متفاوت است. این به این دلیل است که افراد تمایل به استفاده از کلمات پرکننده دارند و ممکن است در حین ضبط از میکروفون دور شوند.

 

با تجزیه و تحلیل این ویژگی‌ها، تیم توانست مکث‌ها و دامنه (ثبات و تنوع در صدا) را به‌عنوان عوامل کلیدی در هنگام تلاش برای تعیین صحت صدا مشخص کند. با این حال، آنها همچنین دریافتند که این روش - در عین حال که درک آن آسان است - ممکن است نتایج کمتر دقیق تری را به همراه داشته باشد.

 

سپس تیم رویکرد دقیق تری را در پیش گرفت و ویژگی های طیفی کلی را با استفاده از یک بسته تجزیه و تحلیل امواج صوتی "خارج از قفسه" در نظر گرفت. این برنامه بیش از 6000 ویژگی را استخراج می‌کند که شامل آمار خلاصه (میانگین، انحراف معیار و غیره)، ضرایب رگرسیون و غیره می‌شود. با تحلیل این ویژگی‌های استخراج شده و مقایسه آن‌ها با کلیپ‌های صوتی دیگر، بارینگتون، باروا و کورما از این ویژگی‌ها برای ایجاد یک روش دقیق‌تر استفاده کردند.

 

اما نتایج دقیق‌تر آن‌ها با ویژگی‌های آموخته شده آن‌ها اتفاق می‌افتد، که شامل آموزش یک مدل یادگیری عمیق است. برای انجام این کار، تیم صدای خام را به مدل می‌دهد، که از آن بازنمایی‌های چند بعدی را پردازش و استخراج می‌کند- که به آنها embeddings گفته می‌شود - انجام می‌دهد. پس از تولید، مدل از این embeddings برای تمایز صداهای واقعی و مصنوعی استفاده می‌کند.

 

این روش به طور مداوم از دو تکنیک قبلی در دقت بهتر عمل کرده و کمتر از 0% خطا را در تنظیمات آزمایشگاهی ثبت کرده است. علیرغم میزان دقت بالا، تیم متذکر شده است که درک این روش بدون زمینه مناسب دشوار است.

 

این تیم بر این باور است که این تحقیق ممکن است نگرانی‌های فزاینده در مورد استفاده از شبیه‌سازی صدا و دیپ‌فیک برای اهداف شوم را برطرف کند. بارینگتون توضیح داد: شبیه سازی صدا یکی از اولین مواردی است که در آن ما شاهد دیپ فیک با ابزارهای واقعی هستیم، چه برای دور زدن تأیید بیومتریک بانک یا تماس با یکی از اعضای خانواده که درخواست پول می کند.

 

"دیگر نه تنها رهبران و افراد مشهور جهان، بلکه مردم عادی نیز در معرض خطر هستند. این کار نشان دهنده گامی مهم در توسعه و ارزیابی سیستم های تشخیص به شیوه ای قوی و مقیاس پذیر برای عموم مردم است."

 

پس از انتشار آنلاین این تحقیق بر روی سرور preprint arXiv، Barrington، Barua و Koorma دعوت شدند تا یافته‌های خود را در کنفرانس‌های مختلف، از جمله اجلاس جایزه نوبل و کنفرانس IEEE WIFS (کارگاه آموزشی اطلاعات قانونی و امنیت) در نورنبرگ، آلمان ارائه کنند.

 

روز به روز، به نظر می‌رسد که اعتماد به آنچه که در اینترنت می‌بینید و می‌شنوید، سخت‌تر می‌شود. Deepfakes و صداهای تقلبی اکنون با کلیک دکمه‌ای ساخته می‌شوند. تحقیقات جدیدی توسط سه دانشجوی دانشکده اطلاعات و فارغ‌التحصیلان این دانشکده به سادگی تشخیص اصالت یک کلیپ صوتی را ممکن می‌کنند.

ارسال نظر
تمامی فیلد های ستاره دار باید پر شود*