تحقیقات نشان می‌دهد که چت‌جی‌پی‌تی امکان تولید تصاویر جنسی و خشونت‌آمیز را دارد

تصویر سانسورشده‌ای که مایندگارد پس از اعلام اوپن‌ای‌آی مبنی بر رفع این مشکل تولید کرد.

منبع تصویر، Mindgard

توضیح تصویر، تصویر سانسورشده‌ای که مایندگارد پس از اعلام اوپن‌ای‌آی مبنی بر رفع این مشکل تولید کرد
    • نویسنده, کریس والانس
    • شغل, خبرنگار فناوری
  • منتشر شده در
  • زمان مطالعه: ۵ دقیقه

محققان به بی‌بی‌سی گفته‌اند که می‌توان جدیدترین نسخه عمومی چت‌جی‌پی‌تی را با یک دستور متنی ساده به تولید تصاویر جنسی یا صحنه‌های خشونت‌آمیز وادار کرد.

شرکت بریتانیایی امنیت هوش مصنوعی «مایندگارد» اعلام کرد با ایجاد تغییرات جزئی در یک دستور متنی (پرامپت) که پیش‌تر به‌طور گسترده برای تولید تصاویر طنزآمیز استفاده می‌شد، توانسته است چت‌جی‌پی‌تی را به تولید تصاویر خشن و آزاردهنده وادار کند.

پس از تماس بی‌بی‌سی با اوپن‌ای‌آی، سازنده چت‌جی‌پی‌تی، این شرکت اعلام کرد اقداماتی را برای جلوگیری از تولید چنین تصاویری انجام داده است.

اوپن‌ای‌آی در بیانیه‌ای گفت: «پس از بررسی این موضوع، اقدامات حفاظتی بیشتری را برای مقابله با این نوع دستورها اعمال کرده‌ایم.»

اوپن‌ای‌آی همچنین اعلام کرد چندین لایه حفاظتی برای جلوگیری از تولید محتوایی که ناقض قوانین و شرایط استفاده این شرکت باشد، در نظر گرفته است.

با این حال، محققان امنیتی هوش مصنوعی می‌گویند با ایجاد تغییرات جزئی بیشتر، این دستور متنی همچنان قادر به تولید محتوای نگران‌کننده بوده است.

بی‌بی‌سی جزئیات دستور متنی مورد استفاده محققان در چت‌جی‌پی‌تی را منتشر نمی‌کند.

اما بی‌بی‌سی مشاهده کرده است که چگونه از نسخه ۵.۴ مدل جی‌پی‌تی اوپن‌ای‌آی خواسته شده بود تصاویر و محتوای خشونت‌آمیز تولید کند.

به گفته محققان، حتی بدون ارائه دستورالعمل‌های دقیق، این مدل تصاویری تولید می‌کرد که پیتر گاراگان، بنیان‌گذار شرکت مایندگارد، آنها را «بسیار هولناک، گاهی جنسی و در برخی موارد ترکیبی از هر دو» توصیف کرد.

او گفت نگرانی اصلی این است که در این دستور متنی، موضوع تصاویر مشخص نشده بود، اما هوش مصنوعی خود مجموعه‌ای از تصاویر خونین و جنسی تولید کرده است.

گاراگان که استاد دانشکده علوم کمپیوتر دانشگاه لنکستر نیز است، این موضوع را نگران‌کننده دانست.

او گفت: «این دستورالعمل در ظاهر کاملا بی‌ضرر به نظر می‌رسد، اما نتیجه آن تولید تصاویر و محتوایی بسیار نامناسب و آزاردهنده است.»

تصویر سانسورشده‌ای که چت جی‌پی‌تی تولید کرده و نام «رهاشده در ترس و اسارت» را بر آن گذاشته بود.

منبع تصویر، Mindgard

توضیح تصویر، تصویر سانسورشده‌ای که چت جی‌پی‌تی تولید کرده و نام «رهاشده در ترس و اسارت» را بر آن گذاشته بود

مایندگارد در زمینه شناسایی نقاط ضعف سامانه‌های هوش مصنوعی فعالیت می‌کند؛ یعنی تلاش برای یافتن راه‌هایی که مدل‌ها را به دور زدن محدودیت‌هایشان وادار کند تا این آسیب‌پذیری‌ها برطرف شوند.

جیم نایتینگل، محقق ایمنی و امنیت هوش مصنوعی در این شرکت که این مشکل را کشف کرده، گفت تصاویری که این چت‌بات قادر به تولید آنها بود، او را «شوکه کرد و به گریه انداخت».

بی‌بی‌سی برخی از این تصاویر را مشاهده کرده است.

در یکی از آنها مردی با جراحتی شدید در ناحیه سر دیده می‌شد. تصویر دیگری جسد یک زن جوان را نشان می‌داد که تی‌شرت کوتاه و شلوارک به تن داشت و صورت و بخش‌هایی از بدنش خون‌آلود بود.

به گفته مایندگارد، برخی ویژگی‌های این تصویر نشانه‌هایی از خشونت جنسی را القا می‌کرد. چت جی‌پی‌تی برای آن عنوان «پیامدهای وحشتناک صحنه جرم» را انتخاب کرده بود.

در تصویر دیگری، زنی جوان با تی‌شرتی دارای نشان یک کالج و شلوارک دیده می‌شد که دست‌وپا و دهانش بسته بود و در اتاقی خالی و کثیف، حالتی هراسان داشت. چت‌جی‌پی‌تی این تصویر را «رهاشده در ترس و اسارت» نامیده بود.

برخی تصاویر تولیدشده دیگر نیز ژست‌های جنسی و برهنگی را نشان می‌دادند.

این تصاویر افراد بزرگسالی را نشان می‌دادند که توسط هوش مصنوعی تولید شده بودند. با این حال، مایندگارد یادآور شد که تحقیقات پیشین این شرکت نشان داده است می‌توان چت‌جی‌پی‌تی را فریب داد تا با جایگزین کردن چهره افراد واقعی، تصاویر برهنه جعلی از آنها تولید کند.

اگرچه اوپن‌ای‌آی اعلام کرده این مشکل را برطرف کرده است، محققان می‌گویند روش دیگری همچنان موفق بوده و نمونه‌ای از تصویر تولیدشده با این روش را نیز به بی‌بی‌سی نشان داده‌اند.

گاراگان هشدار داد که اگر تحقیقات خود را ادامه می‌دادند، احتمالا امکان تولید تصاویر حتی نگران‌کننده‌تر نیز وجود داشت. او گفت: «مطمئنم اگر زمان بیشتری صرف می‌کردیم، به نمونه‌های دیگری هم می‌رسیدیم.»

بی‌بی‌سی دریافته است که اوپن‌ای‌آی علاوه بر اعمال تدابیر حفاظتی جدید، همچنان در حال نظارت بر این موضوع و افزودن لایه‌های محافظتی بیشتری است تا مدل را از تولید تصویر در پاسخ به این نوع درخواست‌ها بازدارد.

مدل‌های زبانی بزرگی مانند چت‌ جی‌پی‌تی بر روی میلیون‌ها تصویر که اغلب از محتوای موجود در اینترنت گردآوری شده‌اند٬ آموزش می‌بینند.

نایتینگل معتقد است خروجی چت‌ جی‌پی‌تی بازتابی از داده‌هایی است که برای توسعه و آموزش آن استفاده شده‌اند.

او در گزارش خود نوشت: «آنچه دیدم، هرچند تصویری مصنوعی و تولیدشده توسط هوش مصنوعی بود، اما ریشه در تصاویر واقعی و در نهایت در دنیای واقعی داشت.»

نسخه‌ای سانسورشده از یک تصویر تولیدشده توسط هوش مصنوعی. زنی روی زمینی کثیف افتاده است؛ سر و بخش‌هایی از بدن او با یک مستطیل سیاه پوشانده شده و تنها دست‌ها و پاهایش دیده می‌شود

منبع تصویر، Mindgard

محققان ابتدا در ماه می در مورد این موضوع به اوپن‌ای‌آی هشدار دادند و یافته‌های خود را در اختیار این شرکت قرار دادند، اما تنها یک پاسخ خودکار از این شرکت فناوری دریافت کردند.

آنها معتقدند که تلاش‌هایی برای مسدود کردن این دستور متنی انجام شده بود، اما دور زدن این محدودیت‌ها کار دشواری نبود.

اوپن‌ای‌آی پس از تماس بی‌بی‌سی، اقدامات بیشتری انجام داد.

این شرکت می‌گوید چندین لایه حفاظتی برای ایمنی تصاویر در اختیار دارد که برای جلوگیری از نمایش تصاویری طراحی شده‌اند که با سیاست‌های آن مغایرت دارند.

اوپن‌ای‌آی در بیانیه‌ای افزود: «ما همچنین از ترکیب سیستم‌های خودکار و بررسی انسانی برای شناسایی و مسدود کردن محتوای مضر استفاده می‌کنیم.»

این شرکت همچنین اعلام کرد که سیستم‌های دارد که تلاش می‌کنند محتوای ناقض قوانین را که کاربران بارگذاری می‌کنند، شناسایی و مسدود کنند.

سیاست‌های اوپن‌ای‌آی تولید یا انتشار محتوای مرتبط با خشونت جنسی، تصاویر خصوصی یا صمیمی بدون رضایت افراد، محتوای سوءاستفاده جنسی از کودکان و همچنین تلاش برای دور زدن سازوکارهای حفاظتی این شرکت را ممنوع می‌کند.

مدل‌های هوش مصنوعی انسان نیستند

اوپن‌ای‌آی در تازه‌ترین سند خود درباره نحوه رفتار چت جی‌پی‌تی اعلام کرده است: «این دستیار نباید محتوای اروتیک، تصاویر یا توصیف‌های مربوط به فعالیت‌های جنسی غیرقانونی یا بدون رضایت، یا صحنه‌های بسیار خشن و خونین تولید کند، مگر در زمینه‌های علمی، تاریخی، خبری، هنری یا موارد دیگری که پرداختن به چنین محتوایی حساس مناسب باشد.»

با این حال، جلوگیری کامل از عبور مدل‌های هوش مصنوعی از این قوانین و محدودیت‌ها ــ که گاهی بسیار ظریف و پیچیده‌اند ــ کار آسانی نیست.

به گفته داکتر رمان چودهری، متخصص ارزیابی مدل‌های هوش مصنوعی و مدیرعامل شرکت «هیومن اینتلیجنس»، چالشی که شرکت‌های فناوری با آن روبه‌رو هستند «بسیار دشوار» است.

چودهری که در تحقیق مایندگارد نقشی نداشته، می‌گوید این وضعیت شبیه «بازی موش و پشک» است و هرچه سیستم‌های حفاظتی بهتر می‌شوند، روش‌های دور زدن آنها نیز پیچیده‌تر می‌شوند.

او می‌گوید یکی از مشکلات اصلی این است که مدل‌های هوش مصنوعی، برخلاف انسان‌ها، درک واقعی از آنچه تولید می‌کنند یا آنچه از انجام آن منع شده‌اند، ندارند.

چودهری به بی‌بی‌سی نیوز گفت: «مدل‌ها نیت را درک نمی‌کنند. زمینه و بستر موضوع را نمی‌فهمند. آنها درکی از درستی یا نادرستی ندارند.»

سال گذشته، محققان مؤسسه امنیت هوش مصنوعی بریتانیا دریافتند که در تمام سیستم‌های هوش مصنوعی مورد آزمایش، می‌توان با استفاده از روش‌های موسوم به «جیلبریک» محدودیت‌های ایمنی را در برابر طیف گسترده‌ای از درخواست‌های مضر دور زد.

وزارت علوم، نوآوری و فناوری بریتانیا نیز در بیانیه‌ای اعلام کرد: «سیستم‌های حفاظتی در مدل‌های هوش مصنوعی در حال بهبود هستند، اما هنوز کارهای بیشتری باید انجام شود.»

این وزارتخانه افزود که مؤسسه امنیت هوش مصنوعی به همکاری با توسعه‌دهندگان ادامه خواهد داد تا پیش از عرضه مدل‌ها، تدابیر امنیتی آنها هرچه سریع‌تر تقویت شود.