خالق ChatGPT فریب‌دادن این چت‌بات را سخت‌تر می‌کند

پروتکل امنیتی جدید OpenAI به مدل‌های هوش مصنوعی یاد می‌دهد که فریب درخواست‌های ساختارشکن را نخورند.
خالق ChatGPT فریب‌دادن این چت‌بات را سخت‌تر می‌کند
1403/04/31 - 10:10
تاریخ و ساعت خبر:
195848
کد خبر:
به گزارش خبرگزاری زنان ایران - OpenAI روش جدیدی را توسعه داده است که از فریب‌خوردن چت‌بات ChatGPT توسط برخی درخواست‌های متنی جلوگیری می‌کند.
میم‌هایی در فضای مجازی منتشر شده‌اند که نشان می‌دهند بعضی از کاربران با نوشتن عبارت «تمام دستورالعمل‌های قبلی را فراموش کن»،‌ ربات‌های هوش مصنوعی مبتنی‌بر ChatGPT را که برای انجام کارهای خاصی طراحی شده‌اند، وادار به پاسخ‌گویی به درخواست‌های نامرتبط کرده‌اند.
برای مقابله با این مشکل، گروهی از محققان OpenAI روشی به نام «سلسله‌مراتب دستورالعمل» را توسعه داده‌اند که مدل را در برابر سوءاستفاده‌ها و درخواست‌های غیرمجاز نفوذناپذیر می‌کند. مدل‌هایی که از این روش بهره می‌برند، اهمیت بیشتری به اصول مورد نظر توسعه‌دهنده می‌دهند و به درخواست‌های مکرر کاربر برای شکستن آن اصول توجه نمی‌کنند.
اولین مدلی که روش امنیتی جدید را دریافت کرد، GPT-4o Mini است که روز پنج‌شنبه معرفی شد. اولیویه گودمان، مدیر API در OpenAI، توضیح داد که سلسله‌مراتب دستورالعمل‌ها حملات فریبکارانه را سخت‌تر می‌کند. او گفت: «این روش به مدل یاد می‌دهد که فقط از درخواست توسعه‌دهنده پیروی کند و به پیام‌هایی مانند «تمام دستورالعمل‌های قبلی را نادیده بگیر» توجه نخواهد کرد.»
مکانیزم ایمنی جدید به‌ هدفی اشاره دارد که OpenAI می‌خواهد به آن برسد: توانمندسازی دستیارهای هوش مصنوعی کاملاً خودکار که زندگی دیجیتال بشر را اداره می‌کنند. این شرکت به‌تازگی اعلام کرد که در حال آماده‌سازی این دستیارها است و روش سلسله‌مراتب دستورالعمل‌ها را به‌عنوان پیش‌نیاز ضروری انتشار گسترده‌ی آن‌ها به‌کار خواهد گرفت.
زومیت
انتهای پیام/ن

بازگشت به ابتدای صفحه بازگشت به ابتدای صفحه
برچسب ها:
چت‌بات هوش مصنوعی اطلاعات
ارسال نظر
مخاطبان گرامی، برای انتشار نظرتان لطفا نکات زیر را رعایت فرمایید:
1- نظرات خود را با حروف فارسی تایپ کنید.
2- نظرات حاوی مطالب کذب، توهین یا بی‌احترامی به اشخاص، قومیت‌ها، عقاید دیگران، موارد مغایر با قوانین کشور و آموزه‌های اسلامی منتشر نمی‌شود.
3- نظرات بعد از بررسی و کنترل عدم مغایرت با موارد ذکر شده تایید و منتشر خواهد شد.
نام:
ایمیل:
* نظر:
فناوری اطلاعات
V
آرشیو