پژوهشی تازه با معرفی معیار «مدتزمان انجام کار» نشان میدهد فناوری هوش مصنوعی چنان سریع پیشرفت میکند که توانایی آن در انجام وظایف طولانیمدت (چندساعته) هر هفت ماه دو برابر میشود و تا سال ۲۰۳۲ میتواند به تنهایی معادل یک ماه کار توسعه نرمافزار را انجام دهد.
به گزارش خبرگزاری زنان ایران - هوش مصنوعی (AI) در انجام وظایف کوتاهمدت بهراحتی از انسان پیشی میگیرد، اما غلبه بر چالشهای طولانیمدت شرط لازم برای آن است که بتوانیم آن را واقعاً یک سیستم هوشمند بدانیم. دانشمندان حالا هوش مصنوعی را براساس سرعت انجام کارهای چالشبرانگیز و پیشی گرفتن از انسانها میسنجند. هرچند هوش مصنوعی معمولاً در پیشبینی متن و بازیهای مبتنی بر دانش از انسان بهتر عمل میکند، در پروژههایی که تکمرحلهای نیستند مانند «دستیار اجرایی از راه دور» کارآمدی کمتری دارد.
در پژوهشی که اخیرا انجام شده است، برای اندازهگیری این پیشرفتها، سامانههای هوش مصنوعی را براساس مدتزمانی که برای انجام یک وظیفه صرف میکنند در مقایسه با زمانی که انسان انسان صرف میکند سنجیدهاند. تیم تحقیقاتی سازمان Model Evaluation & Threat Research (METR) در یادداشتی همراه با مقاله خود گفتهاند:«ما دریافتهایم که سنجش طول وظایفی که مدلها قادر به تکمیلشان هستند، دیدگاه روشنی از قابلیتهای کنونی AI ارائه میدهد. این منطقی است، چون عوامل هوشمصنوعی اغلب در پیوند دادن توالیهای طولانیتر از اقدامات دچار مشکل میشوند و فقدان مهارت یا دانش برای حل گامهای منفرد مشکلی برای آن ایجاد نمیکند.»
این پژوهش نشان داد که مدلهای AI وظایفی را که انسانها در کمتر از چهار دقیقه انجام میدهد با موفقیت نزدیک به ۱۰۰٪ انجام میدهند، اما این نرخ موفقیت برای وظایفی با مدت زمان بیش از چهار ساعت به ۱۰٪ کاهش مییابد. مدلهای قدیمیتر عملکرد ضعیفتری در وظایف طولانیتر نسبت به سامانههای جدیدتر داشتند. مطابق انتظار، طول وظایفی که یک هوش مصنوعی عمومی میتواند با قابلیت اطمینان ۵۰٪ انجام دهد، در حدود هر هفت ماه در شش سال گذشته دو برابر شده است.
در پژوهش، پژوهشگران به انواع گوناگونی از مدلها از Sonnet ۳.۷ و GPT-۴ تا Claude ۳ Opus و مدلهای قدیمی GPT مجموعهای از وظایف متفاوت دادند. این وظایف از کارهای ساده چنددقیقهای (مثلاً جستجوی یک سؤال پایهای در ویکیپدیا) تا پروژههای چندساعته تخصصی (مانند نوشتن کرنل CUDA یا رفع باگ پیچیده در PyTorch) متغیر بود.
ابزارهای تست HCAST و RE-Bench به کار گرفته شدند؛ HCAST شامل ۱۸۹ وظیفه نرمافزار خودکار در حوزههای یادگیری ماشین، امنیت سایبری و مهندسی نرمافزار است و RE-Bench هفت پروژه تحقیقاتی چالشبرانگیز مهندسی یادگیری ماشین نظیر بهینهسازی کرنل GPU را با معیارهای متخصصان انسانی میسنجد.
پژوهشگران این وظایف را از نظر «درهمآمیختگی» (messiness) ارزیابی کردند تا ببینند کدام کارها نیاز به هماهنگی چندگانه در زمان واقعی دارند و تا چه اندازه پیچیدگی دنیای واقعی را بازتاب میدهند. نتیجه این بود که دامنه توجه هوش مصنوعی با سرعت قابلتوجهی درحال پیشرفت است. با تعمیم این روند، پژوهشگران برآورد کردهاند که اگر نتایج به وظایف واقعی قابل تعمیم باشند تا سال ۲۰۳۲ میتوان یک ماه کار توسعه نرمافزار انسانی را بهطور کامل خودکار کرد.
به گفته دانشمندان، برای درک بهتر توانمندیهای نوظهور AI و پیامدها و خطرات آن برای جامعه، این پژوهش میتواند معیار جدیدی مبتنی بر نتایج دنیای واقعی ارائه دهد و تفسیر معناداری از عملکرد مطلق و نه صرفاً نسبت به دیگر مدلها را ممکن سازد.
یک معیار بالقوهی جدید میتواند به ما کمک کند تا هوش و توانایی واقعی سامانههای هوش مصنوعی را بهتر درک کنیم. سهراب کازرونیان، پژوهشگر برجستهی هوش مصنوعی در شرکت Vectra AI، گفت: «خودِ این معیار احتمالاً مسیر توسعهی هوش مصنوعی را تغییر نخواهد داد، اما میتواند سرعت پیشرفت در انواع خاصی از وظایفی را که سامانههای هوش مصنوعی قرار است در آنها به کار گرفته شوند، پایش کند.»
او ادامه داد: «سنجش هوش مصنوعی بر اساس مدت زمانی که انسان برای انجام یک وظیفه صرف میکند، یک معیار جانشین جالب برای سنجش هوش و تواناییهای کلی به شمار میآید. نخست، به این دلیل که هیچ معیار واحدی وجود ندارد که دقیقاً آنچه منظورمان از "هوش" است را ثبت کند. دوم، چون احتمال انجام یک وظیفهی طولانی بدون انحراف یا خطا بسیار ناچیز میشود. سوم، زیرا این معیار مستقیماً به نوع وظایفی مربوط میشود که امیدواریم هوش مصنوعی در آینده بتواند در آنها به کار رود؛ یعنی حل مسائل پیچیدهی انسانی. هرچند ممکن است این سنجش، همهی عوامل یا ظرافتهای مربوط به تواناییهای هوش مصنوعی را پوشش ندهد، اما قطعاً یک دادهی بسیار ارزشمند است.»
النور واتسون، عضو IEEE و مهندس اخلاق هوش مصنوعی در دانشگاه سینگولاریتی، نیز این تحقیق را مفید دانست. او گفت: «سنجش هوش مصنوعی بر اساس مدت زمان انجام وظایف، ارزشمند و شهودی است و پیچیدگی دنیای واقعی را مستقیماً بازتاب میدهد؛ چرا که برخلاف آزمونهای سنتی که عملکرد هوش مصنوعی را تنها در مسائل کوتاه و مجزا میسنجند، این روش توانایی هوش مصنوعی در حفظ رفتار هدفمند منسجم طی زمان را اندازه میگیرد.»
هوش مصنوعی همهفنحریف در راه است
افزون بر معرفی یک معیار جدید، شاید مهمترین تاثیر این پژوهش، برجستهکردن سرعت پیشرفت سامانههای هوش مصنوعی و روند رو به رشد توانایی آنها در مدیریت وظایف طولانی باشد. با در نظر گرفتن این روند، واتسون پیشبینی کرد که ظهور عاملهای هوش مصنوعی همهفنحریف که بتوانند طیف گستردهای از وظایف را مدیریت کنند، به زودی محقق خواهد شد. او گفت: «تا سال ۲۰۲۶، شاهد خواهیم بود که هوش مصنوعی به طور فزایندهای همهفنحریف میشود و به جای انجام وظایف کوتاه و محدود، میتواند کارهای متنوعی را در طول یک روز یا یک هفته به انجام برساند.»
واتسون همچنین خاطرنشان کرد که این پیشرفت میتواند برای کسبوکارها به این معنا باشد که سامانههای هوش مصنوعی بتوانند بخشهای قابل توجهی از بار کاری حرفهای آنها را بر عهده بگیرند؛ چیزی که نه تنها هزینهها را کاهش میدهد و بهرهوری را افزایش میدهد، بلکه به افراد اجازه میدهد بر فعالیتهای خلاقانه، راهبردی و بینفردی تمرکز بیشتری داشته باشند. او افزود: «برای مصرفکنندگان نیز هوش مصنوعی از یک دستیار ساده به یک مدیر شخصی قابل اعتماد ارتقا پیدا خواهد کرد؛ مدیری که میتواند وظایف پیچیدهی زندگی مانند برنامهریزی سفر، پایش سلامت یا مدیریت سبدهای مالی را طی چندین روز یا هفته با حداقل نظارت انسانی انجام دهد.»
در واقع، توانایی هوش مصنوعی در مدیریت طیف گستردهای از وظایف طولانی میتواند طی چند سال آینده، تاثیر عمدهای بر شیوهی تعامل و استفادهی جوامع از این فناوری بگذارد. واتسون در پایان گفت: «در حالی که ابزارهای تخصصی هوش مصنوعی برای کاربردهای خاص همچنان باقی خواهند ماند، عاملهای همهفنحریف هوش مصنوعی که قادر به جابجایی انعطافپذیر میان وظایف متنوع هستند، به طور برجستهای ظهور خواهند کرد. این سامانهها مهارتهای تخصصی را در جریانهای کاری هدفمند و گسترده ادغام خواهند کرد و به این ترتیب، شیوهی زندگی روزمره و فعالیتهای حرفهای را به طور بنیادین دگرگون میکنند.»
خبرآنلاین
انتهای پیام/ن