کد خبر: 199174 تاريخ انتشار: 1403/07/25 - 12:07
مدل هوش مصنوعی جدید برای تولید ویدئو با وضوح بالا
مدل هوش مصنوعی جدید پژوهشگران چینی که میتواند ویدئوهایی را با وضوح بالا تولید کند، در قالب یک نرمافزار منبع باز در دسترس قرار گرفته است.
گروهی از پژوهشگران هوش مصنوعی «دانشگاه پکن»(Peking University)، شرکت «کوایشو تکنولوژی»(Kuaishou Technology) و «دانشگاه پست و مخابرات پکن»(BUPT) یک مدل هوش مصنوعی جدید را به نام «پیرامید فلو»(Pyramid Flow) ابداع کردهاند که میتوان از آن برای تولید ویدیوهای با وضوح بالا در حد 768p استفاده کرد.
طی چند سال گذشته، چندین نهاد اعم از خصوصی و عمومی تلاش کردهاند تا مدلهای هوش مصنوعی مولد ویدیو را بسازند زیرا چنین مدلهایی را میتوان برای ایجاد اپلیکیشنهایی با قابلیت تولید محتوای ویدیویی به منظور استفاده در تلویزیون و تصاویر متحرک با هزینه بسیار کمتر از فیلمبرداری صحنههای واقعی استفاده کرد.
این بدان معناست که ارزش مدلهای هوش مصنوعی به سرعت در حال افزایش است. پژوهشگران چینی در این تلاش جدید تصمیم گرفتند که مدل خود را به صورت منبع باز بسازند؛ به این معنی که همه بدون پرداخت هزینه بتوانند یک اپلیکیشن را برای آن توسعه دهند و آن را به صورت محلی از جمله برای استفاده تجاری اجرا کنند.
سازندگان پیرامید فلو، قابلیتهای جدیدی را به مدلهای تولید ویدیو با هوش مصنوعی اضافه کردهاند. این مدل پیش از تولید نتیجه نهایی پردازش، ویدیو را در چندین مرحله با وضوح پایین تولید میکند. به گفته این گروه پژوهشی، اپلیکیشن مجهز به این مدل میتواند یک ویدیوی پنج ثانیهای را در ۵۶ ثانیه تولید کند که نتیجه آن وضوح 384p خواهد بود.
پژوهشگران خاطرنشان کردند که روش آنها ویدیو را با استفاده از قدرت محاسباتی بسیار کمتر تولید میکند و این باعث میشود که هزینه کمتری داشته باشد. همچنین، تعداد ورودیهای مورد نیاز برای تولید ویدیو را به طور چشمگیری کاهش میدهد و آن را کارآمدتر میکند.
این گروه پژوهشی تحت مجوز دانشگاه «امآیتی»(MIT) کد پیرامید فلو را به همراه نمونه ویدیوهایی که نتایج بسیار واقعی را از مدل نشان میدهند، در پلتفرم «گیتهاب»(GitHub) فرستادهاند. همچنین، آنها مجموعه دادههای منبع باز را که برای آموزش مدل خود به کار بردهاند، فهرست کردهاند و مجموعا ۱۰ میلیون ویدیوی کوتاه را به آن افزودهاند.
این گروه پژوهشی درباره ادعاهای مطرحشده توسط کسانی که ارسال ویدیوهای مجازی به پایگاههای داده منبع باز را نقض قانون کپیرایت میدانند، صحبتی نکردند. در هر حال، آنها معتقدند پیرامید فلو میتواند یک فناوری مناسب برای تنظیم دقیق دادههای منبع باز بدون نیاز به پرداخت به شخص ثالث باشد.
ایسنا
انتهای پیام/ن