محققان گوگل از يک مدل زباني بزرگ جديد به نام AudioPaLM رونمايي کردهاند که توانايي شنيدن، حرفزدن و ترجمه دارد. اين مدل که با دقت بالايي کار ميکند، از ترکيب PaLM-2 و AudioLM خلق شده است.
به گزارش خبرگزاری زنان ایران - مدل AudioLM در حفظ اطلاعات زبان آوايي مانند هويت و لحن گوينده عملکرد بالايي دارد. با ترکيب AudioLM با PaLM-2، مدل AudioPaLM ميتواند از تخصص زباني PaLM-2 و حفظ اطلاعات زبان آوايي AudioLM استفاده کند تا به درک کاملتري از متن و گفتار دست يابد و بهتر بتواند آنها را خلق کند.
توليد متن و صدا با گوگل AudioPaLM
مدل AudioPaLM از کلمات مشترکي استفاده ميکند که ميتواند هم گفتار و هم متن را با تعداد محدودي از توکنهاي مجزا نشان دهد. اين ويژگي به مدل زباني جديد گوگل اجازه ميدهد تا وظايفي مانند تشخيص گفتار، تبديل متن به گفتار و ترجمه گفتار به گفتار را در يک معماري و فرايند آموزش يکپارچه و واحد قرار دهد.
مدل جديد گوگل بهخاطر ترکيب دو مدل زباني، ميتواند متن و گفتار را پردازش کند يا آنها را بسازد. اين موضوع کاربردهاي AudioPaLM را افزايش ميدهد و ميتوان از آن براي کارهايي مانند تشخيص صدا يا تبديل صدا به متن استفاده کرد.
AudioPaLM ظاهراً در آزمايشها در زمينه ترجمه گفتار عملکرد بهتري نسبت به ساير سيستمها داشته است. اين مدل همچنين ميتواند گفتار را به متن ترجمه کند و چنين کاري را براي ترکيبهاي زباني جديد هم انجام دهد.
مدل زباني جديد گوگل ميتواند صداها را براساس اعلانهاي گفتاري کوتاه، بين زبانهاي مختلف جابهجا کند. اين مدل همچنين قادر است صداهاي متفاوت را ضبط و آنها را در زبانهاي مختلف بازتوليد کند.
خبرآنلاين
انتهاي پيام/ن