أداة Phenaki هي نموذج ذكاء اصطناعي متقدم قادر على توليد مقاطع فيديو واقعية بناءً على تسلسل من الأوصاف النصية. تعتبر عملية توليد الفيديوهات من النصوص تحديًا كبيرًا نظرًا للتكلفة الحسابية العالية والكمية المحدودة من البيانات عالية الجودة المتاحة للنصوص والفيديوهات، بالإضافة إلى طول الفيديوهات المتغير.
لتجاوز هذه التحديات، قدم فريق البحث نموذجًا جديدًا لتعلم تمثيل الفيديو يقوم بضغط الفيديو إلى تمثيل صغير من الرموز المنفصلة. يستخدم هذا النموذج الانتباه السببي عبر الزمن، مما يسمح له بالعمل مع فيديوهات ذات أطوال متغيرة. لتوليد رموز الفيديو من النصوص، يستخدم النموذج محولًا ثنائي الاتجاه مشروطًا على الرموز النصية المحسوبة مسبقًا. يتم بعد ذلك فك تشفير الرموز الناتجة لإنشاء الفيديو الفعلي.
من خلال التدريب المشترك على مجموعة كبيرة من أزواج الصور والنصوص، بالإضافة إلى عدد أقل من أمثلة الفيديو والنصوص، يمكن للنموذج التعميم بشكل يتجاوز ما هو متاح في مجموعات بيانات الفيديو. مقارنةً بالطرق السابقة لتوليد الفيديو، يمكن لـ Phenaki توليد فيديوهات طويلة بشكل تعسفي مشروطة بتسلسل من الأوصاف النصية أو قصة في مجال مفتوح.
تعد هذه الأداة خطوة كبيرة نحو تحسين جودة الفيديوهات المولدة من النصوص، حيث توفر اتساقًا مكانيًا وزمانيًا أفضل مقارنةً بالطرق التقليدية التي تعتمد على توليد كل إطار على حدة.