NVIDIA-ն ներկայացրել է արհեստական բանականության նոր մոդել, որը կարող է տեքստային նկարագրության հիման վրա տեսանյութ ստեղծել մինչև 4,7 վայրկյան տևողությամբ՝ 2048×1280 պիքսել լուծաչափով և 24 կադր հաճախականությամբ։
Մոդելը կոչվում է VideoLDM, այն մշակվել է Կոռնելի համալսարանի հետազոտողների հետ համատեղ և հիմնված է Stable Diffusion նեյրոնային ցանցի մշակումների վրա: Այս մոդելում կա մինչև 4,1 միլիարդ պարամետր, բայց դրանցից միայն 2,7 միլիարդն է օգտագործվել նեյրոցանցին ուսուցանելու համար։
Արհեստական բանականության ժամանակակից չափանիշներով սա շատ համեստ ցուցանիշ է։ Այնուամենայնիվ, թաքնված դիֆուզիոն մոդելի (LDM – Latent diffusion model) արդյունավետ մոտեցման շնորհիվ մշակողները կարողացել են ստեղծել բազմազան և ժամանակին համապատասխան բարձր լուծաչափով տեսանյութեր՝ շատ բարձր որակով:
NVIDIA-ի ԱԲ մոդելը կարող է նաև ստեղծել տրանսպորտային միջոցները վարելու տեսարանների տեսանյութեր: Այս տեսանյութերն ունեն 1024×512 պիքսել լուծաչափ և կարող են տևել մինչև 5 րոպե: Հնարավոր է նաև մոդելավորել վարելու որոշակի սցենար, ներառյալ տարբեր սահմանափակող շրջանակներ, ցանկալի միջավայր և այլն: Հնարավոր է նաև երթևեկության սցենարների մուլտիմոդալ կանխատեսում։
Նշենք, որ առայժմ այս նեյրոնային ցանցը միայն հետազոտական նախագիծ է, և հայտնի չէ, թե երբ այն կարող է հասանելի լինել հանրությանը։