Արհեստական բանականությունը բարձրորակ տեսանյութ է ստեղծել տեքստային նկարագրությամբ․ NVIDIA
Դիտումներ՝ *
14:12 2023-04-25

NVIDIA-ն ներկայացրել է արհեստական ​​բանականության նոր մոդել, որը կարող է տեքստային նկարագրության հիման վրա տեսանյութ ստեղծել մինչև 4,7 վայրկյան տևողությամբ՝ 2048×1280 պիքսել լուծաչափով և 24 կադր հաճախականությամբ։

Մոդելը կոչվում է VideoLDM, այն մշակվել է Կոռնելի համալսարանի հետազոտողների հետ համատեղ և հիմնված է Stable Diffusion նեյրոնային ցանցի մշակումների վրա: Այս մոդելում կա մինչև 4,1 միլիարդ պարամետր, բայց դրանցից միայն 2,7 միլիարդն է օգտագործվել նեյրոցանցին ուսուցանելու համար։

Արհեստական բանականության ժամանակակից չափանիշներով սա շատ համեստ ցուցանիշ է։ Այնուամենայնիվ, թաքնված դիֆուզիոն մոդելի (LDM – Latent diffusion model) արդյունավետ մոտեցման շնորհիվ մշակողները կարողացել են ստեղծել բազմազան և ժամանակին համապատասխան բարձր լուծաչափով տեսանյութեր՝ շատ բարձր որակով:

NVIDIA-ի ԱԲ մոդելը կարող է նաև ստեղծել տրանսպորտային միջոցները վարելու տեսարանների տեսանյութեր: Այս տեսանյութերն ունեն 1024×512 պիքսել լուծաչափ և կարող են տևել մինչև 5 րոպե: Հնարավոր է նաև մոդելավորել վարելու որոշակի սցենար, ներառյալ տարբեր սահմանափակող շրջանակներ, ցանկալի միջավայր և այլն: Հնարավոր է նաև երթևեկության սցենարների մուլտիմոդալ կանխատեսում։

Նշենք, որ առայժմ այս նեյրոնային ցանցը միայն հետազոտական ​​նախագիծ է, և հայտնի չէ, թե երբ այն կարող է հասանելի լինել հանրությանը։