به گزارش خبرخوان
شرکت فناوری چینی ShengShu-AI با همکاری محققان «دانشگاه چینهوا»، از اولین مدل هوش مصنوعی تبدیل متن به ویدیو چین، با نام Vidu رونمایی کرد. این مدل که پیشرفت سریع این سرزمین در عرصه گسترش هوش مصنوعی را مشخص می کند، با Sora از OpenAI رقابت خواهد کرد.
Vidu که در انجمن Zhongguancun پکن معارفه شد، میتواند با یک کلیک و دستور متنی ساده، کلیپ ویدیویی ۱۶ ثانیهای با وضوح 1080p تشکیل کند. مطابق توضیحات اراعهشده، مدل هوش مصنوعی Vidu بر پایه یک معماری تبدیل بصری با نام Universal Vision Transformer (U-ViT) ساخته شده است که دو مدل هوش مصنوعی متن به ویدیو Diffusion و Transformer را با یکدیگر ترکیب میکند.
هوش مصنوعی تبدیل متن به ویدیو Vidu
در ویدیو زیر میتوانید ویدیوهای ساختهشده با این مدل را تماشا کنید:
همانطور که در ویدیو بالا قابلمشاهده است، Vidu میتواند محیط و اجسام دنیا را بهصورت واقعی همانندسازی کند و صحنههایی با جزئیات پیچیده و مطابق با قوانین فیزیک، همراه با افکتهای نور و سایه تشکیل کند. این چنین این مدل در نمایش حالات چهره نیز در ویدیوهای خود تبحر دارد. علاوهبراین، Vidu فهمیدن خوبی از عناصر چینی دارد و میتواند ویدیوهایی از موجودات بی همتا همانند پاندای غولپیکر و اژدهای چینی تشکیل کند.
مدل هوش مصنوعی تبدیل متن به ویدیوی چینی Vidu تنها دو ماه بعد از انتشار کردن مدل Sora توسط استارتاپ آمریکایی OpenAI که با سروصدای بسیاری در سراسر جهان همراه شد، معارفه شده است. «ژو جون»، معاون انستیتوی هوش مصنوعی دانشگاه چینهوا و دانشمند ارشد ShengShu-AI، زمان معارفه مدل Vidu او گفت:
«بعد از انتشار کردن Sora، فهمید شدیم که این مدل با نقشه راه فنی ما مطابقت دارد، که ما را ترغیب کرد تا تحقیقات خود را با قاطعیت پیش ببریم.»
دسته بندی مطالب
اخبار کسب وکار
منبع