
عملکرد وویجر بر اساس ترکیب یک تصویر ورودی و مسیر دوربین تعریفشده توسط کاربر است. کاربر میتواند حرکاتی مانند پنکردن، تیلت یا حرکت رو به جلو را مشخص کند و سیستم بهطور همزمان ویدئو و نقشههای عمق تولید میکند. مؤلفهای به نام world cache در این فرآیند ابرنقاط سهبعدی را ذخیره کرده و با هر حرکت دوربین، آنها را به دو بعد بازمیتاباند تا انسجام فضایی حفظ شود.
برای جلوگیری از اعوجاج، سیستم پس از تولید فریمها آنها را به نقاط سهبعدی تبدیل کرده و با دادههای پیشین مقایسه میکند. این چرخه بازخوردی پایداری هندسی را تضمین میکند، اما با طولانیتر شدن ویدئو یا حرکات پیچیدهتر، خطاها افزایش مییابند.
مدل وویجر با بیش از 100 هزار کلیپ ویدئویی، شامل تصاویر واقعی و صحنههای ساختهشده در موتور «آنریل انجین»، آموزش دیده است. تنسنت برای محاسبه دادههای عمق هر فریم از یک خط لوله خودکار بهره برده و نیاز به دادههای برچسبگذاری دستی را حذف کرده است.

در مقایسه با مدلهایی مانند Sora از اوپناِیآی که بر واقعگرایی بصری تمرکز دارند، وویجر تأکید ویژهای بر حفظ سازگاری هندسی میان فریمها دارد. در معیار WorldScore دانشگاه استنفورد، وویجر امتیاز 77.62 کسب کرد و از رقبایی چون WonderWorld و CogVideoX-I2V پیشی گرفت.
با این حال، محدودیتهایی همچون هزینه بالای محاسباتی و نبود امکان استفاده در اتحادیه اروپا، بریتانیا و کرهجنوبی باقی است. همچنین استفاده تجاری در مقیاس بسیار بزرگ نیازمند توافقهای جداگانه با تنسنت خواهد بود. در حال حاضر، این فناوری بیش از هر چیز برای تولید ویدئو و آزمایش در بازسازی سهبعدی ارزشمند است، نه برای تجربههای تعاملی لحظهای.