Google ra mắt Veo 3.1 tạo video chuyên nghiệp

Google DeepMind chính thức công bố phiên bản Veo 3.1 vào ngày 15 tháng 10 năm 2025, đánh dấu một "bước nhảy vọt" về độ chân thực và kiểm soát sáng tạo trong lĩnh vực AI tạo video từ văn bản. Được ra mắt qua Gemini API và Vertex AI, phiên bản này không chỉ cải thiện đáng kể so với Veo 3 mà còn nhắm thẳng vào các đối thủ như OpenAI's Sora 2, Runway Gen-3 và Kling AI, hứa hẹn thay đổi cuộc chơi trong sản xuất nội dung kỹ thuật số.

Veo 3.1 được tích hợp trực tiếp vào Gemini API và Vertex AI, cho phép người dùng truy cập dễ dàng qua Google AI Studio – một phần miễn phí cho cá nhân và doanh nghiệp nhỏ. Theo thông báo từ Google, phiên bản này tập trung vào việc khắc phục các hạn chế cũ, mang đến video chất lượng cao hơn với độ phân giải lên đến 1080p và thời lượng tối đa 60 giây, đồng bộ âm thanh tự nhiên.

Những Cải Tiến Nổi Bật So Với Veo 3

So với Veo 3 – phiên bản tiền nhiệm ra mắt đầu năm 2025 – Veo 3.1 mang đến hàng loạt nâng cấp tập trung vào tính thực tế và dễ sử dụng:

Vật Lý Và Chuyển Động Tự Nhiên Hơn: Veo 3 thường gặp vấn đề về "biến dạng" vật thể trong chuyển động phức tạp, nhưng Veo 3.1 cải thiện mô phỏng vật lý (physics simulation), giúp các cảnh hành động như nhảy múa hay va chạm trông mượt mà, gần với phim Hollywood. Điều này đặc biệt hữu ích cho các nhà làm phim độc lập prototype ý tưởng nhanh chóng.
Âm Thanh Tích Hợp Thông Minh: Một bước tiến lớn là hỗ trợ tạo âm thanh native, bao gồm lip-sync (đồng bộ môi miệng) chính xác và hiệu ứng âm thanh phức tạp từ prompt văn bản. Veo 3 chỉ hỗ trợ âm thanh cơ bản hậu kỳ, trong khi Veo 3.1 "nấu" audio ngay từ đầu, giảm thời gian chỉnh sửa lên đến 50%.
Tính Nhất Quán Nhân Vật Cao Hơn: Người dùng giờ có thể upload đến ba hình ảnh tham chiếu để duy trì khuôn mặt và đặc điểm nhân vật qua các cảnh liên tiếp, giải quyết vấn đề "thay đổi ngoại hình" phổ biến ở Veo 3. Tính năng temporal consistency (nhất quán thời gian) cũng được nâng cấp, giúp video dài hơn mà không bị gián đoạn.

Những thay đổi này làm cho Veo 3.1 trở thành công cụ lý tưởng cho marketer, giáo viên và nghệ sĩ, với thời gian tạo video chỉ từ vài giây đến phút. Đặc biệt hấp dẫn là khả năng chỉnh sửa object-level (thay đổi vật thể riêng lẻ) và image-to-video blending, cho phép người dùng "kéo dài" cảnh từ hình ảnh tĩnh thành video động mượt mà, như được chia sẻ từ các tester trên X.

Thủ Thuật Viết Và Tối Ưu Hóa Prompt Cho Veo 3.1

Để khai thác tối đa sức mạnh của Veo 3.1, việc viết prompt hiệu quả là chìa khóa. Dựa trên hướng dẫn từ Google Cloud và kinh nghiệm cộng đồng, đây là một số thủ thuật nổi bật:

Cấu Trúc Prompt Rõ Ràng: Sử dụng công thức cơ bản: Chủ thể + Hành động + Bối cảnh + Phong cách + Camera/Ánh sáng + Chuyển động + Âm thanh + Ràng buộc. Ví dụ: "Một phi hành gia (chủ thể) nhảy múa (hành động) trên bề mặt Mặt Trăng (bối cảnh) theo phong cách phim noir (phong cách), quay cận cảnh với lens tele (camera), ánh sáng hoàng hôn mờ ảo (ánh sáng), chuyển động chậm (chuyển động), nhạc jazz đồng bộ (âm thanh), không phụ đề (ràng buộc)". Điều này giúp AI tuân thủ prompt tốt hơn, giảm lỗi "kỳ quặc".
Ngôn Ngữ Tự Nhiên Và Cinematic: Viết như kịch bản phim – mô tả chi tiết cảm xúc, góc quay (ví dụ: "dolly zoom" hoặc "over-the-shoulder shot") thay vì từ khóa rời rạc. Giữ prompt ngắn gọn (dưới 200 từ) để xử lý nhanh hơn, nhưng thêm chi tiết cụ thể để tăng độ chân thực.
Sử Dụng JSON Cho Prompt Phức Tạp: Để kiểm soát nâng cao, thử định dạng JSON: {"scene": "Mèo bay qua rừng", "style": "hoạt hình Pixar", "audio": {"dialogue": "Meow!", "sync": true}, "duration": "8s"}. Phương pháp này có thể cải thiện kết quả lên đến 3 lần, theo các tutorial trên YouTube.
Mẹo Hay Khác: Sử dụng dấu hai chấm (:) cho lời thoại chính xác, giữ đối thoại ngắn (dưới 8 giây), và thêm "(no subtitles)" để tránh text không mong muốn. Thử nghiệm với multi-image reference để duy trì nhân vật nhất quán.

Những thủ thuật này không chỉ giúp người mới nhanh chóng tạo video chất lượng cao mà còn mở ra tiềm năng sáng tạo vô tận, như được các creator trên Reddit chia sẻ.

Ưu Nhược Điểm So Với Các Đối Thủ

Veo 3.1 bước vào "sân chơi" cạnh tranh khốc liệt với Sora 2 (OpenAI), Runway Gen-3 và Kling (Kuaishou). Dưới đây là phân tích nhanh dựa trên các đánh giá độc lập:

Tiêu Chí	Veo 3.1 (Google)	Sora 2 (OpenAI)	Runway Gen-3	Kling AI
Độ Dài Video	Tối đa 60 giây	Lên đến 2 phút	10-30 giây	10 giây
Chất Lượng & Realism	Cao, physics tốt	Xuất sắc, nhất quán cao	Tốt ở hiệu ứng	Trung bình
Âm Thanh	Native lip-sync mạnh	Đồng bộ dialogue tốt	Cơ bản	Hạn chế
Kiểm Soát Prompt	Linh hoạt, multi-image	Cao, nhưng phức tạp	Dễ dùng	Đơn giản
Truy Cập	Miễn phí qua API	Invite-only	Trả phí	Miễn phí cơ bản
Giá Cả	Thấp (API-based)	Cao (subscription)	Trung bình	Thấp

Ưu điểm của Veo 3.1:

Dễ Tiếp Cận Và Tích Hợp: Khác với Sora 2 vẫn đang ở chế độ mời (invite-only) vào tháng 10/2025, Veo sẵn sàng cho lập trình viên qua API, tích hợp mượt mà với hệ sinh thái Google. Nó vượt trội Runway ở độ chân thực physics và audio, giúp tiết kiệm chi phí hậu kỳ.
Kiểm Soát Sáng Tạo: Hỗ trợ chỉnh sửa object-level (thay đổi vật thể riêng lẻ) tốt hơn Kling, phù hợp cho nội dung chuyên nghiệp.

Nhược điểm:

Thời Lượng Ngắn Hơn: Sora 2 dẫn đầu với clip dài gấp đôi, lý tưởng cho kể chuyện dài hơi, trong khi Veo vẫn giới hạn ở 60 giây – một điểm yếu so với nhu cầu video mạng xã hội dài hơn.
Tính Nhất Quán Chưa Hoàn Hảo: Mặc dù cải thiện, Veo 3.1 vẫn kém Sora 2 ở việc duy trì chi tiết phức tạp qua cảnh dài, và một số tester cho rằng Runway nhanh hơn ở xử lý prompt đơn giản.

Các chuyên gia như từ Mashable nhận định: "Veo 3.1 đang đuổi kịp Sora 2, nhưng OpenAI vẫn dẫn đầu về độ sáng tạo tổng thể." Trong khi đó, trên X, các so sánh side-by-side cho thấy Veo thắng ở audio, nhưng thua ở độ phức tạp cảnh.

Triển Vọng Tương Lai

Với Veo 3.1, Google không chỉ củng cố vị thế trong cuộc chiến AI mà còn mở ra cơ hội cho hàng triệu người dùng sáng tạo. Công ty hứa hẹn cập nhật thêm về độ dài video và tích hợp AR/VR trong quý tới. Những tính năng hấp dẫn như audio đồng bộ tự nhiên và scene extension đang nhận được phản hồi sôi nổi từ cộng đồng, với các leak sớm dự đoán video dài hơn 30 giây sẽ sớm trở thành hiện thực. Nếu bạn là creator, hãy thử ngay tại Google AI Studio để trải nghiệm – ai biết, video AI của bạn có thể là hit tiếp theo trên TikTok.

Comments

Axel Bouaziz

15 December 2018

Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo.
Replay
Axel Bouaziz

15 December 2018

Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo.
Replay
Axel Bouaziz

15 December 2018

Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore veritatis et quasi architecto beatae vitae dicta sunt explicabo.
Replay
Axel Bouaziz

15 December 2018

Sed ut perspiciatis unde omnis iste natus error sit voluptatem accusantium doloremque laudantium, totam rem aperiam, eaque ipsa quae ab illo inventore.
Replay