Nếu bạn đang chọn một mô hình AI video vào năm 2026, hai cái tên nổi bật nhất là: Google Veo 3.1Runway Aleph. Cả hai đều tạo ra những đoạn video mà một năm trước đây còn khó tưởng tượng. Cả hai đều đắt đỏ so với việc tạo hình ảnh. Và cả hai đều có những điểm mạnh rõ ràng, giúp bạn quyết định chọn cái nào tùy thuộc vào sản phẩm bạn đang phát triển.

Bài viết này tổng hợp những gì chúng tôi đã học được sau khi chạy hàng ngàn tác vụ qua từng mô hình thông qua cổng API của chúng tôi, để bạn có thể chọn mà không cần tốn tín dụng để thử nghiệm.

Tóm tắt nhanh

  • Veo 3.1 Fast — tỷ lệ giá/chất lượng tốt nhất cho các đoạn video ngắn từ văn bản. Thời gian tạo ~30-60 giây. Chuyển động camera mạnh mẽ và ánh sáng chân thực.
  • Runway Aleph — tốt hơn trong các cảnh hành động động, tính nhất quán về phong cách giữa các cảnh, và định hướng sáng tạo. Thời gian tạo lâu hơn một chút và chi phí cao hơn mỗi giây.
  • Cả hai đều hỗ trợ chuyển đổi từ hình ảnh sang video. Cả hai đều giới hạn ở ~10 giây mỗi đoạn video trong thế hệ hiện tại.

So sánh giá (mỗi giây, 720p)

Chạy qua AI Generate với mức tăng giá mặc định 40%:

  • Veo 3.1 Fast (text-to-video): $0.42 mỗi giây
  • Runway Aleph: $0.77 mỗi giây

Với đoạn video 5 giây, chi phí lần lượt là $2.10$3.85. Với 100 đoạn video, chênh lệch là $175 — đủ để đáng cân nhắc. Các mức giá theo khối lượng sẽ giảm cả hai xuống dưới mức tăng giá 20% khi bạn chi tiêu $200+/tháng.

Khi nào nên chọn Veo 3.1

  • Bạn cần các cảnh tự nhiên chân thực: con người, thiên nhiên, kiến trúc, ảnh sản phẩm
  • Bạn quan tâm đến chi phí và muốn thử nghiệm nhiều biến thể
  • Hành động đơn giản hoặc tĩnh — một chú chó chạy, một cú lia máy, một cú zoom
  • Bạn không cần một phong cách nghệ thuật cụ thể được tích hợp sẵn

Khi nào nên chọn Runway Aleph

  • Bạn cần các hành động phức tạp — vũ công, thể thao, nhiều đối tượng tương tác
  • Bạn đang nối các đoạn video và muốn tính nhất quán về phong cách giữa chúng
  • Đoạn video là một phần của dự án sáng tạo có thương hiệu, nơi phong cách quan trọng hơn tính chân thực
  • Bạn đã quen với các quy ước prompt của Runway từ công việc Gen-3

Cách gọi cả hai từ một API

Mục đích của cổng API là bạn không cần phải giữ hai bộ thông tin xác thực. Đây là lệnh curl chính xác cho từng mô hình — cùng một Bearer token, chỉ khác tên mô hình:

curl https://aimarcus.eu/aigenerate/api/v1/jobs/createTask \
  -H "Authorization: Bearer sk-aig-..." \
  -d '{
    "model": "google/veo-3-1-fast",
    "input": {
      "prompt": "Golden retriever running through autumn leaves, cinematic, 5s",
      "aspect_ratio": "16:9"
    }
  }'
curl https://aimarcus.eu/aigenerate/api/v1/jobs/createTask \
  -H "Authorization: Bearer sk-aig-..." \
  -d '{
    "model": "runway/aleph",
    "input": {
      "prompt": "A dancer in motion, studio lighting, cinematic",
      "duration": 5
    }
  }'

Cả hai đều trả về một taskId. Gửi yêu cầu đến /api/v1/jobs/recordInfo?taskId=... mỗi 3 giây cho đến khi state="success", hoặc thiết lập URL webhook trong cài đặt tài khoản của bạn để nhận thông báo đẩy.

Mô hình nào thắng?

Đối với 80% khối lượng công việc sản xuất, nơi bạn tạo các đoạn video B-roll ngắn, clip sản phẩm hoặc nội dung mạng xã hội — Veo 3.1 Fast. Sự khác biệt về giá sẽ tích lũy, và tính chân thực đủ tốt cho hầu hết các cảnh không có hành động.

Đối với các dự án sáng tạo mà phong cách là sản phẩm — video âm nhạc, trailer thương hiệu, teaser trò chơi — Runway Aleph. Chi phí cao hơn 80% mang lại loại đầu ra mà Veo vẫn còn gặp khó khăn.

Cách dễ nhất để quyết định: chạy cùng một prompt qua cả hai trên playground. Với $1 mỗi lần thử, bạn sẽ có câu trả lời trong mười phút.