Character.AI giới thiệu công nghệ AI video thời gian thực với TalkingMachines – Tin tức Crypeto
Nhà giao dịch thông minh không bao giờ trả phí đầy đủ. Sử dụng mã giới thiệu này để tiết kiệm trọn đời: Binance WZ9KD49N / OKX 26021839
\t
\t Rebeca Moen\t Jul 04, 2025 04:27\t
\t
Character.AI giới thiệu TalkingMachines, một bước đột phá trong việc tạo video AI thời gian thực, sử dụng các mô hình khuếch tán tiên tiến để tạo hoạt hình nhân vật tương tác, được điều khiển bằng âm thanh.
\t
\t
\t
\t
Character.AI đã công bố một bước tiến quan trọng trong việc tạo video thời gian thực với việc ra mắt TalkingMachines, một mô hình khuếch tán tự hồi quy đổi mới. Công nghệ mới này cho phép tạo ra các video kiểu FaceTime tương tác, được điều khiển bằng âm thanh, cho phép các nhân vật trò chuyện thời gian thực theo nhiều phong cách và thể loại khác nhau, theo báo cáo từ Blog của Character.AI.
Làm thay đổi ngành tạo video
TalkingMachines xây dựng trên công việc trước đây của Character.AI, AvatarFX, cung cấp khả năng tạo video trên nền tảng của họ. Mô hình mới này mở đường cho các tương tác trực quan, hình ảnh do AI tạo ra và các nhân vật hoạt hình. Bằng cách chỉ cần một hình ảnh và tín hiệu giọng nói, mô hình có thể tạo nội dung video động, mở ra những khả năng mới cho giải trí và phương tiện tương tác.
Công nghệ đằng sau TalkingMachines
Mô hình này tận dụng kiến trúc Diffusion Transformer (DiT), sử dụng một phương pháp gọi là chưng cất tri thức bất đối xứng. Phương pháp này biến một mô hình video hai chiều chất lượng cao thành một bộ tạo nhanh, thời gian thực. Các tính năng chính bao gồm:
Diffusion_matched Flow: Được huấn luyện để xử lý các mẫu chuyển động phức tạp, từ biểu cảm tinh tế đến cử chỉ động.
Cross Attention Điều khiển bởi Âm thanh: Một module âm thanh có 1,2 tỷ tham số giúp đồng bộ âm thanh và chuyển động một cách tinh vi.
Cross Attention Causal Sparse: Giảm bộ nhớ và độ trễ bằng cách tập trung vào các khung hình trước liên quan.
Chưng cất Bất đối xứng: Sử dụng mô hình khuếch tán hai bước nhanh để tạo nội dung không giới hạn mà không làm giảm chất lượng.
Hệ quả cho tương lai
Bước đột phá này vượt ra ngoài hoạt hình khuôn mặt, mở đường cho các nhân vật AI tương tác về âm thanh và hình ảnh. Nó hỗ trợ nhiều phong cách khác nhau, từ chân thực đến hoạt hình anime và nhân vật 3D, và đang sẵn sàng cải thiện việc phát trực tuyến với các giai đoạn nói và nghe tự nhiên. Công nghệ này đặt nền tảng cho việc đóng vai, kể chuyện và xây dựng thế giới tương tác.
Nâng cao khả năng AI
Nghiên cứu của Character.AI ghi nhận một số bước tiến, bao gồm việc tạo ra thời gian thực, chưng cất hiệu quả và khả năng mở rộng cao, với khả năng vận hành chỉ cần hai GPU. Hệ thống cũng hỗ trợ các cuộc trò chuyện đa người nói, cho phép các cuộc trò chuyện giữa các nhân vật mượt mà.
Tương lai triển vọng
Mặc dù chưa phải là lần ra mắt sản phẩm, nhưng sự phát triển này là một mốc quan trọng trong lộ trình của Character.AI. Công ty đang làm việc để tích hợp công nghệ này vào nền tảng của họ, nhằm mục tiêu tạo trải nghiệm giống FaceTime, phát trực tuyến nhân vật và xây dựng thế giới hình ảnh. Mục tiêu cuối cùng là phổ cập việc tạo và tương tác với các nhân vật âm thanh-hình ảnh đầy mê hoặc.
Character.AI đã đầu tư mạnh vào cơ sở hạ tầng huấn luyện và thiết kế hệ thống, sử dụng hơn 1,5 triệu clip video được chọn lọc và một quy trình huấn luyện ba giai đoạn. Cách tiếp cận này thể hiện sự chính xác và mục đích của nghiên cứu hàng đầu trong công nghệ AI.
Nguồn hình ảnh: Shutterstock
Đăng ký tài khoản Binance hoặc OKX với mã giới thiệu của chúng tôi để nhận hoàn phí giao dịch lên đến 50%!🚀 Bắt đầu hành trình trading của bạn: