#28- Mô hình thế giới và trí tuệ không gian: Từ lý thuyết đến thực tế

Ngô Hoàng

Trong lịch sử phát triển trí tuệ nhân tạo (AI), mỗi thập kỷ đều đánh dấu một bước tiến quan trọng. Nếu những năm 2010 là kỷ nguyên của học sâu (deep learning) và thị giác máy tính (computer vision) nhờ ImageNet, và giai đoạn 2020-2023 chứng kiến sự bùng nổ của các mô hình ngôn ngữ lớn (Large Language Models - LLMs) với GPT và ChatGPT, thì năm 2024-2025 đang mở ra một chương mới đầy triển vọng: kỷ nguyên của Mô hình thế giới (World Models) và Trí tuệ không gian (Spatial Intelligence). Đây không chỉ là một bước tiến công nghệ thông thường, mà là một sự chuyển đổi mô hình tư duy (paradigm shift) căn bản trong cách chúng ta tiếp cận trí tuệ nhân tạo - từ các hệ thống chỉ biết nói sang các hệ thống hiểu thế giới và có thể hành động trong môi trường vật lý thực tế.

Tầm nhìn của Fei-Fei Li

Fei-Fei Li, người mở đường cho cuộc cách mạng AI hiện đại với công trình ImageNet, trong bài viết từ tháng 11/2024 đã đưa ra luận điểm cho rằng Trí tuệ không gian là nền tảng cho mọi hình thức nhận thức cao cấp của con người; là khả năng của hệ thống nhận biết, mô hình hóa, suy luận và hành động trong không gian ba chiều - tương tự như cách con người và động vật chọn lựa hành động dựa trên hiểu biết về môi trường xung quanh.

Theo Li, trong khi các mô hình ngôn ngữ lớn hiện tại là những nhà hùng biện trong bóng tối - hùng hồn nhưng thiếu kinh nghiệm thực tế - thì trí tuệ không gian mang lại cho AI khả năng hiểu biết có căn cứ (grounded understanding) về thế giới. Tháng 9/2024, Li cùng ba đồng sáng lập thành lập World Labs với sứ mệnh nâng các mô hình AI từ mặt phẳng hai chiều lên thế giới ba chiều đầy đủ, nhanh chóng thu được 230 triệu USD và đạt định giá 1 tỷ USD chỉ sau 4 tháng.

Mô hình Marble của World Labs, công bố tháng 11/2024, có khả năng: (1) Tái tạo không gian 3D từ hình ảnh/video với độ chính xác cao; (2) Tạo sinh môi trường 3D từ mô tả văn bản; và (3) Mô phỏng tương tác vật thể, thay đổi ánh sáng và phản ứng môi trường. Điểm độc đáo là khả năng duy trì tính nhất quán không gian (spatial consistency) - khi di chuyển trong môi trường, mô hình duy trì một mô hình thế giới nhất quán, theo dõi vị trí vật thể và trạng thái môi trường.

Yann LeCun tại Meta đã đề xuất Kiến trúc dự đoán nhúng kết hợp (Joint Embedding Predictive Architecture - JEPA) như nền tảng kỹ thuật cho mô hình thế giới. Khác với các mô hình tạo sinh cố gắng dự đoán mọi chi tiết điểm ảnh, JEPA thực hiện dự đoán trong không gian biểu diễn trừu tượng, loại bỏ thông tin không cần thiết ngay từ đầu. Meta đã phát triển I-JEPA cho hình ảnh (6/2023), V-JEPA cho video (2/2024), và V-JEPA 2 với khả năng lập kế hoạch và mô hình hóa thế giới (6/2025). Các thử nghiệm cho thấy JEPA vượt trội về hiệu quả tính toán và khả năng tổng quát hóa, đặc biệt trong ứng dụng robot học và dự đoán video.

Google DeepMind đã phát triển Genie (Môi trường tương tác tạo sinh - Generative Interactive Environments) để tạo ra các môi trường tương tác hoàn chỉnh cho huấn luyện AI hiện thân (embodied AI). Genie 1 (2/2024) với 11 tỷ tham số học các hành động tiềm ẩn (latent actions) từ 200,000 giờ video mà không cần nhãn. Genie 2 (12/2024) tạo môi trường 3D phong phú, duy trì thế giới nhất quán đến 1 phút, với khả năng bộ nhớ không gian - ghi nhớ các phần không còn trong tầm nhìn và tái tạo chính xác khi chúng trở lại. DeepMind tích hợp Genie 2 với SIMA (Tác nhân đa thế giới có thể chỉ dẫn - Scalable Instructable Multiworld Agent) để tạo vòng lặp: Genie 2 tạo môi trường, SIMA học điều hướng và thực hiện tác vụ.

Từ lý thuyết đến triển khai công nghiệp

Nvidia Omniverse là nền tảng kết nối dữ liệu vật lý thế giới với AI vật lý (physical AI), cho phép xây dựng bản sao kỹ thuật số (digital twins) công nghiệp với mô phỏng vật lý thời gian thực. Được xây dựng trên OpenUSD (Universal Scene Description), cho phép các nhóm thiết kế làm việc đồng thời trên nhiều phần mềm trong không gian ảo chung. Các thư viện vật lý Nvidia PhysX và Nvidia Warp cho phép mô phỏng có thể mở rộng, đồng thời cung cấp khả năng tạo dữ liệu tổng hợp (synthetic data) với độ chính xác vật lý cao để huấn luyện mô hình AI đa phương thức.

BMW Group (2,5 triệu xe/năm, 99% tùy chỉnh) triển khai Omniverse Enterprise để tạo bản sao kỹ thuật số toàn nhà máy, mô phỏng nhiều khía cạnh thời gian thực, tích hợp Bentley Microstation, Autodesk Revit, Dassault Systemes Catia. BMW dùng Nvidia Isaac Sim huấn luyện robot giao hàng với dữ liệu tổng hợp phân tán miền (domain randomization). Milan Nedeljkovic, Thành viên Hội đồng BMW: Omniverse nâng cao đáng kể độ chính xác, tốc độ và hiệu quả quy trình lập kế hoạch, cho phép lập kế hoạch và tối ưu hóa nhà máy hoàn toàn ảo trước xây dựng vật lý.

Các nhà sản xuất hàng đầu thế giới đã áp dụng Omniverse: Wistron xây dựng bản sao kỹ thuật số dây chuyền tiếp nhận tự động, dùng Nvidia Metropolis tự động hóa kiểm tra quang học bo mạch. Kawasaki Heavy Industries dùng Nvidia Jetson và cuOpt trong nền tảng kiểm tra đường ray AI, tiết kiệm 218 triệu USD/năm trên mạng đường sắt Class I Bắc Mỹ. Geely Lotus, Jaguar Land Rover áp dụng Omniverse tối ưu hóa sản xuất, tạo dữ liệu tổng hợp huấn luyện AI, xác thực thuật toán qua tình huống lái thực tế.

Mô hình thế giới nền tảng cho AI vật lý

Tại CES 2025, Nvidia công bố Cosmos - nền tảng mô hình thế giới nền tảng (World Foundation Models - WFMs) cho xe tự lái và robot. Giám đốc điều hành Nvidia Jensen Huang đã tuyên bố: Chúng tôi tạo ra Cosmos để Dân chủ hóa AI vật lý và đưa robot học tổng quát vào tầm tay mọi nhà phát triển. Cosmos WFMs cung cấp cách tạo dữ liệu tổng hợp chân thực, dựa vật lý để huấn luyện và đánh giá, với tương tác dựa vật lý, tính bền vững vật thể (object permanence), tạo sinh chất lượng cao môi trường công nghiệp như kho hàng, nhà máy, môi trường lái xe.

Cosmos bao gồm hai loại mô hình: (1) Mô hình khuếch tán (Diffusion): Kết hợp đầu ra 3D Omniverse, tạo dữ liệu video tổng hợp chất lượng cao cho nhận thức robot và xe tự lái, phiên bản 4-14 tỷ tham số; (2) Mô hình tự hồi quy (Autoregressive): Dự đoán điều gì xảy ra tiếp theo trong chuỗi khung hình, cho phép dự đoán token thời gian thực, mang lại khả năng tiên kiến dự đoán hành động tốt nhất. Khi kết hợp Omniverse với Cosmos, nhà phát triển có công cụ nhân dữ liệu tổng hợp quy mô lớn.

Các công ty hàng đầu đã áp dụng Cosmos bao gồm: 1X, Agility Robotics, Figure AI, Skild AI (robot nhân hình); Uber, Waabi, XPENG, Foretellix (xe tự lái); Virtual Incision (robot phẫu thuật). Tháng 3/2025, Tập đoàn Nvidia công bố Cosmos Predict 2.5 kết hợp ba WFMs thành một, tạo video dài hơn (30 giây) với đầu ra đa góc nhìn. Cosmos Reason, mô hình ngôn ngữ thị giác suy luận đa phương thức, hoạt động như bộ não robot, biến chỉ dẫn mơ hồ thành kế hoạch từng bước, được tải xuống hơn 1 triệu lần, đứng đầu Physical Reasoning Leaderboard Hugging Face.

Nvidia phát triển Omniverse Blueprint cho thiết kế và vận hành nhà máy AI, kết nối Cadence, ETAP, Schneider Electric, Vertiv, Delta Electronics, Jacobs, Siemens. Blueprint cho phép mô hình hóa điều kiện thực tế, kiểm tra tình huống lỗi, nâng cấp mở rộng. Nvidia công bố 4 blueprint mới CES 2025: Mega (phát triển và kiểm tra đội robot quy mô lớn), Mô phỏng AV, Truyền tải Không gian Omniverse đến Apple Vision Pro, Blueprint AI cho tìm kiếm và tóm tắt video. Isaac GR00T Blueprint tạo chuyển động thao tác tổng hợp, giảm thời gian thu thập dữ liệu từ hàng giờ xuống phút.

Triển vọng thị trường và chiến lược quốc gia

Goldman Sachs dự báo thị trường trí tuệ không gian đạt 250 tỷ USD năm 2028, tăng từ 18 tỷ USD năm 2024 - tốc độ 13 lần trong 4 năm, nhanh hơn smartphone (5-6 lần 2007-2011). Lý do: xây dựng trên nền tảng có sẵn - mạng 5G, trung tâm dữ liệu khổng lồ, hàng tỷ thiết bị có camera/cảm biến, hệ sinh thái nhà phát triển AI trưởng thành. Đầu tư AI đạt 200 tỷ USD năm 2025, hyperscalers tăng chi tiêu vốn từ 207 tỷ USD (2024) lên 405 tỷ USD (2026). Jensen Huang: AI vật lý sẽ cách mạng hóa ngành sản xuất và hậu cần 50 nghìn tỷ USD.

Sau DeepSeek R1 (1/2025), Trung Quốc chuyển hướng mạnh sang AI hiện thân. Báo cáo Công tác Chính phủ (3/2025) xác định AI hiện thân cùng sản xuất sinh học, lượng tử, 6G là công cụ cốt lõi xây dựng ngành công nghiệp tương lai. Hội nghị AI Hiện thân Trung Quốc lần 2 (2025) công bố 15 Hướng Nghiên cứu Chính. CAICT: AI hiện thân cách mạng hóa hợp tác người-máy, theo thời gian thay thế con người như đơn vị linh hoạt nhất dây chuyền sản xuất.

Tuy nhiên, hiện trisi tuệ không gian cũng đang gặp phải các thách thức nổi bật như sau: (1) Hiệu quả tính toán: Transformer và Diffusion có chi phí suy luận cao xung đột với điều khiển thời gian thực robot; (2) Năng lượng: Goldman Sachs ước tính nhu cầu điện trung tâm dữ liệu toàn cầu tăng 160% năm 2030, cần 50 tỷ USD đầu tư sản xuất điện mới; (3) Dự đoán dài hạn: Khả năng suy giảm nhanh khi horizon tăng do tích lũy sai số, cần mô hình phân cấp; (4) Suy luận vật lý: Thiếu hiểu biết sâu về quan hệ nhân quả, cần tích hợp physics engines với học dựa dữ liệu.

Hàm ý chính sách cho Việt Nam

Bài học từ sự phát triển điện thoại thông minh smartphone những năm qua là rất rõ ràng: Hàn Quốc, Trung Quốc hành động nhanh nên đã thu lại được những lợi ích khổng lồ; trong khi đó, Nokia chậm trễ đã dẫn đến sụp đổ. Với trí tuệ không gian, cửa sổ cơ hội đóng lại còn nhanh hơn (13 lần trong 4 năm). Từ thực tế đó, đối với Việt Nam, có thể có mấy khuyến nghị cơ bản như sau:

(1) Xây dựng cơ sở hạ tầng tính toán: Đầu tư cụm GPU và trung tâm dữ liệu chuyên dụng AI, không cần cạnh tranh quy mô tuyệt đối nhưng cần năng lực cơ bản nghiên cứu phát triển;

(2) Phát triển năng lượng tái tạo: Tận dụng lợi thế thủy điện, gió, mặt trời để thu hút đầu tư trung tâm dữ liệu;

(3) Tạo tập dữ liệu địa phương: Trí tuệ không gian cần dữ liệu về không gian, kiến trúc, văn hóa cụ thể - lợi thế tự nhiên cho công ty địa phương.

Trí tuệ không gian đòi hỏi kỹ năng kết hợp thị giác máy tính, đồ họa 3D, robot học và học máy. Chương trình đào tạo nên bao gồm mấy bước sau: (1) Tích hợp khóa học liên ngành kết hợp khoa học máy tính, kỹ thuật cơ khí, điện; (2) Nhấn mạnh thực hành với nền tảng robot, môi trường mô phỏng; (3) Hợp tác ngành công nghiệp đảm bảo chương trình phù hợp thực tế; (4) Khuyến khích tham gia cuộc thi quốc tế RoboCup, DARPA challenges.

Khác với smartphone là sản phẩm tiêu dùng, trí tuệ không gian là công nghệ cơ sở hạ tầng đòi hỏi vai trò tích cực của chính phủ, thí dụ như những việc cần giải quyết trong một số trường hợp cần thiết như sau:

(1) Đối với xe tự lái: Quy định giao thông, bảo hiểm, trách nhiệm pháp lý tai nạn;

(2) Đối với Robot công nghiệp/dịch vụ: Tiêu chuẩn an toàn, quy trình chứng nhận, quy định nơi làm việc;

(3) Bản sao kỹ thuật số và quyền riêng tư: Quy định thu thập/sử dụng dữ liệu không gian 3D trong không gian công cộng/tư nhân;

(4) An toàn AI: Đảm bảo tác nhân AI hiện thân hoạt động an toàn, dự đoán được, phù hợp giá trị con người.

Mô hình thế giới và trí tuệ không gian đánh dấu bước tiến quan trọng từ AI biết nói sang AI hiểu thế giới và hành động. Sự hội tụ nghiên cứu từ World Labs (Marble), Meta (JEPA), Google DeepMind (Genie), và đặc biệt Nvidia (Omniverse và Cosmos) cho thấy xu hướng rõ ràng: AI chuyển từ mô hình ngôn ngữ thuần túy sang trí tuệ có căn cứ, hiện thân.

Điểm khác biệt then chốt giai đoạn này là triển khai thực tế quy mô lớn. Nvidia Omniverse đã được BMW, Wistron, Jaguar Land Rover, Kawasaki và hàng chục công ty hàng đầu thế giới áp dụng xây dựng bản sao kỹ thuật số nhà máy, tối ưu hóa sản xuất, huấn luyện robot, với kết quả đo lường được: BMW lập kế hoạch nhà máy hoàn toàn ảo trước xây dựng vật lý; Kawasaki tiết kiệm 218 triệu USD/năm kiểm tra đường ray; các nhà sản xuất điện tử tự động hóa kiểm tra chất lượng và tăng năng suất.

Nvidia Cosmos đang dân chủ hóa phát triển AI vật lý, cho phép các công ty robot (1X, Agility Robotics, Figure AI) và xe tự lái (Uber, Waabi, XPENG) tạo dữ liệu tổng hợp quy mô lớn thay vì thu thập tốn kém từ thế giới thực. Đây chính là chất xúc tác tăng tốc phát triển từ nghiên cứu sang sản phẩm thương mại.

Đối với Việt Nam, đây là thời điểm then chốt. Không giống smartphone nơi Việt Nam chủ yếu lắp ráp không đem lại nhiều giá trị, trí tuệ không gian mở cơ hội bước nhảy vọt vì cần dữ liệu địa phương về không gian, kiến trúc, văn hóa đặc trưng - lợi thế tự nhiên công ty địa phương. Một công ty Việt Nam xây dựng mô hình thế giới các không gian Việt Nam sẽ có lợi thế cạnh tranh trong thị trường nội địa. Với Goldman Sachs dự báo 250 tỷ USD năm 2028 và Jensen Huang tuyên bố cách mạng 50 nghìn tỷ USD, cửa sổ cơ hội đang mở nhưng sẽ đóng nhanh. Hành động ngay hôm nay, không phải ngày mai, quyết định vị trí Việt Nam trong cuộc cách mạng công nghiệp này.

Next
Next

#27 - Hiệp ước New START chấm dứt: Sự cáo chung của thế giới?