Meta có tham vọng mang đến “cảnh quan ảo – âm thanh thực” cho metaverse

Meta đã hợp tác với các nhà nghiên cứu từ Đại học Texas tại Austin (Mỹ) để mang những âm thanh trung thực nhất của cuộc sống vào thế giới ảo.

Theo TechRadar, Meta và một nhóm các nhà nghiên cứu từ Đại học Texas tại Austin (Mỹ) đang làm việc để mang lại âm thanh trung thực cho metaverse.

Như Kristen Garuman, giám đốc nghiên cứu tại Meta AI, giải thích, thực tế ảo và thực tế tăng cường (AR và VR) có rất nhiều thứ chứ không chỉ riêng hình ảnh. Âm thanh đóng một vai trò rất quan trọng trong việc tạo ra một thế giới sống động. Garuman nói “âm thanh được định hình bởi môi trường mà nó tồn tại.” Có nhiều yếu tố khác nhau ảnh hưởng đến cách âm thanh hoạt động như hình dạng của một căn phòng, những gì có bên trong căn phòng đó, khoảng cách giữa người nghe và nơi phát ra âm thanh.

Meta muốn đưa âm thanh thực vào thế giới metaverse.

Để đạt được điều này, kế hoạch của Meta là sử dụng kính AR để ghi lại cả âm thanh và video từ một vị trí, sau đó sử dụng bộ ba mô hình AI, biến đổi và lọc sạch bản ghi để mang lại cảm giác như đang diễn ra trước mặt khi bạn xem lại. ở nhà. AI sẽ tính toán căn phòng mà bạn đang ở để nó có thể phù hợp nhất với môi trường.

Nhìn vào các dự án, có vẻ như Meta đang tập trung vào kính AR. Kế hoạch của Meta cho kính VR bao gồm tái tạo các địa điểm và âm thanh của một môi trường, chẳng hạn như một buổi hòa nhạc, để bạn có cảm giác như đang trực tiếp ở đó.

Mô hình đầu tiên được biết đến là AViTAR, một mô hình Visual Acoustic Matching. Đây là AI có thể biến đổi âm thanh để phù hợp với môi trường mới. Meta đưa ra ví dụ về một người mẹ ghi âm buổi biểu diễn khiêu vũ của con mình tại khán phòng với một cặp kính AR.

Một trong những nhà nghiên cứu tuyên bố rằng người mẹ có thể thu lại đoạn ghi đó và phát lại ở nhà, nơi AI sẽ biến đổi âm thanh. Nó sẽ quét môi trường, xem xét bất kỳ chướng ngại vật nào trong phòng và mang đến âm thanh độc đáo như đang diễn ra ngay trước mặt cô ấy chỉ với một chiếc kính. Nhà nghiên cứu cho biết âm thanh sẽ phát ra từ kính.

Về lọc sạch âm thanh, mô hình Visually-Informed Dereverberation sẽ đảm nhiệm việc này. Về cơ bản, nó loại bỏ những hồi âm gây mất tập trung khỏi video. Ví dụ được đưa ra là video ghi lại một buổi hòa nhạc gần một nhà ga xe lửa, khi bạn về nhà và AI sẽ dọn dẹp để bạn không nghe thấy gì ngoài âm nhạc.

Mô hình AI cuối cùng là VisualVoice, sử dụng kết hợp các tín hiệu hình ảnh và âm thanh để tách giọng nói khỏi những tiếng ồn khác. Hãy tưởng tượng một đoạn video hai người đang tranh cãi. AI này sẽ tách biệt một giọng nói để bạn có thể hiểu trong khi mọi thứ khác đều trở nên im lặng. Meta giải thích rằng các tín hiệu trực quan rất quan trọng vì AI cần xem đối tượng đang phát ra âm thanh để hiểu một số sắc thái nhất định và nhận biết được ai đang phát nói.

Liên quan đến hình ảnh, Meta cho biết họ có kế hoạch đưa video và các tín hiệu khác vào để nâng cao hơn nữa âm thanh do AI điều khiển. Vì công nghệ này vẫn còn trong giai đoạn đầu phát triển nên vẫn chưa biết liệu Meta có đưa những AI này đến kính thực tế ảo Quest hay không.