• ngọn cờ

OpenAI Point E: Tạo đám mây điểm 3D từ các dạng sóng phức tạp trong vài phút trên một GPU

Trong một bài viết mới Point-E: Hệ thống tạo các đám mây điểm 3D từ các tín hiệu phức tạp, nhóm nghiên cứu OpenAI giới thiệu Point E, một hệ thống tổng hợp có điều kiện văn bản đám mây điểm 3D sử dụng mô hình khuếch tán để tạo các hình dạng 3D đa dạng và phức tạp được điều khiển bởi văn bản phức tạp ám hiệu.trong vài phút trên một GPU.
Hiệu suất đáng kinh ngạc của các mô hình tạo hình ảnh tiên tiến nhất hiện nay đã kích thích nghiên cứu về việc tạo các đối tượng văn bản 3D.Tuy nhiên, không giống như các mô hình 2D, có thể tạo đầu ra trong vài phút hoặc thậm chí vài giây, các mô hình tạo đối tượng thường yêu cầu GPU hoạt động vài giờ để tạo một mẫu.
Trong một bài viết mới Point-E: Hệ thống tạo các đám mây điểm 3D từ các tín hiệu phức tạp, nhóm nghiên cứu OpenAI trình bày Point·E, một hệ thống tổng hợp có điều kiện bằng văn bản cho các đám mây điểm 3D.Cách tiếp cận mới này sử dụng mô hình lan truyền để tạo các hình dạng 3D đa dạng và phức tạp từ các tín hiệu văn bản phức tạp chỉ trong một hoặc hai phút trên một GPU.
Nhóm tập trung vào thách thức chuyển đổi văn bản sang 3D, điều quan trọng để dân chủ hóa việc tạo nội dung 3D cho các ứng dụng trong thế giới thực, từ thực tế ảo và trò chơi đến thiết kế công nghiệp.Các phương pháp hiện có để chuyển đổi văn bản thành 3D được chia thành hai loại, mỗi loại đều có nhược điểm: 1) các mô hình chung có thể được sử dụng để tạo mẫu một cách hiệu quả, nhưng không thể mở rộng quy mô hiệu quả cho các tín hiệu văn bản đa dạng và phức tạp;2) một mô hình hình ảnh văn bản được đào tạo trước để xử lý các tín hiệu văn bản phức tạp và đa dạng, nhưng cách tiếp cận này đòi hỏi nhiều tính toán và mô hình có thể dễ dàng bị mắc kẹt trong các cực tiểu cục bộ không tương ứng với các đối tượng 3D có ý nghĩa hoặc nhất quán.
Do đó, nhóm đã khám phá một phương pháp thay thế nhằm mục đích kết hợp các điểm mạnh của hai phương pháp trên, sử dụng mô hình khuếch tán văn bản thành hình ảnh được đào tạo trên một tập hợp lớn các cặp văn bản-hình ảnh (cho phép nó xử lý các tín hiệu đa dạng và phức tạp) và một mô hình khuếch tán hình ảnh 3D được đào tạo trên một tập hợp các cặp hình ảnh văn bản nhỏ hơn.bộ dữ liệu cặp hình ảnh-3D.Trước tiên, mô hình chuyển văn bản thành hình ảnh lấy mẫu hình ảnh đầu vào để tạo một biểu diễn tổng hợp duy nhất và mô hình chuyển hình ảnh thành 3D tạo đám mây điểm 3D dựa trên hình ảnh đã chọn.
Ngăn xếp tổng quát của lệnh dựa trên các khung tổng quát được đề xuất gần đây để tạo hình ảnh có điều kiện từ văn bản (Sohl-Dickstein và cộng sự, 2015; Song & Ermon, 2020b; Ho và cộng sự, 2020).Họ sử dụng mô hình GLIDE với 3 tỷ tham số GLIDE (Nichol và cộng sự, 2021), được tinh chỉnh trên các mô hình 3D được kết xuất, làm mô hình chuyển đổi văn bản thành hình ảnh của họ và một tập hợp các mô hình khuếch tán tạo ra các đám mây điểm RGB làm mô hình của họ. mô hình chuyển đổi.hình ảnh đến hình ảnh.mô hình 3D.
Trong khi công việc trước đây sử dụng kiến ​​trúc 3D để xử lý các đám mây điểm, các nhà nghiên cứu đã sử dụng một mô hình dựa trên bộ chuyển đổi đơn giản (Vaswani et al., 2017) để cải thiện hiệu quả.Trong kiến ​​trúc mô hình khuếch tán của chúng, hình ảnh đám mây điểm trước tiên được đưa vào mô hình CLIP ViT-L/14 đã được đào tạo trước và sau đó các mắt lưới đầu ra được đưa vào bộ chuyển đổi dưới dạng điểm đánh dấu.
Trong nghiên cứu thực nghiệm của mình, nhóm đã so sánh phương pháp Point·E được đề xuất với các mô hình 3D tổng quát khác về tính điểm tín hiệu từ bộ dữ liệu chữ ký, phân đoạn và phát hiện đối tượng COCO.Kết quả xác nhận rằng Point·E có thể tạo các hình dạng 3D đa dạng và phức tạp từ các tín hiệu văn bản phức tạp và tăng tốc thời gian suy luận thêm một đến hai bậc độ lớn.Nhóm nghiên cứu hy vọng công việc của họ sẽ truyền cảm hứng cho những nghiên cứu sâu hơn về tổng hợp văn bản 3D.
Mô hình lan truyền đám mây điểm được đào tạo trước và mã đánh giá có sẵn trên GitHub của dự án.Tài liệu Điểm-E: Hệ thống tạo đám mây điểm 3D từ các đầu mối phức tạp có trên arXiv.
Chúng tôi biết rằng bạn không muốn bỏ lỡ bất kỳ tin tức hay khám phá khoa học nào.Đăng ký nhận bản tin hàng tuần AI toàn cầu được đồng bộ hóa phổ biến của chúng tôi để nhận các bản cập nhật AI hàng tuần.


Thời gian đăng bài: 28-Dec-2022