Google wykorzystał filmy z YouTube'a z manekinem, aby wyszkolić AI

Spisu treści:

Co musisz wiedzieć
Uzyskaj więcej pikseli 3a
Google Pixel 3a

Co musisz wiedzieć

Google trenuje swoją sztuczną inteligencję do tworzenia map głębokości izolujących ludzi na scenie przy użyciu tylko jednego aparatu.
Na początek Google wykorzystał 2000 filmów z YouTube z Mannequin Challenge do szkolenia sztucznej inteligencji.
Rezultaty doprowadzą do możliwości dodawania efektów do filmów, takich jak tryb portretowy, i mogą być używane w rzeczywistości rozszerzonej.

W ostatnim poście na blogu Google szczegółowo opisał, jak działa nad percepcją głębi w filmach, w których porusza się zarówno kamera, jak i obiekt. Na początek badanie wymagało dostępu do ogromnej ilości danych w celu trenowania sztucznej inteligencji, a pierwszym logicznym krokiem było przeszkolenie go w wykrywaniu ludzi w scenie, w której poruszała się kamera, ale ludzie byli w bezruchu.

Jak się okazuje, Google miał idealny zasób dla tych danych w postaci filmów na YouTube, które zostały nakręcone na Mannequin Challenge. W tym wyzwaniu osoba lub grupa ludzi stałaby całkowicie nieruchomo, gdy kamera obracałaby się wokół ich pozycji. Google wykorzystało 2000 filmów z tego wyzwania, aby pomóc swojemu AI w wykrywaniu postaci ludzkich w różnych scenach.

Coś, co sprawia, że to badanie jest jeszcze bardziej interesujące, to fakt, że Google uczy swoją sztuczną inteligencję tworzenia map głębokości z wykorzystaniem materiału nakręconego przy użyciu tylko jednej kamery. W większości przypadków do wykrycia informacji o głębi w scenie należy użyć wielu kamer.

Google już wykorzystuje coś podobnego do zdjęć, aby stworzyć efekt trybu portretowego na telefonach Pixel. Dotyczy to jednak tylko zdjęć. Nowa metoda opracowana przez Google polega na szkoleniu AI w tworzeniu mapy głębi, w której zarówno kamera, jak i obiekt poruszają się w obrębie sceny.

Rozgałęziając się na wideo, otworzy w przyszłości funkcje tworzenia bokeh w scenach wideo podobnych do trybu portretowego w telefonie. Kolejną korzyścią płynącą z tego badania będą lepsze wyniki dla rzeczywistości rozszerzonej, takie jak Playmojis z Playground Google.

Inną możliwością będzie generowanie obrazów 3D ze scen 2D. Podczas gdy sprzęt aparatu zawsze był niezbędny do fotografowania i filmowania, to, co Google robił przez lata z oprogramowaniem, pokazuje, że w przyszłości algorytmy będą równie ważne i pomogą zapewnić nowe doświadczenia.