Naukowcy z Max Planck Institute for Informatics, Saarbrücken Research Center for Visual Computing, Interaction and Artificial Intelligence (VIA), MIT CSAIL i University of Pennsylvania opracowali pionierską metodę przetwarzania obrazu. DragGAN pozwala łatwo i elastycznie zmieniać mimikę twarzy, pozę, perspektywę i inne właściwości zdjęć za pomocą funkcji przeciągnij i upuść. W przeciwieństwie do poprzednich programów, nie potrzebujesz obszernej wiedzy w zakresie edycji zdjęć. Punkty początkowe i końcowe są zaznaczone na zdjęciu, a GAN generuje nowe zdjęcie odpowiadające żądanym zmianom. Dotychczas system ograniczał się do takich kategorii jak ludzie, zwierzęta, krajobrazy czy pojazdy.



Przyszłość Photoshopa i spółki?

„Ponieważ te manipulacje są wykonywane na wyuczonych obrazach generatywnych GAN, prowadzą one do realistycznych wyników, nawet w trudnych scenariuszach, takich jak halucynacje zaciemnionej treści i deformowanie kształtów, które konsekwentnie podążają za sztywnością obiektu” – napisali naukowcy w swojej publikacji dla komputera grafiki targowej SIGGRAPH23 w sierpniu, którą zainteresowani mogą pobrać np. z arXiv. Jak dobrze DragGAN faktycznie działa, nie można jeszcze samemu wypróbować, ale można obejrzeć tylko przykładowe filmy ze strony internetowej DragGAN Instytutu Informatyki im. Maxa Plancka:


Zgodnie z ogłoszeniem na wcześniej podstawowej stronie projektu GitHub, główny autor Xingang Pan ogłasza, że ​​zamierza wydać kod źródłowy DragGAN w czerwcu. Podobnie jak wiele innych projektów, DragGAN wykorzystuje zoptymalizowaną pod kątem uczenia maszynowego bibliotekę Pythona PyTorch. Na razie nic nie wiadomo o wymaganiach sprzętowych. Autorzy piszą po prostu: „Dzięki skuteczności naszego podejścia użytkownicy muszą odczekać tylko kilka sekund i mogą kontynuować edycję, aż będą usatysfakcjonowani”. DragGAN jest wciąż na wczesnym etapie, więc na jakość wyników wpływa obecnie różnorodność danych treningowych, pomimo pewnej zdolności do ekstrapolacji.