Graliśmy ze Stable Video Diffusion i sygnalizuje to przerażającą przyszłość głębokich podróbek AI

Stabilna dyfuzja wideo jest już dostępna i choć z pewnością jest fajna, wróży niepokojącą przyszłość, jeśli chodzi o głębokie podróbki.

Kluczowe dania na wynos

Generatywna sztuczna inteligencja, taka jak Stable Video Diffusion, może tworzyć wysoce realistyczne i konfigurowalne obrazy i filmy w oparciu o wyświetlane podpowiedzi.
Wykorzystywanie obrazów i filmów wygenerowanych przez sztuczną inteligencję do dezinformacji i naruszania prywatności staje się coraz powszechniejsze, co podważa wiarygodność dowodów wizualnych w Internecie.
Stabilne rozpowszechnianie wideo to dopiero początek, a w miarę ciągłego rozwoju technologii sztucznej inteligencji przyszłość mediów internetowych jest zagrożona przez potencjalne niewłaściwe wykorzystanie i kwestie etyczne.

Rewolucja AI była jednym z największych i najważniejszych osiągnięć roku 2023. Ponieważ rozwiązania takie jak OpenAI podbijają świat dzięki ChatGPT i innym, takim jak Bing Chat i Google Bard, generatywna sztuczna inteligencja jest dość potężną technologią. Tam, gdzie robi się niepokojąco, jest

Generowanie obrazu AI, narzędzia, które mogą tworzyć niestandardowe obrazy na podstawie dostarczonych im podpowiedzi. Teraz, dzięki stabilnej dyfuzji wideo, sytuacja jeszcze się pogorszy.

Nie mam żadnych obaw, jeśli chodzi o technologię i uważam, że generatywna sztuczna inteligencja ma wiele zastosowań w obu przypadkach dostępność I zabawne konteksty, ale nie ma wątpliwości, że tę technologię można wykorzystać także w złych celach. Dezinformacja jest zjawiskiem coraz częstszym, a wykazano już, że generowane fałszywe obrazy oszukują użytkowników w wielu różnych kontekstach. Pamiętacie to zdjęcie papieża Franciszka, które krążyło po okolicy, gdzie miał na sobie długą białą puchową kurtkę? Ten obraz nie był prawdziwy, ale wiele osób tak uważało. Obrazy nie są już srebrnym dowodem, jakiego ludzie kiedyś od nich oczekiwali.

Źródło: Generatywna sztuczna inteligencja

Biorąc pod uwagę, że w dzisiejszych czasach nie można już polegać na obrazach jako na jedynym dowodzie czegoś, a filmy wideo są następne w obliczu trudnej sytuacji, trudniej będzie niż kiedykolwiek polegać na czymkolwiek, co widzisz w Internecie prawdziwy.

Stabilność Stabilne rozproszenie wideo AI jest przerażająco dobre

Jednak teraz jest to dopiero w fazie testów

Stable Video Diffusion jest kontynuacją wydanego w zeszłym roku Stable Diffusion, modelu z „otwartymi ciężarkami”. to prawdopodobnie zapoczątkowało falę generatorów obrazów AI, przynajmniej odgrywając znaczącą rolę część. Forma wideo tego konkretnego modelu jest równie dostępna i może być odtwarzana przez każdego, kto posiada jeden z nich najlepsze procesory graficzne Nvidii.

Działanie tego konkretnego modelu jest dość interesujące, ale w tej chwili jego możliwości są dość ograniczone. Jak to ujął Stability AI: „Chociaż chętnie aktualizujemy nasze modele o najnowsze osiągnięcia i pracujemy nad uwzględnij swoją opinię, model ten nie jest przeznaczony do zastosowań w świecie rzeczywistym ani do zastosowań komercyjnych scena. Twoje spostrzeżenia i opinie na temat bezpieczeństwa i jakości są ważne dla udoskonalenia tego modelu przed jego ewentualną premierą.

Użytkownicy mogą korzystać z dwóch aktualnych modeli; pierwszy to SVD, a drugi to SVD-XT. Mogą one generować odpowiednio 14 i 25 klatek przy szybkości klatek dostosowywanej w zakresie od 3 do 30 klatek na sekundę. Przy tego rodzaju sztucznej inteligencji, która potrafi tak wiele, jest tylko kwestią czasu, zanim ludzie będą mogli w domu przygotować własne, głębokie podróbki.

Stabilna dyfuzja wideo będzie prawdopodobnie łatwa do skonfigurowania

To niekoniecznie jest dobrą rzeczą

Kiedy Stable Diffusion wystartowało po raz pierwszy, mój znajomy wytrenował model na twarzy swojego przyjaciela, aby dodać go do Metal Gear Solid wszechświat w absurdalnie głupiej, wykonanej na zamówienie galerii. To był całkiem fajny prezent, dający dużo frajdy przy pracy i zabawie (znajomy wyraził pełną zgodę na wytrenowanie modelki na twarzy), ale wspominam tamte czasy i teraz jestem totalnie przerażony.

Dzięki setkom naszych zdjęć ludzie mogli już trenować modele na platformie twarze osób, które nie wyrażają na to zgody, praktycznie każdego, kto udostępnia publicznie swoje zdjęcia widoczne. A teraz wyobraź sobie, że możesz wygenerować czyjś obraz, a następnie animować ten rysunek za pomocą stabilnej dyfuzji wideo?

Ma to wiele konsekwencji, począwszy od naruszeń prywatności po pogwałcenie prawa granicznego. Słyszałem już od kobiet w przestrzeni twórców treści, które opowiadały mi o fanach, którzy generują sztuczną inteligencję z pornografią i odsyłając im to, jakby ci „fani” byli dumni z faktu, że naruszyli prywatność drugiego człowieka. Dzieje się tak już od ponad roku i jest to przykład, który znam. W żadnym wypadku nie jest to jedyny wpływ takich narzędzi na prywatność, a wręcz prawdopodobnie będzie tylko gorzej.

Przykłady stabilnej dyfuzji wideo są już dostępne

Straszne, ale niewiarygodne

Powyższy film, wydany przez Stability AI, pokazuje siłę Stable Video Diffusion. Inni również pokazali potęgę tej technologii, pokazując, jak może poruszyć praktycznie wszystko i wywołać animację w małym, kilkusekundowym oknie. Wymaga to dużej mocy obliczeniowej, ale istnieje wiele usług, takich jak Hugging Face i Replicator, dzięki którym ludzie mogą zasadniczo wynająć czas przetwarzania. Uruchomiłem go lokalnie, korzystając z poniższego obrazu (rozprowadzanego z oprogramowaniem Stable Video DIffusion), aby sprawdzić, jak dobrze to wyszło.

Podejrzewam, że powyższy obraz został wygenerowany przez sztuczną inteligencję, ponieważ nie mogę znaleźć jego dokładnych odpowiedników w Internecie. Niemniej jednak jest to idealny kandydat do testów. Uruchomiłem lokalnie model Stable Video Diffusion z tym obrazem i po niecałej godzinie powstał następujący czterosekundowy klip.

To jest szokująco dobre. Chociaż, jak już wspomniano, liczba klatek na sekundę jest obecnie niska, jest to model w fazie rozwoju, który nie jest jeszcze przeznaczony do ogólnego użytku. Próbowałem z własnym zdjęciem, zdjęciem pociągu jadącego we mgle.

Niestety wynik nie był tak dobry, choć ze względu na mgłę zdjęcie było większym wyzwaniem dla sztucznej inteligencji.

Imponujące było to, że nadal zdawał się rozumieć, że pociąg był, cóż, pociągiem. Skończyło się na przeniesieniu na inny tor kolejowy. Jest to jednak oprogramowanie w wersji beta, a mimo to wyniki są imponujące.

Stabilna dyfuzja wideo to dopiero początek

Niezależnie od tego, co myślisz o imponującej technologii, to dopiero początek. To pierwszy model open source, który ludzie niewątpliwie rozbiorą, udoskonalą i być może wykorzystają bez dbałości o etykę. Przyszłość mediów internetowych jest zagrożona, głównie dzięki wideo i obrazom AI, które stają się coraz lepsze co więcej, istnieją dalekosiężne implikacje, które w ciągu najbliższych miesięcy otworzą wiele wersji puszki Pandory i lata.

Dla mnie, informatyka, technologia jest tak imponująca, że wprawia w osłupienie, a szybki rozwój krajobrazu generatywnej sztucznej inteligencji jest naprawdę imponujący. Jednak jako osoba, ta technologia mnie przeraża.