Vi lekte med Stable Video Diffusion, og det signaliserer en skummel fremtid med AI dype forfalskninger

Stabil videospredning er her, og selv om det absolutt er kult, gir det en bekymringsfull fremtid når det kommer til dype forfalskninger.

Viktige takeaways

Generativ AI, som Stable Video Diffusion, har potensialet til å lage svært realistiske og tilpassbare bilder og videoer basert på oppgitte spørsmål.
Bruken av AI-genererte bilder og videoer for desinformasjon og brudd på personvernet blir stadig mer vanlig, noe som utfordrer påliteligheten til visuelle bevis på internett.
Stabil videospredning er bare begynnelsen, og ettersom AI-teknologien fortsetter å utvikle seg, trues fremtiden til nettmedier av potensielt misbruk og etiske bekymringer.

AI-revolusjonen har vært en av de største og viktigste fremskrittene i 2023. Med slike som OpenAI som tar verden med storm med ChatGPT og andre som Bing Chat og Google Bard følger, er generativ AI en ganske kraftig teknologi. Der det blir bekymringsfullt er Generering av AI-bilder, verktøy som kan lage skreddersydde bilder basert på spørsmål gitt til dem. Nå, med Stable Video Diffusion, er ting i ferd med å bli enda verre.

Jeg er langt fra redd når det kommer til teknologi, og jeg tror at generativ AI har mange bruksområder i begge tilgjengelighet og morsomme sammenhenger, men det er ingen tvil om at teknologien også kan brukes til ondskap. Desinformasjon er et fenomen som blir mer og mer hyppig, og falske bilder generert har allerede vist seg å lure brukere i mange forskjellige sammenhenger. Husker du bildet av pave Frans som gikk rundt der han hadde på seg en lang hvit pufferjakke? Det bildet var ikke ekte, men mange trodde det var det. Bilder er ikke lenger den sølvkule av bevis som folk en gang forventet at de skulle være.

Kilde: Generativ AI

Gitt at det allerede i dag er umulig å stole på bilder som eneste bevis på noe, med videoer som neste på hakkestenen, kommer det til å bli vanskeligere enn noen gang å stole på alt du ser på Internett som ekte.

Stability AIs Stable Video Diffusion er skremmende bra

Men det er bare i testing nå

Stable Video Diffusion følger etter Stable Diffusion utgitt i fjor, en "open weights"-modell som uten tvil startet AI-bølgen av bildegeneratorer, i det minste spilte en betydelig del. Videoformen til denne modellen er like tilgjengelig og kan kjøres av alle som har en av de beste Nvidia GPUer.

Hvordan denne modellen fungerer er ganske interessant, og er for øyeblikket ganske begrenset i hvor mye den egentlig kan gjøre. Som Stability AI sier det, "Mens vi ivrig oppdaterer modellene våre med de siste fremskrittene og jobber for å inkorporer tilbakemeldingen din, denne modellen er ikke ment for virkelige eller kommersielle applikasjoner på dette scene. Din innsikt og tilbakemelding om sikkerhet og kvalitet er viktig for å forbedre denne modellen for dens eventuelle utgivelse."

Det er to aktuelle modeller tilgjengelig for brukere å bruke; den første er SVD, og den andre er SVD-XT. Disse kan generere henholdsvis 14 og 25 bilder med bildehastigheter som kan tilpasses mellom 3 og 30 FPS. Med denne typen AI som er i stand til å gjøre så mye, er det bare et spørsmål om tid før folk kan hjemmebrygge sine egne dype forfalskninger hjemme hos noen.

Stabil videospredning vil sannsynligvis være enkel å sette opp

Det er ikke nødvendigvis en god ting

Da Stable Diffusion først tok av, trente en venn av meg en modell på vennens ansikt for å legge denne vennen til Metal Gear Solid univers i et latterlig dumt skreddersydd galleri. Det var en ganske kul gave og mye moro å jobbe med og rote med (vennen ga fullt samtykke til å ha en modell trent i ansiktet), men jeg tenker tilbake på den gang, nå, helt forskrekket.

Med de hundrevis av bilder av oss som er der ute, har det allerede vært mulig for folk å trene modeller på ansikter til folk som ikke gir sitt samtykke, stort sett alle der ute som har bilder av seg selv offentlig synlig. Tenk deg nå å kunne generere et bilde av noen og deretter kunne animere den tegningen ved hjelp av stabil videospredning?

Det er mange implikasjoner av dette, alt fra brudd på personvernet til grenselinjen ulovlig. Jeg har allerede hørt fra kvinner i innholdsskaperen som har fortalt meg om fans AI som genererer pornografi av dem og sende det tilbake til dem, nesten som om de "fansen" var stolte av det faktum at de hadde krenket et annet menneskes privatliv. Dette har pågått i over et år, og det er et eksempel jeg kjenner til. Det er på ingen måte den eneste personvernimplikasjonen av verktøy som disse, og faktisk kommer det sannsynligvis bare til å bli verre.

Eksempler på stabil videospredning er allerede tilgjengelig

Skremmende, men utrolig

Videoen ovenfor, utgitt av Stability AI, viser kraften til Stable Video Diffusion. Andre har også vist kraften til teknologien, og demonstrert hvordan den kan få praktisk talt alt til å bevege seg og bli animert i et lite vindu på få sekunder. Det krever mye regnekraft, men det er mange tjenester som Hugging Face og Replicator som folk i hovedsak kan leie behandlingstid på. Jeg kjørte det lokalt ved å bruke bildet nedenfor (distribuert med Stable Video Diffusion-programvaren) for å teste hvor bra det var.

Bildet ovenfor er et jeg mistenker er AI-generert, siden jeg ikke kan finne eksakte treff til det på nettet. Likevel er det en perfekt kandidat for testing. Jeg kjørte Stable Video Diffusion-modellen lokalt med dette bildet, og på en knapp time hadde jeg følgende fire sekunders klipp.

Dette er sjokkerende bra. Selv om den har en lav bildefrekvens nå, som allerede nevnt, er dette en underutviklingsmodell som ikke er ment for generell bruk ennå. Jeg prøvde med mitt eget bilde, et bilde av et tog som ankom i tåken.

Resultatet ble dessverre ikke like bra, selv om det var et mer utfordrende bilde for en AI å jobbe med takket være tåken.

Imponerende nok så det fortsatt ut til å forstå at toget var et tog. Det endte bare med å flytte over til det andre togsporet. Likevel er dette betaprogramvare, og resultatene er imponerende likevel.

Stabil videospredning er bare starten

Uansett hva du synes om hvor imponerende denne teknologien er, er det bare begynnelsen. Dette er den første åpen kildekode-modellen som folk utvilsomt vil ta fra hverandre, forbedre og muligens gjøre bruk av med mangel på omsorg for etikk. Fremtiden til nettmedier er i fare, hovedsakelig på grunn av AI-video og bilder, og etter hvert som de blir bedre og bedre, det er vidtrekkende implikasjoner som vil åpne flere versjoner av Pandoras boks i løpet av de neste månedene og år.

Som informatiker er teknologien så utrolig imponerende at den forvirrer sinnet, og den raske veksten av det generative AI-landskapet er så, så imponerende. Imidlertid, som en person, denne teknologien skremmer meg.