Vi spillede med Stable Video Diffusion, og det signalerer en skræmmende fremtid med AI dybe forfalskninger

Stable Video Diffusion er her, og selvom det bestemt er cool, giver det en bekymrende fremtid, når det kommer til dybe forfalskninger.

Nøgle takeaways

Generativ AI har ligesom Stable Video Diffusion potentialet til at skabe meget realistiske og tilpasselige billeder og videoer baseret på angivne prompter.
Brugen af AI-genererede billeder og videoer til misinformation og krænkelser af privatlivets fred bliver mere almindelig, hvilket udfordrer pålideligheden af visuelle beviser på internettet.
Stabil videospredning er kun begyndelsen, og efterhånden som AI-teknologien fortsætter med at udvikle sig, er fremtiden for onlinemedier truet af potentielt misbrug og etiske bekymringer.

AI-revolutionen har været et af de største og vigtigste fremskridt i 2023. Med folk som OpenAI, der tager verden med storm med ChatGPT og andre som Bing Chat og Google Bard, der følger efter, er generativ AI en ret kraftfuld teknologi. Der hvor det bliver bekymrende er Generering af AI-billeder, værktøjer, der kan skabe skræddersyede billeder baseret på prompter, som de får. Nu, med Stable Video Diffusion, er tingene ved at blive endnu værre.

Jeg er langt fra bange, når det kommer til teknologi, og jeg tror, at generativ AI har mange anvendelser i begge tilgængelighed og sjove sammenhænge, men der er ingen tvivl om, at teknologien også kan bruges til det onde. Desinformation er et fænomen, der bliver mere og mere hyppigt, og falske billeder genereret har allerede vist sig at narre brugere i mange forskellige sammenhænge. Kan du huske det billede af pave Frans, der gik rundt, hvor han havde en lang hvid pufferjakke på? Det billede var ikke rigtigt, men mange mennesker troede, det var det. Billeder er ikke længere den sølvkugle af bevis, som folk engang forventede, at de var.

Kilde: Generativ AI

I betragtning af at det allerede i dag er umuligt at stole på billeder som eneste bevis på noget, med videoer som næste på hugget, bliver det sværere end nogensinde at stole på noget, du ser på internettet som værende ægte.

Stabilitet AI's Stable Video Diffusion er skræmmende god

Det er dog først i test nu

Stable Video Diffusion følger efter Stable Diffusion udgivet sidste år, en "åben vægt" model der uden tvivl kickstartede AI-bølgen af billedgeneratorer, i det mindste spillede en betydelig en del. Videoformen for netop denne model er lige så tilgængelig og kan køres af alle, der har en af de bedste Nvidia GPU'er.

Hvordan netop denne model fungerer, er ret interessant, og i øjeblikket er det ret begrænset i, hvor meget den virkelig kan. Som Stability AI udtrykker det, "Mens vi ivrigt opdaterer vores modeller med de seneste fremskridt og arbejder på at inkorporer din feedback, denne model er ikke beregnet til virkelige eller kommercielle applikationer på dette område scene. Din indsigt og feedback om sikkerhed og kvalitet er vigtig for at forfine denne model til dens eventuelle udgivelse."

Der er to aktuelle modeller tilgængelige for brugere at bruge; den første er SVD, og den anden er SVD-XT. Disse kan generere henholdsvis 14 og 25 billeder ved billedhastigheder, der kan tilpasses mellem 3 og 30 FPS. Med denne form for AI, der er i stand til at gøre så meget, er det kun et spørgsmål om tid, før folk kan hjemmebrygge deres egne dybe forfalskninger hjemme hos nogen.

Stabil videodiffusion vil sandsynligvis være let at konfigurere

Det er ikke nødvendigvis en god ting

Da Stable Diffusion først tog fart, trænede en af mine venner en model i sin vens ansigt for at tilføje denne ven til Metal Gear Solid univers i et latterligt fjollet specialfremstillet galleri. Det var en ret fed gave og meget sjov at arbejde på og rode med (vennen gav fuldt samtykke til at få trænet en model i ansigtet), men jeg tænker tilbage på dengang, nu, fuldstændig forfærdet.

Med de hundredvis af billeder af os, der er derude, har det allerede været muligt for folk at træne modeller på ansigter på folk, der ikke giver deres samtykke, stort set alle derude, der har billeder af sig selv offentligt kan ses. Forestil dig nu at være i stand til at generere et billede af nogen og derefter være i stand til at animere den tegning ved hjælp af stabil videodiffusion?

Der er mange implikationer af dette, lige fra krænkelser af privatlivets fred til grænsen ulovligt. Jeg har allerede hørt fra kvinder i indholdsskaberen, som har fortalt mig om fans AI, der genererer pornografi af dem og at sende det tilbage til dem, næsten som om de "fans" var stolte af, at de havde krænket et andet menneskes privatliv. Det har stået på i over et år, og det er et eksempel, som jeg kender. Det er på ingen måde den eneste privatlivsimplikation af værktøjer som disse, og faktisk vil det sandsynligvis kun blive værre.

Eksempler på stabil videodiffusion er allerede tilgængelige

Skræmmende, men utroligt

Ovenstående video, udgivet af Stability AI, viser styrken af Stable Video Diffusion. Andre er også gået videre med at vise teknologiens kraft og demonstrere, hvordan den kan få praktisk talt alt til at bevæge sig og blive animeret i et lille, få sekunders vindue. Det kræver en masse regnekraft, men der er masser af tjenester som Hugging Face og Replicator, som folk i det væsentlige kan leje behandlingstid. Jeg kørte det lokalt ved at bruge billedet nedenfor (distribueret med Stable Video Diffusion-softwaren) for at teste, hvor godt det var.

Ovenstående billede er et, jeg formoder, er AI-genereret, da jeg ikke kan finde nøjagtige matcher til det online. Ikke desto mindre er det en perfekt kandidat til test. Jeg kørte Stable Video Diffusion-modellen lokalt med dette billede, og på knap en time havde jeg det følgende fire sekunders klip.

Det her er chokerende godt. Selvom det er ved en lav billedhastighed nu, som allerede nævnt, er dette en under-udviklingsmodel, der endnu ikke er beregnet til generel brug. Jeg forsøgte med mit eget foto, et foto af et tog, der ankom i tågen.

Desværre var resultatet ikke så godt, selvom det var et mere udfordrende billede for en AI at arbejde med takket være tågen.

Imponerende nok syntes det stadig at forstå, at toget var et tog. Det endte bare med at flytte over til det andet togspor. Alligevel er dette beta-software, og resultaterne er ikke desto mindre imponerende.

Stabil videospredning er kun begyndelsen

Uanset hvad du synes om, hvor imponerende denne teknologi er, er det kun begyndelsen. Dette er den første open source-model, som folk uden tvivl vil skille ad, forbedre og muligvis gøre brug af med manglende omsorg for etik. Fremtiden for onlinemedier er i fare, hovedsagelig takket være AI-video og billeder, og efterhånden som de bliver bedre og bedre, der er vidtrækkende konsekvenser, der vil åbne flere versioner af Pandoras æske i løbet af de næste måneder og år.

Som datalog er teknologien så utroligt imponerende, at den forvirrer sindet, og den hurtige vækst i det generative AI-landskab er så, så imponerende. Men som en person, denne teknologi skræmmer mig.