Vi spelade med Stable Video Diffusion, och det signalerar en skrämmande framtid för AI-djupa förfalskningar

Stable Video Diffusion är här, och även om det verkligen är coolt, innebär det en oroande framtid när det kommer till djupa förfalskningar.

Viktiga takeaways

Generativ AI, som Stable Video Diffusion, har potential att skapa mycket realistiska och anpassningsbara bilder och videor baserat på tillhandahållna uppmaningar.
Användningen av AI-genererade bilder och videor för desinformation och integritetskränkningar blir allt vanligare, vilket utmanar tillförlitligheten hos visuella bevis på internet.
Stabil videospridning är bara början, och i takt med att AI-tekniken fortsätter att utvecklas, hotas framtiden för onlinemedier av potentiellt missbruk och etiska problem.

AI-revolutionen har varit en av de största och viktigaste framstegen under 2023. Med sådana som OpenAI som tar världen med storm med ChatGPT och andra som Bing Chat och Google Bard följer, är generativ AI en ganska kraftfull teknik. Där det blir oroande är Generering av AI-bilder, verktyg som kan skapa skräddarsydda bilder baserat på uppmaningar som de får. Nu, med Stable Video Diffusion, är det på väg att bli ännu värre.

Jag är långt ifrån rädd när det kommer till teknik, och jag tror att generativ AI har många användningsområden i båda tillgänglighet och roliga sammanhang, men det råder ingen tvekan om att tekniken också kan användas för ondska. Desinformation är ett fenomen som blir allt vanligare och falska bilder som genereras har redan visat sig lura användare i många olika sammanhang. Kommer du ihåg det där fotot av påven Franciskus som gick runt där han bar en lång vit pufferjacka? Den bilden var inte verklig, men många trodde att den var det. Bilder är inte längre den silverkula av bevis som folk en gång förväntade sig att de skulle vara.

Källa: Generativ AI

Med tanke på att det redan nu är omöjligt att lita på bilder som enda bevis på något, med videor som nästa på hugget kommer det att bli svårare än någonsin att lita på allt du ser på internet som verklig.

Stability AI: s Stable Video Diffusion är läskigt bra

Det är dock bara på test nu

Stable Video Diffusion följer efter Stable Diffusion som släpptes förra året, en modell med "öppna vikter". som utan tvekan kickstartade AI-vågen av bildgeneratorer, åtminstone spelade en betydande roll del. Videoformen för just denna modell är lika tillgänglig och kan köras av alla som har en av de bästa Nvidia GPU: er.

Hur just den här modellen fungerar är ganska intressant, och är för närvarande ganska begränsad i hur mycket den verkligen kan göra. Som Stability AI uttrycker det, "Medan vi ivrigt uppdaterar våra modeller med de senaste framstegen och arbetar för att inkludera din feedback, den här modellen är inte avsedd för verkliga eller kommersiella tillämpningar skede. Dina insikter och feedback om säkerhet och kvalitet är viktiga för att förfina den här modellen för dess eventuella lansering."

Det finns två aktuella modeller tillgängliga för användare att använda; den första är SVD och den andra är SVD-XT. Dessa kan generera 14 respektive 25 bildrutor med bildhastigheter som kan anpassas mellan 3 och 30 FPS. Med den här typen av AI som kan göra så mycket är det bara en tidsfråga innan folk kan hembrygga sina egna djupa förfalskningar hemma hos någon.

Stabil videodiffusion kommer sannolikt att vara lätt att ställa in

Det är inte nödvändigtvis bra

När Stable Diffusion först lyfte tränade en vän till mig en modell på sin väns ansikte för att lägga till denna vän till Metal Gear Solid universum i ett löjligt fånigt skräddarsytt galleri. Det var en ganska häftig present och väldigt kul att jobba på och pyssla med (kompisen gav fullt samtycke till att få en modell tränad i ansiktet), men jag tänker tillbaka på då, nu, helt förskräckt.

Med de hundratals bilder av oss som finns där ute, har det redan varit möjligt för människor att träna modeller på ansikten på människor som inte ger sitt samtycke, i stort sett alla där ute som har bilder på sig själva offentligt synlig. Tänk dig nu att kunna generera en bild av någon och sedan kunna animera den teckningen med hjälp av stabil videospridning?

Det finns många konsekvenser av detta, allt från integritetskränkningar till gränsen olaglig. Jag har redan hört från kvinnor i innehållsskaparen som har berättat för mig om fans AI som genererar pornografi av dem och skicka tillbaka det till dem, nästan som om de där "fansen" var stolta över det faktum att de hade kränkt en annan människas integritet. Detta har pågått i över ett år, och det är ett exempel som jag känner till. Det är inte på något sätt den enda integritetskonsekvensen av verktyg som dessa, och i själva verket kommer det sannolikt bara att bli värre.

Exempel på stabil videodiffusion finns redan tillgängliga

Läskigt men otroligt

Ovanstående video, släppt av Stability AI, visar kraften i Stable Video Diffusion. Andra har också visat kraften i tekniken och visat hur den kan få praktiskt taget vad som helst att röra sig och animeras i ett litet fönster på några sekunder. Det kräver mycket beräkningskraft, men det finns massor av tjänster som Hugging Face och Replicator som folk i princip kan hyra bearbetningstid. Jag körde den lokalt, med hjälp av bilden nedan (distribuerad med programvaran Stable Video Diffusion) för att testa hur bra den var.

Ovanstående bild är en som jag misstänker är AI-genererad, eftersom jag inte kan hitta exakta matchningar till den online. Ändå är det en perfekt kandidat för testning. Jag körde modellen Stable Video Diffusion lokalt med den här bilden, och på knappt en timme hade jag följande fyra sekunder långa klipp.

Det här är chockerande bra. Även om den har en låg bildhastighet nu, som redan nämnts, är det här en modell under utveckling som inte är avsedd för allmän användning ännu. Jag försökte med mitt eget foto, ett foto på ett tåg som anländer i dimman.

Tyvärr blev resultatet inte lika bra, även om det var ett mer utmanande foto för en AI att arbeta med tack vare dimman.

Imponerande nog verkade det ändå förstå att tåget var, ja, ett tåg. Det slutade precis med att den flyttade över till det andra tågspåret. Ändå är detta betaprogramvara, och resultaten är ändå imponerande.

Stabil videodiffusion är bara början

Oavsett vad du kanske tycker om hur imponerande den här tekniken är, är det bara början. Detta är den första modellen med öppen källkod som människor utan tvekan kommer att ta isär, förbättra och eventuellt använda sig av med bristande omsorg om etik. Framtiden för onlinemedier är i fara, till stor del tack vare AI-video och bilder, och allt eftersom de blir bättre och bättre, det finns långtgående konsekvenser som kommer att öppna flera versioner av Pandoras box under de kommande månaderna och år.

Som datavetare är tekniken så otroligt imponerande att den förvirrar sinnet, och den snabba tillväxten av det generativa AI-landskapet är så, så imponerande. Men som en person, denna teknik skrämmer mig.