Brincamos com Stable Video Diffusion e isso sinaliza um futuro assustador de deep fakes de IA

A difusão de vídeo estável está aqui e, embora seja certamente legal, representa um futuro preocupante quando se trata de falsificações profundas.

Principais conclusões

A IA generativa, como o Stable Video Diffusion, tem o potencial de criar imagens e vídeos altamente realistas e personalizáveis com base nas instruções fornecidas.
A utilização de imagens e vídeos gerados por IA para desinformação e violações de privacidade está a tornar-se mais comum, desafiando a fiabilidade das provas visuais na Internet.
A difusão estável de vídeo é apenas o começo e, à medida que a tecnologia de IA continua a avançar, o futuro da mídia on-line é ameaçado por possíveis usos indevidos e por preocupações éticas.

A revolução da IA foi um dos maiores e mais importantes avanços de 2023. Com empresas como OpenAI conquistando o mundo com ChatGPT e outras como Bing Chat e Google Bard, a IA generativa é uma tecnologia bastante poderosa. Onde fica preocupante é Geração de imagens de IA, ferramentas que podem criar imagens personalizadas com base nas instruções fornecidas a elas. Agora, com o Stable Video Diffusion, as coisas estão prestes a ficar ainda piores.

Estou longe de ter medo quando se trata de tecnologia e acho que a IA generativa tem muitos usos em ambos acessibilidade e contextos divertidos, mas não há dúvida de que a tecnologia também pode ser usada para o mal. A desinformação é um fenómeno cada vez mais frequente e já foi demonstrado que as imagens falsas geradas enganam os utilizadores em muitos contextos diferentes. Lembra daquela foto do Papa Francisco que circulava onde ele usava uma longa jaqueta branca? Essa imagem não era real, mas muitas pessoas pensaram que sim. As imagens não são mais a prova mágica que as pessoas antes esperavam que fossem.

Fonte: IA Generativa

Dado que hoje em dia já é impossível confiar nas imagens como única prova de algo, sendo os vídeos o próximo no ponto de desbastamento, será mais difícil do que nunca confiar em qualquer coisa que você vê na Internet como sendo real.

A difusão de vídeo estável do Stability AI é assustadoramente boa

Só está em teste agora, no entanto

Stable Video Diffusion segue o Stable Diffusion lançado no ano passado, um modelo de "pesos abertos" que sem dúvida deu início à onda de geradores de imagens de IA, pelo menos desempenhando um papel significativo papel. O formato de vídeo deste modelo específico é igualmente acessível e pode ser executado por qualquer pessoa que tenha um dos melhores GPUs Nvidia.

O modo como esse modelo específico funciona é bastante interessante e, no momento, é bastante limitado no que ele realmente pode fazer. Como afirma a Stability AI: "Embora atualizemos ansiosamente nossos modelos com os avanços mais recentes e trabalhemos para incorporar seu feedback, este modelo não se destina a aplicações reais ou comerciais neste momento estágio. Seus insights e feedback sobre segurança e qualidade são importantes para refinar este modelo para seu eventual lançamento.”

Existem dois modelos atuais disponíveis para uso dos usuários; o primeiro é SVD e o segundo é SVD-XT. Eles podem gerar 14 e 25 quadros respectivamente em taxas de quadros personalizáveis entre 3 e 30 FPS. Com esse tipo de IA capaz de fazer tanto, é apenas uma questão de tempo até que as pessoas possam criar suas próprias falsificações na casa de alguém.

A difusão de vídeo estável provavelmente será fácil de configurar

Isso não é necessariamente uma coisa boa

Quando o Stable Diffusion decolou pela primeira vez, um amigo meu treinou um modelo no rosto de seu amigo para adicioná-lo ao Metal Gear Sólido universo em uma galeria ridiculamente boba feita sob medida. Foi um presente muito legal e muito divertido de trabalhar e mexer (o amigo deu total consentimento para que um modelo fosse treinado em seu rosto), mas penso naquela época, agora, completamente horrorizado.

Com as centenas de imagens nossas que estão por aí, já foi possível as pessoas treinarem modelos no rostos de pessoas que não dão seu consentimento, praticamente qualquer pessoa que tenha fotos suas publicamente visível. Agora imagine ser capaz de gerar a imagem de alguém e depois animar esse desenho usando Stable Video Diffusion?

Há muitas implicações disso, que vão desde violações de privacidade até o limite da ilegalidade. Já ouvi falar de mulheres no espaço criador de conteúdo que me contaram sobre fãs que a IA gera pornografia para eles e enviando-o de volta para eles, quase como se aqueles “fãs” estivessem orgulhosos do fato de terem violado a privacidade de outro ser humano. Isso vem acontecendo há mais de um ano e é um exemplo que conheço. De forma alguma é a única implicação de privacidade de ferramentas como essas e, na verdade, provavelmente só vai piorar.

Exemplos de difusão de vídeo estável já estão disponíveis

Assustador, mas incrível

O vídeo acima, divulgado pela Stability AI, mostra o poder do Stable Video Diffusion. Outros também mostraram o poder da tecnologia, demonstrando como ela pode fazer praticamente qualquer coisa se mover e ser animada em uma pequena janela de alguns segundos. É preciso muito poder computacional, mas existem muitos serviços como Hugging Face e Replicator que as pessoas podem essencialmente alugar tempo de processamento. Executei-o localmente, usando a imagem abaixo (distribuída com o software Stable Video DIffusion) para testar se era bom.

Suspeito que a imagem acima seja gerada por IA, pois não consigo encontrar correspondências exatas online. No entanto, é um candidato perfeito para teste. Executei o modelo Stable Video Diffusion localmente com esta imagem e, em pouco menos de uma hora, obtive o seguinte clipe de quatro segundos.

Isso é surpreendentemente bom. Embora esteja com uma taxa de quadros baixa agora, como já mencionado, este é um modelo em desenvolvimento que ainda não se destina ao uso geral. Tentei com minha própria foto, a foto de um trem chegando no meio da neblina.

Infelizmente, o resultado não foi tão bom, embora tenha sido uma foto mais desafiadora para uma IA trabalhar graças ao nevoeiro.

Impressionantemente, ainda parecia compreender que o trem era, bem, um trem. Acabou mudando para o outro trilho do trem. Ainda assim, este é um software beta e os resultados são impressionantes.

A difusão de vídeo estável é apenas o começo

Independentemente do que você possa pensar sobre o quão impressionante é essa tecnologia, é apenas o começo. Este é o primeiro modelo de código aberto que as pessoas irão, sem dúvida, desmontar, melhorar e possivelmente utilizar com falta de cuidado com a ética. O futuro da mídia on-line está em perigo, em grande parte graças aos vídeos e imagens de IA, e à medida que melhoram e melhor, há implicações de longo alcance que abrirão múltiplas versões da caixa de Pandora nos próximos meses e anos.

Como cientista da computação, a tecnologia é tão incrivelmente impressionante que confunde a mente, e o rápido crescimento do cenário generativo da IA é tão, tão impressionante. No entanto, como um pessoa, essa tecnologia me apavora.