Google lança Veo 2: modelo de vídeo para competir com o Sora da OpenAI

Novo modelo gera vídeos de até 2 minutos em 4K e traz melhorias no realismo de movimentos, luz e física.

17/12/20243 minutos

Salvar

O Google DeepMind anunciou o Veo 2, seu mais avançado modelo de geração de vídeos, com o objetivo de competir diretamente com o Sora da OpenAI. O Veo 2 é capaz de criar vídeos de mais de dois minutos com resolução de até 4K (4096 x 2160 pixels), superando o Sora, que atualmente gera vídeos de até 20 segundos em resolução máxima de 1080p.

Apesar das capacidades anunciadas, a ferramenta ainda está em fase experimental. No momento, vídeos gerados com o Veo 2 estão limitados a 720p e oito segundos de duração na plataforma VideoFX, que segue disponível apenas para usuários em lista de espera. De acordo com Eli Collins, vice-presidente de produto do DeepMind, a empresa planeja disponibilizar o modelo no Vertex AI, plataforma para desenvolvedores, à medida que ele se torne escalável.

Novidades

Além de gerar vídeos a partir de prompts de texto ou combinações de texto e imagens de referência, o Veo 2 trouxe melhorias importantes em relação ao seu antecessor. O modelo possui uma compreensão mais sofisticada de física, iluminação e movimentos, permitindo simular com maior realismo elementos como fluidos, sombras e reflexos. A precisão no controle da câmera virtual também foi aprimorada, permitindo criar ângulos e movimentos mais cinematográficos, enquanto expressões humanas foram refinadas para transmitir emoções de forma mais natural.

Durante a demonstração, o DeepMind apresentou vídeos impressionantes, incluindo simulações de líquidos complexos e animações no estilo Pixar. No entanto, Collins admitiu que ainda há desafios a superar, como inconsistências visuais, objetos com detalhes excessivamente simplificados e dificuldade em manter a coerência em vídeos mais longos.

Segurança e treinamento

O Veo 2 foi treinado em grandes conjuntos de vídeos, embora o Google DeepMind não tenha revelado detalhes sobre a origem dos dados utilizados. Suspeita-se que conteúdos do YouTube, plataforma pertencente ao Google, possam ter sido incluídos no treinamento. Enquanto o DeepMind assegura que trabalha em conjunto com a comunidade criativa, críticos apontam a falta de um mecanismo para remover obras protegidas por direitos autorais dos conjuntos de dados.

Para mitigar o risco de deepfakes e garantir transparência, o Veo 2 utiliza o SynthID, uma tecnologia proprietária de marca d’água invisível aplicada em cada frame dos vídeos gerados. No entanto, como qualquer sistema de marcação, o SynthID não é totalmente à prova de manipulação.

Expansão

Além do Veo 2, o DeepMind anunciou melhorias no Imagen 3, seu modelo de geração de imagens. A nova versão, disponível no ImageFX, oferece imagens mais detalhadas e com melhor composição em estilos como fotorrealismo, impressionismo e anime. A interface da plataforma também foi atualizada, permitindo que os usuários ajustem seus prompts com sugestões automáticas baseadas em palavras-chave.

Com o lançamento do Veo 2 e as melhorias no Imagen 3, o Google DeepMind reforça sua posição na corrida pela liderança em IA generativa, desafiando os avanços recentes da OpenAI e buscando conquistar criadores e desenvolvedores com ferramentas mais poderosas e refinadas.

Fonte: TechCrunch

------------------------------------------------------------------------------------------------------------------------------

🚀 Gostou do conteúdo? Então continue lendo as principais notícias do mercado de IA.

📩 Assine a nossa newsletter e fique por dentro de tudo sobre a Inteligência Artificial.

Foto: Google Deepmind