Google DeepMind lança Nano Banana 2 Lite e Gemini Omni Flash para criação multimídia com IA

Neste artigo:

Geração veloz de imagens
Vídeos conversacionais multimodais
Pipeline unificado e marcação de segurança

O Google DeepMind revelou em 30 de junho dois novos modelos de inteligência artificial generativa voltados à produção de mídia: o Nano Banana 2 Lite e o Gemini Omni Flash. As soluções são parte do ecossistema Gemini e já estão disponíveis no Google AI Studio e por meio de API.

Geração veloz de imagens

O Nano Banana 2 Lite faz parte da série Gemini 3.1 Flash Lite Image e foi projetado para máxima rapidez. Segundo dados do Google DeepMind, o modelo cria uma imagem a partir de uma descrição em texto em cerca de quatro segundos, com um custo de 0,034 dólar a cada mil imagens. Esses parâmetros tornam o sistema atraente para equipes que precisam de protótipos visuais rápidos ou produções em larga escala.

Embora apresente boa fidelidade aos prompts e mantenha consistência de elementos visuais, o Nano Banana 2 Lite tem limitações em tarefas que exigem leitura rigorosa de textos embutidos nas imagens ou elaboração cuidadosa de infográficos. O Google reconhece que o modelo não é indicado para projetos que demandam tipografia complexa.

Vídeos conversacionais multimodais

Já o Gemini Omni Flash foca na criação e edição de vídeos por meio de linguagem natural. Esse modelo aceita textos, imagens e vídeos como insumo e devolve cenas editáveis em ambiente conversacional. Na versão atual, ele suporta vídeos de até dez segundos.

O Google aponta restrições no uso de áudio e na manutenção de personagens entre diferentes cenas, o que limita seu uso em produções mais sofisticadas. Ainda assim, a possibilidade de controlar a narrativa apenas com comandos de texto deverá chamar a atenção de quem busca fluxos de trabalho automatizados em vídeo.

Imagem: Imagem ilustrativa

Pipeline unificado e marcação de segurança

A integração entre Nano Banana 2 Lite e Gemini Omni Flash forma uma cadeia completa de criação multimídia dentro do Gemini: imagens geradas no primeiro podem servir de base para animações e vídeos no segundo, sem necessidade de migrar para outro ambiente. Ambos os modelos usam o sistema SynthID, tecnologia do Google DeepMind que insere marcação de segurança para identificar conteúdos produzidos por IA mesmo após edições.

Com essa estratégia, o Google pretende oferecer um fluxo contínuo de geração e refinamento de mídia, mantendo rastreabilidade e custos acessíveis para produção em grande escala.

Com informações de Hardware

Geração veloz de imagens

Vídeos conversacionais multimodais

Pipeline unificado e marcação de segurança

Você também pode gostar