O Google DeepMind apresentou nesta terça-feira (10) o DiffusionGemma, um modelo de inteligência artificial de código aberto que revoluciona a criação de texto ao substituir a geração sequencial por um processo paralelo. Em vez de produzir token a token, o sistema gera blocos de 256 tokens simultaneamente, alcançando até 1.000 tokens por segundo em uma GPU NVIDIA H100.
Geração paralela baseada em difusão
O DiffusionGemma integra técnicas de difusão comuns em IAs de imagem para refinar, via “denoising”, cada bloco de texto até sua forma final. Esse método difere dos modelos autorregressivos tradicionais, que dependem da entrada de um token anterior para produzir o próximo. Ao trabalhar com blocos independentes, o novo modelo reduz significativamente o tempo de inferência, pois todos os tokens de um mesmo lote são processados ao mesmo tempo.
Desempenho quatro vezes superior
De acordo com a equipe do DeepMind, o DiffusionGemma supera em até quatro vezes a velocidade de geração de seus antecessores na família Gemma 4. Testes realizados em hardware NVIDIA H100 demonstraram throughput de 1.000 tokens por segundo, valor que representa ganhos expressivos para aplicações que exigem respostas rápidas e em grande escala, como chatbots, assistentes virtuais e sistemas de atendimento automatizado.
Vantagens do código aberto
Além da velocidade, o modelo mantém a qualidade na formação de sentenças, oferecendo coerência e fluidez comparáveis às abordagens convencionais. A novidade demonstra o potencial de métodos inspirados em difusão para transformar não apenas a geração de imagens, mas também a produção de texto em larga escala.

Imagem: Imagem ilustrativa
O lançamento do DiffusionGemma reforça a aposta do Google DeepMind em soluções que unem eficiência computacional e colaboração aberta, abrindo caminho para novas pesquisas e aplicações de IA voltadas à criação rápida e precisa de conteúdo textual.
Com informações de Tudocelular

