Quando alguém fala em Goku, o que você pensa? Se é no personagem de Dragon Ball, saiba que agora o nome também é sinônimo de um modelo de inteligência artificial (IA). A ByteDance, dona do TikTok, lançou a tecnologia com foco em geração de vídeos realistas, em especial aqueles onde pessoas interagem com produtos ou comida.
O modelo funciona como os outros concorrentes: ele cria visuais a partir de comandos de texto, mas deve ser particularmente explorado pelo setor da publicidade, segundo a ByteDance.
Por trás do resultado que promete ser realista, o Goku usa transformadores de fluxo retificado, um tipo de modelo de IA que gera imagens e vídeos de modo fluído e preciso. Na prática, é como se a máquina refinasse as criações digitais que já foram apresentadas pela Sora, da OpenAI, por exemplo.
“Com o Goku, introduzimos uma abordagem inovadora de IA generativa que permite a criação de animações humanas realistas com modelagem facial e de movimento avançada”, diz a empresa. “Isso permite que os usuários produzam conteúdo de vídeo envolvente sem a necessidade de processos tradicionais de filmagem ou edição.”
Essa ferramenta foi lançada com um foco específico: gerar vídeos de pessoas sem precisar de atores reais. E a ByteDance reitera essa visão. A gigante chinesa usou dois vastos conjuntos de dados. O primeiro com de cerca de 160 milhões de pares de imagem-texto, ou seja, imagens associadas a descrições textuais, e 36 milhões de pares de vídeo-texto, que são vídeos com legenda correspondente. Essa técnica ajuda a IA a entender a relação entre movimentos, contextos visuais e linguagem.
Uma versão especializada, o Goku+ também foi apresentada. Ela foca na criação de material publicitário, o que poderia reduzir os custos de produção de vídeos em 99%, segundo a ByteDance.
Foram usados conjuntos de dados acadêmicos, fontes da internet e de organizações parceiras para alimentar a base do modelo. Ao contrário de outros sistemas de IA, o Goku consegue lidar com imagens estáticas e vídeos ao mesmo tempo. Ao todo, esse modelo tem entre 2 e 8 bilhões de parâmetros, que são as variáveis ajustáveis usadas para aprender e processar informações.
Em benchmarks – que são testes que medem a performance do sistema -, o Goku se saiu bem nas duas tarefas que foi projetado Seu modelo de vídeo conseguiu 84.85 no VBench, o que é um resultado superior à das concorrentes. A qualidade do conteúdo entregue também mostrou um upgrade em relação ao modelo de IA anterior da ByteDance, o Jimeng.
Mesmo que a empresa não tenha especificado as limitações do Goku, os exemplos que disponibilizou publicamente são clipes de 24 FPS em resolução de 720p.
Goku, DeepSeek e outros: ascensão de modelos abertos
O Goku é um modelo de código aberto como o Llama e a DeepSeek. Esta é uma boa notícia para muitas empresas e startups que vão poder desenvolver novas tecnologias baseadas nele, de acordo com analistas de IA.
Para a OpenAI, no entanto, o lançamento de mais uma concorrente – chinesa – significa que a corrida pela IA está acirrada, mesmo que ela seja beneficiada por restrições impostas pelo governo dos Estados Unidos que impedem a venda de chips aos chineses.