Conheça a Whisk, nova IA do Google que usa prompts de imagem em vez de texto

dezembro 18, 2024 Juliana

A nova ferramenta de inteligência artificial do Google, Whisk, permite que as pessoas carreguem fotos para obter uma imagem combinada gerada por IA — mesmo sem os usuários inserirem nenhum texto para explicar o que desejam.

Os usuários podem inserir imagens representando assuntos, cenário e estilo antes do Whisk combinar tudo em uma única imagem.

O Whisk é uma “ferramenta criativa” para inspiração rápida, disse o Google em um post no blog, ao contrário de um “editor de imagens tradicional”. Em essência, o Whisk é destinado a ser um recurso divertido de IA, em vez de algo que se destina a ser um trabalho profissional refinado.

Empresas de tecnologia como Google e OpenAI estão correndo para lançar produtos de consumo que possam mostrar usos para a nova tecnologia sofisticada, mesmo que os críticos alertem que a falta de barreiras no desenvolvimento da IA representa perigos para a humanidade.

Desde que a OpenAI lançou inicialmente sua ferramenta de criação de imagem a partir de texto, Dall-E, em 2021, o conceito de arte gerada por IA inundou as redes sociais e se tornou um foco dos produtos de consumo. O Whisk do Google é um gerador de imagem a partir de imagem, construindo sobre o conceito popular de geradores de imagem a partir de texto.

As pessoas que usam o Whisk podem “recriar” a imagem final editando suas entradas e misturando as categorias para produzir imagens diferentes, como um brinquedo de pelúcia, um broche ou um adesivo. Os usuários podem adicionar texto se quiserem direcionar certos detalhes, mas não é necessário para criar uma imagem.

“O Whisk é projetado para permitir que os usuários recriem um assunto, uma cena e um estilo de maneiras novas e criativas, oferecendo exploração visual rápida em vez de edições perfeitas em pixels”, disse Thomas Iljic, diretor de gerenciamento de produtos do Google Labs, em um comunicado.

O Whisk do Google é construído sobre a IA generativa desenvolvida pela DeepMind, o laboratório de IA que o Google adquiriu em 2014.

O Whisk funciona usando a oferta principal de IA do Google, Gemini, que estreou em dezembro de 2023, e combinando-a com Imagen 3, o mais recente gerador de imagem a partir de texto lançado pela DeepMind em dezembro.

Quando os usuários carregam suas imagens, o Gemini gera uma legenda que é alimentada no Imagen 3. O processo captura a “essência” do assunto em vez de uma réplica exata, o que permite a recriação da imagem final, mas também significa que o produto final pode se desviar do prompt.

Por exemplo, a imagem gerada pode ter uma altura, um penteado ou um tom de pele diferente das imagens de prompt, disse o Google em um post no blog.

Quando o Google lançou pela primeira vez o criador de imagem a partir de texto do Gemini em fevereiro, a empresa enfrentou uma reação inicial porque a ferramenta produzia imagens historicamente imprecisas.

O Whisk está disponível inicialmente como um site nos Laboratórios do Google para usuários nos EUA e está em seus estágios iniciais de desenvolvimento, disse a empresa.

A OpenAI também lançou recentemente um gerador de texto para vídeo chamado Sora, destacando a competição por produtos de consumo.

Dan Ives, diretor administrativo e analista sênior de ações da Wedbush Securities, disse à CNN que o Whisk é outro “momento de flexionar os músculos” para o Google na corrida da IA e da tecnologia.

“DeepMind é um ativo fundamental para o Google”, disse Ives, observando que os produtos de IA fazem parte do “tesouro” de novos produtos do Google para 2025, que também inclui um novo sistema operacional Android desenvolvido em colaboração com Samsung e Qualcomm.