O avanço chinês na guerra da inteligência artificial
No último 9 de fevereiro, a audiência recorde de 127,7 milhões de telespectadores do Super Bowl — a grande final do campeonato nacional de futebol americano — foi bombardeada com propaganda das grandes empresas de inteligência artificial (IA). A atenção monstruosa que o jogo recebe faz dele o maior palco de propaganda do país, e cada spot de 30 segundos é disputado mediante pagamento de exorbitantes 8 milhões de dólares (ou aproximadamente 45 milhões de reais). Foi num desses anúncios que a Apple apresentou o primeiro PC, o Macintosh, em 1984. Em 2000, os sites pontocom dominaram os intervalos e, em 2022, só se falava de criptomoedas entre um touchdown e outro. Em 2025, OpenAI (criadora do ChatGPT), Meta (dona do Facebook e da ferramenta de IA Llama) e Alphabet (Google e Gemini) travaram uma batalha pelos corações, mentes e bolsos dos torcedores americanos. Nos bastidores, porém, a preocupação de todos está centrada em um inimigo comum: a DeepSeek, a companhia de IA chinesa que, apenas dez dias antes, lançara uma versão de sua ferramenta tão poderosa e eficiente que apagou mais de 1 trilhão de dólares em valor de mercado das empresas de tecnologia em um período de apenas 24 horas. “A ideia prevalecente de que só gigantes com capacidade para investimento da ordem de centenas de bilhões de dólares poderiam competir em IA foi por terra com a chegada da DeepSeek”, afirma David Cox, vice-presidente de IA da IBM Research.
A primeira reação de boa parte dos investidores foi de negação. O que a DeepSeek afirma ter feito, afinal, desmente tudo o que se acreditava a respeito da indústria. Seu modelo R1, que funciona como uma das ferramentas do ChatGPT, foi chamado de “uma das descobertas mais incríveis e impressionantes que já vi” — a declaração é de Marc Andreessen, investidor de venture capital e conselheiro do presidente Donald Trump, que destacou o fato de a DeepSeek ter atingido o nível de qualidade dos líderes de mercado americanos a uma fração do custo, usando chips muito menos sofisticados. A ferramenta teria custado apenas 5,6 milhões de dólares no treinamento final, que é aproximadamente o salário anual recebido por um desenvolvedor gabaritado nos Estados Unidos. O valor não chega perto dos 100 milhões gastos no desenvolvimento do GPT-4, segundo o presidente da OpenAI, Sam Altman. No ano passado, o presidente da Anthropic (da ferramenta Claude), Dario Amodei, revelou que o custo de treinamento de seus modelos variava de 100 milhões a 1 bilhão de dólares.
Assim que a DeepSeek começou a fazer barulho mundo afora, bancos e fundos dispararam análises levantando dúvidas sobre as alegações chinesas, acusando-as de mentirosas. Chama atenção, porém, que os CEOs de quem mais perdeu dinheiro (e mais entende do assunto) naquele fatídico 27 de janeiro — quando o advento estrondoso da DeepSeek fez a cotação das empresas de tecnologia tombar —, como Nvidia, Alphabet e o fundo de venture capital Sequoia, parabenizaram a DeepSeek pelo feito.
Que façanha foi essa, afinal? Comandada pelo executivo Liang Wenfeng, a DeepSeek é a principal startup de IA da China. Wenfeng é dono de um hedge fund de sucesso, e em 2021 ele se deu a missão de liderar engenheiros da Universidade de Zhejiang para construir uma inteligência artificial geral (AGI, na sigla em inglês) que seja tão inteligente quanto humanos. Naquele ano, Wenfeng começou a comprar milhares de GPUs da Nvidia (que ainda não era proibida de vendê-los na China) e, em 2023, lançou a DeepSeek. “Para alcançar a AGI, precisamos de novas estruturas para conseguir modelos mais fortes com recursos limitados”, declarou à época. E foi exatamente isso o que a empresa fez. Com algumas abordagens técnicas inovadoras — que permitiram que seu modelo rodasse mais eficientemente —, a equipe afirma que seu treinamento final do modelo R1 custou 95% menos que a primeira versão criada pela OpenAI.

Em vez de começar do zero, a DeepSeek construiu sua IA usando modelos open-source (de uso livre e gratuito) existentes. Especificamente, os pesquisadores utilizaram o modelo Llama da Meta como base. Além de partir de uma base já pronta, o R1 usou dois truques principais de otimização: um pré-treinamento mais eficiente e aprendizado por reforço. Para ficar mais claro: ao contrário das concorrentes, a empresa não quis replicar a lógica do pensamento humano. Ou seja, as IAs até então disponíveis no mercado processam tudo o que as pessoas produzem a fim de recriar o caminho que percorreram para chegar às suas conclusões.
Enquanto isso, o R1 foca no processo conhecido no setor como “tentativa e erro”. Sua inteligência é alimentada por uma série de perguntas. Sempre que acerta, aprende e replica o processo dali em diante. Se erra, não repete mais. Ao final do treinamento, os pesquisadores jogaram fora o que não serve, diminuindo drasticamente a quantidade de informação de que precisam para rodar o sistema. Menos processamento significa uso de chips GPU mais baratos para treinar sua IA, em menor quantidade, e menos uso de energia. Essa combinação permitiu que o modelo alcançasse o mesmo desempenho da primeira edição do ChatGPT empregando muito menos poder computacional e dinheiro. “O DeepSeek-V3 e também o DeepSeek-V2 antes dele são basicamente o mesmo tipo de modelo que o GPT-4, mas apenas com truques de engenharia mais inteligentes para obter mais resultado por GPU”, afirma Miles Brundage, ex-pesquisador de políticas da OpenAI.

O que está chocando o mundo não é apenas a arquitetura que levou a esses modelos, mas o fato de a DeepSeek ter conseguido replicar tão rapidamente as conquistas da OpenAI em meses, em vez da lacuna de um ano ou mais tipicamente vista entre grandes avanços em IA. A criadora do ChatGPT vende a narrativa de que a única maneira de a tecnologia avançar é aumentando exponencialmente o poder de processamento dos chips e data centers, e chegou a pedir 1 trilhão de dólares ao governo do democrata Joe Biden, no ano passado, para que os Estados Unidos se mantivessem na liderança do setor. Ao lado dos parceiros Oracle, de computação em nuvem, e dos fundos de investimento SoftBank e MGX, a empresa conseguiu apoio do presidente Trump para o projeto Stargate, que promete colocar 500 bilhões de dólares até 2030 na maior infraestrutura de centro de dados de IA do mundo. Mas a rápida replicação da DeepSeek mostra que vantagens técnicas não duram muito — mesmo quando as empresas tentam manter seus métodos em segredo.
E esse é o ponto crucial para o tsunami que derrubou as ações dos gigantes de IA na bolsa de valores. Como acontece com qualquer nova tecnologia, os investidores não necessariamente entendem exatamente com o que estão lidando, o que gera um otimismo desmesurado. A ideia por trás da valorização das ações desde o lançamento do ChatGPT, em novembro de 2022, era de que a produtividade das indústrias iria subir drasticamente. Em uma pesquisa publicada em dezembro pela consultoria PwC, dois terços dos investidores afirmaram esperar por notáveis ganhos de produtividade da IA generativa, e um número similar projetava um aumento nos lucros também.

A empresa que mais se beneficiou do ciclo de hype foi a Nvidia, fabricante dos chips sofisticados que as empresas de IA usam. A ideia que perdurou por um tempo foi que, na corrida do ouro da IA, comprar ações da Nvidia era investir na empresa que estava por trás de todo o desenvolvimento do setor. Não importa quem saísse dominante na corrida da IA, eles precisariam de um estoque de chips da Nvidia para rodar os modelos. Mas, se a DeepSeek está realmente usando chips mais eficientemente, outras empresas começarão a fazer o mesmo. Isso pode significar menos mercado para os chips mais avançados da Nvidia, à medida que as empresas tentam cortar gastos. “As expectativas de crescimento da Nvidia eram definitivamente um pouco otimistas demais, então vejo isso como uma reação necessária”, diz Naveen Rao, vice-presidente de IA da empresa americana de softwares Databricks. “A receita atual que a Nvidia gera provavelmente não está sob ameaça, mas o crescimento dos últimos dois anos está.”

A Nvidia não foi a única empresa impulsionada pela nova tese de investimento que atraiu uma legião de entusiastas. As Magníficas Sete — Nvidia, Meta, Amazon, Tesla, Apple, Microsoft e Alphabet — têm superado com frequência o desempenho geral do mercado acionário nos Estados Unidos, o que se deve em boa medida ao apelo irresistível dos avanços tecnológicos. São companhias tão ricas que uma proposta de Elon Musk (dono da Tesla e da xAI, do modelo Grok) para comprar a OpenAI por assombrosos 97 bilhões de dólares (mais de meio trilhão de reais) foi prontamente recusada. A empolgação com a IA, de fato, está longe de acabar. Em entrevista à rede americana CNBC, Bill Gates, cofundador da Microsoft, disse que, se tivesse de começar tudo do zero agora, investiria toda a sua energia em uma empresa de inteligência artificial.

Por trás das disputas pela liderança tecnológica e por mercado, há também uma briga geopolítica. Como se sabe, os Estados Unidos simplesmente proibiram a Nvidia de vender seus chips mais avançados para a China a título de segurança nacional. A tensão é ainda maior quando se leva em conta que os chips são fabricados em Taiwan, a 700 quilômetros da costa chinesa. Em fevereiro, foi realizada uma cúpula com líderes políticos e da indústria de IA em Paris, e o vice-presidente americano J.D. Vance fez um duríssimo discurso acusando, de um lado, ditaduras que usam a tecnologia para roubar informações e ganhar poder e, de outro, as democracias que criam regulações e “impedem o pleno desenvolvimento da inteligência artificial”. Se ficou alguma dúvida sobre a quem ele se referia, a recusa a assinar o documento final do evento, capitaneado por França e China, acabou com qualquer questionamento. “Só não fica claro se há uma estratégia coerente para coibir os abusos asiáticos sem as regras europeias”, afirma Lennart Heim, do centro de pesquisas Rand.

A confusão traz dor de cabeça para os titãs americanos, mas é uma ótima notícia para o Brasil. Sem o poder de fogo das grandes potências para investir centenas de milhões de dólares em um modelo de IA, o país parecia fadado a assistir a essa batalha de longe. A verdade é que nem a Nvidia acreditava nisso. Em 2022, a fabricante de GPUs tomou interesse por um projeto de uma empresa brasileira, a WideLabs, que usava seus chips para rodar um programa de IA chamado bAIgrapher. Ele ajuda a recriar virtualmente as memórias de pacientes com Alzheimer, a fim de retardar seu esquecimento. O software fez tanto sucesso que a Nvidia propôs uma parceria para criar um LLM 100% brasileiro. Daí nasceu, em julho do ano passado, a Amazônia, uma família de modelos de IA generativa (de texto, imagem, e chatbot) que custou, segundo Nelson Leoni, presidente da WideLabs, ainda menos que o R1 chinês. E já se provou eficiente, adotado tanto por entidades públicas, como o Ministério Público gaúcho, quanto privadas, como a sucroalcooleira Raízen. “A aposta que fizemos lá atrás em um modelo mais barato está se provando não só viável, mas mais seguro na medida em que o Amazônia mantém todas as informações dentro da nossa fronteira, em data centers em São Paulo, e obedece à regulamentação local”, afirma Leoni.
Ninguém sabe como as batalhas vão terminar. Existe um cenário possível em que a disputa não resulte em grandes lucros para ninguém. Caso a tecnologia se torne relativamente barata e de fácil replicação, as margens de lucro se achatam. Foi o que aconteceu, por exemplo, com os computadores pessoais: de grande negócio nos anos 1980 e 1990, viraram commodity barata. “Já não há mais dúvida de que a IA gera muito valor, mas ainda não sabemos quem vai se apropriar dele”, afirma Aswath Damodaran, professor da Universidade de Nova York e um dos maiores especialistas em avaliação do preço de ações e corporações do mundo. “É bem possível que seja o consumidor final.” Não é exagero imaginar que, num futuro próximo, alguém consiga criar modelos de ponta em sua própria garagem. Nem que esse alguém seja um robô.
Publicado em VEJA, fevereiro de 2025, edição VEJA Negócios nº 11