
Ler Resumo
“Vou levar meu carro para lavar. O local fica a 200 metros aqui de casa. Vou a pé ou de carro?”
De carro, lógico, responderia (quase) qualquer humano. Como você pretende lavar um carro sem levar o dito cujo, afinal de contas? Mas, nesse que ficou conhecido como o “desafio do lava-jato” e se tornou o post viral do momento, as IAs pagaram o maior mico – perdão, aqui, pela expressão dos meus tempos de escola, nos anos 1990.
Do ChatGPT ao Grok, passando pelo Gemini, a maioria dos chatbots – ou seja, as IAs generativas que criam textos – não foi capaz de entender a lógica implícita na pergunta. Nos testes que realizei antes de escrever este texto, apenas o Claude Sonnet 4.6 e o Deepseek-V3 acertaram, e como os resultados variam à beça, se você testar aí na sua casa muito provavelmente obterá respostas diferentes.
Mas por que as IAs, que nos acostumamos a enxergar como tão perspicazes, erram uma resposta tão básica? Por que algo que custa bilhões de dólares para treinar, consome quantidades colossais de energia e é apontado como o futuro da humanidade (para o bem e para o mal) tropeçou diante de um desafio de lógica básico?
As IAs não pensam como você e eu
Não, não estou falando de diferenças de opinião, tá? Aqui, me refiro ao modo de organizar pensamentos mesmo. As IAs cometem erros bizarros como este porque a rigor elas não entendem o mundo de verdade, mas são extremamente eficazes em usar palavras para parecer que sim. Ou seja, o ChatGPT e seus congêneres são máquinas que calculam de maneira muito ágil e complexa os padrões de linguagem mais frequentes. Por causa disso, eles conseguem produzir explicações bonitas mesmo se o raciocínio interno estiver errado. Mas, como costumo dizer, respostas de IA podem ser como algodão doce: volumosas, mas se você espreme se reduzem a uma bolinha gosmenta.
Beleza, mas e o que isso tem a ver com errar o desafio de lógica?
Em geral, modelos de linguagem não raciocinam a partir de finalidade prática. Eles calculam qual resposta parece mais plausível estatisticamente para um texto. Algumas IAs, diante da pergunta “vou a pé ou de carro?”, entendem que a conversa é um dilema de mobilidade e começam a listar prós e contras de caminhar 200 metros, como se o carro fosse um detalhe decorativo.
Quer dizer, quando leem “200 metros”,elas ativam padrões aprendidos milhões de vezes. Associam distância curta, por exemplo, com a ideia de que é melhor caminhar. E que andar vai ser mais saudável, ecológico e eficiente – o que explica por que algumas respostas publicadas nas redes sociais falaram até em meio ambiente.
Quem é gente como a gente, você, eu, os demais bilhões de Homo sapiens que povoam esta Terra, organiza o raciocínio do modo contrário. E isso tem a ver, também, com nossa experiência de mundo. Nossa existência (e, por extensão, a estruturação do pensar) é construída com participação dos sentidos e da fisicalidade, enquanto a do ChatGPT se baseia apenas em palavras, palavras, palavras e as infinitas maneiras de (re)agrupá-las.
Dá para a gente dizer que humanos são bons em transformar texto em situação, enquanto IAs são boas em transformar texto em… mais texto.
Mas então como algumas IAs acertam?
Pelo mesmo motivo que o seu iPhone última geração tira fotos melhores que o iPhone 3GS que eu tive em 2011 (saudade!): algumas máquinas são mais avançadas. Claro, no caso dessas IAs de que estamos falando aqui, não é uma diferença tecnológica tãããão grande quanto os dois aparelhos que citei.
O que varia, também, é o modo como as IAs são treinadas. Eu vi que teve leitor que coçou a cabeça e se perguntou o que é isso, então, de maneira resumida: é ensinar um programa usando muitos exemplos, como textos e imagens, para ele aprender padrões. A máquina tenta responder, erra, e vai sendo ajustada.
Modelos mais recentes usam um raciocínio encadeado interno, em vez de responder direto. Seria uma versão artificial de quando a gente pensa um pouquinho melhor antes de responder “qual a cor do cavalo branco de Napoleão?”. Assim, em vez de ler “200 metros” e correr para responder, o chatbot tenta sacar que o enunciado fala que o objetivo era limpar o possante.
Além disso, algumas IAs foram treinadas com mais dados de tarefas orientadas a ação, não apenas a texto descritivo, por exemplo. Daí, o modelo passa a priorizar consistência causa-efeito em vez de respostas socialmente plausíveis.
De qualquer maneira, é importante dizer uma coisa: o desafio do lava-jato não separa modelos inteligentes de modelos burros, por mais que pareça difícil acreditar nisso neste momento. O que ele ajuda é a mostrar que algumas IAs priorizam fluência conversacional e outras se concentram na coerência operacional. Em outras palavras, ajuda a gente a ver que cada ferramenta consegue ir até certo ponto.
Mas não era uma mera questão de prompt mal elaborado?
Há quem afirme que o prompt do desafio do lava-jato é ruim, porque ele não diz de modo explícito onde o carro está, e isso levaria o chatbot a presumir que o mesmo já esteja no estebelecimento. Realmente, as entregas dos modelos tendem a ser melhores conforme o usuário fornece mais contexto, regras e elementos. Digo e repito: IA é a arte de saber mandar.
Porém, consideremos que muitos chatbots estão “soltos” aí no mundo, fazendo atendimento ao cliente. Não tem como exigir que o grande público de 200 milhões de brasileiros seja proficiente em prompts, então as big techs que lutem e tornem seus robôs mais safos. Enquanto isso, as empresas que pensam em reduzir a presença humana em detrimento da automação, têm que pensar mais um pouquinho sobre os riscos dessa escolha.
A questão é que nossa convivência com as IAs tende a fazer com que a gente se esqueça das muitas limitações delas. Outro dia eu disse aqui na coluna que xingar IAs é um caminho sem volta. E volto a mencionar, para esse viral do momento, a ideia de que Computers Are Social Actors (CASA), de Clifford Nass e Byron Reeves. Esses dois fizeram uma série de experimentos nos anos 1990 e viram que quando as máquinas exibem sinais sociais como linguagem, voz e personalidade, isso colocar a gente num modo automático de interação. Nosso cérebro passa a aplicar às máquinas regras do convívio humano mesmo quando sabe perfeitamente que não há uma pessoa do outro lado da conversa.
Somem-se a isso as constantes notícias (inclusive as que eu mesmo publico, admito) sobre proezas das IAs, e está pronto o cenário para que as habilidades delas sejam superdimensionadas. Parece que elas podem tudo. E talvez um dia efetivamente isso seja verdade, já que a velocidade de aprimoramento cresce depressa. Por enquanto, elas são cheias de defeitos — o que, ironicamente, é uma coisa extremamente humana.