Trinta matemáticos se reuniram em Harvard nesta semana para avaliar respostas geradas por sistemas de inteligência artificial em dez problemas inéditos da área. A iniciativa, batizada de First Proof, testou quatro configurações de IA que empregaram principalmente o GPT-5.5 Pro, da OpenAI, e o Gemini 3.1 Pro Preview, do Google, com o Claude Opus 4.7, da Anthropic, atuando como modelo secundário em uma das combinações.
Resultados do experimento
Dos dez desafios propostos, sete receberam pelo menos uma solução correta por parte dos sistemas avaliados. Algumas respostas foram consideradas “impecáveis” pelos especialistas, incluindo abordagens que diferiram das soluções humanas e ainda assim convenceram os avaliadores pela clareza e rigor matemático.
Razões para um teste próprio
A criação de um exame independente surgiu da insatisfação com anúncios de empresas de tecnologia, cujas comprovações costumam ser difíceis de verificar e apresentam resultados inconsistentes. Para o vencedor da Medalha Fields Martin Hairer, do Imperial College London, os modelos “não escrevem de maneira honesta” e carecem de transparência. Já Terry Tao, também premiado com a Medalha Fields e professor na UCLA, comparou especialistas humanos a alpinistas que avançam com paciência e colaboram entre si, enquanto as IAs seriam “saltadores” que alcançam grandes etapas de uma só vez, sem oferecer pista para progressões intermediárias.
Limites atuais da IA
Segundo os participantes do First Proof, o maior desafio não é a resolução em si, mas a escolha de problemas relevantes. A avaliação de que um problema vale a pena investigar envolve julgamento, intuição e visão ampla da evolução da disciplina. Lauren Williams, professora em Harvard e co-líder do projeto, exemplificou esse ponto ao lembrar que perguntar “qual é a cor média de uma pedra na Terra” é válido, mas pouco interessante para o avanço científico. O pesquisador da OpenAI Sébastien Bubeck reforça que os modelos resolvem questões sem entender seu propósito ou contexto dentro da matemática.
Declaração de Leiden e diretrizes éticas
Em paralelo aos testes, mais de 2.300 matemáticos assinaram a Declaração de Leiden, documento que estabelece recomendações para o uso ético e transparente da IA na área. O manifesto reconhece o potencial da tecnologia, mas alerta para a falta de atribuição de ideias e para a divulgação parcial de resultados pelas empresas.

Imagem: Imagem ilustrativa
Contexto e próximos passos
Em maio, a OpenAI anunciou a refutação de uma conjectura de Paul Erdős sem solução há 80 anos, despertando entusiasmo na comunidade. O First Proof surge como resposta organizada da comunidade científica e marca um passo na definição de critérios próprios de avaliação das capacidades das IAs em matemática.
Com informações de Olhardigital
