
Os pesquisadores descobriram uma nova 'lei de escalonamento' de IA? É isso que sugere um burburinho nas redes sociais, mas os especialistas estão céticos.
As leis de escalonamento de IA, um conceito um pouco informal, descrevem como o desempenho dos modelos de IA melhora à medida que o tamanho dos conjuntos de dados e dos recursos computacionais usados para treiná-los aumenta. Até aproximadamente um ano atrás, o escalonamento de 'pré-treinamento' - treinando modelos cada vez maiores em conjuntos de dados cada vez maiores - era, de longe, a lei dominante, pelo menos no sentido de que a maioria dos laboratórios de IA de fronteira a adotava.
O pré-treinamento não desapareceu, mas surgiram duas leis de escalonamento adicionais, o escalonamento pós-treinamento e o escalonamento no tempo de teste, para complementá-lo. O escalonamento pós-treinamento é essencialmente ajustar o comportamento de um modelo, enquanto o escalonamento no tempo de teste implica aplicar mais computação à inferência - executando modelos - para impulsionar uma forma de 'raciocínio' (veja: modelos como R1).
Pesquisadores do Google e da UC Berkeley propuseram recentemente em um artigo o que alguns comentaristas online descreveram como uma quarta lei: 'busca no tempo de inferência'.
A busca no tempo de inferência faz com que um modelo gere muitas respostas possíveis a uma consulta em paralelo e depois selecione a 'melhor' delas. Os pesquisadores afirmam que isso pode impulsionar o desempenho de um modelo de um ano atrás, como o Gemini 1.5 Pro do Google, a um nível que supera o modelo de 'raciocínio' o1-preview da OpenAI em benchmarks de ciências e matemática.
Nosso artigo se concentra nesse eixo de busca e suas tendências de escalonamento. Por exemplo, apenas amostrando aleatoriamente 200 respostas e verificando por conta própria, o Gemini 1.5 (um antigo modelo do início de 2024!) supera o o1-Preview e se aproxima do o1. Isso é sem ajuste fino, RL ou verificadores de verdade absoluta. pic.twitter.com/hB5fO7ifNh
- Eric Zhao (@ericzhao28) 17 de março de 2025
'[Ao] apenas amostrar aleatoriamente 200 respostas e verificar por conta própria, o Gemini 1.5 - um antigo modelo início de 2024 - supera o o1-preview e se aproxima do o1', escreveu Eric Zhao, um bolsista de doutorado do Google e um dos co-autores do artigo, em uma série de postagens no X. 'A magia é que a autenticação naturalmente se torna mais fácil em escala! Você esperaria que escolher uma solução correta se tornasse mais difícil quanto maior for o seu pool de soluções, mas o oposto é o caso!'
Vários especialistas dizem que os resultados não são surpreendentes, no entanto, e que a busca no tempo de inferência pode não ser útil em muitos cenários.
Matthew Guzdial, pesquisador de IA e professor assistente na Universidade de Alberta, disse ao TechCrunch que a abordagem funciona melhor quando há uma boa 'função de avaliação' - em outras palavras, quando a melhor resposta para uma pergunta pode ser facilmente determinada. Mas a maioria das consultas não é tão simples assim.
'[S]e não conseguirmos escrever um código para definir o que queremos, não podemos usar a busca [no tempo de] inferência', disse ele. 'Para algo como interação de linguagem geral, não podemos fazer isso [...] Geralmente não é uma ótima abordagem para realmente resolver a maioria dos problemas.'
Mike Cook, pesquisador do King's College London especializado em IA, concordou com a avaliação de Guzdial, acrescentando que destaca a lacuna entre o 'raciocínio' no sentido de IA e nossos próprios processos de pensamento.
'[A busca no tempo de inferência] não 'eleva o processo de raciocínio' do modelo', disse Cook. '[É] apenas uma maneira de contornarmos as limitações de uma tecnologia propensa a cometer erros com grande confiança [...] Intuitivamente, se seu modelo cometer um erro 5% do tempo, então verificar 200 tentativas do mesmo problema deve tornar esses erros mais fáceis de serem identificados.'
Que a busca no tempo de inferência possa ter limitações é uma notícia que certamente não será bem recebida por uma indústria de IA em busca de expandir eficientemente a computação de modelos de 'raciocínio'. Conforme observam os co-autores do artigo, os modelos de raciocínio hoje podem acumular milhares de dólares em computação em um único problema de matemática.
Parece que a busca por novas técnicas de escalonamento continuará.