A OpenAI continua a expandir as fronteiras da inteligência artificial com o anúncio de seus mais recentes modelos, o o3 e o o4-mini. Conforme revelado por Sam Altman, CEO da OpenAI, esses modelos representam um salto significativo em capacidade de raciocínio e codificação. Além disso, a empresa apresentou o Codex CLI, uma nova ferramenta de linha de comando projetada para facilitar o uso desses modelos avançados, especialmente para desenvolvedores, sendo totalmente open source e com promessa de rápida evolução.
Os modelos o3 e o4-mini são descritos como os mais inteligentes e capazes da OpenAI até o momento, oferecendo acesso completo a um conjunto de ferramentas integradas. Eles foram projetados para pensar por mais tempo e raciocinar mais profundamente antes de fornecer respostas, permitindo uma interação mais sofisticada e precisa. Pela primeira vez, esses modelos podem utilizar autonomamente todas as ferramentas do ChatGPT, desde navegação na web e execução de Python até análise de arquivos, compreensão e geração de imagens.
O OpenAI o3 é apresentado como o modelo de raciocínio mais poderoso da empresa, com desempenho líder em codificação, matemática, ciências e visão computacional. Ele estabelece novos padrões em benchmarks como Codeforces, SWE-bench e MMU (Massive Multitask Language Understanding).
Um dos destaques do o3 é sua capacidade de cometer 20% menos erros graves em comparação com modelos anteriores, brilhando em tarefas de programação, consultoria de negócios e iteração criativa. No entanto, seu poder vem com um custo mais elevado:
Esses valores indicam que o o3 é voltado para aplicações que exigem o máximo de precisão e capacidade de raciocínio, onde o custo é um fator secundário.
Em contraste, o OpenAI o4-mini surge como um modelo compacto e com excelente custo-benefício, otimizado para desempenho rápido e eficiente. Apesar de seu tamanho reduzido, ele demonstra forte performance em matemática, codificação e visão, superando o o3-mini em diversas métricas de benchmark.
O o4-mini é ideal para casos de uso de alto volume que envolvem raciocínio matemático, codificação e análise visual. Sua estrutura de preços é consideravelmente mais acessível:
A OpenAI também mencionou que um modelo ainda mais avançado, o "o3-Pro", está a caminho, sugerindo uma contínua evolução na linha de modelos de ponta.
Ambos os modelos, o3 e o4-mini, possuem uma janela de contexto de 200k tokens e são construídos para acessar e utilizar um vasto leque de ferramentas de forma autônoma. Isso inclui navegação na web para buscar informações atualizadas, execução de código Python para tarefas complexas, análise de arquivos, compreensão profunda de imagens e até mesmo a geração de novas imagens. Essa capacidade de utilizar ferramentas de forma agentica, combinada com um raciocínio mais apurado e contextual, permite que os modelos produzam resultados mais inteligentes e relevantes, superando a mera pontuação em benchmarks.
Juntamente com os novos modelos, Sam Altman anunciou o Codex CLI. Trata-se de um agente de codificação que roda diretamente no computador do usuário, é totalmente open source e está disponível para uso imediato. A expectativa é que essa ferramenta evolua rapidamente, oferecendo aos desenvolvedores uma maneira mais fácil e integrada de aproveitar o poder de codificação dos modelos o3 e o4-mini, de forma semelhante ao que outras ferramentas como o Coder da Anthropic (desenvolvedora do Claude) buscam oferecer.
A OpenAI divulgou dados de benchmark que demonstram os ganhos significativos dos modelos o3 e o4-mini em diversas áreas, especialmente em codificação, matemática e raciocínio.
Nos benchmarks AIME (American Invitational Mathematics Examination) de 2024 e 2025, o o4-mini (com Python) demonstrou performance superior, atingindo 98,7% e 92,7% de precisão, respectivamente, superando o o3 e outros modelos concorrentes. Em tarefas de codificação, como o Codeforces, o o4-mini também apresentou resultados robustos, com um ELO de 2719 quando utilizando terminal.
No SWE-Bench (Software Engineering Benchmark), o o3 alcançou 69,1% e o o4-mini 68,1%, ambos superando modelos como o Gemini 2.5 Pro da Google.
Em tarefas de raciocínio complexo, como o MMU, o o3 se destacou com 82,9%. No benchmark Humanity's Last Exam (HLE), que avalia questões de nível especialista em diversas áreas, o o3 (com Python e busca) atingiu 24,90. O o4-mini também mostrou um bom desempenho, especialmente considerando seu custo-benefício.
A capacidade de lidar com múltiplas modalidades (texto, imagem, código) é uma força desses novos modelos, com bom desempenho em benchmarks como MathVista e ChartX-Reasoning.
O lançamento dos modelos OpenAI o3 e o4-mini marca uma fase onde a indústria de IA começa a saturar os benchmarks tradicionais, e a verdadeira medida de avanço reside na qualidade e no tipo de raciocínio que os modelos podem realizar. Com uma janela de contexto de 200k tokens, esses modelos são capazes de processar e entender uma quantidade massiva de informações, levando a interações mais ricas e complexas.
A ênfase da OpenAI no uso agentico de ferramentas sinaliza uma mudança para IAs mais autônomas e capazes de executar tarefas complexas de ponta a ponta. A empresa parece estar se preparando para o lançamento do aguardado GPT-5, que, segundo especulações, pode chegar em meados de 2025, prometendo avanços ainda mais impressionantes.
Esses novos modelos, com suas capacidades aprimoradas de raciocínio, codificação e uso de ferramentas, representam um passo importante para a OpenAI, buscando recuperar a liderança em um mercado cada vez mais competitivo, após um lançamento menos impactante do GPT-4.5 (que chegou a ser removido da lista de modelos disponíveis). A combinação de poder de fogo do o3 com a eficiência do o4-mini, juntamente com ferramentas como o Codex CLI, oferece um ecossistema robusto para desenvolvedores e usuários explorarem o potencial da inteligência artificial.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.