A Anthropic, uma das empresas de pesquisa e segurança em IA mais proeminentes, acaba de lançar sua mais nova geração de modelos de linguagem: a série Claude 4. Como um gigante que desperta, a Anthropic introduz dois modelos de ponta, o Claude Opus 4 e o Claude Sonnet 4, prometendo redefinir os padrões da indústria em codificação, raciocínio e fluxos de trabalho agênticos. Ambos os modelos apresentam uma impressionante janela de contexto de 200K tokens.
O Claude Opus 4 é apresentado como o modelo mais inteligente da Anthropic até o momento, empurrando as fronteiras do que é possível em tarefas complexas. Ele se destaca em áreas como codificação avançada, raciocínio profundo e o desenvolvimento de fluxos de trabalho agênticos sofisticados. De acordo com dados da Anthropic, o Opus 4 atinge 72.5% no benchmark SWE-bench para engenharia de software e 43.2% no Terminal-Bench, demonstrando sua superioridade em tarefas de codificação. Com a computação paralela de uso de ferramentas, esse desempenho no SWE-bench pode chegar a 79.4%.
Este modelo foi projetado para tarefas de longa duração, exibindo um foco sustentado por horas. Ele já alimenta ferramentas como Cursor, Replit e Bloop, oferecendo compreensão profunda de código multifacetado, edição e depuração. Um exemplo notável de sua capacidade é a demonstração 'Claude Plays Pokémon', onde o Opus 4, jogando Pokémon Red, construiu autonomamente um guia de navegação registrando notas críticas do jogo, evidenciando sua coerência a longo prazo e capacidade de aprendizado contínuo. Outra demonstração impressionante é sua capacidade de gerar um autorretrato em SVG, representando artisticamente conceitos abstratos.
O Claude Sonnet 4 representa um avanço significativo em relação ao seu predecessor, o Sonnet 3.7. Este modelo foi otimizado para oferecer um equilíbrio ideal entre inteligência, custo e velocidade, tornando-o uma excelente escolha para casos de uso de alto volume. Ele alcança uma pontuação de 72.7% no SWE-bench (podendo chegar a 80.2% com computação paralela), superando modelos como o OpenAI Codex-1. O Sonnet 4 é ideal para aplicações que exigem respostas rápidas e eficientes sem comprometer a qualidade, como demonstrado pela sua capacidade de criar uma animação de sistema solar com controles interativos e informações precisas.
A série Claude 4 introduz diversas inovações que expandem suas funcionalidades e a experiência do desenvolvedor.
Ambos os modelos Claude 4 podem utilizar um modo de pensamento híbrido, alternando entre respostas instantâneas e um pensamento estendido para raciocínio mais profundo. Isso permite que o Claude melhore suas respostas ao alternar entre raciocínio e o uso de ferramentas, como a pesquisa na web, durante o pensamento estendido.
Os modelos Claude 4 podem usar ferramentas em paralelo e seguir instruções com maior precisão. Quando recebem acesso a arquivos locais por desenvolvedores, demonstram capacidades de memória significativamente aprimoradas, extraindo e salvando fatos chave para manter a continuidade e construir conhecimento tácito ao longo do tempo.
O Claude Code agora está geralmente disponível, expandindo como os desenvolvedores podem colaborar com o Claude. Ele suporta tarefas em segundo plano via GitHub Actions e integrações nativas com VS Code e JetBrains, exibindo edições diretamente nos seus arquivos para programação em par contínua.
A Anthropic está lançando quatro novas capacidades na API que permitem aos desenvolvedores construir agentes de IA mais poderosos: a ferramenta de execução de código, o conector MCP, a API de Arquivos e a capacidade de armazenar prompts em cache por até uma hora.
Nos testes de benchmark SWE-bench verificados, os modelos Claude 4 demonstram um domínio notável em tarefas de engenharia de software. O Opus 4 e o Sonnet 4 lideram consistentemente, superando outros modelos proeminentes como o OpenAI Codex-1, OpenAI o3, OpenAI GPT-4.1 e até mesmo o Gemini 2.5 Pro (em preview) em diversas métricas de codificação. Essa superioridade se estende a outras categorias de benchmark, incluindo raciocínio de nível de graduação, Q&A multilíngue, raciocínio visual e competições de matemática de ensino médio.
O acesso aos modelos Claude 4 vem com uma estrutura de preços diferenciada:
Ambos os modelos oferecem um desconto de 50% com processamento em lote.
Uma demonstração impressionante do Claude Opus 4 envolveu a criação de um agente de navegador completo com um único prompt, incluindo acesso à API e front-end. Esse nível de coerência e execução é atribuído a três atualizações principais: raciocínio confiável de longo prazo, memória avançada através do acesso a arquivos locais, e resumos de pensamento (thinking summaries) juntamente com um modo de desenvolvedor para depuração precisa e engenharia de prompt avançada.
A escolha entre o Opus 4 e o Sonnet 4 depende das necessidades específicas do projeto.
Ideal para tarefas que exigem o máximo de inteligência e capacidade de raciocínio, como pesquisa de ponta, desenvolvimento em grandes bases de código, tarefas autônomas complexas e orquestração de subagentes. A Anthropic sugere que se o Sonnet 3.7 pontuar abaixo de 60-70% em avaliações, o upgrade para o Opus 4 é recomendado.
Perfeito como um substituto direto e mais poderoso para o Sonnet 3.7, especialmente para geração de código e aplicativos 'do zero' (greenfield), como assistente de IA, em aplicações 'human-in-the-loop' e como subagente. Se o Sonnet 3.7 já apresenta bom desempenho, o Sonnet 4 oferecerá uma melhoria.
Os modelos Claude 4 são menos 'ansiosos' (over-eager) que o Sonnet 3.7, exigindo um prompt mais direto para ir 'além do solicitado'. Além disso, os modelos Claude 4 demonstram maior atenção aos detalhes, sendo importante auditar prompts e exemplos para encorajar os comportamentos corretos.
Testes práticos com os modelos Claude 4, como a criação de um rastreador de finanças pessoais, um simulador de canais de TV retrô, um SVG de borboleta e um jogo de Tetris, demonstraram suas capacidades impressionantes em codificação e criatividade visual. Embora o modelo Sonnet 4 tenha apresentado algumas limitações visuais em comparação com o Opus 4 em tarefas mais complexas, ambos representam um salto significativo nas capacidades da Anthropic. O Opus 4, em particular, estabelece um novo padrão para o que se espera de modelos de IA de ponta, especialmente em tarefas de engenharia de software e fluxos de trabalho agênticos.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.