A Anthropic anunciou recentemente o lançamento de duas novidades significativas no campo da inteligência artificial: o modelo Claude 3.7 Sonnet e a ferramenta Claude Code. Conforme demonstrado por Matthew Berman em seu canal, essas inovações prometem avanços notáveis, especialmente nas capacidades de raciocínio e codificação de IA. O Claude 3.7 Sonnet, em particular, destaca-se como o primeiro modelo de "raciocínio híbrido" da empresa, marcando um passo importante na evolução dos modelos de linguagem.
A chegada do Claude 3.7 Sonnet, embora classificada como uma atualização "ponto" (indicando uma melhoria incremental sobre a versão 3.5), representa um salto qualitativo considerável. Muitos na comunidade, incluindo Berman, expressaram surpresa pelo fato de não ser nomeado Claude 4, sugerindo que uma versão ainda mais poderosa pode estar a caminho. Juntamente com o Sonnet, foi lançado o Claude Code, uma interface de linha de comando (CLI) projetada para codificação agêntica, permitindo que desenvolvedores deleguem tarefas de engenharia de software diretamente do terminal.
O Claude 3.7 Sonnet é o primeiro modelo da Anthropic a incorporar explicitamente o conceito de "pensamento" (thinking model) e é descrito como o primeiro "modelo de raciocínio híbrido" no mercado. Isso significa que ele combina duas abordagens distintas para processar informações e gerar respostas:
Usuários da API têm controle granular sobre quanto tempo o modelo pode dedicar ao pensamento, com uma janela de contexto de até 128.000 tokens. Essa capacidade de mostrar o processo de pensamento, utilizando um "scratchpad" interno para iterações e reflexões, é um diferencial importante, embora o acesso ao pensamento estendido requeira uma conta paga.
O Claude Code é uma ferramenta promissora para desenvolvedores. Trata-se de uma prévia de pesquisa que facilita a codificação agêntica, onde a IA pode assumir tarefas de desenvolvimento de forma mais autônoma. A instalação é descrita como simples, e sua eficácia foi demonstrada na criação de jogos complexos.
Para ilustrar as capacidades do Claude Code, Matthew Berman demonstrou a criação de um jogo da cobra (Snake) em Python, com níveis crescentes de complexidade, tudo realizado com sucesso na primeira tentativa:
Essa demonstração, especialmente a implementação dos recursos avançados na primeira tentativa, evidencia o potencial do Claude Code para auxiliar em tarefas de programação complexas.
O Claude 3.7 Sonnet apresentou resultados impressionantes em diversos benchmarks, indicando um avanço significativo em relação a modelos anteriores e concorrentes.
No benchmark SWE-bench (verificado), que avalia a capacidade de modelos em resolver problemas de engenharia de software, o Claude 3.7 Sonnet alcançou 62.3% de precisão (e 70.3% com um "scaffold" customizado, que se refere a técnicas otimizadas de cadeia de pensamento). Isso representa um aumento de cerca de 20% em comparação com o Claude 3.5 Sonnet (49.0%), OpenAI o1 (48.9%), OpenAI o3-mini (high) (49.3%) e DeepSeek R1 (49.2%).
No TAU-bench, que mede a capacidade de uso de ferramentas agênticas em cenários do mundo real, o Claude 3.7 Sonnet também se destacou:
Em benchmarks mais tradicionais e desafiadores, como GPQA Diamond³ (raciocínio de nível de pós-graduação), MMLU (perguntas e respostas multilíngues), MMMU (raciocínio visual), MATH 500 (resolução de problemas matemáticos) e AIME 2024³ (competição de matemática do ensino médio), o Claude 3.7 Sonnet com pensamento estendido de 64k tokens mostrou-se altamente competitivo em relação a modelos de ponta como Grok 3 Beta e o3-mini (high).
A capacidade de raciocínio do Claude 3.7 Sonnet foi testada com problemas matemáticos complexos:
Apesar dos avanços, uma limitação notável do Claude 3.7 Sonnet é seu conhecimento limitado. Durante os testes, ao ser questionado sobre um anúncio de investimento da Apple supostamente feito em 24 de fevereiro de 2025 (data da gravação do vídeo de Berman), o modelo respondeu que seu corte de conhecimento era de outubro de 2024. Isso indica que, no momento da demonstração, o modelo não possuía acesso à web em tempo real, o que pode ser uma desvantagem significativa para tarefas que exigem informações atualizadas. A Anthropic não mencionou explicitamente se o acesso à web está disponível ou planejado.
Além disso, para utilizar o modo de "pensamento estendido" do Claude 3.7 Sonnet, que demonstrou ser crucial para resolver problemas mais complexos como o Problema de Basel, é necessário possuir uma conta paga.
O Claude 3.7 Sonnet e o Claude Code da Anthropic representam um avanço palpável no desenvolvimento de inteligência artificial. O Sonnet, com sua arquitetura de raciocínio híbrido e a transparência em seu processo de pensamento, mostra-se uma ferramenta poderosa e versátil. O Claude Code, por sua vez, tem o potencial de transformar a maneira como os desenvolvedores interagem com a IA para criar software. Embora a limitação do conhecimento e a necessidade de uma conta paga para funcionalidades avançadas sejam pontos a considerar, o desempenho demonstrado, especialmente em tarefas de codificação e raciocínio complexo, posiciona o Claude 3.7 Sonnet como um forte concorrente no cenário de IA. Resta aguardar se futuras atualizações incluirão acesso à web e como a Anthropic continuará a evoluir sua impressionante família de modelos Claude.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.