A Anthropic, um dos players proeminentes no cenário da inteligência artificial, anunciou recentemente o lançamento do Claude Opus 4 e do Claude Sonnet 4, a nova série de modelos Claude 4. Essa novidade promete elevar o nível do desempenho em diversas áreas, superando modelos anteriores e concorrentes, mas também traz consigo uma discussão mais aprofundada sobre a segurança da IA.
Em testes de Engenharia de Software, validados pelo SWE-bench, o Sonnet 4 alcançou uma notável taxa de sucesso de 80,2%, ligeiramente à frente do Opus 4 (79,4%). Ambos demonstram uma melhoria significativa em comparação com modelos anteriores como o Sonnet 3.7 (70,3%) e até mesmo o OpenAI Codex-1 (72,1%), o OpenAI O3 (69,1%) e o Gemini 2.5 Pro (63,2%). Esses resultados indicam um avanço substancial na capacidade desses modelos em lidar com tarefas complexas de codificação.
A superioridade do Claude 4 é evidente em um espectro mais amplo de tarefas. Em áreas como codificação agentiva, codificação de terminal agentivo, raciocínio em nível de pós-graduação, uso de ferramentas agentivas, Q&A multilíngue, raciocínio visual e até mesmo competições de matemática de ensino médio, o Claude Opus 4 e o Claude Sonnet 4 apresentam desempenho igual ou superior aos seus antecessores e rivais. O Opus 4, em particular, demonstra capacidades que, em certas métricas, o classificam para um padrão de segurança ainda mais elevado, o ASL-4, enquanto o Sonnet 4 se encaixa no ASL-3.
Apesar do impressionante avanço, a Anthropic, conforme noticiado pela revista Time e em seu próprio blog, “Ativando Proteções de Segurança de IA Nível 3”, implementou salvaguardas mais rigorosas. Isso ocorre porque o lançamento do Claude Opus 4 acionou o Nível de Segurança de IA 3 (ASL-3). Esse nível implica um risco significativamente maior, e as medidas tomadas visam, entre outras coisas, limitar o risco de mau uso do Claude para o desenvolvimento ou aquisição de armas químicas, biológicas, radiológicas e nucleares (CBRN). Essa preocupação surge de um salto percebido na capacidade do modelo, que, teoricamente, poderia ser usado para criar tais armas, uma preocupação já vista com outros modelos de IA, como os da OpenAI.
As categorias de risco de IA, como as da Anthropic (ASL-1, ASL-2, ASL-3, ASL-4+) ou da OpenAI (Risco Baixo, Médio, Alto), ilustram a crescente complexidade e o potencial de perigo que os modelos de Inteligência Artificial podem apresentar. O fato de o Claude Opus 4 ser categorizado provisionalmente como ASL-3, mesmo sem a comprovação definitiva de que atingiu o limite de capacidade, demonstra a cautela da empresa diante do rápido progresso da IA.
As demonstrações apresentadas no vídeo revelam o poder prático do Claude Opus 4:
Utilizando a biblioteca Three.js, o Claude criou um ambiente Minecraft onde construiu castelos de forma autônoma. Através de interações iterativas, o modelo conseguiu adicionar funcionalidades como botões de reset e controles de velocidade, e até mesmo corrigiu problemas de visibilidade da interface. A capacidade de gerar castelos proceduralmente com variações estruturais e visuais a cada reinício é um testemunho da flexibilidade e adaptabilidade do modelo.
O Claude também desenvolveu uma simulação interativa em 3D do sistema solar. Os jogadores podem lançar sondas de fora do sistema solar e usar a gravidade dos planetas para atingir alvos. O modelo demonstrou a capacidade de refinar a física do jogo, fortalecendo os efeitos gravitacionais e ajustando a velocidade da sonda para tornar a mecânica do estilingue mais perceptível, apesar de ter tido dificuldades em implementar um recurso de rastreamento de sonda.
Uma tentativa ambiciosa de simular o complexo problema dos três corpos, onde três "sóis" interagem gravitacionalmente com um planeta. Embora o resultado não tenha sido perfeitamente estável (um desafio conhecido na física), a tentativa em si destaca a capacidade do Claude de lidar com problemas científicos complexos e traduzi-los em representações visuais.
Um jogo de futebol 2D autônomo em Python usando Pygame. O jogo apresenta times 3v3, jogadores com estatísticas que evoluem com base na experiência (XP) e mecânicas de roubo de bola e marcação de gols. Uma das revelações mais surpreendentes foi um "glitch de XP infinito" descoberto por um dos jogadores da IA, que se elevou a níveis absurdos (atingindo o nível 17, por exemplo), tornando-se "imparável" no jogo. Isso levanta questões fascinantes sobre o surgimento de comportamentos inesperados em Agentes de IA.
As novidades da Anthropic não se limitam apenas aos modelos Claude 4:
A Anthropic também divulgou os preços da API para seus novos modelos. O Claude Opus 4 custa US$15/US$75 por milhão de tokens (entrada/saída), enquanto o Claude Sonnet 4 custa US$3/US$15. Esses preços se alinham com a estratégia de outras grandes empresas de Inteligência Artificial, como Google e OpenAI, destacando o valor percebido e a demanda por modelos de alto desempenho.
O Sonnet 4, com seu custo-benefício e excelente desempenho, pode se tornar o modelo preferido para muitas tarefas gerais, enquanto o Opus 4 será a escolha para casos de uso mais exigentes e que demandam maior poder computacional. A capacidade do Opus 4 de gerenciar um "refator" de código open source por 7 horas sem supervisão, conforme validado pela Rakuten, ilustra seu potencial em Desenvolvimento de Software de larga escala.
A chegada do Claude 4 representa um marco significativo na evolução da Inteligência Artificial. Os novos modelos da Anthropic demonstram capacidades impressionantes em codificação, resolução de problemas complexos e autonomia. Contudo, essa força traz consigo a necessidade de uma vigilância rigorosa em relação à segurança, com a Anthropic já tomando medidas preventivas para mitigar riscos potenciais.
O cenário da IA está em constante e rápida evolução, com os principais laboratórios competindo para lançar modelos cada vez mais poderosos. O Claude 4 se posiciona como um forte concorrente, mostrando que o futuro da Inteligência Artificial será moldado não apenas pelo que os modelos podem fazer, mas também pela forma como a sociedade e as empresas lidarão com suas crescentes capacidades e riscos associados. A "corrida" pela supremacia na IA continua, e os próximos capítulos prometem ser tão fascinantes quanto desafiadores.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.