Anthropic Revoluciona com Claude 3.5 Sonnet e Haiku: Novos Horizontes para a Inteligência Artificial
Anthropic Eleva o Padrão da Inteligência Artificial com a Família Claude 3.5
A Anthropic, uma das empresas líderes em pesquisa e segurança em Inteligência Artificial (IA), anunciou recentemente uma atualização significativa em sua família de modelos de linguagem: o Claude 3.5. Esta nova geração, encabeçada pelo Claude 3.5 Sonnet e acompanhada pelo novo Claude 3.5 Haiku, promete redefinir o desempenho em diversas áreas, com destaque para codificação e uma inovadora capacidade de interação com computadores.
O Claude 3.5 Sonnet, em particular, chega com melhorias notáveis sobre seu predecessor, especialmente em programação, uma área onde a Anthropic já demonstrava liderança. Por sua vez, o Claude 3.5 Haiku equipara-se em performance ao Claude 3 Opus, o modelo mais robusto da geração anterior, mantendo o mesmo custo e velocidade similar ao Haiku anterior, conforme divulgado pela empresa.
A Revolucionária Capacidade de "Uso de Computador" com Claude 3.5 Sonnet
Uma das novidades mais impactantes é a introdução, em beta público, da capacidade de "uso de computador" (computer use) para o Claude 3.5 Sonnet. Esta funcionalidade, ainda em fase experimental, permite que desenvolvedores, através da API, direcionem o Claude para utilizar computadores de maneira similar a um humano. Isso inclui olhar para uma tela, mover o cursor, clicar em botões e digitar texto.
A Anthropic destaca que o Claude 3.5 Sonnet é o primeiro modelo de IA de fronteira a oferecer essa capacidade em beta público. No entanto, a empresa ressalta que, nesta fase, a funcionalidade é experimental, podendo ser, por vezes, "desajeitada e propensa a erros". A liberação antecipada visa coletar feedback dos desenvolvedores para aprimoramentos rápidos.
Precauções no Uso da Inteligência Artificial para Interação com Computadores
A Anthropic também publicou um aviso importante sobre os riscos associados ao uso desta nova capacidade. A empresa sugere precauções como:
- Utilizar uma máquina virtual dedicada ou contêiner com privilégios mínimos para prevenir ataques diretos ao sistema ou acidentes.
- Evitar conceder ao modelo acesso a dados sensíveis, como informações de login de contas, para prevenir roubo de informações.
- Limitar o acesso à internet a uma lista de domínios permitidos para reduzir a exposição a conteúdo malicioso.
- Solicitar a confirmação humana para decisões que possam resultar em consequências significativas no mundo real, bem como para tarefas que exijam consentimento afirmativo (ex: aceitar cookies, executar transações financeiras, concordar com termos de serviço).
Em algumas circunstâncias, o Claude pode seguir comandos encontrados em conteúdo (webpages, imagens) mesmo que conflitem com as instruções do usuário, podendo levar a erros. A Anthropic sugere isolar o Claude de dados sensíveis e ações para evitar riscos relacionados à injeção de prompt.
Desempenho em Benchmarks: Claude 3.5 Sonnet Supera Concorrentes
Os benchmarks divulgados pela Anthropic demonstram a superioridade do Claude 3.5 Sonnet em relação a outros modelos de ponta, como o GPT-4o da OpenAI e o Gemini 1.5 Pro do Google.
Destaque em Raciocínio e Conhecimento com Claude 3.5 Sonnet
No teste de raciocínio de nível de graduação (GPQA Diamond), o Claude 3.5 Sonnet alcançou 65.0%, superando o GPT-4o (53.6%) e o Gemini 1.5 Pro (59.1%). Em conhecimento de nível de graduação (MMLU Pro), o Sonnet atingiu 78.0%, enquanto o Gemini 1.5 Pro marcou 75.8% (o GPT-4o não teve resultado divulgado para este benchmark específico na tabela apresentada).
Liderança Incontestável em Codificação com Claude 3.5 Sonnet
A área de codificação é onde o Claude 3.5 Sonnet brilha intensamente. No benchmark HumanEval, ele obteve 93.7%, um salto considerável em relação ao GPT-4o (90.2%). Em codificação agentica (SWE-bench Verified), o Sonnet estabeleceu um novo padrão com 49.0%, um aumento significativo em relação à sua versão anterior (33.4%) e superando todos os modelos concorrentes, incluindo o OpenAI o1-preview e modelos especializados para codificação agentica.
Avanços em Matemática e Compreensão Visual com Claude 3.5 Sonnet
Em resolução de problemas matemáticos (MATH), o Claude 3.5 Sonnet marcou 78.3%, ligeiramente acima do GPT-4o (76.6%), mas abaixo do Gemini 1.5 Pro (86.5%, que utilizou 4-shot CoT). Em Visual Q/A (MMMU), o Sonnet alcançou 70.4%, superando o GPT-4o (69.1%) e o Gemini 1.5 Pro (65.9%).
Em um benchmark específico de avaliação da capacidade de modelos de IA de usar computadores como pessoas (OSWorld, categoria apenas com screenshots), o Claude 3.5 Sonnet pontuou 14.9%, consideravelmente melhor que o sistema de IA concorrente mais próximo (7.8%). Com mais passos para completar a tarefa, o Claude pontuou 22.0%.
Claude 3.5 Haiku: Eficiência e Performance Aprimoradas
O novo Claude 3.5 Haiku também demonstra avanços. Em codificação agentica (SWE-bench Verified), alcançou 40.6%, superando o Claude 3 Haiku original (7.2%). Em uso agentico de ferramentas (TAU-bench), obteve 51.0% em varejo e 22.8% em companhias aéreas, melhorias significativas sobre os 18.2% e 16.0% do Claude 3 Haiku, respectivamente. É importante notar que o Claude 3.5 Haiku se equipara ao desempenho do Claude 3 Opus em diversas avaliações, pelo mesmo custo e com velocidade similar à geração anterior do Haiku.
Implicações e o Futuro da Inteligência Artificial com a Família Claude 3.5
Os avanços apresentados pela família Claude 3.5, especialmente o Claude 3.5 Sonnet, são promissores. A liderança em benchmarks de codificação e as novas capacidades agenticas, como o "uso de computador", abrem um leque de possibilidades para desenvolvedores e para a automação de tarefas complexas.
A capacidade de um modelo de IA interagir com interfaces de computador de forma autônoma, mesmo que em estágio experimental, sinaliza um passo importante em direção a assistentes de IA mais capazes e integrados ao nosso fluxo de trabalho digital. A competição acirrada entre Anthropic, OpenAI e Google continua a impulsionar a inovação, e a família Claude 3.5 é um testemunho claro dessa evolução acelerada no campo da Inteligência Artificial generativa.