O cenário da inteligência artificial (IA) está em constante evolução, e a Anthropic acaba de lançar um forte concorrente com sua nova família de modelos: o Claude 3. Anunciado em 4 de março de 2024, o Claude 3 não é apenas uma atualização, mas uma nova geração de IA projetada para oferecer níveis inéditos de inteligência, velocidade e capacidades multimodais, desafiando diretamente gigantes como o GPT-4 da OpenAI e o Gemini do Google.
O Claude 3 da Anthropic representa um salto significativo em relação aos seus predecessores, estabelecendo novos padrões de inteligência e desempenho. A família é composta por três modelos distintos, cada um otimizado para um equilíbrio específico entre inteligência, velocidade e custo, permitindo que os usuários escolham a melhor opção para suas aplicações.
A família Claude 3 é composta por três modelos principais:
A Anthropic destaca que cada modelo sucessivo – Haiku, Sonnet e Opus – oferece um desempenho cada vez mais poderoso, permitindo que os usuários selecionem o equilíbrio ideal de inteligência, velocidade e custo para sua aplicação específica.
Os modelos Claude 3 demonstraram um desempenho impressionante em diversos benchmarks, superando frequentemente os modelos concorrentes em várias áreas de conhecimento e raciocínio.
De acordo com os dados divulgados pela Anthropic, o Claude 3 Opus, o modelo mais avançado, superou o GPT-4 e o Gemini 1.0 Ultra em testes de conhecimento de nível de graduação (MMLU), raciocínio de nível de pós-graduação (GPQA), matemática de nível fundamental (GSM8K) e em diversas outras categorias, incluindo resolução de problemas matemáticos, programação e conhecimento comum. Esses resultados indicam um novo padrão de inteligência para modelos de IA.
O que é particularmente interessante é o desempenho do Claude 3 Sonnet. Mesmo sendo o modelo gratuito, o Sonnet demonstrou ser competitivo e, em alguns casos, superou o GPT-4 e o Gemini 1.0 Ultra em benchmarks como raciocínio de nível de pós-graduação, matemática de nível fundamental e matemática multilíngue. Isso o posiciona como uma alternativa extremamente poderosa e acessível para uma vasta gama de usuários.
Além do desempenho bruto, o Claude 3 introduz capacidades aprimoradas que o tornam uma ferramenta versátil e poderosa.
Uma das grandes novidades do Claude 3 é sua sofisticada capacidade de visão, comparável aos principais modelos do mercado. Os modelos Claude 3 podem processar uma ampla gama de formatos visuais, incluindo fotos, gráficos, diagramas técnicos e fluxogramas. Antes, era possível apenas fazer upload de PDFs e documentos de texto, mas agora o processamento de imagens abre um leque de novas aplicações. Em testes de benchmark de visão, o Claude 3 Opus superou o GPT-4V e empatou com o Gemini 1.0 Ultra em algumas métricas, enquanto o Sonnet também demonstrou forte desempenho.
A família Claude 3 será lançada inicialmente com uma janela de contexto de 200.000 tokens (aproximadamente 150.000 palavras). No entanto, todos os três modelos são capazes de aceitar entradas que excedem 1 milhão de tokens, uma capacidade que a Anthropic pode disponibilizar para clientes selecionados que necessitem de maior poder de processamento.
Para lidar com prompts de contexto longo de forma eficaz, os modelos exigem capacidades robustas de recuperação de informação. No teste 'Needle In A Haystack' (NIAH), que mede a capacidade de um modelo de recordar informações com precisão de um vasto corpus de dados, o Claude 3 Opus não apenas alcançou uma recuperação quase perfeita, superando 99% de precisão, mas, em alguns casos, até identificou as limitações da própria avaliação, reconhecendo que a 'agulha' (a sentença inserida) parecia ter sido inserida artificialmente no texto original por um humano. Este nível de meta-consciência, como destacado em um tweet por Alex Albert, da Anthropic, é impressionante.
Os modelos Claude 3 demonstram uma compreensão mais sutil das solicitações, resultando em menos recusas desnecessárias em comparação com as gerações anteriores. Eles são significativamente menos propensos a se recusar a responder a prompts que beiram as barreiras do sistema, mostrando uma compreensão mais apurada dos pedidos, reconhecendo danos reais e recusando-se a responder a prompts inofensivos com muito menos frequência. A precisão também foi aprimorada, especialmente no modelo Opus, que demonstrou uma melhoria de duas vezes nas respostas corretas em questões abertas desafiadoras em comparação com o Claude 2.1.
Para avaliar o Claude 3 em cenários práticos, foram realizados alguns testes comparativos, principalmente entre o Claude 3 Sonnet (gratuito), Claude 3 Opus (pago) e o GPT-4.
Em um teste de criatividade onde foi solicitado a criação de uma história de um parágrafo envolvendo um lobo, um martelo mágico e um mutante, seguindo o arco da jornada do herói, tanto o Claude 3 Sonnet quanto o Opus apresentaram respostas detalhadas e coerentes com o prompt. O Opus, sendo o modelo pago, ofereceu uma narrativa um pouco mais elaborada.
Dois problemas de lógica foram apresentados. O primeiro, sobre uma aposta em jogos de tênis, foi resolvido incorretamente tanto pelo Sonnet quanto pelo Opus na primeira tentativa (ambos responderam 8 jogos, quando a resposta correta é 11). No entanto, o GPT-4 resolveu corretamente. O segundo problema, um clássico sobre um prisioneiro, duas portas e dois guardas (um que sempre mente e um que sempre diz a verdade), foi resolvido corretamente tanto pelo Sonnet quanto pelo Opus, que forneceram a pergunta correta a ser feita ao guarda.
Solicitado a escrever um código para um jogo JavaScript simples de figura palito, o Claude 3 Sonnet inicialmente produziu um código que não funcionava. Após um segundo prompt com o erro, ele corrigiu e forneceu um código funcional, embora o personagem fosse um retângulo preto e não uma figura palito. O Claude 3 Opus, por sua vez, acertou na primeira tentativa, gerando um jogo funcional, embora também com um personagem retangular.
Ao resumir um extenso documento de pesquisa de 155 páginas sobre 'Sparks of Artificial General Intelligence' com o GPT-4, tanto o Claude 3 Sonnet quanto o Opus forneceram resumos em tópicos de alta qualidade. O Opus tendeu a ser um pouco mais detalhado e limpo na formatação.
Em testes sobre questões políticas potencialmente sensíveis (prós e contras de candidatos políticos vencerem eleições), o Claude 3 Sonnet inicialmente se recusou a responder diretamente, citando que seu conhecimento é limitado até agosto de 2023 e pedindo para focar em áreas específicas. Já o Claude 3 Opus forneceu uma análise equilibrada dos prós e contras para ambos os cenários, baseando-se na informação disponível até agosto de 2023. Questões sobre 'cultura do cancelamento' e 'THC para o cérebro' foram respondidas de forma equilibrada e informativa por ambos os modelos.
O Claude 3 Sonnet está disponível gratuitamente através da interface de chat em claude.ai e também via API da Anthropic e plataformas como Amazon Bedrock e Google Cloud's Vertex AI Model Garden (em prévia privada). O Claude 3 Opus está disponível para assinantes do Claude Pro por US$ 20 por mês. O Claude 3 Haiku será disponibilizado em breve.
É importante notar que a versão gratuita do Sonnet possui limites de uso. Usuários relataram atingir o limite de mensagens após cerca de 20-25 prompts, com o limite reiniciando a cada manhã. A versão Pro (Opus) oferece pelo menos 5 vezes mais uso em comparação com o serviço gratuito, com uma expectativa de pelo menos 100 mensagens a cada 8 horas, dependendo do comprimento da mensagem e da conversa.
O lançamento do Claude 3 pela Anthropic é, sem dúvida, um marco importante no campo da inteligência artificial. Os benchmarks e testes iniciais sugerem que, especialmente o modelo Opus, estabeleceu um novo patamar de desempenho, superando concorrentes de peso em diversas tarefas complexas. A versão gratuita, Sonnet, também se mostra incrivelmente capaz, oferecendo um valor excepcional.
Com suas capacidades de visão aprimoradas, vasta janela de contexto e melhorias na precisão e redução de recusas, o Claude 3 está bem posicionado para ser uma ferramenta poderosa para desenvolvedores, empresas e usuários finais. Embora o GPT-4 ainda se destaque em alguns cenários de lógica, a competição acirrada impulsionada por modelos como o Claude 3 e o Gemini certamente beneficiará todo o ecossistema de IA, acelerando a inovação e o acesso a tecnologias cada vez mais inteligentes e úteis.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.