Explosão de Novidades em IA: Llama 3.1, Mistral Large 2, Gemini Flash e Mais!

Explosão de Novidades em IA: Llama 3.1, Mistral Large 2, Gemini Flash e Mais Surpresas!

A última semana foi extraordinariamente agitada no universo da Inteligência Artificial, com uma avalanche de lançamentos e atualizações de gigantes como Meta, Mistral AI, Google e OpenAI. Desde novos modelos de linguagem open source que prometem desafiar os líderes de mercado até inovações em geração de vídeo e áudio, o cenário da IA está evoluindo em velocidade vertiginosa. Vamos mergulhar nos principais destaques.

Meta Revoluciona com Llama 3.1: O Novo Rei dos Modelos de Linguagem Open Source?

A Meta causou um grande impacto ao lançar o Llama 3.1, uma atualização significativa de seu modelo de linguagem anterior. Este lançamento posiciona a Meta como uma força dominante no espaço open source, oferecendo alternativas poderosas aos modelos proprietários.

Capacidades e Tamanhos do Llama 3.1

O Llama 3.1 chega em três tamanhos distintos, medidos pela quantidade de parâmetros (que, em essência, reflete a quantidade de dados com os quais o modelo foi treinado): 8 bilhões (8B), 70 bilhões (70B) e um impressionante modelo de 405 bilhões (405B) de parâmetros. Modelos maiores geralmente demonstram melhor desempenho em tarefas complexas de raciocínio e matemática. As novas capacidades do Llama 3.1 incluem:

  • Uso de ferramentas (Tool use): Capacidade de interagir com e utilizar ferramentas externas.
  • Agentes multilíngues: Habilidade de processar e gerar informações em múltiplos idiomas, como traduzir histórias complexas.
  • Raciocínio complexo aprimorado: Melhoria na capacidade de resolver problemas que exigem múltiplas etapas de pensamento.
  • Assistência de codificação: Maior proficiência em gerar e depurar código de programação.

Desempenho do Llama 3.1 em Benchmarks

De acordo com os benchmarks divulgados pela Meta, o Llama 3.1, especialmente sua versão de 405B, apresenta um desempenho que rivaliza e, em muitas áreas, supera modelos de ponta como o GPT-4o da OpenAI e o Claude 3.5 Sonnet da Anthropic. Mesmo o modelo menor, Llama 3.1 8B, demonstra superioridade em relação a outros modelos de tamanho similar no mercado.

A Natureza Open Source do Llama 3.1 e Suas Implicações

Um dos aspectos mais significativos do Llama 3.1 é sua natureza open source. Isso permite que desenvolvedores e pesquisadores ao redor do mundo baixem, personalizem e realizem fine-tuning nos modelos para suas necessidades específicas. Essa abertura fomenta a inovação e a exploração de novas aplicações. No entanto, há uma ressalva para uso comercial: empresas com mais de 700 milhões de usuários ativos mensais necessitam de uma licença específica da Meta para utilizar os modelos Llama 3.1.

Onde Experimentar o Llama 3.1

Interessados podem testar o Llama 3.1 em diversas plataformas:

  • No chatbot da Meta AI (atualmente rodando a versão de 70B).
  • Integrado em aplicativos da Meta como WhatsApp, Instagram Messenger, Facebook Messenger e nos óculos Meta Ray-Ban.
  • Na plataforma Grok, que oferece as versões 8B e 70B com altíssima velocidade de inferência.
  • Usuários Pro do Perplexity.ai também podem acessar a versão 405B do Llama 3.1.

A Corrida dos Modelos Open Source: Mistral AI e Apple Entram na Disputa

A Meta não está sozinha na vanguarda dos modelos open source. Outras empresas também apresentaram novidades importantes.

Mistral Large 2: "Grande o Suficiente" para Desafiar os Gigantes?

A Mistral AI, outra competidora de peso no desenvolvimento de modelos de IA open source, anunciou o Mistral Large 2, um modelo com 123 bilhões de parâmetros. Sob o lema "Large Enough" (Grande o Suficiente), o Mistral Large 2 mostrou em benchmarks superar o Llama 3.1 70B em performance matemática e até mesmo o Llama 3.1 405B em avaliações humanas (human eval) e benchmarks de geração de código em diversas linguagens de programação, embora algumas comparações notavelmente omitam o Claude 3.5 Sonnet.

Apple e Seus Modelos DCLM: Uma Nova Força no Cenário Open AI?

A Apple também demonstrou seu crescente interesse em IA open source ao lançar uma família de modelos DCLM (DataComp for Language Models) menores no Hugging Face. Os principais modelos apresentados possuem 7 bilhões e 1.4 bilhão de parâmetros. Segundo relatos, o modelo de 7B da Apple superou o Mistral-7B e se aproximava de outros modelos abertos de ponta como o Llama 3 (versão anterior ao 3.1) e o Gemma da Google.

Google e OpenAI Não Ficam Para Trás: Atualizações e Novidades

Os gigantes estabelecidos também trouxeram atualizações para seus modelos e plataformas.

Gemini 1.5 Flash da Google: Acesso Gratuito e Recursos Expandidos

O Google atualizou a camada gratuita de seu modelo Gemini para o Gemini 1.5 Flash. Usuários agora se beneficiam de melhorias em qualidade, latência, raciocínio e compreensão de imagem. A janela de contexto para usuários gratuitos foi expandida para 32.000 tokens, e a capacidade de enviar arquivos via Google Drive ou diretamente do dispositivo, antes restrita, agora está disponível na versão gratuita do Gemini. Além disso, o Gemini está implementando a exibição de links para conteúdo relacionado em respostas a prompts de busca de fatos, visando reduzir alucinações e facilitar a verificação de fontes. O Gemini também está sendo integrado diretamente ao Google Messages em dispositivos Android selecionados.

OpenAI: Fine-tuning de GPT-4o Mini, SearchGPT e a Voz Avançada

A OpenAI anunciou a capacidade de realizar fine-tuning no GPT-4o Mini, oferecendo até 2 milhões de tokens de treinamento gratuitos por dia até 23 de setembro. Essa é uma oportunidade para desenvolvedores personalizarem o modelo para aplicações específicas. Além disso, Sam Altman, CEO da OpenAI, revelou o protótipo do SearchGPT, uma nova ferramenta de busca com IA que parece competir com soluções como Perplexity.ai. Há também uma grande expectativa pelo lançamento da nova funcionalidade de voz avançada para assinantes Plus do ChatGPT, prometida para breve.

Geração de Mídia com IA: Avanços e Controvérsias

O campo da geração de mídia por IA também viu avanços e levantou discussões importantes.

Kling AI e Luma AI Dream Machine: Novas Ferramentas para Vídeo e Loops

O gerador de vídeo Kling AI, considerado um dos melhores na conversão de texto para vídeo e um forte concorrente do Sora da OpenAI, agora está disponível globalmente. Notavelmente, o Kling AI parece ser menos restrito quanto ao uso de nomes de celebridades e IPs. Enquanto isso, a Luma AI introduziu um recurso chamado "Loops" em sua Dream Machine, permitindo a criação de animações que se repetem infinitamente, ideal para fundos dinâmicos e GIFs.

Stability AI Apresenta Stable Video 4D

A Stability AI lançou o Stable Video 4D, um modelo capaz de transformar um vídeo de um único objeto em múltiplos vídeos com diferentes ângulos de visão. Os usuários podem especificar os ângulos da câmera, oferecendo um novo nível de controle criativo. O modelo está disponível para download no Hugging Face, embora uma interface de usuário baseada na nuvem ainda não tenha sido lançada.

Leonardo AI Facilita a Colaboração com "Teams"

A plataforma de geração de imagens Leonardo.AI lançou o recurso "Teams", permitindo que múltiplos usuários colaborem em coleções de imagens, utilizem modelos de fine-tuning compartilhados para manter a consistência e acompanhem o progresso da equipe através de um feed compartilhado. Essa funcionalidade é especialmente útil para projetos de jogos e outras aplicações que exigem um estilo visual coeso.

Suno AI Inova com Separação de "Stems" Musicais

A Suno, conhecida por sua ferramenta de geração de música por IA, agora permite que usuários Pro e Premier separem vocais e instrumentais de músicas, oferecendo mais controle e flexibilidade na criação musical.

A Ética da Raspagem de Dados: Casos Anthropic e Runway

A semana também trouxe à tona debates sobre a ética da raspagem de dados para treinamento de modelos de IA. Kyle Wiens, da iFixit, relatou que a Anthropic estaria acessando seus servidores milhões de vezes, mesmo com termos de serviço que proíbem tal prática para treinamento de ML. Similarmente, um artigo da 404 Media, baseado em informações vazadas e uma planilha, alega que a Runway, uma proeminente empresa de geração de vídeo por IA, treinou seus modelos com milhares de vídeos do YouTube sem permissão. Essa questão se torna ainda mais complexa quando os vídeos do YouTube em questão contêm, por exemplo, trechos de programas de TV com comentários sobrepostos, levantando múltiplas camadas de direitos autorais.

IA nos Games: EA Sports Utiliza IA para College Football 25

No mundo dos games, a EA Sports revelou que utilizou IA para escanear os rostos de 11.000 jogadores da NCAA (liga universitária de futebol americano) para seu novo jogo, College Football 25. Essa aplicação da IA acelerou significativamente o processo de desenvolvimento do jogo, permitindo um nível de detalhe e realismo sem precedentes para os jogadores virtuais.

Conclusão

Esta semana demonstrou o ritmo implacável da inovação em Inteligência Artificial. A competição acirrada, especialmente no campo dos modelos open source, está impulsionando avanços que beneficiam tanto desenvolvedores quanto usuários finais. No entanto, as crescentes capacidades da IA também trazem à tona discussões cruciais sobre ética, direitos autorais e o uso responsável dessas tecnologias. Continuaremos acompanhando de perto essas transformações e seus impactos em nosso mundo digital.