GPT-4.5 Vazado? Novidades da OpenAI, Google, Meta e Mais no Mundo da IA

Introdução às Últimas Novidades em Inteligência Artificial

O universo da Inteligência Artificial (IA) está em constante ebulição, com novos modelos, ferramentas e parcerias surgindo a cada semana. Recentemente, acompanhamos vazamentos sobre o possível GPT-4.5 da OpenAI, atualizações significativas do Google com seus modelos Gemini e Imagen 2, e inovações da Meta com o Audiobox e os óculos Ray-Ban. Vamos mergulhar nessas novidades e entender o impacto que elas podem ter.

OpenAI: Vazamento do GPT-4.5 e a Hipótese das 'Férias de Inverno' da IA

Um dos tópicos mais comentados foi o suposto vazamento de informações sobre o GPT-4.5, a próxima iteração do modelo de linguagem da OpenAI. Embora não confirmado oficialmente, um print de tela, supostamente de uma página de rascunho do site da OpenAI e encontrado no Reddit, detalha um modelo com capacidades multimodais avançadas, incluindo processamento de áudio, visão, vídeo e até 3D. A página também listava preços para diferentes versões da API, como o gpt-4.5, gpt-4.5-64k e gpt-4.5-audio-and-speech. Se confirmado, isso significaria um grande avanço, trazendo funcionalidades de vídeo e 3D para a API e, possivelmente, para o ChatGPT.

Curiosamente, os preços vazados para o GPT-4.5 pareceram significativamente mais altos em comparação com o GPT-4 Turbo, lançado em novembro de 2023. Por exemplo, o custo de entrada para o GPT-4.5 seria seis vezes maior. Além disso, a janela de contexto da versão 64k do GPT-4.5 seria de 64.000 tokens, metade da janela de 128.000 tokens do GPT-4 Turbo, o que gerou questionamentos sobre a veracidade ou o estágio de desenvolvimento do modelo vazado.

Outra discussão interessante envolvendo a OpenAI é a chamada 'Hipótese das Férias de Inverno da IA'. Essa teoria sugere que o GPT-4 pode apresentar um desempenho inferior durante os meses de inverno, especialmente em dezembro. A justificativa seria que o modelo, treinado com vastos dados da internet, 'aprenderia' com o comportamento humano online, onde as pessoas tendem a ser menos produtivas ou tirar férias nesse período. Ethan Mollick, uma figura conhecida na comunidade de IA, comentou sobre essa hipótese. Em um post relacionado, Rob Lynch demonstrou que o GPT-4 Turbo, via API, produzia respostas mais curtas quando o sistema 'pensava' ser dezembro em comparação com maio, alterando a data no prompt do sistema. Essa observação levanta questões intrigantes sobre como os dados de treinamento podem influenciar sutilmente o comportamento dos modelos de IA.

Em uma nota mais oficial, a OpenAI e a Axel Springer, conglomerado de mídia que detém marcas como Politico e Business Insider, anunciaram uma parceria para aprofundar o uso benéfico da IA no jornalismo. Usuários do ChatGPT receberão resumos de notícias globais de veículos da Axel Springer, com atribuição e links para os artigos completos. Este é um desenvolvimento notável, especialmente considerando que, em julho de 2023, a Axel Springer estava entre os publishers que planejavam processar empresas de IA, incluindo a OpenAI, pelo uso de seu conteúdo.

Para aqueles que aguardavam, Sam Altman anunciou que as assinaturas do ChatGPT Plus foram reativadas, graças à aquisição de mais GPUs.

Google: Avanços com Gemini, NotebookLM e Imagen 2

O Google também esteve no centro das atenções. Após críticas sobre a transparência do vídeo de demonstração do Gemini, o youtuber Greg Technology recriou grande parte da demo utilizando o GPT-4 Vision, mostrando que muitas das capacidades já são possíveis com a tecnologia atual, embora a apresentação do Google tenha sido editada de forma a parecer mais fluida do que a interação real.

NotebookLM do Google

O Google lançou novas funcionalidades para o NotebookLM, agora disponível nos EUA. Essa ferramenta permite que os usuários façam upload de arquivos, como PDFs e Google Docs, e conversem com seus documentos, obtenham resumos e façam perguntas específicas. O NotebookLM também oferece ações sugeridas, como resumir para uma nota, adicionar citação, sugerir ideias relacionadas e ajudar no entendimento do conteúdo, além de criar esboços a partir dos documentos selecionados. Esta ferramenta promete ser um grande auxílio para pesquisa e para estudantes organizarem suas anotações.

API do Gemini Pro

A API do Gemini Pro do Google foi disponibilizada para desenvolvedores. Atualmente, é gratuita dentro de certos limites (até 60 requisições por minuto) e terá um preço competitivo no futuro. O modelo possui uma janela de contexto de 32.000 tokens para texto, o que equivale a aproximadamente 24.000 palavras de entrada e saída. A precificação anunciada para o Gemini Pro é de $0.00025 por 1.000 caracteres de entrada e $0.0005 por 1.000 caracteres de saída, e $0.0025 por imagem, valores que se comparam favoravelmente aos do GPT-4 Turbo e GPT-3.5 Turbo.

MusicFX do Google

O Google também lançou o MusicFX, anteriormente conhecido como MusicLM, uma ferramenta de geração de música a partir de texto. Os resultados demonstrados são consideravelmente melhores que os da versão anterior, com opções de configuração como seed, duração da faixa (até 70 segundos) e looping. É possível também ajustar elementos de gênero e humor através de menus suspensos.

Imagen 2 no Vertex AI

O Imagen 2, tecnologia de texto-para-imagem do Google, está agora disponível de forma geral no Vertex AI para clientes. Suas funcionalidades incluem a geração de imagens fotorrealistas de alta qualidade, renderização de texto em múltiplos idiomas, criação de logos e capacidade de resposta a perguntas visuais. Empresas como Snapchat, Shutterstock e Canva já estão utilizando o Imagen 2.

SMERF do Google

Além disso, o Google apresentou uma nova pesquisa chamada SMERF (Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration). Trata-se de uma técnica de reconstrução de cenas 3D a partir de fotos ou vídeos, similar aos NeRFs e Gaussian Splatting, mas que, segundo o Google, é superior para cenas amplas, permitindo exploração em tempo real de ambientes 3D detalhados com suavidade.

Meta: Audiobox e Atualização dos Óculos Ray-Ban com IA

A Meta apresentou o Audiobox, um modelo de pesquisa fundamental para geração de áudio com uma demo interativa. Entre suas capacidades estão: treinar a própria voz do usuário para gerar novas falas (Your Voice), descrever uma voz para que o sistema a gere (Described Voices), reestilizar vozes, gerar efeitos sonoros, apagar ruídos de áudios existentes (Magic Eraser) e preencher ou substituir partes de um áudio com novos sons (Sound Infilling).

A Meta também atualizou seus óculos Ray-Ban, adicionando capacidades de visão através do Llama 2. Agora, os usuários podem fazer perguntas sobre o que estão vendo através dos óculos ou pedir para a IA traduzir textos em placas, por exemplo. Este recurso está sendo implementado para usuários nos EUA.

Outras Novidades Relevantes no Cenário da IA

Stable Zero123 da Stability AI

A Stability AI lançou o Stable Zero123, um modelo para geração de objetos 3D de qualidade a partir de uma única imagem 2D. O sistema analisa a imagem de entrada e gera múltiplas visualizações para construir o objeto tridimensional. Atualmente, o modelo foi lançado para uso não comercial e pesquisa.

Assinatura da Stability AI

Em uma tentativa de monetização, a Stability AI introduziu um sistema de assinatura com diferentes níveis: um não comercial, gratuito para uso pessoal e pesquisa; um profissional, por $20 mensais, para uso comercial de seus modelos principais (com limites de receita e usuários); e um empresarial, com preços personalizados. A empresa mencionou que descontos podem estar disponíveis para aqueles que consideram o custo uma barreira.

Claude para Google Sheets da Anthropic

A Anthropic lançou uma extensão que integra o Claude ao Google Sheets, permitindo aos usuários gerar prompts diretamente nas células. No entanto, relatos indicam dificuldades na instalação e funcionamento desta ferramenta.

Mixtral of Experts da Mistral AI

A empresa francesa Mistral AI lançou o Mixtral of Experts (MoE), um modelo de linguagem grande (LLM) de código aberto com uma arquitetura inovadora. Ele supera o Llama 2 e o GPT-3.5 na maioria dos benchmarks. Seu diferencial está na forma como processa as informações: uma entrada de texto é enviada a um 'roteador' que, por sua vez, a direciona para dois dos oito 'especialistas' (LLMs menores e especializados) mais adequados para a consulta. As respostas desses especialistas são então combinadas e sumarizadas. Essa abordagem é mais eficiente em termos de processamento e pode representar o futuro dos LLMs.

Midjourney: Website Alpha e Preparativos para V6

O Midjourney atualizou sua plataforma, concedendo a usuários que geraram mais de 10.000 imagens acesso à criação de imagens diretamente em seu website (Midjourney Alpha), sem a necessidade do Discord. Além disso, a empresa está finalizando os preparativos para o lançamento do Midjourney V6. Após uma rodada interna de avaliação, uma primeira rodada externa de avaliação de imagens geradas pelo V6 está prevista para o final desta semana (sexta-feira ou sábado), com o objetivo de refinar o modelo antes de seu lançamento oficial.

Conclusão

As últimas semanas foram repletas de anúncios e desenvolvimentos empolgantes no campo da Inteligência Artificial. Desde possíveis novos modelos como o GPT-4.5 até a disponibilização de APIs poderosas como a do Gemini Pro e ferramentas inovadoras como o Audiobox da Meta e o Mixtral da Mistral AI, fica claro que a velocidade da inovação continua acelerada. A democratização do acesso a algumas dessas tecnologias, como a API do Gemini Pro e o MusicFX, juntamente com os avanços em modelos de código aberto, prometem impulsionar ainda mais a criatividade e a aplicação da IA em diversos setores. Continuaremos acompanhando de perto essas evoluções e suas implicações.