O universo da Inteligência Artificial (IA) está em constante ebulição, com novos modelos, ferramentas e parcerias surgindo a cada semana. Recentemente, acompanhamos vazamentos sobre o possível GPT-4.5 da OpenAI, atualizações significativas do Google com seus modelos Gemini e Imagen 2, e inovações da Meta com o Audiobox e os óculos Ray-Ban. Vamos mergulhar nessas novidades e entender o impacto que elas podem ter.
Um dos tópicos mais comentados foi o suposto vazamento de informações sobre o GPT-4.5, a próxima iteração do modelo de linguagem da OpenAI. Embora não confirmado oficialmente, um print de tela, supostamente de uma página de rascunho do site da OpenAI e encontrado no Reddit, detalha um modelo com capacidades multimodais avançadas, incluindo processamento de áudio, visão, vídeo e até 3D. A página também listava preços para diferentes versões da API, como o gpt-4.5, gpt-4.5-64k e gpt-4.5-audio-and-speech. Se confirmado, isso significaria um grande avanço, trazendo funcionalidades de vídeo e 3D para a API e, possivelmente, para o ChatGPT.
Curiosamente, os preços vazados para o GPT-4.5 pareceram significativamente mais altos em comparação com o GPT-4 Turbo, lançado em novembro de 2023. Por exemplo, o custo de entrada para o GPT-4.5 seria seis vezes maior. Além disso, a janela de contexto da versão 64k do GPT-4.5 seria de 64.000 tokens, metade da janela de 128.000 tokens do GPT-4 Turbo, o que gerou questionamentos sobre a veracidade ou o estágio de desenvolvimento do modelo vazado.
Outra discussão interessante envolvendo a OpenAI é a chamada 'Hipótese das Férias de Inverno da IA'. Essa teoria sugere que o GPT-4 pode apresentar um desempenho inferior durante os meses de inverno, especialmente em dezembro. A justificativa seria que o modelo, treinado com vastos dados da internet, 'aprenderia' com o comportamento humano online, onde as pessoas tendem a ser menos produtivas ou tirar férias nesse período. Ethan Mollick, uma figura conhecida na comunidade de IA, comentou sobre essa hipótese. Em um post relacionado, Rob Lynch demonstrou que o GPT-4 Turbo, via API, produzia respostas mais curtas quando o sistema 'pensava' ser dezembro em comparação com maio, alterando a data no prompt do sistema. Essa observação levanta questões intrigantes sobre como os dados de treinamento podem influenciar sutilmente o comportamento dos modelos de IA.
Em uma nota mais oficial, a OpenAI e a Axel Springer, conglomerado de mídia que detém marcas como Politico e Business Insider, anunciaram uma parceria para aprofundar o uso benéfico da IA no jornalismo. Usuários do ChatGPT receberão resumos de notícias globais de veículos da Axel Springer, com atribuição e links para os artigos completos. Este é um desenvolvimento notável, especialmente considerando que, em julho de 2023, a Axel Springer estava entre os publishers que planejavam processar empresas de IA, incluindo a OpenAI, pelo uso de seu conteúdo.
Para aqueles que aguardavam, Sam Altman anunciou que as assinaturas do ChatGPT Plus foram reativadas, graças à aquisição de mais GPUs.
O Google também esteve no centro das atenções. Após críticas sobre a transparência do vídeo de demonstração do Gemini, o youtuber Greg Technology recriou grande parte da demo utilizando o GPT-4 Vision, mostrando que muitas das capacidades já são possíveis com a tecnologia atual, embora a apresentação do Google tenha sido editada de forma a parecer mais fluida do que a interação real.
O Google lançou novas funcionalidades para o NotebookLM, agora disponível nos EUA. Essa ferramenta permite que os usuários façam upload de arquivos, como PDFs e Google Docs, e conversem com seus documentos, obtenham resumos e façam perguntas específicas. O NotebookLM também oferece ações sugeridas, como resumir para uma nota, adicionar citação, sugerir ideias relacionadas e ajudar no entendimento do conteúdo, além de criar esboços a partir dos documentos selecionados. Esta ferramenta promete ser um grande auxílio para pesquisa e para estudantes organizarem suas anotações.
A API do Gemini Pro do Google foi disponibilizada para desenvolvedores. Atualmente, é gratuita dentro de certos limites (até 60 requisições por minuto) e terá um preço competitivo no futuro. O modelo possui uma janela de contexto de 32.000 tokens para texto, o que equivale a aproximadamente 24.000 palavras de entrada e saída. A precificação anunciada para o Gemini Pro é de $0.00025 por 1.000 caracteres de entrada e $0.0005 por 1.000 caracteres de saída, e $0.0025 por imagem, valores que se comparam favoravelmente aos do GPT-4 Turbo e GPT-3.5 Turbo.
O Google também lançou o MusicFX, anteriormente conhecido como MusicLM, uma ferramenta de geração de música a partir de texto. Os resultados demonstrados são consideravelmente melhores que os da versão anterior, com opções de configuração como seed, duração da faixa (até 70 segundos) e looping. É possível também ajustar elementos de gênero e humor através de menus suspensos.
O Imagen 2, tecnologia de texto-para-imagem do Google, está agora disponível de forma geral no Vertex AI para clientes. Suas funcionalidades incluem a geração de imagens fotorrealistas de alta qualidade, renderização de texto em múltiplos idiomas, criação de logos e capacidade de resposta a perguntas visuais. Empresas como Snapchat, Shutterstock e Canva já estão utilizando o Imagen 2.
Além disso, o Google apresentou uma nova pesquisa chamada SMERF (Streamable Memory Efficient Radiance Fields for Real-Time Large-Scene Exploration). Trata-se de uma técnica de reconstrução de cenas 3D a partir de fotos ou vídeos, similar aos NeRFs e Gaussian Splatting, mas que, segundo o Google, é superior para cenas amplas, permitindo exploração em tempo real de ambientes 3D detalhados com suavidade.
A Meta apresentou o Audiobox, um modelo de pesquisa fundamental para geração de áudio com uma demo interativa. Entre suas capacidades estão: treinar a própria voz do usuário para gerar novas falas (Your Voice), descrever uma voz para que o sistema a gere (Described Voices), reestilizar vozes, gerar efeitos sonoros, apagar ruídos de áudios existentes (Magic Eraser) e preencher ou substituir partes de um áudio com novos sons (Sound Infilling).
A Meta também atualizou seus óculos Ray-Ban, adicionando capacidades de visão através do Llama 2. Agora, os usuários podem fazer perguntas sobre o que estão vendo através dos óculos ou pedir para a IA traduzir textos em placas, por exemplo. Este recurso está sendo implementado para usuários nos EUA.
A Stability AI lançou o Stable Zero123, um modelo para geração de objetos 3D de qualidade a partir de uma única imagem 2D. O sistema analisa a imagem de entrada e gera múltiplas visualizações para construir o objeto tridimensional. Atualmente, o modelo foi lançado para uso não comercial e pesquisa.
Em uma tentativa de monetização, a Stability AI introduziu um sistema de assinatura com diferentes níveis: um não comercial, gratuito para uso pessoal e pesquisa; um profissional, por $20 mensais, para uso comercial de seus modelos principais (com limites de receita e usuários); e um empresarial, com preços personalizados. A empresa mencionou que descontos podem estar disponíveis para aqueles que consideram o custo uma barreira.
A Anthropic lançou uma extensão que integra o Claude ao Google Sheets, permitindo aos usuários gerar prompts diretamente nas células. No entanto, relatos indicam dificuldades na instalação e funcionamento desta ferramenta.
A empresa francesa Mistral AI lançou o Mixtral of Experts (MoE), um modelo de linguagem grande (LLM) de código aberto com uma arquitetura inovadora. Ele supera o Llama 2 e o GPT-3.5 na maioria dos benchmarks. Seu diferencial está na forma como processa as informações: uma entrada de texto é enviada a um 'roteador' que, por sua vez, a direciona para dois dos oito 'especialistas' (LLMs menores e especializados) mais adequados para a consulta. As respostas desses especialistas são então combinadas e sumarizadas. Essa abordagem é mais eficiente em termos de processamento e pode representar o futuro dos LLMs.
O Midjourney atualizou sua plataforma, concedendo a usuários que geraram mais de 10.000 imagens acesso à criação de imagens diretamente em seu website (Midjourney Alpha), sem a necessidade do Discord. Além disso, a empresa está finalizando os preparativos para o lançamento do Midjourney V6. Após uma rodada interna de avaliação, uma primeira rodada externa de avaliação de imagens geradas pelo V6 está prevista para o final desta semana (sexta-feira ou sábado), com o objetivo de refinar o modelo antes de seu lançamento oficial.
As últimas semanas foram repletas de anúncios e desenvolvimentos empolgantes no campo da Inteligência Artificial. Desde possíveis novos modelos como o GPT-4.5 até a disponibilização de APIs poderosas como a do Gemini Pro e ferramentas inovadoras como o Audiobox da Meta e o Mixtral da Mistral AI, fica claro que a velocidade da inovação continua acelerada. A democratização do acesso a algumas dessas tecnologias, como a API do Gemini Pro e o MusicFX, juntamente com os avanços em modelos de código aberto, prometem impulsionar ainda mais a criatividade e a aplicação da IA em diversos setores. Continuaremos acompanhando de perto essas evoluções e suas implicações.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.