Explosão de Novidades em IA: Gemini 1.5 Pro, GPT-4 Turbo Aprimorado e a Corrida pelos Chips de IA
A Vanguarda dos Modelos de Linguagem: Google e OpenAI Lideram com Inovações
A primavera no hemisfério norte, assim como no ano passado, trouxe uma avalanche de novidades no campo da Inteligência Artificial (IA). O ritmo de anúncios tem sido tão intenso que filtrar o que é verdadeiramente importante se tornou um desafio. Esta semana foi marcada por avanços significativos em modelos de linguagem de grande escala (LLMs), a contínua batalha pela supremacia em chips de IA e novas ferramentas que prometem transformar a criação de conteúdo.
Google Gemini 1.5 Pro: Acesso Ampliado e Capacidades Surpreendentes
Durante o evento Google Cloud Next 2024, realizado em Las Vegas, o Google fez uma série de anúncios, muitos deles focados em IA para empresas e desenvolvedores. Um dos destaques foi a expansão do acesso ao Google Gemini 1.5 Pro, que agora está disponível em mais de 180 países através de sua API. Este modelo impressiona pela sua janela de contexto de 1 milhão de tokens, o que equivale a aproximadamente 750.000 palavras, permitindo o processamento de grandes volumes de informação de uma só vez. Além disso, o Gemini 1.5 Pro conta com compreensão nativa de áudio, instruções de sistema e modo JSON, facilitando a integração e o desenvolvimento de aplicações complexas.
Um exemplo prático compartilhado por Bilawal Sidhu, entusiasta de IA, demonstrou o poder do Gemini 1.5 Pro ao analisar uma entrevista em áudio de uma hora. A IA foi capaz de extrair os pontos chave, sugerir títulos otimizados para o YouTube, comparar thumbnails e até gerar timestamps precisos para o vídeo. Essa capacidade de processar e extrair informações de áudios longos é particularmente impressionante e representa um avanço significativo para criadores de conteúdo e analistas.
OpenAI Responde: GPT-4 Turbo Ainda Mais Poderoso
A OpenAI, como de costume, não ficou para trás e anunciou uma versão "majoritariamente aprimorada" do GPT-4 Turbo. Este modelo atualizado já está disponível via API e está sendo implementado no ChatGPT. O GPT-4 Turbo com Vision também recebeu melhorias, incluindo modo JSON e chamada de função para requisições de visão. Com dados de treinamento atualizados até dezembro de 2023, a OpenAI afirma que o novo modelo é superior em tarefas de codificação e matemática. De fato, o Chatbot Arena Leaderboard, uma plataforma que ranqueia LLMs com base em votos de preferência humana, já mostra a versão de 9 de abril do GPT-4 Turbo superando o Claude 3 Opus da Anthropic.
O Mundo Open Source Ferve: Novos LLMs Prometem Revolucionar
O cenário de IA open source também está em ebulição, com lançamentos que prometem democratizar ainda mais o acesso a tecnologias de ponta.
Stability AI Apresenta Stable LM 2 12B
A Stability AI lançou o Stable LM 2 12B, um modelo com 12 bilhões de parâmetros. Embora os benchmarks iniciais o coloquem ligeiramente abaixo do Mixtral 8x7B, é uma adição importante ao ecossistema open source. Vale notar que o uso comercial deste modelo requer uma assinatura da Stability AI.
Mistral AI Lança Mixtral 8x22B de Forma Inusitada
A Mistral AI surpreendeu ao lançar o Mixtral 8x22B através de um link torrent compartilhado na plataforma X (anteriormente Twitter), sem grande alarde. Este novo modelo, um arquivo de 281GB, utiliza a arquitetura Mixture of Experts (MoE) com 8 "experts" de 22 bilhões de parâmetros cada, totalizando 176 bilhões de parâmetros e uma janela de contexto de 65.000 tokens. Espera-se que ele supere significativamente seu antecessor em capacidades.
Google Fortalece a Família Gemma
O Google também expandiu sua família de modelos open source Gemma, introduzindo o CodeGemma, otimizado para tarefas de codificação, e o RecurrentGemma, projetado para inferência eficiente em pesquisas, especialmente com grandes lotes de dados.
A Batalha dos Chips de IA: Nvidia Sob Pressão, Concorrentes Avançam
A dependência dos GPUs da Nvidia para treinar modelos de IA tem sido um ponto crucial, e grandes empresas de tecnologia estão buscando alternativas internas para reduzir essa dependência e custos.
Novos Processadores do Google e Intel
O Google apresentou seus processadores Axion, baseados em ARM, durante o Cloud Next. A Intel, por sua vez, introduziu o chip de IA Gaudi 3, que promete uma eficiência energética 40% superior ao H100 da Nvidia.
Meta e seus Chips MTIA
A Meta também anunciou a segunda geração de seu chip MTIA (Meta Training and Inference Accelerator), com um desempenho três vezes superior à primeira versão.
Nvidia Contra-Ataca com Blackwell
Apesar da crescente concorrência, a Nvidia não está parada. No evento GTC, a empresa revelou sua nova arquitetura Blackwell, que é supostamente quatro vezes mais poderosa que os já impressionantes GPUs H100, mantendo a Nvidia na liderança do setor de hardware para IA, pelo menos por enquanto.
IA na Criação de Vídeo: Do GIF Animado à Geração de Clipes
A capacidade da IA de gerar conteúdo visual também está se expandindo para o domínio do vídeo e animação.
Google Imagen 2: Texto para Imagens Vivas
O Google Imagen 2, conhecido por sua capacidade de geração de imagens, agora também pode criar animações curtas, como GIFs, a partir de prompts de texto. Essa funcionalidade foi descrita como "Texto para Imagem Viva" (Text-to-Live Image).
Google Vids: Criação de Vídeo para o Trabalho
Outra novidade do Google é o Google Vids, uma ferramenta de criação de vídeo alimentada por IA que será integrada ao Gemini para Google Workspace. Pelas demonstrações, parece criar vídeos no estilo de apresentações de slides, como os do PowerPoint ou Google Slides, utilizando IA para auxiliar no processo.
MagicTime: Geração de Vídeos Time-Lapse
Uma pesquisa interessante sobre um novo gerador de vídeo chamado MagicTime também veio à tona. Este modelo é especificamente projetado para criar vídeos em time-lapse. O código está disponível no GitHub, e há uma demonstração no Hugging Face para quem quiser experimentar.
Debates Éticos e Legais: Copyright, Transparência e o Futuro da AGI
Com o avanço rápido da IA, questões éticas e legais continuam a surgir.
OpenAI e o Uso de Vídeos do YouTube
Um relatório do The New York Times alegou que a OpenAI transcreveu mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4. Neal Mohan, CEO do YouTube, afirmou que tal uso seria uma clara violação dos termos de serviço da plataforma. Em resposta, um porta-voz do Google mencionou que a empresa viu "relatórios não confirmados" da atividade da OpenAI e que seus arquivos robots.txt e Termos de Serviço proíbem scraping ou download não autorizado de conteúdo. Este caso levanta sérias questões sobre o uso de dados protegidos por direitos autorais no treinamento de modelos de IA. Coincidentemente, um novo projeto de lei foi introduzido no Congresso dos EUA para forçar as empresas de IA a revelarem o material protegido por direitos autorais que utilizam em seus modelos generativos, exigindo um relatório pelo menos 30 dias antes do lançamento público de suas ferramentas de IA.
Adobe e a Compra de Dados de Vídeo
Em contraste com a abordagem de scraping, a Adobe está optando por comprar dados de vídeo de criadores, oferecendo entre US$3 e US$7 por minuto de filmagem, para treinar seus próprios modelos de IA, incluindo uma possível alternativa ao Sora da OpenAI. Esta abordagem visa garantir o uso de dados de forma legal e comercialmente segura.
Meta e a Rotulagem de Conteúdo Gerado por IA
A Meta anunciou que intensificará as medidas para identificar e rotular fotos e imagens geradas por IA em suas plataformas como Facebook, Instagram e Threads. A empresa utilizará seus próprios detectores de IA para identificar indicadores comuns de conteúdo gerado por IA, mesmo que o usuário não o marque explicitamente.
A AGI está Próxima? Elon Musk vs. Yann LeCun
A discussão sobre a Inteligência Artificial Geral (AGI) continua acalorada. Elon Musk previu que a IA será mais inteligente que o humano mais inteligente já no próximo ano, ou no máximo até 2026. Por outro lado, Yann LeCun, um dos "padrinhos da IA" e cientista-chefe de IA da Meta, acredita que os LLMs atuais nunca alcançarão a inteligência de nível humano. LeCun defende que a arquitetura V-JEPA da Meta, focada em aprendizado autosupervisionado, é um caminho mais promissor para alcançar uma IA avançada.
Outras Notícias Relevantes no Universo da IA
Humane AI Pin: Recepção Morna
O aguardado Humane AI Pin começou a chegar aos consumidores, mas as primeiras análises não têm sido muito favoráveis. As principais queixas giram em torno da praticidade do dispositivo, que é um pequeno pino usado na roupa com um projetor para a mão e comandos de voz. Problemas como a dificuldade de visualização da projeção em ambientes claros, gestos confusos, falta de privacidade ao usar comandos de voz em público e o alto custo (US$700 mais uma assinatura mensal de US$24 que, se cancelada, inutiliza o aparelho) foram levantados por diversos analistas, incluindo Mrwhosetheboss e The Verge. Apesar disso, a tecnologia subjacente foi considerada interessante, sugerindo um potencial futuro, mas ainda não prático.
A Arte da IA: O Caso do Desenvolvedor de Jogos de Cartas
Um artigo curioso destacou um desenvolvedor de jogos de cartas que pagou US$90.000 a um "artista de IA" para gerar a arte das cartas. O apresentador do vídeo original levanta a questão da terminologia, sugerindo que "artista assistido por IA" seria mais apropriado, já que o processo envolveu a geração inicial de imagens por IA, seguida por retoques manuais em softwares como o Photoshop para garantir consistência de cores, personagens e estilos, além de corrigir artefatos comuns da IA. Este caso ilustra como a IA está sendo integrada aos fluxos de trabalho criativos, permitindo a criação de um grande volume de arte conceitual em escala, que depois é refinada por artistas humanos.
Conclusão: Uma Semana de Transformações na Inteligência Artificial
Esta semana demonstrou mais uma vez o ritmo alucinante da inovação em Inteligência Artificial. Desde o lançamento de LLMs mais poderosos e acessíveis até a acirrada competição no desenvolvimento de hardware especializado e os debates éticos que acompanham cada avanço, fica claro que a IA continua a ser uma das áreas tecnológicas mais dinâmicas e impactantes da atualidade. Acompanhar essas mudanças é essencial para entender as transformações que estão moldando nosso futuro.
Para empreendedores e pequenas e médias empresas, entender como a IA está redefinindo estratégias de go-to-market é crucial. Um relatório gratuito da HubSpot, que patrocina este conteúdo, explora exatamente isso, oferecendo insights valiosos baseados em pesquisas com mais de 1.000 fundadores de startups. Você pode encontrar o link para este relatório na descrição do vídeo original.
Além disso, o novo podcast The Next Wave, uma parceria com a HubSpot, já está no ar, com episódios que mergulham fundo nas implicações da IA para negócios e criadores de conteúdo. O primeiro episódio conta com a participação de Aravind Srinivas, da Perplexity AI, e está disponível em todas as principais plataformas de podcast e no YouTube.