Revolução na IA: Demissão na OpenAI, Avanços em Modelos de Linguagem e o Impacto da Inteligência Artificial no Mundo Real
A semana passada foi marcada por uma verdadeira avalanche de novidades no universo da Inteligência Artificial (IA), transcendendo até mesmo o drama corporativo que envolveu a OpenAI e seu CEO, Sam Altman. Embora a saga da OpenAI tenha dominado as manchetes, diversos outros avanços significativos ocorreram, prometendo transformar desde a maneira como interagimos com chatbots até a detecção precoce de doenças e a criação de conteúdo multimídia.
O Drama na OpenAI e o Misterioso Q*
A turbulência na OpenAI, com a demissão e posterior readmissão de Sam Altman, foi o epicentro das notícias. No entanto, por trás das cortinas, especula-se sobre um avanço tecnológico chamado Q* (pronuncia-se Q-Star), que poderia ter sido um dos catalisadores da crise.
A Demissão e Retorno de Sam Altman na OpenAI
Em 17 de novembro, a OpenAI anunciou uma transição de liderança, demitindo Sam Altman. Greg Brockman, então presidente, foi removido do conselho e pediu demissão. A CTO Mira Murati assumiu como CEO interina, seguida brevemente por Emmett Shear. A pressão de funcionários, que ameaçaram demissão em massa, e de investidores, incluindo a Microsoft, levou ao retorno de Altman como CEO em 21 de novembro. O conselho foi reestruturado, com Bret Taylor, Larry Summers e Adam D'Angelo como membros atuais, e espera-se a adição de mais nomes, possivelmente com representação da Microsoft.
Q*: O Avanço da OpenAI que Pode Ter Precipitado a Crise?
Paralelamente à crise de liderança, surgiram relatos, inicialmente pelo The Information e depois pela Reuters, sobre um projeto chamado Q* na OpenAI. Este modelo de IA teria demonstrado capacidade de resolver problemas matemáticos em nível de ensino fundamental, um marco importante. Especula-se que preocupações sobre a comercialização e os riscos potenciais do Q* podem ter influenciado as decisões do conselho. A capacidade do Q* de realizar operações matemáticas, mesmo que básicas, é vista como um passo em direção à Inteligência Artificial Geral (AGI), levantando questões sobre segurança e o ritmo de desenvolvimento. A OpenAI, no entanto, não confirmou oficialmente a ligação entre o Q* e a demissão de Altman, e a porta-voz Lindsey Held Bolton, em declaração ao The Verge, negou que um suposto alerta de pesquisadores sobre o Q* tenha precipitado as ações do conselho.
Novidades em Modelos de Linguagem e Chatbots da OpenAI e Outras Empresas
Apesar do foco na OpenAI, outras empresas também apresentaram avanços significativos em seus modelos de linguagem e chatbots.
Inflection AI Lança Inflection-2: O Novo Concorrente do GPT-4?
A Inflection AI anunciou o Inflection-2, um modelo que, segundo a empresa, supera alternativas populares do Google e da Meta, posicionando-se como o segundo melhor modelo atrás apenas do GPT-4 da OpenAI. O Inflection-2 demonstrou melhor desempenho que o PaLM Large 2 do Google e o LLaMA 2 da Meta em diversos benchmarks e será integrado ao chatbot Pi.
Anthropic Apresenta Claude 2.1 com Janela de Contexto Ampliada
A Anthropic lançou o Claude 2.1, dobrando a janela de contexto para 200.000 tokens, o equivalente a aproximadamente 150.000 palavras ou mais de 500 páginas de material. Além disso, o novo modelo apresenta uma redução significativa nas taxas de alucinação, melhorias na API para uso de ferramentas e uma experiência aprimorada para desenvolvedores. Testes realizados por Greg Kamradt, especialista em IA, indicaram que a capacidade de recordação do Claude 2.1 é mais eficaz no início e no final de documentos longos.
Grok da xAI de Elon Musk Chegando para Assinantes Premium+
Elon Musk anunciou que o chatbot Grok, desenvolvido por sua empresa xAI, será lançado para os assinantes do X Premium+ (antigo Twitter Blue) na próxima semana, possivelmente a partir de 27 de novembro. Imagens preliminares sugerem uma integração direta do Grok na interface do X.
Google Bard Agora Assiste Vídeos do YouTube por Você
O Google Bard recebeu uma atualização que permite analisar o conteúdo de vídeos do YouTube. Através de sua extensão do YouTube, o Bard pode agora responder a perguntas complexas sobre vídeos específicos, como quantidades em receitas ou resumos de instruções, sem que o usuário precise assistir ao vídeo inteiro.
Microsoft Orca 2: Modelos Menores, Desempenho Maior
A Microsoft lançou o Orca 2, um par de modelos de linguagem menores (7 bilhões e 13 bilhões de parâmetros) que, segundo a empresa, superam modelos até 10 vezes maiores, como o LLaMA-2 Chat 70B da Meta. O Orca 2 foi disponibilizado em código aberto para pesquisa.
ChatGPT com Voz para Todos os Usuários Gratuitos da OpenAI
Em meio ao caos, Greg Brockman, mesmo durante seu breve afastamento da OpenAI, anunciou que o recurso de voz do ChatGPT, anteriormente exclusivo para assinantes Plus, agora está disponível para todos os usuários gratuitos, tornando a interação com o chatbot ainda mais acessível.
Avanços em Geração de Mídia com IA
A semana também foi rica em novidades para a geração de vídeo e áudio com IA.
Stable Video Diffusion da Stability AI: Criando Vídeos a Partir de Imagens e Texto
A Stability AI apresentou o Stable Video Diffusion, um modelo capaz de gerar vídeos a partir de imagens estáticas ou prompts de texto. Embora as gerações ainda sejam curtas (3-4 segundos) e a qualidade comparável a ferramentas como Runway Gen-2 e Pika Labs, a ferramenta está disponível para teste gratuito no Hugging Face e decoherence.co. O modelo da decoherence.co também oferece a opção de texto para vídeo e um controle deslizante para ajustar a intensidade do movimento.
Runway Gen-2 Ganha Motion Brush para Controle Detalhado de Movimento
A Runway Research liberou o Motion Brush para o Gen-2, uma ferramenta que permite aos usuários "pintar" áreas específicas de uma imagem para aplicar movimento direcionado, oferecendo maior controle sobre a animação gerada.
ElevenLabs Inova com Síntese de Fala para Fala
A ElevenLabs, conhecida por sua tecnologia de clonagem de voz e texto para fala, lançou uma atualização que introduz a funcionalidade de "fala para fala". Agora, os usuários podem gravar sua própria voz, com entonações e ênfases específicas, e o sistema aplicará essas características à voz clonada escolhida, resultando em áudios mais naturais e expressivos.
Luma AI Genie Aprimora Geração de Objetos 3D
A Luma AI anunciou melhorias em sua ferramenta Genie para geração de objetos 3D a partir de texto. As novidades incluem a capacidade de adicionar prompts negativos e controlar o número de "seed" (semente), além de melhorias na estabilidade e qualidade do bot e atualizações de estilo de conteúdo para mensagens do bot. A empresa também informou que o Genie em breve estará disponível em outros servidores do Discord.
IA Aplicada: Saúde, Produtividade e Implicações Legais
A Inteligência Artificial continua a encontrar novas aplicações em diversas áreas, desde a medicina até a produtividade e o debate sobre direitos autorais.
PANDA: IA da Nature Medicine na Detecção Precoce de Câncer de Pâncreas
Um artigo publicado na Nature Medicine destacou o PANDA (Pancreatic cancer detection with artificial intelligence), um novo modelo de aprendizado profundo capaz de detectar lesões pancreáticas com alta precisão a partir de tomografias computadorizadas sem contraste. Essa tecnologia é promissora para a detecção precoce do câncer de pâncreas, uma doença frequentemente diagnosticada em estágios avançados.
Google Meet Detecta Mãos Levantadas com IA
O Google Meet está implementando um recurso que utiliza IA para detectar quando um participante levanta a mão fisicamente durante uma videochamada, ativando automaticamente o ícone de "mão levantada" na interface da reunião. O recurso, que precisa ser ativado nas configurações, visa facilitar a moderação em grandes reuniões.
Microsoft Bloqueia "Disney" em seu Gerador de Imagens por IA
Após uma tendência viral de usuários criando pôsteres de filmes no estilo Disney-Pixar, a Microsoft ajustou seu gerador de imagens por IA para bloquear o uso da palavra "Disney" nos prompts, provavelmente para evitar questões de direitos autorais com a The Walt Disney Company.
Revés para Sarah Silverman em Processo de Copyright Contra Meta
A comediante Sarah Silverman e outros autores enfrentaram um obstáculo em seu processo de violação de direitos autorais contra a Meta. Um juiz federal rejeitou a maior parte do processo, argumentando que as saídas geradas pelos modelos de linguagem da Meta não são suficientemente similares aos livros originais para constituir infração direta. O juiz destacou que, para prevalecer, os autores precisariam provar que os resultados dos LLMs incorporam uma porção substancial de suas obras protegidas.
Esta semana extraordinária no campo da IA demonstra a velocidade vertiginosa com que a tecnologia está evoluindo. Desde dramas corporativos impulsionados por avanços secretos até novas ferramentas que democratizam a criação de conteúdo e prometem revolucionar a saúde, fica claro que a Inteligência Artificial continuará a ser uma força transformadora em 2024 e além.