Fevereiro Ferve com IA: Bard Gera Fotos, Midjourney Encanta com Anime e Apple Sinaliza Grandes Novidades
Após algumas semanas de calmaria no universo da Inteligência Artificial, o início de fevereiro de 2024 reacendeu a chama da inovação com uma série de anúncios e lançamentos empolgantes. Desde a aguardada capacidade de geração de imagens no Bard do Google até vazamentos de modelos poderosos e os primeiros passos da Apple em IA generativa, o cenário está mais dinâmico do que nunca. Vamos mergulhar nas principais novidades que estão moldando o futuro da IA.
Geração de Imagens com IA: Bard, ImageFX, Midjourney e Shopify Inovam
A capacidade de criar imagens a partir de texto continua sendo um dos campos mais fascinantes da IA, e este mês trouxe avanços significativos de gigantes da tecnologia e plataformas especializadas.
Bard do Google Finalmente Gera Fotos com Imagen 2
Uma das notícias mais celebradas foi a atualização do Bard do Google, que agora permite a geração de imagens diretamente na plataforma de chat. Lançada em 1º de fevereiro, essa funcionalidade, impulsionada pelo modelo Imagen 2, busca equiparar o Bard ao ChatGPT Plus da OpenAI, que já oferecia essa capacidade. Para gerar uma imagem, basta acessar o Bard em bard.google.com
e descrever o que deseja. Por exemplo, um pedido como "gere uma imagem de Mario praticando kitesurf" resulta em criações visuais correspondentes.
É importante notar, conforme a documentação de suporte do Google, que a geração de imagens no Bard está disponível na maioria dos países, com exceção do Espaço Econômico Europeu (EEE), Suíça e Reino Unido. Atualmente, a funcionalidade aceita apenas prompts em inglês e não está disponível para menores de 18 anos. Usuários relataram que o Bard, às vezes, pode ser excessivamente cauteloso, negando prompts que parecem inofensivos, como o de uma "vaca marrom bebendo leite achocolatado em um campo", alegando que seria fisicamente impossível ou enganoso, já que vacas são intolerantes à lactose. No entanto, consegue gerar imagens de personagens conhecidos como Sonic the Hedgehog sem problemas.
ImageFX: A Ferramenta Dedicada do Google para Criação de Imagens
Para quem busca mais controle na geração de imagens com a tecnologia Imagen 2 do Google, a empresa também disponibilizou o ImageFX dentro do seu AI Test Kitchen. Esta plataforma é um espaço onde o Google lança projetos de IA em estágio inicial para teste. O ImageFX é uma interface de usuário construída especificamente para a criação de imagens, oferecendo opções como definição de "seed" (semente para replicabilidade), um botão "Estou com sorte" para prompts aleatórios (como uma "tartaruga feita de batatas chips") e assistentes de prompt para refinar as descrições com estilos como "filme 35mm" ou "feito à mão". Diferente do Bard, o ImageFX gera quatro imagens por vez.
Midjourney Niji V6: O Novo Modelo de Anime da Midjourney
A Midjourney, uma das plataformas mais populares para geração de arte com IA, lançou o Niji V6, seu novo modelo especializado em criar imagens no estilo anime e cartoon. Usuários com acesso à Midjourney podem ativar este modelo através do comando /settings
no Discord e selecionar "Niji Model V6". Um exemplo de prompt como "um ciborgue humanoide lutando contra um ninja humano" demonstra a capacidade do modelo em produzir ilustrações detalhadas e estilizadas.
Shopify Magic AI Image Editor: Edição de Imagens Profissional para E-commerce
A Shopify também entrou na onda da IA generativa com o seu Magic AI Image Editor. A ferramenta, demonstrada em um vídeo pela própria empresa, foca em facilitar a edição de fotos de produtos para lojistas. Ela permite, por exemplo, alterar fundos de imagens de forma instantânea, utilizando presets de estilo ou descrições de texto para criar cenários completamente novos, visando aumentar o profissionalismo das imagens de produtos e a coesão visual das lojas virtuais.
Avanços em Modelos de Linguagem e Plataformas
O desenvolvimento de modelos de linguagem de grande escala (LLMs) continua a todo vapor, com vazamentos, lançamentos e novas funcionalidades que prometem transformar a interação com a IA.
Vazamento do Modelo Miqu da Mistral AI
Um novo modelo de linguagem open-source chamado Miqu surgiu no Hugging Face, gerando especulações de que seria uma versão vazada do Mistral Medium, um modelo da Mistral AI. Testes iniciais, como os relatados por N8 Programs no X (antigo Twitter), indicaram que o Miqu apresentava um desempenho próximo ao GPT-4 da OpenAI, superando outros LLMs em benchmarks como o EQ-Bench. Posteriormente, o CEO da Mistral AI, Arthur Mensch, confirmou que o Miqu era, de fato, uma versão antiga e com marca d'água de um modelo treinado pela empresa, distribuído abertamente para clientes de acesso antecipado. Ele também mencionou que a Mistral AI já possui modelos mais avançados em desenvolvimento.
Code Llama 70B da Meta: Performance de GPT-4 para Código
A Meta lançou o Code Llama 70B, uma nova e mais performática versão do seu LLM para geração de código. De acordo com a própria Meta e posts de especialistas como Phillip Schmid no X, o Code Llama 70B-instruct atinge 67.8% no benchmark HumanEval, tornando-o um dos modelos open-source de mais alta performance disponíveis atualmente, comparável ao desempenho inicial do GPT-4 para tarefas de codificação. O modelo permite uso comercial e está disponível no Hugging Face.
GPTs Agora Invocáveis Diretamente no Chat do ChatGPT
A OpenAI implementou uma nova funcionalidade no ChatGPT que permite aos usuários invocar diferentes GPTs (modelos personalizados) diretamente em uma única janela de chat. Ao digitar "@", uma lista dos GPTs utilizados recentemente aparece, permitindo selecionar um e interagir com ele. Isso possibilita, por exemplo, pedir a um GPT de pesquisa acadêmica como o Consensus para encontrar um artigo e, em seguida, chamar um GPT de diagramação como o Diagrams: Show Me para criar um mapa mental baseado na resposta anterior, tudo no mesmo fluxo de conversa.
IA no Mundo Real: Aplicações, Implicações e o Futuro Próximo
Além de ferramentas e modelos, o mundo da IA foi movimentado por notícias sobre investimentos, regulamentações e aplicações inovadoras que tocam diretamente nosso cotidiano.
Investimentos da Apple em IA e Futuros Recursos Generativos
A Apple, embora discreta em seus anúncios de IA, tem sido a maior compradora de empresas de Inteligência Artificial desde 2017, com 21 aquisições, superando gigantes como Accenture (19) e Microsoft (12), segundo um artigo da QZ.com de setembro de 2023. Recentemente, em 1º de fevereiro de 2024, o CEO da Apple, Tim Cook, confirmou que a empresa está investindo "tempo e esforço tremendos" em recursos de IA generativa que chegarão aos seus softwares ainda este ano. A expectativa é que muitas dessas novidades, possivelmente uma versão aprimorada da Siri, sejam reveladas no iOS 18, durante o evento WWDC.
Apple Vision Pro: Mais de 600 Apps Nativos no Lançamento
Coincidindo com o lançamento do Apple Vision Pro, a Apple anunciou que mais de 600 novos aplicativos construídos especificamente para o dispositivo de computação espacial estarão disponíveis desde o primeiro dia. Isso demonstra um forte apoio dos desenvolvedores à nova plataforma.
FCC Combate Robocalls Geradas por IA
A Comissão Federal de Comunicações dos EUA (FCC) está se movendo para proibir robocalls geradas por IA. Embora essa medida vise combater golpes e spam, como as recentes chamadas falsas imitando a voz do presidente Biden, a eficácia real contra agentes mal-intencionados que já operam ilegalmente é questionável.
Robô Leitor de Braille da Universidade de Cambridge
Pesquisadores da Universidade de Cambridge desenvolveram um robô equipado com um sensor que utiliza IA para ler Braille em velocidades aproximadamente duas vezes maiores que a maioria dos leitores humanos. O robô consegue ler a 315 palavras por minuto com cerca de 90% de precisão. Embora não tenha sido projetado inicialmente como uma tecnologia assistiva, os pesquisadores veem potencial para o desenvolvimento de mãos robóticas ou próteses com sensibilidade comparável à dos dedos humanos.
Morpheus-1: A IA que Promete Induzir Sonhos Lúcidos
Uma startup de neurotecnologia chamada Prophetic está desenvolvendo o Morpheus-1, um modelo de IA que, segundo eles, pode induzir sonhos lúcidos. O sistema utiliza uma tiara chamada Halo que envia ondas sonoras ou "hologramas de ultrassom" ao cérebro para conectar-se com o estado cerebral atual e, combinado, levar a mente a um estado lúcido. A empresa afirma que os sonhos lúcidos permitem que o sonhador se torne consciente de que está dormindo e ganhe controle sobre o sonho. O Halo está previsto para um programa beta na primavera de 2024.
Microsoft StrokeNUWA: Síntese de Gráficos Vetoriais com IA
A Microsoft apresentou uma pesquisa chamada StrokeNUWA, que explora a tokenização de traços para a síntese de gráficos vetoriais. Basicamente, é uma nova abordagem para que LLMs gerem desenhos e imagens vetoriais, tratando os traços como tokens, de forma similar a como os LLMs processam texto.
Image2SFX: Transformando Imagens em Efeitos Sonoros
Uma interessante ferramenta disponível no Hugging Face, chamada Image2SFX, permite que usuários carreguem uma imagem e, a partir dela, a IA gera um clipe de áudio com efeitos sonoros que correspondem ao conteúdo visual. Um exemplo com a foto de um pássaro resultou em um áudio com cantos de pássaros e sons de água.
Comunidade e Eventos: O Futuro da IA em Debate
A comunidade de IA continua vibrante, com concursos e eventos que fomentam a criatividade e a discussão sobre os rumos da tecnologia.
Concurso de Vídeo IA do Future Tools Discord
O servidor do Discord Future Tools realizou um concurso de geração de vídeo com IA para o Ano Novo, com prazo final em 31 de janeiro. Os vídeos enviados foram impressionantes, demonstrando a criatividade da comunidade em utilizar ferramentas de IA. O vencedor, que levará um prêmio de $500, será escolhido por votação da comunidade após uma pré-seleção dos melhores trabalhos.
Content Hacker Live em Austin (SXSW)
Para os interessados em conteúdo e marketing com IA, o evento Content Hacker Live acontecerá em Austin, Texas, nos dias 12 e 13 de março, durante o SXSW. O evento contará com a participação de Matt Wolfe e outros futuristas e especialistas em IA, discutindo o futuro da criação de conteúdo, marketing e negócios na era da Inteligência Artificial.
O ritmo acelerado das novidades em Inteligência Artificial mostra que estamos apenas começando a arranhar a superfície do potencial dessa tecnologia. Cada novo lançamento e pesquisa abre portas para aplicações que antes pareciam ficção científica. Continuaremos acompanhando de perto essas transformações e trazendo as informações mais relevantes para você.