A OpenAI surpreendeu novamente o mundo da tecnologia ao anunciar que seu modelo de linguagem mais avançado, o GPT-4, agora possui capacidades multimodais: ele pode ver, ouvir e falar. Essas novas funcionalidades, especialmente a capacidade de "ver" através do que está sendo chamado de GPT-4 Vision, prometem transformar a maneira como interagimos com a inteligência artificial. Este artigo explora em detalhes o GPT-4 Vision, seus casos de uso práticos, alternativas e o impacto que essa tecnologia pode ter em nosso cotidiano.
O GPT-4 Vision representa um salto significativo na evolução dos modelos de linguagem, permitindo que o ChatGPT interprete e responda a imagens carregadas pelos usuários. Enquanto as funcionalidades de ouvir e falar estão mais associadas ao aplicativo ChatGPT, transformando-o em um assistente de voz semelhante à Siri, mas com a inteligência do GPT-4, a capacidade de visão é a que tem gerado mais discussões e entusiasmo.
A capacidade de analisar imagens abre um leque de possibilidades, desde a simples descrição do conteúdo visual até a interpretação de dados complexos, auxílio em tarefas práticas e até mesmo suporte educacional. Como destacado por Matt Wolfe em seu vídeo, esta é uma das atualizações mais "mind-blowing" da OpenAI em muito tempo.
Para entender a profundidade e a variedade de aplicações do GPT-4 Vision, é fundamental mencionar o extenso trabalho de pesquisa realizado pela Microsoft Corporation. Em um artigo intitulado “The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)”, disponível no arXiv.org, pesquisadores detalham mais de uma centena de casos de uso. Este documento de 166 páginas, como apontado por Igor, do canal The AI Advantage, serve como uma rica fonte de inspiração, mostrando desde a leitura de recibos e extração de dados de carteiras de motorista até o reconhecimento de padrões e a explicação de imagens complexas.
As redes sociais foram inundadas por demonstrações criativas do GPT-4 Vision. Vejamos alguns exemplos notáveis:
Paul Bratcher, em uma postagem no LinkedIn, demonstrou como o GPT-4 Vision pode aumentar a produtividade. Ele carregou uma foto de um quadro branco coberto de notas adesivas (post-its) e pediu ao ChatGPT para converter aquilo em uma lista ordenada, com uma nota por linha. O resultado foi uma lista de tarefas clara e organizada, incluindo itens já marcados como concluídos.
No campo educacional, o GPT-4 Vision se mostra uma ferramenta promissora:
Explicação de Anatomia: Peter Yang, no X (antigo Twitter), mostrou como usou o GPT-4 Vision para explicar o corpo humano a uma criança do primeiro ano. Ele carregou um diagrama de anatomia e pediu uma explicação simples de cada parte e sua importância. O ChatGPT respondeu de forma didática, como por exemplo: “Cérebro: É como o centro de controle do seu corpo. Ajuda você a pensar, lembrar coisas, sentir emoções e controlar os movimentos do corpo.”
Biologia Celular Simplificada: McKay Wrigley, também no X, utilizou o GPT-4 Vision para ajudar um estudante do nono ano com dificuldades em biologia. Ao carregar um diagrama de uma célula humana, o ChatGPT não só identificou e explicou cada componente, mas, após um pedido de simplificação, usou uma analogia brilhante, comparando a célula a uma cidade: “Núcleo: Prefeitura – Onde as principais decisões são tomadas e o projeto da cidade (DNA) é armazenado.”
Resolução de Problemas Complexos: Em resposta a Mahmoud Maher, Pietro Schirano demonstrou a capacidade do GPT-4 Vision de resolver problemas de física e matemática a partir de uma imagem de uma página de livro didático, mostrando os passos da resolução.
A versatilidade do GPT-4 Vision se estende a tarefas mais complexas:
Conversão para JSON: McKay Wrigley novamente demonstrou como o GPT-4 Vision pode analisar uma imagem de alimentos e convertê-la em código JSON, identificando cada fruta e estimando suas informações nutricionais (calorias, carboidratos, gorduras, proteínas).
Compreensão de Esquemas Eletrônicos: Marco Mascorro mostrou o GPT-4 Vision explicando um esquema eletrônico de um design Arduino, detalhando cada componente e suas interconexões.
Interpretação Cinematográfica: Em outro exemplo de McKay Wrigley, o GPT-4 Vision analisou um diagrama inicial de Christopher Nolan para o filme A Origem (Inception). Surpreendentemente, mesmo sem a palavra “Inception” no diagrama, a IA identificou corretamente que se tratava de uma representação dos níveis de sonho e da progressão de eventos do filme.
Pietro Schirano também explorou o uso do GPT-4 Vision para design de interiores. Ao carregar a foto de um cômodo e perguntar como melhorá-lo, o ChatGPT ofereceu sugestões detalhadas sobre cores, iluminação em camadas, plantas, arte, tapetes, armazenamento, disposição dos móveis, espelhos e tratamentos para janelas.
Apesar de impressionante, o GPT-4 Vision ainda tem suas limitações. Matt Wolfe realizou alguns testes próprios:
Identificação de Objetos: Ao enviar uma foto de sua sala de estar, o GPT-4 Vision identificou corretamente a maioria dos itens, como televisão (notando que estava desligada), centro de entretenimento de madeira, quadros, mesa de centro e um cacto. No entanto, confundiu um recinto de tartaruga com uma caixa de joias e não identificou um letreiro “Home”.
Leitura de Horas: Em um teste com a foto de um relógio, o GPT-4 Vision inicialmente errou a hora, informando 1:54 quando era aproximadamente 5:34. Após ser corrigido, pediu desculpas e informou 1:52, ainda incorreto. Somente após o usuário informar a hora correta (5:34), o modelo concordou.
Para aqueles que não têm acesso ao GPT-4 Plus ou buscam alternativas de código aberto, existe o LLaVA (Large Language and Vision Assistant). Este modelo, disponível no GitHub, também permite o upload de imagens e interação via chat.
Nos testes comparativos de Matt Wolfe:
Sala de Estar: O LLaVA foi menos detalhado que o GPT-4 Vision e chegou a inventar itens que não estavam na imagem, como livros e um controle remoto.
Relógio: O LLaVA também não conseguiu ler a hora corretamente, informando 12:16.
Meme do Elmo: A interpretação do LLaVA foi mais literal, focando no Elmo como personagem e no antisséptico, sem capturar a nuance do humor como o GPT-4 Vision fez.
Identificação de Locais: Para a imagem do Lago Moraine, o LLaVA identificou corretamente as Montanhas Rochosas Canadenses, mas não o lago ou parque específico. Para a imagem de San Diego, identificou a cidade, o estádio de beisebol e o centro, mas com menos detalhes que o GPT-4 Vision.
Identificação de Árvores: Enquanto o GPT-4 Vision identificou corretamente um carvalho e um pinheiro Ponderosa, o LLaVA apenas os descreveu como “pinheiro alto”.
Embora o LLaVA ainda não atinja o nível de precisão do GPT-4 Vision, é uma alternativa promissora e, por ser de código aberto, tende a evoluir rapidamente com a contribuição da comunidade.
O verdadeiro potencial do GPT-4 Vision e de tecnologias similares provavelmente será mais evidente no uso móvel. A capacidade de tirar uma foto com o celular e obter informações contextuais ou realizar tarefas complexas em tempo real é transformadora. Imagine estar em uma trilha e identificar uma planta desconhecida, ou estar em um mercado e obter informações nutricionais instantâneas de um produto apenas apontando a câmera.
A combinação da visão computacional com a fala e a audição nos aplicativos móveis do ChatGPT cria um assistente pessoal incrivelmente poderoso e intuitivo. Estamos apenas começando a arranhar a superfície do que será possível com esses modelos multimodais.
O GPT-4 Vision da OpenAI marca um ponto de inflexão na inteligência artificial, tornando-a mais interativa e consciente do mundo visual. Os casos de uso são vastos e continuam a emergir à medida que mais pessoas exploram suas capacidades. Embora alternativas como o LLaVA ainda estejam em desenvolvimento, o progresso no campo da IA multimodal é acelerado.
Estamos entrando em uma era onde a IA não apenas entende texto, mas também o mundo ao nosso redor através de imagens, sons e interações de voz. O futuro da IA é, sem dúvida, multimodal, e o GPT-4 Vision está na vanguarda dessa revolução.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.