A inteligência artificial (IA) continua a evoluir em um ritmo impressionante, e um dos avanços mais recentes que merece destaque é o Qwen 2.5 VL, um modelo de linguagem visual (VLM) da série Qwen. Este modelo não apenas representa um salto significativo em relação aos seus predecessores, mas também demonstra capacidades que o colocam à frente de gigantes como o GPT-4o da OpenAI, Claude 3.5 Sonnet da Anthropic e Gemini 2.0 Flash do Google DeepMind em diversos benchmarks.
O Qwen 2.5 VL é o mais novo modelo visual emblemático da série Qwen, desenvolvido para oferecer uma compreensão visual e de linguagem multimodal de ponta. Ele é um avanço considerável em relação ao modelo Qwen2 VL anterior, expandindo as fronteiras do que é possível em termos de interação entre humanos e máquinas através de informações visuais e textuais. O modelo está disponível como código aberto em diferentes tamanhos, incluindo versões de 3 bilhões (3B), 7 bilhões (7B) e uma impressionante versão de 72 bilhões (72B) de parâmetros, acessíveis através da plataforma Hugging Face e do Qwen Chat.
O grande diferencial do Qwen 2.5 VL reside em sua extraordinária capacidade de processar e entender informações visuais complexas. Ele vai além do simples reconhecimento de objetos, oferecendo uma análise profunda de diversos tipos de conteúdo visual.
O Qwen 2.5 VL demonstra excelência na interpretação de documentos e diagramas, uma tarefa que muitas vezes exige um alto nível de abstração e compreensão contextual. Ele é capaz de analisar textos, gráficos, ícones e layouts dentro de imagens sem a necessidade de um ajuste fino específico para cada tarefa, o que o torna uma ferramenta versátil para diversas aplicações, como análise de relatórios e extração de dados de documentos escaneados.
Uma das aplicações mais promissoras do Qwen 2.5 VL é sua funcionalidade como um agente visual. Isso significa que ele pode interagir e executar tarefas em interfaces de computador e dispositivos móveis. O modelo pode compreender vídeos longos (com mais de uma hora de duração), identificando segmentos relevantes e eventos chave. Além disso, sua capacidade de localização visual precisa permite identificar objetos em uma imagem com caixas delimitadoras (bounding boxes) e fornecer coordenadas, servindo como uma base sólida para o raciocínio visual.
O Qwen 2.5 VL possui capacidades de Reconhecimento Óptico de Caracteres (OCR) aprimoradas. Ele consegue lidar com cenários complexos, multilíngues e com múltiplas orientações de texto, superando desafios comuns em OCR e extraindo informações textuais de imagens com alta precisão. Isso é particularmente útil em áreas como revisão de qualificações e negócios financeiros, onde a extração inteligente de dados é crucial.
O modelo foi projetado com um formato exclusivo de análise de documentos chamado QwenVL.HTML, que extrai informações de layout baseadas em HTML. Isso permite que o Qwen 2.5 VL realize a análise de documentos em diversos cenários, como revistas, artigos de pesquisa, páginas da web e até mesmo capturas de tela de dispositivos móveis.
A performance do Qwen 2.5 VL, especialmente a versão de 72B, é notável quando comparada com outros modelos de IA de ponta. Em diversas avaliações, ele supera ou iguala modelos como o GPT-4o, Claude 3.5 Sonnet e Gemini 2.0 Flash.
De acordo com as tabelas de avaliação de desempenho apresentadas, o Qwen 2.5 VL 72B se destaca em tarefas como:
É importante notar que, embora o Gemini 2.0 Flash apresente resultados ligeiramente melhores em alguns benchmarks específicos como o MMMU, o Qwen 2.5 VL geralmente o supera na maioria dos outros testes, consolidando sua posição como um dos VLMs mais poderosos disponíveis atualmente.
As capacidades avançadas do Qwen 2.5 VL abrem um leque de aplicações práticas em diversas áreas.
Uma das demonstrações mais impactantes é a integração do Qwen 2.5 VL com frameworks de automação web, como o Browser Use. O Browser Use é uma ferramenta de código aberto que permite que agentes de IA controlem navegadores web. Ao combinar a compreensão visual do Qwen 2.5 VL com a capacidade de interação do Browser Use, é possível automatizar tarefas complexas baseadas na web com uma precisão impressionante. Por exemplo, o modelo pode ser instruído a navegar até um site específico, realizar buscas, identificar elementos na página e extrair informações, tudo de forma autônoma. No vídeo demonstrativo, o agente foi capaz de ir ao YouTube, pesquisar pelo canal "World of AI" e encontrar o vídeo mais popular, uma tarefa que exige compreensão visual e capacidade de navegação.
O Qwen 2.5 VL está disponível como um modelo de código aberto, com suas versões base e de instrução em três tamanhos diferentes (3B, 7B e 72B) acessíveis através do Hugging Face. Além disso, a versão Qwen2.5-VL-72B-Instruct pode ser acessada e testada através do Qwen Chat, o chatbot da plataforma. Para desenvolvedores que desejam integrar o modelo localmente, a Qwen também disponibiliza um servidor de API compatível com OpenAI, facilitando a incorporação de suas capacidades em aplicações personalizadas.
O Qwen 2.5 VL representa um marco na evolução dos modelos de linguagem visual. Sua performance robusta em benchmarks, superando frequentemente modelos proprietários de grandes empresas, juntamente com sua natureza de código aberto, o torna uma ferramenta extremamente valiosa para pesquisadores, desenvolvedores e empresas. As capacidades de compreensão de documentos, atuação como agente visual e automação de tarefas web demonstram o imenso potencial do Qwen 2.5 VL para transformar a maneira como interagimos com informações visuais e digitais. À medida que a comunidade de IA explora e constrói sobre essa base poderosa, podemos esperar aplicações ainda mais inovadoras e impactantes no futuro próximo.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.