Inteligência Artificial

Qwen 2.5 VL: A Revolução da IA Visual que Supera GPT-4o e Gemini em Tarefas Complexas

Xavier

06 Jun 2025 • 4 min read

A inteligência artificial (IA) continua a evoluir em um ritmo impressionante, e um dos avanços mais recentes que merece destaque é o Qwen 2.5 VL, um modelo de linguagem visual (VLM) da série Qwen. Este modelo não apenas representa um salto significativo em relação aos seus predecessores, mas também demonstra capacidades que o colocam à frente de gigantes como o GPT-4o da OpenAI, Claude 3.5 Sonnet da Anthropic e Gemini 2.0 Flash do Google DeepMind em diversos benchmarks.

O que é o Qwen 2.5 VL?

O Qwen 2.5 VL é o mais novo modelo visual emblemático da série Qwen, desenvolvido para oferecer uma compreensão visual e de linguagem multimodal de ponta. Ele é um avanço considerável em relação ao modelo Qwen2 VL anterior, expandindo as fronteiras do que é possível em termos de interação entre humanos e máquinas através de informações visuais e textuais. O modelo está disponível como código aberto em diferentes tamanhos, incluindo versões de 3 bilhões (3B), 7 bilhões (7B) e uma impressionante versão de 72 bilhões (72B) de parâmetros, acessíveis através da plataforma Hugging Face e do Qwen Chat.

Capacidades Visuais Excepcionais do Qwen 2.5 VL

O grande diferencial do Qwen 2.5 VL reside em sua extraordinária capacidade de processar e entender informações visuais complexas. Ele vai além do simples reconhecimento de objetos, oferecendo uma análise profunda de diversos tipos de conteúdo visual.

Compreensão de Documentos e Diagramas com Qwen 2.5 VL

O Qwen 2.5 VL demonstra excelência na interpretação de documentos e diagramas, uma tarefa que muitas vezes exige um alto nível de abstração e compreensão contextual. Ele é capaz de analisar textos, gráficos, ícones e layouts dentro de imagens sem a necessidade de um ajuste fino específico para cada tarefa, o que o torna uma ferramenta versátil para diversas aplicações, como análise de relatórios e extração de dados de documentos escaneados.

Qwen 2.5 VL como Agente Visual Inteligente

Uma das aplicações mais promissoras do Qwen 2.5 VL é sua funcionalidade como um agente visual. Isso significa que ele pode interagir e executar tarefas em interfaces de computador e dispositivos móveis. O modelo pode compreender vídeos longos (com mais de uma hora de duração), identificando segmentos relevantes e eventos chave. Além disso, sua capacidade de localização visual precisa permite identificar objetos em uma imagem com caixas delimitadoras (bounding boxes) e fornecer coordenadas, servindo como uma base sólida para o raciocínio visual.

Reconhecimento Aprimorado de Texto (OCR) com Qwen 2.5 VL

O Qwen 2.5 VL possui capacidades de Reconhecimento Óptico de Caracteres (OCR) aprimoradas. Ele consegue lidar com cenários complexos, multilíngues e com múltiplas orientações de texto, superando desafios comuns em OCR e extraindo informações textuais de imagens com alta precisão. Isso é particularmente útil em áreas como revisão de qualificações e negócios financeiros, onde a extração inteligente de dados é crucial.

Análise Poderosa de Documentos HTML com Qwen 2.5 VL

O modelo foi projetado com um formato exclusivo de análise de documentos chamado QwenVL.HTML, que extrai informações de layout baseadas em HTML. Isso permite que o Qwen 2.5 VL realize a análise de documentos em diversos cenários, como revistas, artigos de pesquisa, páginas da web e até mesmo capturas de tela de dispositivos móveis.

Desempenho do Qwen 2.5 VL em Benchmarks

A performance do Qwen 2.5 VL, especialmente a versão de 72B, é notável quando comparada com outros modelos de IA de ponta. Em diversas avaliações, ele supera ou iguala modelos como o GPT-4o, Claude 3.5 Sonnet e Gemini 2.0 Flash.

De acordo com as tabelas de avaliação de desempenho apresentadas, o Qwen 2.5 VL 72B se destaca em tarefas como:

Problemas de Nível Universitário (MMMU, MMMU Pro, DocVQA): Apresentando scores competitivos e, em alguns casos, superiores aos concorrentes.
Leitura de Documentos e Diagramas (InfoVQA, CC-OCR, OCRBenchV2): Consistentemente demonstrando alta performance.
Resposta a Perguntas Visuais Gerais (MegaBench, MMStar, MMBench1.1): Mantendo um desempenho robusto.
Matemática (MathVista, MathVision): Mostrando forte capacidade de resolução de problemas matemáticos baseados em visual.
Compreensão de Vídeo (VideoMME, MMBench-Video, LVBench, CharadesSTA): Superando modelos como GPT-4o e Claude 3.5 Sonnet em alguns desses benchmarks.
Agente Visual (AITW, Android Control, ScreenSpot, ScreenSpot Pro, AndroidWorld, OSWorld): Exibindo performance superior em tarefas de controle e interação com interfaces.

É importante notar que, embora o Gemini 2.0 Flash apresente resultados ligeiramente melhores em alguns benchmarks específicos como o MMMU, o Qwen 2.5 VL geralmente o supera na maioria dos outros testes, consolidando sua posição como um dos VLMs mais poderosos disponíveis atualmente.

Aplicações Práticas do Qwen 2.5 VL

As capacidades avançadas do Qwen 2.5 VL abrem um leque de aplicações práticas em diversas áreas.

Automatizando Tarefas com Qwen 2.5 VL e Browser Use

Uma das demonstrações mais impactantes é a integração do Qwen 2.5 VL com frameworks de automação web, como o Browser Use. O Browser Use é uma ferramenta de código aberto que permite que agentes de IA controlem navegadores web. Ao combinar a compreensão visual do Qwen 2.5 VL com a capacidade de interação do Browser Use, é possível automatizar tarefas complexas baseadas na web com uma precisão impressionante. Por exemplo, o modelo pode ser instruído a navegar até um site específico, realizar buscas, identificar elementos na página e extrair informações, tudo de forma autônoma. No vídeo demonstrativo, o agente foi capaz de ir ao YouTube, pesquisar pelo canal "World of AI" e encontrar o vídeo mais popular, uma tarefa que exige compreensão visual e capacidade de navegação.

Acesso e Disponibilidade do Qwen 2.5 VL

O Qwen 2.5 VL está disponível como um modelo de código aberto, com suas versões base e de instrução em três tamanhos diferentes (3B, 7B e 72B) acessíveis através do Hugging Face. Além disso, a versão Qwen2.5-VL-72B-Instruct pode ser acessada e testada através do Qwen Chat, o chatbot da plataforma. Para desenvolvedores que desejam integrar o modelo localmente, a Qwen também disponibiliza um servidor de API compatível com OpenAI, facilitando a incorporação de suas capacidades em aplicações personalizadas.

Conclusão sobre o Qwen 2.5 VL

O Qwen 2.5 VL representa um marco na evolução dos modelos de linguagem visual. Sua performance robusta em benchmarks, superando frequentemente modelos proprietários de grandes empresas, juntamente com sua natureza de código aberto, o torna uma ferramenta extremamente valiosa para pesquisadores, desenvolvedores e empresas. As capacidades de compreensão de documentos, atuação como agente visual e automação de tarefas web demonstram o imenso potencial do Qwen 2.5 VL para transformar a maneira como interagimos com informações visuais e digitais. À medida que a comunidade de IA explora e constrói sobre essa base poderosa, podemos esperar aplicações ainda mais inovadoras e impactantes no futuro próximo.