O Google acaba de lançar uma atualização significativa para sua família de modelos de inteligência artificial: o Gemini 2.5 Flash. Anunciado no Google for Developers Blog em um artigo de Tulsee Doshi, Diretora de Gerenciamento de Produto do Gemini, este novo modelo promete combinar alto desempenho com velocidade e um custo surpreendentemente acessível, especialmente para desenvolvedores.
O Gemini 2.5 Flash está atualmente em modo de pré-visualização e pode ser acessado através da API Gemini no Google AI Studio ou no Vertex AI. Conforme demonstrado no vídeo de Julian Goldie, que explora detalhadamente o lançamento, o modelo foi projetado para ser uma atualização substancial em relação às versões anteriores, especialmente o 2.0 Flash, focando em capacidades de raciocínio aprimoradas, velocidade e otimização de custos.
Desenvolvedores podem começar a construir com o Gemini 2.5 Flash imediatamente. A integração com o Google AI Studio permite um uso gratuito de até 1 milhão de tokens, o que é uma excelente notícia para experimentação e desenvolvimento de projetos menores. Para aplicações em maior escala, a API está disponível através de plataformas como OpenRouter.ai, onde os custos são notavelmente competitivos.
Uma característica distintiva do Gemini 2.5 Flash é seu "modelo de pensamento". Isso significa que o modelo é capaz de raciocinar sobre suas tarefas antes de responder. No entanto, essa funcionalidade pode ser desativada, permitindo que os desenvolvedores otimizem o equilíbrio entre qualidade, custo e latência, dependendo da complexidade da tarefa. Como o artigo do Google Developers Blog menciona, mesmo com o pensamento desligado, os desenvolvedores podem manter as altas velocidades do 2.0 Flash e melhorar o desempenho.
O aspecto financeiro é um dos grandes atrativos do Gemini 2.5 Flash. Ele se posiciona como uma opção extremamente econômica, especialmente quando comparado a outros modelos de ponta no mercado.
Utilizando a API via OpenRouter.ai, o Gemini 2.5 Flash (preview) apresenta os seguintes custos:
Esses valores são significativamente inferiores aos de modelos como o Claude 3.5 Sonnet, que, segundo Julian Goldie, pode custar cerca de $3 por milhão de tokens para input e $15 para output. O próprio Gemini 2.0 Flash (não-pensante) tem um custo de input de $0.10 e output de $0.40, mostrando que o novo 2.5 Flash com raciocínio ainda é muito competitivo.
Para quem deseja testar o Gemini 2.5 Flash sem custos iniciais, o Google AI Studio oferece uma cota gratuita de 1 milhão de tokens. Julian Goldie demonstrou em seu vídeo que, mesmo sem inserir dados de faturamento, é possível utilizar o modelo dentro dessa plataforma, o que facilita a exploração de suas capacidades.
Apesar do custo reduzido, o Gemini 2.5 Flash não economiza em desempenho. De acordo com o Google, ele oferece uma melhoria considerável nas capacidades de raciocínio.
O modelo se destaca em tarefas complexas que exigem múltiplos passos de raciocínio, como resolver problemas matemáticos ou analisar questões de pesquisa. O processo de pensamento permite que o modelo chegue a respostas mais precisas e abrangentes. Em benchmarks como o LMArena (Chatbot Arena Leaderboard), o Gemini 2.5 Flash performa fortemente em "Hard Prompts", ficando atrás apenas do Gemini 2.5 Pro. Em testes de matemática (AIME 2025), ele supera modelos como Claude 3.7 Sonnet e Grok 3 Beta.
Uma inovação interessante é o "orçamento de pensamento". Isso permite que os desenvolvedores tenham um controle mais granular sobre o número máximo de tokens que o modelo pode gerar enquanto pensa. Um orçamento maior permite que o modelo raciocine mais profundamente para melhorar a qualidade, enquanto um orçamento menor pode ser usado para tarefas mais simples, economizando custos e reduzindo a latência. É possível até mesmo definir o orçamento de pensamento como zero para tarefas que não exigem raciocínio complexo.
Julian Goldie realizou diversos testes práticos com o Gemini 2.5 Flash, tanto no Google AI Studio quanto via API, utilizando ferramentas como Roo Code (uma extensão para Visual Studio Code) e a plataforma Gemini Advanced.
O modelo demonstrou ser capaz de gerar código funcional para diversas aplicações:
Para testar a geração de conteúdo, Julian Goldie utilizou o Gemini Advanced (com Gemini 2.5 Flash) para criar um artigo sobre "Grok AI". O resultado foi um texto de aproximadamente 2200 palavras, que, segundo ferramentas de detecção de IA, apresentou apenas 12.34% de probabilidade de ter sido gerado por IA, indicando uma escrita bastante humanizada.
O Gemini 2.5 Flash se posiciona como uma alternativa de excelente custo-benefício, especialmente para desenvolvedores que precisam de velocidade e economia sem sacrificar demais o desempenho em raciocínio. Ele é significativamente mais barato que o Gemini 2.5 Pro e modelos concorrentes, como o Claude 3.7 Sonnet, para uso via API.
Em um teste de geração de uma landing page para uma calculadora de SEO, Julian Goldie comparou o Gemini 2.5 Flash com o Gemini 2.5 Pro (ambos no Gemini Advanced). Enquanto o Flash produziu uma interface funcional, porém básica, o Pro entregou um design visualmente mais atraente e moderno. Isso sugere que, para tarefas que exigem um apelo visual mais sofisticado, o Gemini 2.5 Pro ainda pode ser a melhor escolha, apesar do custo mais elevado.
O Gemini 2.5 Flash do Google representa um avanço notável na democratização do acesso a modelos de IA poderosos. Seu equilíbrio entre capacidade de raciocínio, velocidade, custo acessível e a flexibilidade do "orçamento de pensamento" o tornam uma ferramenta promissora para uma vasta gama de aplicações, desde a criação de conteúdo e chatbots até o desenvolvimento de jogos e simulações interativas. A disponibilidade em plataformas como Google AI Studio (com cota gratuita) e Vertex AI, além de APIs como a do OpenRouter.ai, facilita a experimentação e a integração em projetos de todos os tamanhos. Embora possa não superar o Gemini 2.5 Pro em todas as métricas, especialmente em design de UI complexo, o Gemini 2.5 Flash certamente se estabelece como um forte concorrente no mercado de IA, principalmente para desenvolvedores que buscam eficiência e economia.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.