O cenário da inteligência artificial está prestes a testemunhar um novo divisor de águas com o iminente lançamento do DeepSeek R2, o mais recente modelo de raciocínio da DeepSeek. Esta startup chinesa, que já abalou o mercado com seu antecessor, o DeepSeek R1, promete elevar ainda mais o patamar da IA de código aberto, desafiando gigantes e redefinindo o conceito de custo-benefício.
Recentemente, a equipe de pesquisa da DeepSeek promoveu a "OpenSource Week", um evento que marcou o lançamento de cinco repositórios de código aberto. Essas ferramentas não são meros projetos isolados, mas sim blocos construtivos fundamentais para o avanço de seus produtos de IA, incluindo o aguardado R2. O objetivo é claro: melhorar o desenvolvimento, desempenho, escalabilidade e eficiência dos seus modelos.
Um dos destaques foi o FlashMLA, um kernel de decodificação MLA (Multihead Latent Attention) eficiente, otimizado para GPUs Hopper. Conforme detalhado pela DeepSeek, esta ferramenta é crucial para uma geração de texto mais rápida, um componente essencial em modelos de linguagem avançados.
Outra ferramenta notável é o DeepEP, uma biblioteca de comunicação EP (Expert Parallelism) de código aberto. Ela é projetada para o treinamento e inferência de modelos MoE (Mixture-of-Experts), como o DeepSeek V3 e o próprio DeepSeek R1, facilitando a comunicação otimizada entre diferentes "especialistas" dentro do modelo.
Completando o trio de ferramentas principais, o DeepGEMM é uma biblioteca para multiplicações de matrizes gerais (GEMM) utilizando FP8. Esta inovação permite operações matemáticas mais eficientes, essenciais para o treinamento e inferência de modelos complexos como o V3 e o R1, reduzindo a carga computacional.
Para entender a expectativa em torno do R2, é preciso recordar o impacto do DeepSeek R1. Lançado no mês anterior, este modelo de raciocínio de código aberto não apenas se equiparou, mas em muitos benchmarks, superou modelos proprietários de grandes players como OpenAI e Anthropic, incluindo o Claude 3.5 Sonnet.
O DeepSeek R1 demonstrou uma capacidade de raciocínio e codificação impressionante, rivalizando com modelos muito mais caros. De acordo com os benchmarks apresentados, o R1 obteve pontuações superiores em diversas métricas, como MMLU e codificação, mesmo sendo construído com chips Nvidia menos potentes e oferecido a um custo significativamente menor.
A chegada do DeepSeek R1 foi tão significativa que, segundo relatos da Reuters, desencadeou uma liquidação de mais de 1 trilhão de dólares nos mercados de ações globais. Este evento sublinhou a sensibilidade do mercado às disrupções no campo da IA e o potencial de startups inovadoras para desafiar o status quo.
Com o sucesso do R1, as atenções se voltam para o DeepSeek R2. Este novo modelo é uma atualização direta, prometendo capacidades ainda mais avançadas de raciocínio e um desempenho superior.
Espera-se que o DeepSeek R2 não apenas melhore as já impressionantes capacidades de seu predecessor, mas também expanda seu alcance. A DeepSeek está focada em aprimorar a codificação e o raciocínio em múltiplos idiomas além do inglês, com o objetivo de tornar o modelo mais acessível globalmente. A Reuters reportou que, embora inicialmente previsto para maio, o lançamento do R2 pode ser antecipado para as próximas semanas, possivelmente após o festival Qingming na China, em meados de abril.
A expectativa é que o DeepSeek R2 possa estar no mesmo nível ou até superar os modelos O3 da OpenAI, como o O3 Full ou O3 High. Se concretizado, isso representaria um marco, solidificando a posição da DeepSeek como uma força disruptiva no mercado de IA, oferecendo desempenho de ponta de forma aberta e acessível.
A estratégia de precificação agressiva da DeepSeek com o R1, sendo de 20 a 40 vezes mais barato que modelos equivalentes da OpenAI, segundo analistas da Bernstein, sugere que o R2 seguirá uma linha semelhante. Isso tem o potencial de democratizar o acesso a modelos de IA de alta capacidade, quebrando o domínio de poucas empresas e fomentando a inovação em uma escala mais ampla.
O rápido avanço da DeepSeek não é acidental. Ele se baseia em uma combinação de investimentos estratégicos, arquiteturas inovadoras e um ambiente que fomenta o desenvolvimento ágil.
No cerne do sucesso da DeepSeek está um investimento massivo em recursos computacionais. Sua empresa-mãe, High-Flyer, canalizou capital significativo para a construção de clusters de supercomputação de última geração, como o FireFlyer, que abriga milhares de chips Nvidia A100. Isso permitiu à DeepSeek experimentar em larga escala e otimizar seus modelos. Além disso, a empresa foca em arquiteturas como Mixture-of-Experts (MoE) e Multihead Latent Attention (MLA), que não só reduzem a sobrecarga computacional, mas também melhoram o desempenho geral.
A ascensão da DeepSeek também está inserida no contexto do forte impulso da China para liderar em inteligência artificial. Com o apoio governamental e um ecossistema vibrante, startups como a DeepSeek encontraram terreno fértil para inovar e competir globalmente. Embora haja escrutínio regulatório, como o interesse dos reguladores de segurança chineses pela grande aquisição de chips, a empresa parece ter navegado bem essas águas, focando em arquiteturas de IA mais eficientes em termos de custo.
O lançamento iminente do DeepSeek R2 é um evento altamente antecipado que pode redefinir as expectativas para modelos de IA de raciocínio. Com uma base sólida construída sobre o sucesso do R1 e o lançamento de ferramentas de código aberto poderosas, a DeepSeek está posicionada para continuar sua trajetória de inovação e disrupção, tornando a inteligência artificial avançada mais acessível e eficiente para todos.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.