Impactante Avanço Chinês em IA: DeepSeek Desafia Gigantes da Tecnologia e Agita o Mercado
O mundo da tecnologia foi recentemente abalado por um novo avanço em inteligência artificial (IA) vindo da China: o DeepSeek. Este desenvolvimento não apenas capturou a atenção de especialistas e entusiastas, mas também provocou ondas de choque no mercado financeiro, sinalizando uma potencial reconfiguração na corrida pela supremacia em IA.
Notícias como a reportagem da CNN Business, intitulada "Um chocante avanço chinês em IA chamado DeepSeek está fazendo as ações dos EUA despencarem", ilustram a magnitude do impacto. De fato, empresas como a Nvidia viram suas ações sofrerem uma queda significativa, com uma perda de 17% em valor de mercado (aproximadamente US$ 465 bilhões) atribuída ao lançamento do DeepSeek, conforme apontado por Lior (@LiorOnAI), um influente pesquisador de IA. Em contraste, figuras proeminentes do Vale do Silício, como Marc Andreessen, cofundador da Andreessen Horowitz, exaltaram o DeepSeek R1 como "uma das mais incríveis e impressionantes inovações que já vi — e como código aberto, um profundo presente para o mundo".
Este artigo visa desmistificar o DeepSeek, explorando sua tecnologia, o porquê de sua repercussão no mercado, as especulações em torno de seu desenvolvimento e suas implicações futuras, além de orientar sobre como acessá-lo.
O Que é DeepSeek? Uma Visão Geral da Nova Potência em IA da China
Para compreender o burburinho em torno do DeepSeek R1, é crucial revisitar seu predecessor, o DeepSeek-V3, detalhado em um relatório técnico de dezembro de 2024. Esta versão já demonstrava a proeza da equipe por trás do projeto.
A Surpreendente Eficiência do DeepSeek-V3
O DeepSeek-V3 é um robusto modelo de linguagem grande (LLM) que utiliza uma arquitetura de Mistura de Especialistas (MoE). Com um total de 671 bilhões de parâmetros, ele inteligentemente ativa apenas 37 bilhões para cada token processado, otimizando o uso de recursos. Foi treinado em um vasto conjunto de 14,8 trilhões de tokens de dados diversos e de alta qualidade.
Um dos aspectos mais notáveis do DeepSeek-V3, destacado em seu relatório técnico, é sua eficiência computacional: "Apesar de seu excelente desempenho, o DeepSeek-V3 requer apenas 2,788 milhões de horas de GPU H800 para seu treinamento completo". Em comparação, o treinamento do GPT-4 da OpenAI demandou aproximadamente 60 milhões de horas de GPU, utilizando cerca de 25.000 GPUs Nvidia A100. É importante notar que o DeepSeek-V3 utilizou GPUs H800, uma versão adaptada pela Nvidia para o mercado chinês devido a restrições de exportação dos EUA sobre os modelos A100/H100, mais potentes. Mesmo com hardware teoricamente inferior, o DeepSeek-V3 alcançou um treinamento cerca de 95% mais rápido.
Em termos de desempenho, o DeepSeek-V3 demonstrou resultados comparáveis ao GPT-4o e ao Claude 3.5 Sonnet da Anthropic em diversos benchmarks, como MMLU-Pro, MATH 500, Codeforces e SWE-bench Verified, superando o GPT-4o em matemática e igualando o Claude no MMLU. Além disso, o DeepSeek-V3 foi disponibilizado como código aberto, um diferencial significativo no setor.
DeepSeek-R1: A Revolução no Raciocínio e o Impacto Imediato
O verdadeiro catalisador da recente agitação foi o lançamento do DeepSeek-R1, apresentado em um novo artigo de pesquisa intitulado "DeepSeek-R1: Incentivando a Capacidade de Raciocínio em LLMs via Aprendizado por Reforço". Este modelo utiliza o DeepSeek-V3 como base, mas introduz uma inovadora metodologia de fine-tuning.
O DeepSeek-R1-Zero, uma variante do R1, foi treinado através de aprendizado por reforço (RL) em larga escala, notavelmente *sem* a etapa preliminar de fine-tuning supervisionado (SFT). Essa abordagem permitiu que o modelo desenvolvesse capacidades de raciocínio notáveis, emergindo, segundo os pesquisadores, com "numerosos comportamentos de raciocínio poderosos e intrigantes". Uma característica distintiva é o uso de Cadeia de Pensamento (Chain-of-Thought - CoT) no momento da inferência, onde o modelo expõe seu processo de raciocínio e pode até mesmo se autocorrigir. O template de treinamento exige que o DeepSeek-R1-Zero produza primeiro um processo de raciocínio, seguido pela resposta final.
Nos benchmarks, o DeepSeek-R1 demonstrou um desempenho que rivaliza ou supera o OpenAI O1-1217 (o mais recente modelo fechado da OpenAI na época da comparação) em diversas tarefas. O fato de um modelo de código aberto alcançar tal paridade com um modelo proprietário de ponta, e com um custo computacional alegadamente menor, é o cerne da disrupção.
Por Que o Mercado de Ações Reagiu Fortemente ao DeepSeek?
A principal razão para a turbulência no mercado, especialmente a queda nas ações da Nvidia, reside na percepção de que o DeepSeek pode alterar fundamentalmente a economia do desenvolvimento de IA. Se modelos de ponta podem ser treinados com significativamente menos recursos computacionais (a DeepSeek alega cerca de 5% do tempo e custo, utilizando GPUs menos potentes), a demanda por GPUs de última geração, um mercado dominado pela Nvidia, poderia ser impactada. A perspectiva de que o hardware de IA se torne uma commodity menos diferenciada assustou investidores.
Especulações, Controvérsias e o Futuro do DeepSeek
Como toda grande inovação, o DeepSeek não está isento de especulações e ceticismo.
DeepSeek: Um "Projeto Paralelo" ou Estratégia Deliberada?
Han Xiao (@hXiao), CEO da JinaAI, sugeriu em uma postagem no X que o DeepSeek seria um projeto paralelo da 幻方量化 (High-Flyer), uma empresa de finanças quantitativas que possuía um grande volume de GPUs para suas operações de trading e mineração de criptomoedas e decidiu aproveitá-las. Ele chegou a afirmar que "ninguém, nem mesmo na China, os leva a sério". Esta perspectiva, se verdadeira, tornaria os feitos do DeepSeek ainda mais impressionantes.
Dúvidas Sobre o Custo Real de Treinamento do DeepSeek
Alguns analistas, como os do Citibank, expressaram dúvidas se o DeepSeek realmente alcançou seus resultados sem o uso de chips mais avançados. Alexandr Wang, CEO da Scale AI, especulou que a empresa poderia ter utilizado cerca de 50.000 GPUs Nvidia Hopper (H100s), mais potentes, mas não poderia divulgar essa informação devido aos controles de exportação dos EUA. No Manifold Markets, uma plataforma de mercados de previsão, a probabilidade de o DeepSeek ter omitido informações sobre o número de GPUs usadas no treinamento do V3 foi estimada em 38% na época do vídeo.
O Paradoxo de Jevons e a Demanda por GPUs no Cenário DeepSeek
Em contrapartida, figuras como Satya Nadella, CEO da Microsoft, e Garry Tan, presidente e CEO da Y Combinator, invocaram o Paradoxo de Jevons. Este princípio econômico sugere que, à medida que o uso de um recurso se torna mais eficiente (e, portanto, mais barato), a demanda por esse recurso tende a aumentar, em vez de diminuir. Aplicado à IA, se treinar modelos se tornar mais acessível, mais empresas e desenvolvedores entrarão no campo, potencialmente aumentando a demanda geral por GPUs. Matt Wolfe, o criador do vídeo, também argumenta que, mesmo que seja mais barato treinar modelos de nível O1, as empresas provavelmente usarão ainda mais computação para treinar modelos 10x ou 100x mais poderosos. Além disso, a redução da barreira de entrada pode levar a uma proliferação de modelos de fundação especializados, mantendo a demanda por GPUs.
Como Você Pode Usar o DeepSeek Hoje Mesmo?
Existem várias maneiras de experimentar o DeepSeek:
- Plataforma Web Oficial: Acesse deepseek.com para usar diretamente o DeepSeek-V3 ou o DeepThink (R1). Pode ser necessário um login com conta Google.
- Aplicativo Móvel: O DeepSeek AI Assistant alcançou o posto de aplicativo gratuito número 1 na App Store da Apple, superando o ChatGPT. No entanto, os cadastros podem estar temporariamente limitados ou exigir números de telefone chineses devido a ataques maliciosos.
- GroqCloud: A Groq oferece acesso a uma versão destilada do DeepSeek-R1 baseada no Llama-70B. A infraestrutura da Groq, com suas LPUs (Language Processing Units), proporciona uma velocidade de inferência impressionante.
- LM Studio: Para quem prefere executar modelos localmente, o LM Studio é uma ferramenta gratuita que facilita o download e a execução de diversas versões destiladas do DeepSeek, como o DeepSeek-R1 distill Qwen 14B. Isso permite o uso offline e maior controle sobre a privacidade dos dados.
Indo Além do Texto: DeepSeek Anuncia Janus-Pro-7B para Geração de Imagens
Como se não bastasse a disrupção nos LLMs, a equipe do DeepSeek, no mesmo dia da gravação do vídeo original (27 de janeiro), anunciou o Janus-Pro-7B, um novo modelo multimodal focado em geração de imagens. Este modelo incorpora estratégias de treinamento otimizadas, dados de treinamento expandidos e escalabilidade para tamanhos maiores.
Os benchmarks preliminares indicam que o Janus-Pro-7B supera modelos proeminentes como SDXL, Stable Diffusion 1.5, PixArt-alpha, DALL-E 3, SD3-Medium e Emu3-Gen em tarefas de geração de imagem a partir de texto baseadas em instruções. Isso sugere que a DeepSeek está posicionada para impactar também o campo da geração de mídia por IA.
Conclusão: DeepSeek e o Novo Horizonte da Inteligência Artificial
O surgimento do DeepSeek, particularmente do DeepSeek-R1, representa um marco significativo na evolução da inteligência artificial. Sua capacidade de alcançar desempenho de ponta com maior eficiência computacional e, crucialmente, como um modelo de código aberto, desafia o status quo dominado por modelos proprietários e de alto custo. Embora haja especulações e debates sobre os detalhes de seu desenvolvimento, o impacto é inegável.
A disponibilização dessas tecnologias pode democratizar o acesso à IA de ponta, fomentando a inovação e a competição. Se a tendência de modelos abertos de alta performance e eficiência se consolidar, poderemos ver uma aceleração no desenvolvimento de aplicações de IA em diversos setores. A DeepSeek é, sem dúvida, uma empresa a ser observada de perto, pois seus próximos passos podem continuar a moldar o futuro da inteligência artificial globalmente.