Recentemente, o mundo da tecnologia foi surpreendido por um novo protagonista na arena da inteligência artificial: o DeepSeek. Este modelo de IA não apenas ganhou as manchetes, mas também provocou ondas de choque no mercado financeiro, tornou-se o aplicativo mais baixado na App Store e o principal aplicativo de produtividade na Google Play Store. Sua popularidade chegou a superar o ChatGPT em volume de buscas no Google. Mas o que exatamente é o DeepSeek e por que ele causou um rebuliço global tão significativo?
Este artigo visa desmistificar muitas das informações que circulam sobre o DeepSeek, explorar sua origem, suas capacidades e o impacto profundo que ele representa para o futuro da IA, especialmente no que tange ao debate entre código aberto e modelos proprietários.
Contrariando a imagem de um projeto monumental, o DeepSeek nasceu como uma iniciativa secundária de um fundo de hedge quantitativo chinês. A empresa, focada em negociações quantitativas, já possuía uma vasta infraestrutura de GPUs. Decidiu, então, como projeto paralelo, utilizar esses recursos para treinar e testar seus próprios modelos de IA. Com menos de 200 funcionários – um número ínfimo comparado aos mais de 5000 da OpenAI – e um orçamento de treinamento para o DeepSeek R1 estimado entre 5 a 6 milhões de dólares, a ascensão do DeepSeek é um testemunho de inovação e eficiência.
É interessante notar que, apesar de ser uma empresa chinesa e, portanto, sujeita a restrições no uso das GPUs mais avançadas como as Nvidia H100, o DeepSeek conseguiu resultados impressionantes. Isso desafia a noção de que apenas o poder computacional bruto, um dos pilares das leis de escalabilidade em IA, define o sucesso de um modelo.
A narrativa do DeepSeek é um clássico conto de Davi contra Golias. Uma empresa menor, com recursos limitados, desafiando um gigante da indústria. O vídeo de Two Minute Papers destaca como o DeepSeek R1 superou o modelo O1 da OpenAI em diversas métricas de benchmark, um feito notável considerando que o O1 é considerado de nível PhD.
Essa façanha é ainda mais significativa quando consideramos os comentários de Sam Altman, CEO da OpenAI, que anteriormente havia expressado ser "totalmente sem esperança" para startups competirem com a OpenAI no treinamento de modelos fundacionais devido aos custos e recursos envolvidos. O DeepSeek provou o contrário, demonstrando que arquiteturas mais inteligentes e otimização podem compensar, até certo ponto, a disparidade de recursos.
Uma curiosidade mencionada no vídeo é a confusão em torno da imagem do CEO do DeepSeek, Liang Wenfeng. A foto amplamente divulgada, na verdade, não é dele, mas de outro indivíduo chinês com o mesmo nome. O verdadeiro Liang Wenfeng é mais discreto, com poucas imagens públicas disponíveis. Essa pequena confusão ressalta como a informação pode ser distorcida na era digital.
Um dos aspectos mais revolucionários do DeepSeek é sua decisão de disponibilizar seus modelos como open-weights (pesos abertos), efetivamente tornando-os open source para muitos propósitos. Isso significa que qualquer pessoa pode baixar uma cópia do DeepSeek e executá-la em seus próprios servidores ou dispositivos offline. Yann LeCun, cientista-chefe de IA da Meta, comentou que "modelos open source estão superando os proprietários", e Marc Andreessen, cofundador da Andreessen Horowitz, descreveu o DeepSeek R1 como "um dos avanços mais incríveis e impressionantes que já vi — e como open source, um presente profundo para o mundo".
Essa abordagem contrasta fortemente com a da OpenAI, cujos modelos mais poderosos são de código fechado. A abertura do DeepSeek democratiza o acesso à IA de ponta, permitindo que a comunidade global contribua e se beneficie. Liang Wenfeng, em uma entrevista, afirmou que "open source é mais um comportamento cultural do que comercial, e contribuir para ele nos rende respeito".
Uma característica distintiva do DeepSeek é o seu modo "DeepThink (R1)", que permite aos usuários visualizar o processo de pensamento do modelo enquanto ele formula uma resposta. O vídeo demonstra isso com exemplos fascinantes:
Essa transparência no processo de raciocínio não é apenas intrigante, mas também crucial para entender e confiar nas decisões da IA, especialmente em aplicações críticas. O modelo demonstra um comportamento emergente, não pré-programado, aprendendo através de reforço.
O surgimento do DeepSeek e sua abordagem de treinamento, particularmente o conceito de IA treinando outra IA (usando dados sintéticos de alta qualidade do R1 Zero para treinar o R1), acelera significativamente o progresso em direção à Inteligência Artificial Geral (AGI). Como mencionado por pesquisadores, "nada é codificado; tudo é emergente, aprendido através do aprendizado por reforço".
Se essa metodologia de uma IA refinar e treinar a próxima geração for escalada com mais poder computacional, poderemos ver avanços exponenciais na inteligência dos modelos. Empresas como OpenAI, X (anteriormente Twitter) e Meta já estão, sem dúvida, explorando essas técnicas, potencialmente combinando-as com avanços como o Titans do Google, que confere memória e aprendizado contínuo aos modelos.
A filosofia do DeepSeek, focada em alcançar a AGI e compartilhar suas inovações, representa uma mudança cultural significativa. A decisão de não buscar financiamento no curto prazo e de priorizar um ecossistema técnico forte em detrimento de lucros imediatos, como afirmado por Liang Wenfeng, pode redefinir a corrida pela IA.
Em resumo, o DeepSeek não é apenas um novo modelo de IA; é um catalisador que está desafiando as convenções, democratizando o acesso à tecnologia de ponta e, potencialmente, acelerando nossa jornada em direção a um futuro onde a inteligência artificial geral seja uma realidade. A sua abordagem inovadora e a sua filosofia open source prometem manter o campo da IA vibrante e em rápida evolução.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.