A Databricks, empresa conhecida por suas soluções de dados e inteligência artificial, anunciou recentemente o lançamento do Dolly 2.0, um modelo de linguagem grande (LLM) de instrução-ajustada que se destaca por ser o primeiro verdadeiramente open source e licenciado para uso comercial. Esta iniciativa representa um marco significativo na democratização da IA, permitindo que organizações de todos os tamanhos possam criar, possuir e personalizar LLMs poderosos sem depender de APIs de terceiros ou compartilhar seus dados sensíveis.
Conforme detalhado em seu blog oficial, o Dolly 2.0 é um modelo com 12 bilhões de parâmetros, construído sobre a família de modelos EleutherAI Pythia e ajustado com um novo dataset de alta qualidade, totalmente gerado por humanos, chamado databricks-dolly-15k
.
A primeira versão do Dolly, lançada poucas semanas antes do Dolly 2.0, demonstrou que um LLM com interatividade semelhante ao ChatGPT poderia ser treinado por menos de $30. No entanto, o Dolly 1.0 foi treinado utilizando o dataset da equipe Stanford Alpaca, que, por sua vez, continha dados gerados a partir da API da OpenAI. Isso impunha restrições de uso comercial devido aos termos de serviço da OpenAI.
O Dolly 2.0 supera essa limitação crucial. A Databricks investiu na criação de um dataset proprietário, o databricks-dolly-15k
, que não possui as mesmas restrições, abrindo caminho para aplicações comerciais. Essa mudança estratégica é fundamental para empresas que desejam integrar LLMs em seus produtos e serviços sem infringir licenças ou comprometer a propriedade intelectual.
O Dolly 2.0 não é apenas uma versão melhorada; é uma reconstrução pensada para a liberdade e flexibilidade. Sua arquitetura e o processo de treinamento são chaves para entender seu potencial.
A base do Dolly 2.0 é a família de modelos Pythia da EleutherAI, uma organização de pesquisa focada em IA open source. A escolha por um modelo base já aberto reforça o compromisso da Databricks com a transparência e a colaboração comunitária. Os modelos Pythia são conhecidos por sua robustez e por serem treinados em datasets públicos, o que facilita a replicação e a análise por pesquisadores independentes.
databricks-dolly-15k
O diferencial mais significativo do Dolly 2.0 reside em seu dataset de ajuste fino, o databricks-dolly-15k
. Este conjunto de dados contém 15.000 pares de prompt/resposta de alta qualidade, especificamente criados para o ajuste de instrução de modelos de linguagem grandes.
A Databricks identificou que muitos datasets de instrução existentes, como os usados para treinar modelos como Alpaca, Koala, GPT4All e Vicuna, sofriam de limitações para uso comercial devido à sua origem ou licenciamento. Para contornar esse obstáculo, a empresa decidiu criar um dataset completamente novo, "não contaminado" por essas restrições.
O databricks-dolly-15k
foi um esforço colaborativo notável, com mais de 5.000 funcionários da Databricks contribuindo durante março e abril de 2023. Esses registros de treinamento são descritos como naturais, expressivos e projetados para representar uma ampla gama de comportamentos, desde brainstorming e geração de conteúdo até extração e sumarização de informações. As tarefas específicas incluíram:
Este dataset está licenciado sob Creative Commons Attribution-ShareAlike 3.0 Unported License, permitindo que qualquer pessoa o use, modifique ou estenda para qualquer propósito, incluindo aplicações comerciais.
Além de seu dataset único, o Dolly 2.0 oferece recursos técnicos que o tornam uma ferramenta poderosa e eficiente.
A característica mais celebrada do Dolly 2.0 é sua licença permissiva, que o torna adequado tanto para pesquisa acadêmica quanto para desenvolvimento de produtos comerciais. Isso permite que qualquer organização crie, possua e customize LLMs poderosos que podem interagir com pessoas, sem a necessidade de pagar por acesso via API ou compartilhar dados com terceiros, garantindo maior controle e privacidade.
O Dolly 2.0 foi projetado para melhorar o desempenho e a eficiência de aplicações de machine learning. Duas técnicas importantes mencionadas são:
O vídeo e o blog da Databricks mencionam o Pythia, uma suíte de ferramentas para analisar modelos de linguagem grandes durante o treinamento e escalonamento. O Dolly 2.0 é construído sobre a família de modelos Pythia. Essa suíte permite que desenvolvedores analisem o desempenho de LLMs em diferentes cenários de treinamento e escalonamento, e otimizem seus modelos para diversas configurações de hardware. O artigo de pesquisa sobre Pythia oferece insights detalhados sobre como esses modelos se comportam.
Para começar a usar o Dolly 2.0, a Databricks sugere visitar a página do modelo no Hugging Face e o repositório do Dolly no GitHub para baixar o dataset databricks-dolly-15k
. O vídeo também demonstra o uso do Dolly 2.0 em um ambiente Google Colab, mostrando como instalar as dependências e gerar texto. A Databricks também oferece webinars para demonstrar como aproveitar o potencial dos LLMs em sua organização.
O lançamento do Dolly 2.0 pela Databricks é um passo importante para o ecossistema de inteligência artificial, com implicações significativas para o futuro dos modelos de linguagem grandes.
Ao fornecer um LLM de instrução-ajustada verdadeiramente aberto e comercialmente viável, a Databricks está capacitando uma gama mais ampla de desenvolvedores e organizações. Isso fomenta a inovação e permite que mais entidades explorem o potencial dos LLMs sem as barreiras de custo ou as preocupações com a privacidade de dados associadas a modelos proprietários.
A Databricks reconhece que questões importantes como viés, accountability e segurança em IA devem ser abordadas por uma ampla comunidade de stakeholders, e não apenas por algumas grandes empresas. A disponibilização de modelos e datasets open source como o Dolly 2.0 e o databricks-dolly-15k
incentiva o comentário, a pesquisa e a inovação que ajudarão a garantir que todos se beneficiem dos avanços em tecnologia de inteligência artificial de forma responsável.
Embora a Databricks não espere que o Dolly 2.0 seja o estado da arte em termos de eficácia, eles acreditam que o modelo e o dataset open source servirão como semente para uma multitude de trabalhos futuros, podendo impulsionar modelos ainda mais poderosos.
O Dolly 2.0 da Databricks representa um avanço notável no campo dos modelos de linguagem grandes. Ao ser o primeiro LLM de instrução-ajustada verdadeiramente aberto e licenciado para uso comercial, ele não apenas democratiza o acesso a essa tecnologia poderosa, mas também estabelece um novo padrão de transparência e colaboração na comunidade de IA. Com seu dataset databricks-dolly-15k
gerado por humanos e sua base nos modelos Pythia, o Dolly 2.0 está preparado para impulsionar a inovação em pesquisa e em uma vasta gama de aplicações comerciais, ao mesmo tempo em que promove uma discussão mais ampla sobre a ética e a responsabilidade no desenvolvimento da inteligência artificial.
Exploramos as consequências das armas nucleares no espaço para a Terra e a importância de leis internacionais
Descubra como a HeyRosie, uma startup de Inteligência Artificial, está revolucionando o atendimento telefônico para pequenos negócios, oferecendo uma solução mais eficiente e acessível. Conheça os insights de Jordan Gal.
Explore os limites do ChatGPT Operator da OpenAI! Testamos sua capacidade de multitarefa, desde encontrar produtos a criar planos de negócios com IA. Veja os sucessos e desafios.