Dolphin 2.5 Mixtral 8x7B: Explorando o Modelo de IA Não Censurado da Mistral AI

Descubra o Dolphin 2.5 Mixtral 8x7B, uma versão não censurada do poderoso modelo de IA da Mistral AI. Saiba mais sobre sua performance, arquitetura e como executá-lo.

Dolphin 2.5 Mixtral 8x7B: Explorando o Modelo de IA Não Censurado da Mistral AI

A Mistral AI, uma empresa proeminente no campo da inteligência artificial, lançou recentemente um novo modelo de linguagem chamado Mixtral 8x7B. Este modelo se destaca por sua arquitetura inovadora de "Mixture of Experts" (MoE) e seu desempenho impressionante, superando modelos maiores como o Llama 2 70B e rivalizando com o GPT-3.5 em diversos benchmarks. Além do modelo base, a comunidade open-source, sempre ativa, já começou a explorá-lo, resultando em versões fine-tuned com características específicas. Uma dessas versões, que tem chamado a atenção, é o Dolphin 2.5 Mixtral 8x7B, um modelo não censurado desenvolvido por Eric Hartford.

O Que é o Mixtral 8x7B da Mistral AI?

O Mixtral 8x7B é um modelo de linguagem de alta performance que utiliza uma arquitetura conhecida como Sparse Mixture-of-Experts (SMoE). Diferente dos modelos tradicionais que utilizam todos os seus parâmetros para cada token processado, um modelo MoE possui vários "experts" (sub-redes neurais especializadas) e um mecanismo de roteamento que seleciona quais experts processarão cada token. Isso permite que o modelo seja muito maior em termos de contagem total de parâmetros (no caso do Mixtral 8x7B, são 8 experts de 7 bilhões de parâmetros cada, totalizando 46.7B de parâmetros), mas utilizando apenas uma fração deles (12.9B) para inferência em cada token. O resultado é um modelo com a capacidade de um modelo muito maior, mas com a velocidade e custo de inferência de um modelo menor.

De acordo com a própria Mistral AI, o Mixtral 8x7B supera o Llama 2 70B na maioria dos benchmarks com uma inferência 6 vezes mais rápida. Ele também iguala ou supera o GPT-3.5 na maioria das avaliações padrão. Suas principais capacidades incluem:

  • Contexto Extenso: Manipula um contexto de até 32.000 tokens.
  • Multilíngue: Suporta inglês, francês, italiano, alemão e espanhol.
  • Geração de Código: Demonstra forte desempenho na geração de código.
  • Pesos Abertos: Licenciado sob Apache 2.0, permitindo uso e modificação pela comunidade.

Dolphin 2.5 Mixtral 8x7B: A Fronteira Não Censurada do Modelo da Mistral AI

Eric Hartford, conhecido na comunidade de IA por seu trabalho com modelos Dolphin, desenvolveu o Dolphin 2.5 Mixtral 8x7B. Trata-se de uma versão fine-tuned do Mixtral 8x7B original, com a característica principal de ser não censurado. O treinamento deste modelo foi patrocinado pela Convai.

A filosofia por trás dos modelos não censurados, como explicado por Hartford em seu blog sobre modelos não censurados, é remover os alinhamentos e vieses que podem restringir a capacidade do modelo de responder a uma gama mais ampla de prompts, incluindo aqueles que modelos censurados evitariam. Hartford argumenta que, embora o alinhamento para evitar respostas prejudiciais seja bem-intencionado, ele pode impor uma visão de mundo específica e limitar a liberdade de exploração criativa e intelectual.

O Dolphin 2.5 Mixtral 8x7B foi treinado com um dataset cuidadosamente filtrado para remover alinhamento e viés, tornando o modelo mais complacente a qualquer tipo de solicitação, mesmo aquelas consideradas "não éticas" por outros sistemas. O modelo base possui um contexto de 32k tokens, mas o fine-tuning foi realizado com 16k. Ele é particularmente bom em codificação, tendo sido treinado com uma grande quantidade de dados de código.

Performance e Capacidades do Modelo Não Censurado Dolphin 2.5 Mixtral 8x7B

Mantendo a base poderosa do Mixtral 8x7B, o Dolphin 2.5 demonstra um desempenho robusto em benchmarks como MMLU, HellaSwag e ARC Challenge. A ausência de censura permite que o modelo gere respostas para uma variedade de prompts que seriam bloqueados por modelos alinhados. Isso pode ser útil para exploração criativa, pesquisa em tópicos sensíveis ou para usuários que desejam um controle mais granular sobre a saída do modelo. No vídeo de apresentação, são mostrados exemplos de interações onde o modelo fornece respostas detalhadas para prompts que envolvem temas controversos ou potencialmente prejudiciais, sempre com a ressalva de que o usuário é o único autor do conteúdo gerado e deve usá-lo com responsabilidade.

Como Executar o Dolphin 2.5 Mixtral 8x7B Localmente com LM Studio

Executar modelos de linguagem grandes como o Dolphin 2.5 Mixtral 8x7B localmente requer hardware considerável, especialmente memória RAM. O vídeo demonstra como utilizá-lo através do LM Studio, uma aplicação que facilita o download e a execução de LLMs localmente.

Aqui estão os passos básicos, baseados no vídeo, para executar o modelo usando o formato GGUF (ideal para uso pessoal em CPUs e GPUs compatíveis):

  1. Instale o LM Studio: Baixe e instale o LM Studio do site oficial.
  2. Procure o Modelo: Na página inicial do LM Studio, procure por "ehartford/dolphin-2.5-mixtral-8x7b".
  3. Baixe a Versão GGUF: O LM Studio listará os arquivos disponíveis. Selecione uma versão GGUF. O vídeo sugere que a versão Q5_K_M.gguf é uma boa opção de equilíbrio entre tamanho e qualidade. Certifique-se de ter RAM suficiente (o vídeo menciona que para alguns modelos, 32GB de RAM pode ser necessário, e para versões Q2, 16GB pode não ser suficiente).
  4. Carregue o Modelo: Após o download, vá para a seção de chat (ícone de balão de fala no menu lateral).
  5. Selecione o Modelo: No topo da tela, selecione o modelo Dolphin 2.5 Mixtral 8x7B que você baixou.
  6. Configurações (Opcional): No painel direito, você pode ajustar configurações como o comprimento do contexto (o modelo base suporta até 32k, mas o fine-tune foi com 16k) e o offloading para GPU, se sua placa de vídeo for compatível e tiver VRAM suficiente.
  7. Comece a Conversar: Agora você pode interagir com o modelo não censurado.

É importante notar que, devido ao tamanho do modelo, o carregamento inicial e a primeira inferência podem demorar um pouco.

Outras Formas de Executar o Modelo Dolphin 2.5 Mixtral 8x7B

O desenvolvedor, Eric Hartford, também menciona outras formas de executar o modelo em sua página no Hugging Face:

  • 16-bit direto: Usando Oobabooga, TGI ou VLLM com GPUs potentes (ex: 2x A100 ou 4x A6000). Esta é a forma de maior qualidade, mas também a mais cara.
  • GPTQ de 4 bits em TGI: Uma opção mais barata para hospedar em escala.
  • Exllamav2 em Oobabooga: Considerada uma das melhores quantizações, mas com suporte limitado além do Oobabooga.

Considerações Sobre o Uso de Modelos de IA Não Censurados

A disponibilidade de modelos de IA não censurados como o Dolphin 2.5 Mixtral 8x7B abre um leque de possibilidades, mas também levanta questões éticas importantes. A capacidade de gerar qualquer tipo de conteúdo significa que a responsabilidade recai inteiramente sobre o usuário. Enquanto a liberdade de exploração é um benefício, o potencial para uso indevido ou para a geração de desinformação e conteúdo prejudicial é uma preocupação válida. É crucial que os usuários de tais modelos ajam com responsabilidade e considerem as implicações de suas criações.

Conclusão: O Avanço da Inteligência Artificial Open Source com o Mixtral

O lançamento do Mixtral 8x7B pela Mistral AI e a subsequente criação de versões fine-tuned como o Dolphin 2.5 Mixtral 8x7B por desenvolvedores como Eric Hartford demonstram a vitalidade e a velocidade da inovação no ecossistema de inteligência artificial open-source. Esses modelos oferecem um poder computacional significativo para pesquisadores, desenvolvedores e entusiastas, permitindo uma exploração mais profunda das capacidades da IA. A versão não censurada, em particular, impulsiona o debate sobre liberdade, controle e responsabilidade no desenvolvimento e uso de tecnologias de IA cada vez mais poderosas.