Mixtral

Technology Radar

Publicado : Apr 03, 2024

NÃO ENTROU NA EDIÇÃO ATUAL

Este blip não está na edição atual do Radar. Se esteve em uma das últimas edições, é provável que ainda seja relevante. Se o blip for mais antigo, pode não ser mais relevante e nossa avaliação pode ser diferente hoje. Infelizmente, não conseguimos revisar continuamente todos os blips de edições anteriores do Radar. Saiba mais

Apr 2024

Avalie

Mixtral faz parte da família de modelos de linguagem de grande porte aberta Mistral recém-lançada, que utiliza a arquitetura sparse Mixture of Experts. A família de modelos está disponível tanto na forma pré-treinada quanto fine-tuned, com tamanhos de parâmetros de 7B e 8x7B. Seu tamanho, natureza de pesos abertos, desempenho em benchmarks e comprimento de contexto de 32.000 tokens o tornam uma boa opção para LLMs auto-hospedados. É importante destacar que esses modelos de pesos abertos não são ajustados para segurança por padrão, e as pessoas usuárias precisam refinar a moderação com base em seus próprios casos de uso. Temos experiência com essa família de modelos no desenvolvimento do Aalap.1-bf16, um modelo Mistral 7B ajustado e treinado em dados relacionados a tarefas jurídicas indianas específicas, que teve um desempenho bastante satisfatório em comparação a um custo acessível.