O grupo Mozilla Ocho acaba de publicar a mais recente versão do Llamafile, o projeto de código aberto que torna muito fácil distribuir e executar grandes modelos de linguagem (LLMs) como um único arquivo.
O Llamafile é uma excelente solução para compartilhar e executar LLMs, suportando tanto a execução rápida baseada em CPU quanto a aceleração GPU, quando disponível.
A versão mais recente do Llamafile, a 0.8.5, traz ainda mais ajustes de desempenho. Além do trabalho recente em torno das otimizações AVX2 e mais descargas de GPU AMD, Justine Tunney explicou sobre o mais recente trabalho de desempenho no Llamafile 0.8.5:
"Desde o #435, os quants K agora são consistentemente 2x mais rápidos do que o llama.cpp upstream. Em CPUs grandes como o Threadripper, dobramos o desempenho de modelos pequenos, tanto para processamento de prompts quanto para geração de tokens para modelos pequenos."
Dobrando o desempenho para modelos pequenos em hardware da classe AMD Ryzen Threadripper!
O Llamafile 0.8.5 também oferece uma multiplicação de matriz AVX2 mais rápida para modelos MoE e quants legados. Além disso, há algumas otimizações de desempenho para AMD Zen 4, suporte CUDA BF16 NVIDIA e outras melhorias.
Para usuários que buscam desempenho e eficiência, o Llamafile 0.8.5 é uma atualização essencial. Com sua capacidade de acelerar a execução de modelos de linguagem, tanto em CPUs quanto em GPUs, ele se destaca como uma ferramenta indispensável para projetos que exigem processamento rápido e eficaz.
Não perca tempo e experimente você mesmo a última versão do Llamafile. Sinta a diferença em desempenho e eficiência ao executar seus modelos de linguagem favoritos. O futuro da distribuição e execução de LLMs está aqui, com o Llamafile 0.8.5. Downloads e mais detalhes sobre a versão Llamafile 0.8.5 podem ser encotrados no GitHub.
Até a próxima !!
Nenhum comentário:
Postar um comentário