FERRAMENTAS LINUX: A Nova Versão do Llamafile: Facilitando o Compartilhamento e Execução de LLMs

sábado, 25 de maio de 2024

A Nova Versão do Llamafile: Facilitando o Compartilhamento e Execução de LLMs

 


O grupo Mozilla Ocho acaba de publicar a mais recente versão do Llamafile, o projeto de código aberto que torna muito fácil distribuir e executar grandes modelos de linguagem (LLMs) como um único arquivo. 

O Llamafile é uma excelente solução para compartilhar e executar LLMs, suportando tanto a execução rápida baseada em CPU quanto a aceleração GPU, quando disponível.

A versão mais recente do Llamafile, a 0.8.5, traz ainda mais ajustes de desempenho. Além do trabalho recente em torno das otimizações AVX2 e mais descargas de GPU AMD, Justine Tunney explicou sobre o mais recente trabalho de desempenho no Llamafile 0.8.5:

"Desde o #435, os quants K agora são consistentemente 2x mais rápidos do que o llama.cpp upstream. Em CPUs grandes como o Threadripper, dobramos o desempenho de modelos pequenos, tanto para processamento de prompts quanto para geração de tokens para modelos pequenos."

Dobrando o desempenho para modelos pequenos em hardware da classe AMD Ryzen Threadripper!





O Llamafile 0.8.5 também oferece uma multiplicação de matriz AVX2 mais rápida para modelos MoE e quants legados. Além disso, há algumas otimizações de desempenho para AMD Zen 4, suporte CUDA BF16 NVIDIA e outras melhorias.

Para usuários que buscam desempenho e eficiência, o Llamafile 0.8.5 é uma atualização essencial. Com sua capacidade de acelerar a execução de modelos de linguagem, tanto em CPUs quanto em GPUs, ele se destaca como uma ferramenta indispensável para projetos que exigem processamento rápido e eficaz.

Não perca tempo e experimente você mesmo a última versão do Llamafile. Sinta a diferença em desempenho e eficiência ao executar seus modelos de linguagem favoritos. O futuro da distribuição e execução de LLMs está aqui, com o Llamafile 0.8.5. Downloads e mais detalhes sobre a versão Llamafile 0.8.5 podem ser encotrados  no GitHub.




Fonte 

Até a próxima !!

Nenhum comentário:

Postar um comentário