O Llamafile, um projeto inovador do grupo Ocho da Mozilla, tem sido uma adição valiosa na era da IA. Ele simplifica a execução e distribuição de Modelos de Linguagem Grande (LLMs), permitindo que sejam compactados em um único arquivo. Com base no Llama.cpp, o Llamafile permite o envio de um LLM completo como um único arquivo, com suporte para execução em CPU e GPU.
A versão mais recente, Llamafile 0.8, já foi lançada, trazendo suporte para LLaMA3 e outros modelos, além de melhorias significativas no desempenho da CPU.
A versão 0.8 é particularmente notável por adicionar suporte para LLaMA3, Grok e Mixtral 8x22b. Além disso, os Modelos Mixture of Experts (MoE), como Mixtral e Grok, agora são 2 a 5 vezes mais rápidos para execução em CPUs, graças à refatoração do código da CPU tinyBLAS. O desempenho F16 também melhorou em várias plataformas: 20% mais rápido no Raspberry Pi 5, 30% mais rápido no Intel Skylake e 60% mais rápido no Apple M2.
O Llamafile 0.8 também apresenta melhorias significativas, incluindo:
- Suporte disponível para LLaMA3
- Introdução do suporte para Grok
-Introdução do suporte para Mixtral 8x22b
- Introdução do suporte para modelos Command-R
- Melhoria de 2-5x na velocidade dos modelos MoE na CPU
- Aumento de 20% na velocidade F16 no Raspberry Pi 5
- Aumento de 30% na velocidade F16 no Skylake
- Aumento de 60% na velocidade F16 no Apple M2
- Capacidade de substituir o modelo de bate-papo na interface da web ao criar arquivos de lhama
- Melhoria na marcação e no realce de sintaxe no servidor
- Melhoria na detecção de recursos da CPU
Você pode fazer o download do Llamafile 0.8 via GitHub.
Até a próxima !!
Nenhum comentário:
Postar um comentário