FERRAMENTAS LINUX: Llamafile 0.8: Uma Atualização Revolucionária para a Execução de Modelos de Linguagem Grande

quinta-feira, 25 de abril de 2024

Llamafile 0.8: Uma Atualização Revolucionária para a Execução de Modelos de Linguagem Grande

O Llamafile, um projeto inovador do grupo Ocho da Mozilla, tem sido uma adição valiosa na era da IA. Ele simplifica a execução e distribuição de Modelos de Linguagem Grande (LLMs), permitindo que sejam compactados em um único arquivo. Com base no Llama.cpp, o Llamafile permite o envio de um LLM completo como um único arquivo, com suporte para execução em CPU e GPU.

A versão mais recente, Llamafile 0.8, já foi lançada, trazendo suporte para LLaMA3 e outros modelos, além de melhorias significativas no desempenho da CPU.

A versão 0.8 é particularmente notável por adicionar suporte para LLaMA3, Grok e Mixtral 8x22b. Além disso, os Modelos Mixture of Experts (MoE), como Mixtral e Grok, agora são 2 a 5 vezes mais rápidos para execução em CPUs, graças à refatoração do código da CPU tinyBLAS. O desempenho F16 também melhorou em várias plataformas: 20% mais rápido no Raspberry Pi 5, 30% mais rápido no Intel Skylake e 60% mais rápido no Apple M2.

O Llamafile 0.8 também apresenta melhorias significativas, incluindo:

- Suporte disponível para LLaMA3

- Introdução do suporte para Grok

-Introdução do suporte para Mixtral 8x22b

- Introdução do suporte para modelos Command-R

- Melhoria de 2-5x na velocidade dos modelos MoE na CPU

- Aumento de 20% na velocidade F16 no Raspberry Pi 5

- Aumento de 30% na velocidade F16 no Skylake

- Aumento de 60% na velocidade F16 no Apple M2

- Capacidade de substituir o modelo de bate-papo na interface da web ao criar arquivos de lhama

- Melhoria na marcação e no realce de sintaxe no servidor

- Melhoria na detecção de recursos da CPU