FERRAMENTAS LINUX: Habana Labs AI: Novo Suporte de Rede para o Dimensionamento de IA no Kernel Linux

sexta-feira, 14 de junho de 2024

Habana Labs AI: Novo Suporte de Rede para o Dimensionamento de IA no Kernel Linux

 


Embora o driver acelerador Habana Labs AI esteja presente no kernel principal do Linux há anos, ele sempre focou em suportar o treinamento e a inferência de IA em seus produtos.

Recentemente, a Habana Labs, subsidiária da Intel, iniciou o upstreaming dos drivers de rede para o kernel Linux, visando dimensionar as cargas de trabalho de IA em múltiplos sistemas.

Novo Conjunto de Patches para Suporte de Rede

Publicação dos Patches

Na quinta-feira, a Habana Labs publicou um conjunto de 15 patches que introduzem suporte de rede no Gaudi 2. Esses patches permitem o dimensionamento de redes neurais de IA para sistemas conectados via Ethernet ou InfiniBand.


Explicação Técnica

O engenheiro Omer Shpigelman explicou que este conjunto de patches implementa os drivers de rede para o ASIC Gaudi2, projetado para dimensionar o treinamento de redes neurais de IA. O código comum compartilhado por todos os ASICs Gaudi e o código específico para o ASIC Gaudi2 estão inclusos. Futuramente, haverá atualizações para os ASICs mais recentes.





Os Drivers de Rede Implementados incluem:

- Core Network (CN)

- Ethernet

- InfiniBand

Todos esses drivers são baseados no driver habanalabs existente, que serve como driver de computação e de plataforma. O driver habanalabs investiga os drivers de rede que configuram o HW NIC relevante do dispositivo e se comunica continuamente com o driver CN para fornecer serviços não específicos da NIC, como comunicação PCI, MMU e FW.





Detalhes Técnicos do Gaudi2 NIC

Capacidades do NIC

O HW Gaudi2 NIC é composto por 48 pistas físicas, cada uma com 56 Gbps. Cada par de pistas representa uma porta lógica de 100 Gbps. 

Este hardware foi especificamente projetado para dimensionar o treinamento de IA, funcionando como um dispositivo NIC normal, mas ajustado para essa finalidade. O HW da NIC suporta tráfego Ethernet e RDMA sobre o protocolo ROCEv2 modificado.





Expectativas para o Futuro

Embora seja surpreendente que a Intel/Habana ainda não tenha atualizado esses drivers de rede, dado o tempo em que o Gaudi 2 está disponível, pelo menos essa atualização está ocorrendo agora. O Gaudi 3 está a caminho, prometendo capacidades de rede ainda maiores, com portas 24 x 200 GbE.





Conclusão

Os interessados nos drivers de rede da Habana Labs que estão sendo trabalhados para o kernel Linux principal podem acompanhar esta série de patches que agora estão em revisão. Na sua forma atual, esses novos drivers de rede equivalem a 148 mil linhas de novo código, marcando um avanço significativo para o suporte de IA no Linux.

Para mais detalhes e para acompanhar o desenvolvimento, consulte os patches publicados pela Habana Labs.




Fonte

Até a próxima !!

Nenhum comentário:

Postar um comentário