Embora o driver acelerador Habana Labs AI esteja presente no kernel principal do Linux há anos, ele sempre focou em suportar o treinamento e a inferência de IA em seus produtos.
Recentemente, a Habana Labs, subsidiária da Intel, iniciou o upstreaming dos drivers de rede para o kernel Linux, visando dimensionar as cargas de trabalho de IA em múltiplos sistemas.
Novo Conjunto de Patches para Suporte de Rede
Publicação dos Patches
Na quinta-feira, a Habana Labs publicou um conjunto de 15 patches que introduzem suporte de rede no Gaudi 2. Esses patches permitem o dimensionamento de redes neurais de IA para sistemas conectados via Ethernet ou InfiniBand.
Explicação Técnica
O engenheiro Omer Shpigelman explicou que este conjunto de patches implementa os drivers de rede para o ASIC Gaudi2, projetado para dimensionar o treinamento de redes neurais de IA. O código comum compartilhado por todos os ASICs Gaudi e o código específico para o ASIC Gaudi2 estão inclusos. Futuramente, haverá atualizações para os ASICs mais recentes.
Os Drivers de Rede Implementados incluem:
- Core Network (CN)
- Ethernet
- InfiniBand
Todos esses drivers são baseados no driver habanalabs existente, que serve como driver de computação e de plataforma. O driver habanalabs investiga os drivers de rede que configuram o HW NIC relevante do dispositivo e se comunica continuamente com o driver CN para fornecer serviços não específicos da NIC, como comunicação PCI, MMU e FW.
Detalhes Técnicos do Gaudi2 NIC
Capacidades do NIC
O HW Gaudi2 NIC é composto por 48 pistas físicas, cada uma com 56 Gbps. Cada par de pistas representa uma porta lógica de 100 Gbps.
Este hardware foi especificamente projetado para dimensionar o treinamento de IA, funcionando como um dispositivo NIC normal, mas ajustado para essa finalidade. O HW da NIC suporta tráfego Ethernet e RDMA sobre o protocolo ROCEv2 modificado.
Expectativas para o Futuro
Embora seja surpreendente que a Intel/Habana ainda não tenha atualizado esses drivers de rede, dado o tempo em que o Gaudi 2 está disponível, pelo menos essa atualização está ocorrendo agora. O Gaudi 3 está a caminho, prometendo capacidades de rede ainda maiores, com portas 24 x 200 GbE.
Conclusão
Os interessados nos drivers de rede da Habana Labs que estão sendo trabalhados para o kernel Linux principal podem acompanhar esta série de patches que agora estão em revisão. Na sua forma atual, esses novos drivers de rede equivalem a 148 mil linhas de novo código, marcando um avanço significativo para o suporte de IA no Linux.
Para mais detalhes e para acompanhar o desenvolvimento, consulte os patches publicados pela Habana Labs.
Nenhum comentário:
Postar um comentário