FERRAMENTAS LINUX: Os novos patches estendem o driver Linux AMD EDAC para as GPUs de Data Center

terça-feira, 16 de maio de 2023

Os novos patches estendem o driver Linux AMD EDAC para as GPUs de Data Center

 


O driver AMD EDAC Linux para detecção e correção de erros de CPU/memória AMD x86_64 agora está sendo estendido para lidar com GPUs de centro de dados AMD como a série Instinct MI200 e mais recentes, onde qualquer relatório de erro/informações de correção agora podem ser propagadas para este driver existente.

No mês passado, com a janela de mesclagem do Linux 6.4, houve preparações do AMD EDAC para as GPUs , enquanto na manhã desta segunda-feira foram publicados os patches iniciais da AMD para realmente estender este driver EDAC para a cobertura do acelerador AMD Instinct.

A série de patches explica:

"Este conjunto adiciona suporte a GPU para AMD64 EDAC começando com a série MI200 (Aldebaran).

...

Os aceleradores da série AMD Instinct™ MI200 são as GPUs do centro de dados. tecido semelhante aos usados ​​em produtos de CPU AMD x86. Os controladores de memória relatam erros usando MCA, embora esses erros geralmente sejam tratados por meio de drivers de GPU que gerenciam diretamente o dispositivo acelerador.

Em algumas configurações, os erros de memória desses dispositivos serão relatados por meio do MCA e gerenciados por CPUs x86. Espera-se que o sistema operacional lide com esses erros de maneira semelhante aos erros MCA originados de controladores de memória em CPUs x86. No Linux, esse fluxo inclui a transmissão de erros de MCA para uma cadeia de notificadores com manipuladores no subsistema EDAC.

O módulo AMD64 EDAC requer informações dos controladores de memória e da estrutura de dados para fornecer decodificação detalhada de erros de memória. As informações são lidas a partir de registradores de hardware acessados ​​por meio de interfaces na malha de dados.

As malhas de dados do acelerador são visíveis para as CPUs x86 do host, pois os dispositivos PCI, assim como as malhas de dados da CPU x86 já são. No entanto, as malhas do acelerador têm IDs de PCI novas e exclusivas.

...

Os sistemas AMD Family 19h Modelo 30h-3Fh podem ser conectados a dispositivos aceleradores/GPU AMD MI200 de forma que as malhas de dados da CPU e da GPU sejam conectadas juntas. Nessa configuração, a CPU gerencia o log de erros e os relatórios dos bancos MCA localizados nas GPUs. Isso inclui erros de memória HBM relatados de controladores de memória unificados (UMCs) nas GPUs. Os erros de memória da GPU são tratados como erros de memória da CPU."

Pouco menos de 500 linhas de código são necessárias para configurar o driver AMD64 EDAC para uso da GPU do data center. Os patches estão agora sob revisão para serem integrados a uma futura série de kernel.


O foco com esta habilitação inicial é para a série AMD Instinct MI200, enquanto a próxima série Instinct MI300 deve funcionar da mesma forma com esta integração EDAC.












Fonte

Até a próxima !!


Nenhum comentário:

Postar um comentário