FERRAMENTAS LINUX: O Kernel Linux 6.9 está adicionando um suporte de aposentadoria de linha AMD MI300 para a memória HBM problemática

segunda-feira, 19 de fevereiro de 2024

O Kernel Linux 6.9 está adicionando um suporte de aposentadoria de linha AMD MI300 para a memória HBM problemática

 

“Novidades empolgantes no Kernel Linux 6.9: Adições significativas ao AMD Instinct MI300!”

O próximo ciclo do kernel Linux 6.9 traz uma série de adições notáveis ao AMD Instinct MI300 nos drivers EDAC (Detecção e Correção de Erros) e RAS (Confiabilidade, Disponibilidade e Capacidade de Manutenção).

Este trabalho inclui a adaptação do driver AMD EDAC para usar a Biblioteca de Tradução de Endereços AMD, o suporte do MI300 para essa biblioteca ATL, outras adições RAS do MI300 e, em seguida, um novo recurso para o hardware MI300 é o suporte para retirada de linha.

O suporte para retirada de linha do MI300 no driver amd64_edac é um grande avanço para lidar com memória de alta largura de banda (HBM) com defeito/erro no MI300. Os sistemas AMD MI300 possuem memória de alta largura de banda on-die, que tem uma taxa de erro relativamente mais alta e não pode ser substituída individualmente como os DIMMs.

Erros ECC incorrigíveis são relatados individualmente como erros adiados usando a interrupção de erro adiada da AMD. Cada erro relatado corresponde a um único erro de hardware. Os erros de ECC corrigíveis são relatados em lotes por meio do MCA Thresholding. Os usuários podem configurar o limite com base em sua política. Cada erro corrigível relatado representa uma única ocorrência do limite sendo atingido.

A orientação atual dos projetistas da AMD é que a memória afetada por erros de ECC em uma linha DRAM deve ser desativada. Ações devem ser tomadas em cada erro de ECC relatado. Uma função auxiliar foi adicionada para aplicar esta política aos sistemas MI300.

Essa e outras funcionalidades semelhantes também podem ser melhor tratadas em uma função genérica e separada. módulo. Enquanto isso, faça isso no AMD64 EDAC para simplificar.

Quando ocorre um erro DRAM ECC em sistemas MI300, é recomendado retirar toda a memória dessa linha DRAM. Isso se aplica à memória com um banco DRAM.

O trabalho mais recente do AMD MI300 pode ser encontrado no Kernel Linux 6.9, agora que esses patches fazem parte do ramo Git “edac-for-next” do RAS.git. Fique ligado para mais atualizações emocionantes no mundo do Linux e AMD MI300!





Fonte 

Até a próxima !!

Nenhum comentário:

Postar um comentário