FERRAMENTAS LINUX: A AMD apresenta o FRU Memory Poison Manager no Kernel Linux 6.9

quinta-feira, 7 de março de 2024

A AMD apresenta o FRU Memory Poison Manager no Kernel Linux 6.9

 


Novidade da AMD está chegado para o Kernel Linux 6.9.

Na fila para ser introduzido no próximo ciclo do kernel Linux 6.9, temos o FRU Memory Poison Manager (FMPM) desenvolvido pela AMD. 

Embora inicialmente projetado para plataformas AMD, esse gerenciador tem potencial para ser adaptado a outras plataformas não-AMD. Mas o que exatamente ele faz?

Vamos explorar os detalhes:

Persistência de Informações sobre Memória Defeituosa:

- O FRU Memory Poison Manager trabalha para persistir informações sobre memória ruim ou defeituosa durante as reinicializações.

- Isso é especialmente relevante para a série Instinct MI300, que utiliza memória HBM3.

Suporte para Retirada de Linha:

- A AMD já está trabalhando em suporte para retirada de linha e outras mudanças para lidar com memória defeituosa.

- A retirada de linha permite eliminar gradualmente o uso de uma linha DRAM após atingir um limite de erros.

- No entanto, isso pode se tornar um ciclo repetitivo em reinicializações limpas.

- Persistência Opcional de Informações sobre Memória Ruim:

- O FRU Memory Poison Manager permitirá opcionalmente persistir essas informações sobre memória ruim durante as reinicializações.

Para memória consistentemente defeituosa, a intenção é desativar imediatamente o gerenciador em uma nova inicialização, em vez de passar pelo processo de tratamento posterior de erros.

Implementação e Configuração:

- O driver AMD FMPM para essa persistência é enfileirado por meio do subsistema RAS antes do ciclo do Kernel Linux 6.9.

- Um novo switch Kconfig chamado “RAS_FMPM” permite construir esse driver para salvar e restaurar informações de erro de memória durante reinicializações.

- As informações são arquivadas na ACPI ERST (Tabela de Serialização de Registros de Erros).

Políticas Específicas da Plataforma:

-As políticas específicas da plataforma determinarão o comportamento em torno da desativação da memória problemática no momento da inicialização.

- Essa mesclagem com a ramificação “edac-for-next” do RAS.git antes da janela de mesclagem do  Kernel Linux 6.9 resume o driver FRU Memory Poison Manager. 

Os erros de memória são uma ocorrência esperada em sistemas com alta densidade de memória, e essa ferramenta visa melhorar a confiabilidade e o gerenciamento desses cenários





Fonte 

Até a próxima !!

Nenhum comentário:

Postar um comentário