Novidade da AMD está chegado para o Kernel Linux 6.9.
Na fila para ser introduzido no próximo ciclo do kernel Linux 6.9, temos o FRU Memory Poison Manager (FMPM) desenvolvido pela AMD.
Embora inicialmente projetado para plataformas AMD, esse gerenciador tem potencial para ser adaptado a outras plataformas não-AMD. Mas o que exatamente ele faz?
Vamos explorar os detalhes:
Persistência de Informações sobre Memória Defeituosa:
- O FRU Memory Poison Manager trabalha para persistir informações sobre memória ruim ou defeituosa durante as reinicializações.
- Isso é especialmente relevante para a série Instinct MI300, que utiliza memória HBM3.
Suporte para Retirada de Linha:
- A AMD já está trabalhando em suporte para retirada de linha e outras mudanças para lidar com memória defeituosa.
- A retirada de linha permite eliminar gradualmente o uso de uma linha DRAM após atingir um limite de erros.
- No entanto, isso pode se tornar um ciclo repetitivo em reinicializações limpas.
- Persistência Opcional de Informações sobre Memória Ruim:
- O FRU Memory Poison Manager permitirá opcionalmente persistir essas informações sobre memória ruim durante as reinicializações.
Para memória consistentemente defeituosa, a intenção é desativar imediatamente o gerenciador em uma nova inicialização, em vez de passar pelo processo de tratamento posterior de erros.
Implementação e Configuração:
- O driver AMD FMPM para essa persistência é enfileirado por meio do subsistema RAS antes do ciclo do Kernel Linux 6.9.
- Um novo switch Kconfig chamado “RAS_FMPM” permite construir esse driver para salvar e restaurar informações de erro de memória durante reinicializações.
- As informações são arquivadas na ACPI ERST (Tabela de Serialização de Registros de Erros).
Políticas Específicas da Plataforma:
-As políticas específicas da plataforma determinarão o comportamento em torno da desativação da memória problemática no momento da inicialização.
- Essa mesclagem com a ramificação “edac-for-next” do RAS.git antes da janela de mesclagem do Kernel Linux 6.9 resume o driver FRU Memory Poison Manager.
Os erros de memória são uma ocorrência esperada em sistemas com alta densidade de memória, e essa ferramenta visa melhorar a confiabilidade e o gerenciamento desses cenários
Até a próxima !!
Nenhum comentário:
Postar um comentário