Ontem, o lançamento do Kernel trouxe o conjunto de atualizações RAS (Confiabilidade, Disponibilidade e Capacidade de Manutenção) e também o suporte para o EDAC (Error Detection and Correction) em CPUs AMD Zen 4 para os clientes, bem como o suporte inicial para a GPU/Acelerator.
Nos últimos meses, foi trabalhado no código para estender o driver Linux EDAC para as GPUs de Data Center. Especificamente, o objetivo é fazer o driver de detecção e correção de erros AMD64 funcionar nas GPUs AMD Instinct MI200 com HBM (High Bandwidth Memory).
A solicitação pull do RAS enviada recentemente para o Kernel Linux 6.5 explica o seguinte: "Adicionar suporte inicial para o hardware RAS encontrado nas GPUs do servidor AMD (MI200). Essas GPUs e CPUs estão conectadas por meio de uma malha coerente, e os controladores de memória da GPU relatam erros por meio do MCA (Machine Check Architecture) do x86, portanto, o EDAC precisa suportá-los. O driver amd64_edac agora oferece o suporte ao HBM (High Bandwidth Memory) e, portanto, a esses sistemas com controladores de memória heterogêneos."
Esse código foi mesclado ao kernel Linux 6.5. Embora o foco inicial seja na série MI200, esse suporte também será importante para a futura série AMD Instinct MI300.
Essas atualizações são significativas para garantir a confiabilidade e a disponibilidade de sistemas que utilizam GPUs AMD Instinct em ambientes de data center, permitindo a detecção e correção de erros de memória por meio do driver EDAC. Isso contribui para um melhor desempenho e estabilidade desses sistemas e fortalece a presença da AMD no mercado de aceleradores de alta performance.
Até a próxima !!
Nenhum comentário:
Postar um comentário