Confira !!
Como parte do crescente foco de HPC da AMD e do amadurecimento de sua pilha de computação GPU Radeon Open eCosystem, eles terminaram esta semana tornando pública uma implementação de protótipo de suporte CRIU para ROCm.
Os desenvolvedores de software gráfico de código aberto Radeon da AMD estão trabalhando no controle de Checkpoint / Restore In Userspace (CRIU) para ROCm. O CRIU permite congelar um processo em execução e arquivá-lo em um disco que pode ser descongelado / restaurado posteriormente. Esta solução baseada no espaço do usuário é, obviamente, muito mais complicada quando se trata de lidar com processos que interagem com a GPU.
Durante a noite, um conjunto inicial de patches foi postado para o código do kernel "AMDKFD" da placa de vídeo AMD Radeon para suporte a CRIU. Esses 17 patches com mais de duas mil linhas de novo código do kernel ainda estão em uma "solicitação de comentários"
Em última análise, eles estão trabalhando para poder fazer o upstream deste suporte de ponto de verificação / restauração no driver AMDKFD que será utilizável para a pilha ROCm. Assim, os aplicativos ROCm podem ser CRIU. O novo kernel ioctl para os novos recursos ainda não está finalizado, então pode demorar um pouco até que esse suporte seja eliminado.
Em qualquer caso, para aqueles interessados em CRIU em torno de cargas de trabalho de computação AMD Radeon, consulte esta série de patch para obter mais detalhes.
Até a próxima !!
Nenhum comentário:
Postar um comentário