Além do lançamento do x86-simd-sort 3.0 para classificação rápida do AVX-512, sexta-feira também marcou o lançamento do oneDNN 3.3, uma biblioteca de rede neural profunda que faz parte do oneAPI, focada em auxiliar desenvolvedores na criação de aplicativos de aprendizado profundo.
O Intel oneDNN continua a oferecer suporte à execução baseada em CPU não apenas em x86_64, mas também em AArch64 e POWER e RISC-V, ao mesmo tempo que oferece suporte à execução de GPU AMD e NVIDIA, além de suporte gráfico Intel. A biblioteca oneDNN é altamente otimizada para aproveitar ao máximo o hardware Intel, e com a versão 3.3, há mais ajustes para as Advanced Matrix Extensions (AMX) e outras alterações para beneficiar os processadores Xeon Scalable "Sapphire Rapids" de última geração. Além disso, o oneDNN 3.3 implementa mais otimizações para os processadores Granite Rapids e Sierra Forest de próxima geração, programados para serem lançados em 2024.
As melhorias de desempenho do oneDNN 3.3 incluem:
- Desempenho aprimorado para processadores escaláveis Intel Xeon de 4ª geração (anteriormente Sapphire Rapids).
- Aprimoramento do desempenho de convolução int8 com zero pontos em processadores com suporte ao conjunto de instruções Intel AMX.
Melhor desempenho para os futuros processadores escaláveis Intel Xeon (codinome Sierra Forest e Granite Rapids), com funcionalidade desativada por padrão.
- Melhor desempenho em convolução fp32 e int8 para processadores com suporte ao conjunto de instruções Intel AVX-512 e/ou Intel AMX.
- Aprimoramento do desempenho primitivo binário s32.
- Melhor desempenho de convolução fp16, fp32 e int8 para processadores com suporte a instruções Intel AVX2.
- Aprimoramento do desempenho de subgráficos com operações de convolução, matmul, avgpool, maxpool e softmax, seguidas por operações unárias ou binárias com API Graph.
- Melhor desempenho de convolução para casos profundos com API Graph.
- Melhor desempenho do bloco LLAMA2 MLP com Graph Compiler (experimental).
Para produtos gráficos Intel, a versão 3.3 apresenta melhorias de desempenho para a série Intel Data Center GPU Max (anteriormente Ponte Vecchio), gráficos Intel Arc (anteriormente Alchemist e DG2) e Intel Data Center GPU Flex Series (anteriormente Arctic Sound-M). O tempo de inicialização do primitivo RNN foi reduzido em GPUs Intel.
Para processadores baseados em AArch64, destacam-se melhorias no desempenho de reordenação de fp32 para bf16, melhor desempenho de pooling máximo com Arm Compute Library (ACL) e aprimoramento do desempenho de convolução dilatada para casos profundos com ACL.
A versão oneDNN 3.3 também introduz suporte primitivo de normalização de grupo, saída de modo detalhado estendido, novos exemplos para a API gráfica oneDNN e outras alterações.
Para obter downloads e mais detalhes sobre o lançamento do oneDNN 3.3, você pode consultar o GitHub.
Até a próxima !!
Nenhum comentário:
Postar um comentário