O tempo de execução de inferência DeepSparse AI da Neural Magic continua a buscar "desempenho de classe GPU em CPUs" e com a nova versão DeepSparse 1.5 está oferecendo desempenho ainda mais rápido para inferência de CPU.
O DeepSparse oferece desempenho de inferência baseado em CPU líder . Estou animado para ver que com o DeepSparse 1.5 há ainda mais melhorias de desempenho. As notas de versão do DeepSparse 1.5 destacam as seguintes melhorias de desempenho:
- A latência de inferência para CNNs esparsas quantizadas não estruturadas foi aprimorada em até 2x.
- A taxa de transferência de inferência e a latência para CNNs densas foram aprimoradas em até 20%.
- A taxa de transferência de inferência e a latência para transformadores densos foram aprimoradas em até 30%.
- Os seguintes operadores agora são suportados para desempenho:
Neg, Unsqueeze com entradas não constantes
MatMulInteger com duas entradas não constantes
GEMM com pesos constantes e entradas 4D ou 5D
O DeepSparse 1.5 também adiciona um pipeline de avaliação ONNX para OpenPiPaf, pipelines de segmentação YOLOv8, suporte para usar hwloc para determinar a topologia da CPU para melhorar o desempenho dentro dos clusters Kubernetes e vários outros aprimoramentos. Por outro lado, o DeepSparse 1.5 ainda não parece suportar o Python 3.11.
Os downloads (se não estiver usando pip) e mais detalhes sobre o lançamento do DeepSparse 1.5 do Neural Magic via GitHub .
Até a próxima !!
Nenhum comentário:
Postar um comentário