Confira !!
A NVIDIA hoje está disponibilizando uma versão muito mais rápida do TensorRT, seu SDK para inferência de aprendizado profundo otimizado em suas GPUs.
Com o TensorRT 8 que está se tornando público hoje, a NVIDIA está relatando "desempenho 2x" em relação ao lançamento do TensorRT 7 existente. Esse desempenho 2x gira em torno de otimizações de transformador, enquanto eles também reivindicam precisão 2x em relação ao TensorRT 7 ao usar INT8 com treinamento ciente de quantização.
O TensorRT 8 também reduz o tempo de inferência BERT-Large para 1,2 ms em um V100, que é 2,5x mais rápido do que o TensorRT 7. O TensorRT 8 também tem suporte de dispersão para GPUs Ampere, entre outras melhorias.
O TensorRT 8.0 deve estar disponível em breve em developer.nvidia.com .
Até a próxima !!
Nenhum comentário:
Postar um comentário