Nvidia passa da Pascal a Turing anche per i carichi di deep learning. Durante la conferenza Gtc in corso in Giappone, l’azienda ha svelato le Tesla T4 basate sulla nuova architettura Turing, schede grafiche pensate per i data center hyperscale che necessitano di accorciare ulteriormente i tempi di inferenza per i modelli di intelligenza artificiale. Al cuore della piattaforma trovano posto una Gpu da 320 Tensor Core e 2.560 Cuda e, rispetto alla generazione precedente con architettura Pascal, la soluzione proposta in queste ore da Nvidia è cinque volte più veloce nelle fasi di riconoscimento vocale e tre volte più performante nelle inferenze video. Anche e soprattutto le prestazioni delle Cpu impallidiscono, in quanto le T4 superano i processori di ben 34 volte nell’elaborazione del linguaggio naturale. La scheda mette a disposizione inoltre 16 GB di memoria Gddr6 per un’ampiezza di banda di 320 GB/s.

La scheda offre performance di picco variabili a seconda dei calcoli: 8,1 Tflop per gli Fp32 contro i 5,5 Tflops delle precedenti P4; 65 Tflops in Fp16; 130 Tflops in Int8 contro i 22 di prima e 260 Tflops per gli Int4. Il tutto consumando soltanto 75 watt in un formato low-profile con supporto per 16 linee Pcie. La piattaforma può anche decodificare in contemporanea un massimo di 38 flussi video in Full Hd.

Per quanto riguarda gli algoritmi di deep learning, le T4 supportano i più diffusi framework sul mercato, come Tensorflow, Caffee2 ed Mxnet. Ma Nvidia ha svelato anche il nuovo software TensorRt 5 per l’ottimizzazione dei modelli di apprendimento approfondito sui Tensor core di Turing. La soluzione include anche un Inference Server: un vero e proprio microservizio containerizzato che massimizza l’utilizzo della Gpu e può eseguire diversi modelli di framework diversi, in contemporanea sullo stesso nodo. Il server sfrutta Docker e Kubernetes per una facile integrazione nell’infrastruttura del data center.