[Thread Ufficiale] NVIDIA Ampere - GeForce RTX 3000 Series

Messaggio da **Nemesis Elite** » 28 settembre 2020, 11:54

scorpion73 ha scritto: 28 settembre 2020, 11:48 @nemesis, ma le console nascono sempre vecchie, basta vedere la prima ps4 o la prima xbox one, due aborti tecnologici, con tecnologie da trapassato remoto ancora prima di nascere. Buone solo quando diventano ambito del retrogaming.
Unica eccezione il NIntendo perché intelligentemente non punta sulla potenza ma su un modo diverso di giocare.

e lo vieni a dire proprio a me che le ho sempre odiate tutte dalla prima all'ultima?

Durare per almeno 5 anni in quelle condizioni mi vengono i brividi ma è anche vero che le console servono per soddisfare/accontentare la massa quindi va bene cosi' alla fine.

Messaggio da **delly** » 28 settembre 2020, 12:27

CrazyDog ha scritto: 27 settembre 2020, 22:42 sull'altro forum un utente molto ferrato ha scritto che con le ampere in game non vengono sfruttati tutti i tflops di cui sono capaci ma si fermano a 20-21, metto link
https://www.hwupgrade.it/forum/showpost ... ount=62275

mi chiedo se quindi navi 21 potrebbe andare di più della 3080 in game

a livello di architettura le nuove Ampere hanno raddoppiato le unità di calcolo CUDA, questo è un dato ormai acclarato, ma non possono sempre essere sfruttate tutte nello scenario più favorevole (l'effettivo raddoppio delle elaborazioni per ciclo riguarda le operazioni in virgola mobile)...

nelle Turing ogni partizione SM poteva seguire due datapath principali, uno per l'elaborazione di operazioni su interi (INT32) e uno per l'elaborazione di operazioni virgola mobile (FP32), precisamente in ogni ciclo di clock potevano essere elaborate 16 operazioni INT32 e 16 operazioni FP32...

in Ampere ci sono stati dei cambiamenti, ora abbiamo i soliti due percorsi dati, ma entrambi sono in grado di elaborare operazioni FP32 (il primo percorso combina INT32/FP32, il secondo solo FP32), il risultato è che ogni partizione SM può elaborare, per ogni ciclo di clock, o 16 operazioni INT32 + 16 operazioni FP32 oppure combinare i due datapath per elaborare 32 operazioni FP32...

viene da se che un potenziale raddoppio effettivo o quasi delle performance su Turing l'avresti solamente nei casi specifici in cui vengono sfruttate pesantemente operazioni FP32, mi viene in mente in ambito professionale ad esempio il software V-Ray (ma la maggior parte dei sw analoghi sono simili) oppure in ambito di Ray Tracing nelle operazioni di Denoising, mentre in gaming è difficile che si verifichi una situazione simile, sono molto più probabili situazioni miste INT+FP (con predominanza di queste ultime quantificabile in 2/3 in media) dove Ampere certamente guadagna, ma non in modo da assicurare un raddoppio su Turing ne sfruttare tutti i TFLOPs di cui è accreditata...

Messaggio da **Nemesis Elite** » 28 settembre 2020, 15:37

Nuovi driver 456.55 qui (sono i driver dayone anche per STARWARS Squadrons in arrivo tra pochi giorni) :

https://www.guru3d.com/files-details/ge ... nload.html

Messaggio da **Nrg** » 28 settembre 2020, 15:55

delly ha scritto: 28 settembre 2020, 12:27
CrazyDog ha scritto: 27 settembre 2020, 22:42 sull'altro forum un utente molto ferrato ha scritto che con le ampere in game non vengono sfruttati tutti i tflops di cui sono capaci ma si fermano a 20-21, metto link
https://www.hwupgrade.it/forum/showpost ... ount=62275

mi chiedo se quindi navi 21 potrebbe andare di più della 3080 in game
a livello di architettura le nuove Ampere hanno raddoppiato le unità di calcolo CUDA, questo è un dato ormai acclarato, ma non possono sempre essere sfruttate tutte nello scenario più favorevole (l'effettivo raddoppio delle elaborazioni per ciclo riguarda le operazioni in virgola mobile)...

nelle Turing ogni partizione SM poteva seguire due datapath principali, uno per l'elaborazione di operazioni su interi (INT32) e uno per l'elaborazione di operazioni virgola mobile (FP32), precisamente in ogni ciclo di clock potevano essere elaborate 16 operazioni INT32 e 16 operazioni FP32...

in Ampere ci sono stati dei cambiamenti, ora abbiamo i soliti due percorsi dati, ma entrambi sono in grado di elaborare operazioni FP32 (il primo percorso combina INT32/FP32, il secondo solo FP32), il risultato è che ogni partizione SM può elaborare, per ogni ciclo di clock, o 16 operazioni INT32 + 16 operazioni FP32 oppure combinare i due datapath per elaborare 32 operazioni FP32...

viene da se che un potenziale raddoppio effettivo o quasi delle performance su Turing l'avresti solamente nei casi specifici in cui vengono sfruttate pesantemente operazioni FP32, mi viene in mente in ambito professionale ad esempio il software V-Ray (ma la maggior parte dei sw analoghi sono simili) oppure in ambito di Ray Tracing nelle operazioni di Denoising, mentre in gaming è difficile che si verifichi una situazione simile, sono molto più probabili situazioni miste INT+FP (con predominanza di queste ultime quantificabile in 2/3 in media) dove Ampere certamente guadagna, ma non in modo da assicurare un raddoppio su Turing ne sfruttare tutti i TFLOPs di cui è accreditata...

Questo post è da appendere al muro

I Teraflop contano fino ad un certo punto,non quantificano le prestazioni in senso assoluto

Messaggio da **Nemesis Elite** » 28 settembre 2020, 16:02

I Tflops sono il parametro determinante (da sempre) per misurare le prestazioni assolute di una GPU per ogni architettura di base. Dipende poi come e chi riesce a utilizzarli tutti o meno...
Jensen aveva promesso che una 3090 riusciva a fornire il doppio delle prestazioni di un 2080Ti (in game arriva ad un +50% in 4K di media) quindi mentiva? Se prendiamo VRAY che è ottimamente ottimizzato per l'architettura CUDA, vediamo che la RTX 3090 raggiunge più del doppio delle prestazioni della 2080 Ti abbastanza facilmente. Morale della favola : Jensen stava dicendo la verità e qui i TFlops escono tutti per fornire quelle performance assolute.

Per chi vuole approfondire questo discorso rimando a questo articolo :

https://wccftech.com/nvidia-rtx-30-fine ... rformance/

Messaggio da **delly** » 28 settembre 2020, 16:24

Nemesis Elite ha scritto: 28 settembre 2020, 16:02 I Tflops sono il parametro determinante (da sempre) per misurare le prestazioni assolute di una GPU per ogni architettura di base. Dipende poi come e chi riesce a utilizzarli tutti o meno...
Jensen aveva promesso che una 3090 riusciva a fornire il doppio delle prestazioni di un 2080Ti (in game arriva ad un +50% in 4K di media) quindi mentiva? Se prendiamo VRAY che è ottimamente ottimizzato per l'architettura CUDA, vediamo che la RTX 3090 raggiunge più del doppio delle prestazioni della 2080 Ti abbastanza facilmente. Morale della favola : Jensen stava dicendo la verità e qui i TFlops escono tutti per fornire quelle performance assolute.

infatti, dipende dalla capacità dell'applicazione di poter sfruttare appieno l'architettura, ma escludendo l'ambito "pro" dove è più probabile che questo avvenga, in gaming è molto difficile, forse nei titoli basati su API Vulkan dove si fa uso più pesante delle FP32, infatti non a caso ad esempio in DOOM Eternal la 3080 prende il largo rispetto alla 2080 Ti...

Messaggio da **Nemesis Elite** » 28 settembre 2020, 16:27

delly ha scritto: 28 settembre 2020, 16:24
Nemesis Elite ha scritto: 28 settembre 2020, 16:02 I Tflops sono il parametro determinante (da sempre) per misurare le prestazioni assolute di una GPU per ogni architettura di base. Dipende poi come e chi riesce a utilizzarli tutti o meno...
Jensen aveva promesso che una 3090 riusciva a fornire il doppio delle prestazioni di un 2080Ti (in game arriva ad un +50% in 4K di media) quindi mentiva? Se prendiamo VRAY che è ottimamente ottimizzato per l'architettura CUDA, vediamo che la RTX 3090 raggiunge più del doppio delle prestazioni della 2080 Ti abbastanza facilmente. Morale della favola : Jensen stava dicendo la verità e qui i TFlops escono tutti per fornire quelle performance assolute.

infatti, dipende dalla capacità dell'applicazione di poter sfruttare appieno l'architettura, ma escludendo l'ambito "pro" dove è più probabile che questo avvenga, in gaming è molto difficile, forse nei titoli basati su API Vulkan dove si fa uso più pesante delle FP32, infatti non a caso ad esempio in DOOM Eternal la 3080 prende il largo rispetto alla 2080 Ti...

assolutamente...e infatti la 3090 (40.5 Tflops in base boost) riporta uno stacco "solo" di circa il 50% dalla 2080Ti nei giochi in 4K : praticmanete metà della sua potenza computazionale resta "dormiente".

Messaggio da **Nrg** » 28 settembre 2020, 16:31

Diciamo pure che in gaming i Teraflops sono molto relativi,in ambito professionale è diverso.

Messaggio da **delly** » 28 settembre 2020, 16:31

esatto, poi è ovvio che il potenziale c'è, nessuno lo può negare, ma non si può pretendere che sia sempre sfruttato al 100% ovunque...

è lo stesso alla fine in ambito CPU, se hai un processore da 16 core non significa che in tutti gli scenari di utilizzo andrai 16 volte rispetto un single-core o andrai per forza meglio di un 8/10/12 core con pari architettura, ci possono essere ambiti in cui si possono parallelizzare al meglio i calcoli e quindi sfruttare al massimo il "bestione" oppure altri dove parte delle potenzialità può rimanere non sfruttata e non avere alcun vantaggio evidente...

Messaggio da **Nemesis Elite** » 28 settembre 2020, 16:34

delly ha scritto: 28 settembre 2020, 16:31 esatto, poi è ovvio che il potenziale c'è, nessuno lo può negare, ma non si può pretendere che sia sempre sfruttato al 100% ovunque...

è lo stesso alla fine in ambito CPU, se hai un processore da 16 core non significa che in tutti gli scenari di utilizzo andrai 16 volte rispetto un single-core o andrai per forza meglio di un 8/10/12 core con pari architettura, ci possono essere ambiti in cui si possono parallelizzare al meglio i calcoli e quindi sfruttare al massimo il "bestione" oppure altri dove parte delle potenzialità può rimanere non sfruttata e non avere alcun vantaggio evidente...

bravo delly, il discorso delle CPU Multicore/threads calza a pennello per capire meglio cosa stiamo discutendo con i TFlops.