HW Legend

mikael84 ha scritto:Ciao Nemesis, cerco di dare il mio contributo, magari può essere utile.
Le AMD hanno maggiore capacità di calcolo, se non vengono impiegate le LDS, e possono operare sino a 256st con soli 19 cicli di clock. Sono 4+4+4+4 + 3 di star, di un vettore all'altro.
Le rop's quando si attiva MSAA sono notevolmente più potenti. Pensa che in blendind 32 rop's AMD sono equivalenti a 128 rop's Nvidia, la quale svolge prevalente funzioni diverse, non MSAA, ma color buffer e color-ops, praticamente sono utili nel backfaceculling (ecco perchè gli unigine spingono fortissimo) I dati dello z-buffer sono utilizzati per calcolare la distanza degli oggetti dall'osservatore e, quindi, per le operazioni di rimozione dei poligoni nascosti.
AMD ha un freno a mano, ovvero, non riesce a gestire tutti i thread in contemporanea, ha problemi con la LDS, ed ha una banda, seppur con HBM a tratti irrisoria.

Nvidia invece, non ha alcun freno, ha le unità funzionali e se ne occupa il DU2, di conseguenza esprime al massimo la virgola mobile (TF).
L'host interface legge i dati dalla CPU, mentre il gigathread pesca i dati dalle memorie. Una volta completato il processo, il giga thread invia tutti i dati ai vari warp.
Ogni warp divide i calcoli, tra unità FP e unità funzionali (LDS/sfu che ogni 4 cicli offre 4 pixel /rop's). Le SFU oltre ai pixel si occupano di operazioni trascendentali e calcoli algebrici.
Il warp è composto da 32 thread, all'intero (sino a Pascal) è presente un contatore che assegna il compito di lavoro.
Se esegui dx11, o open gl, utilizzi praticamente tutti i thread, utilizzando calcoli paralleli, il contatore del warp si incasina, perchè lo suddivide in pezzi da 4x4 o simili, conseguentemente, si ritrova ad elaborare calcoli complessi, ed altri, subordinati, dove il lavoro secondario, lascia vari thread in idle, o li memorizza in cache, il cui accesso è molto veloce.
Tutto ciò va programmato per bene, altrimenti vai solo a peggiorare e succede questo.
http://www.gamersnexus.net/game-bench/2 ... 11-vs-dx12" onclick="window.open(this.href);return false;

Le dx12 salvo varie programmazioni danno il meglio di se, in multi gpu, quando molti shader dormienti riescono a lavorare (se ben programmati).
Volta, finalmente non integra più il contatore thread, ma ogni thread è indipendente e può decidere a suo modo.

Ciao Mikael, benvenuto. Non ci ho capito quasi una mazza, ma questo tipi di interventi penso siano quelli che arricchiscano la cultura di noi appassionati (e spesso, fanno la differenza fra chi è appassionato e chi ci lavora) quindi ti ringrazio.

Vorrei approfondire e vorrei capire cosa hai scritto, ma prima avrei qualche domanda (rivolta a te e chiunque altro) per chiarire un paio di carte:
1)Cosa sono le LDS?
2)cosa intendi con 256 ST ? cosa accade nei 14 cicli di clock?
3)cosa sono, esattamente, le ROP's e cosa determina l'aumentare di queste?
4)questo problema del "freno a mano" pensi si possa risolvere?
5)cosa sono le unità funzionali e le DU2 di nvidia?
6)e i gigathread e i warp?
7)quali sono le operazioni trascendenti di cui parli? intendi funzioni matematiche non polinomiali?
8)puoi spiegare meglio il problema delle dx11 di cui parli? non è che forse intendevi DX12?

Ti ringrazio (te e chiunque avrà voglia di rispondere, per la disponibilità)

Lordpkappa ha scritto:
semplifichiamo un secondo il discorso, allora: se la RX andasse quanto una 1080, prezzo minore-uguale, con margini di miglioramento, pensi che sarebbe una cattiva scheda da avere? ovviamente ipotizzando di non dover cambiare alimentatore
Riguardo a Rxvega penso vi sia meglio sul mercato, costasse un 100 euro meno rispetto a 1080 potrebbe avere un senso, ma la trovo poco elegante, GPU gigantesca.

dopo l'intervento di mikael quasi mi sembra di inquinare il topic

che per il momento sia poco elegante mi trovi assolutamente d'accordo, non troverei parole migliori per descrivere (io l'avrei chiamata "architettura ignorante" LOL). Però dai, spezziamo una piccola lancia, oltre all'architettura ha: le HBM2 e l'HBCC, che poco eleganti non sono

tuttavia, ipotizzando prezzo (partiamo da 500€ ma quanto staranno le custom qui in Italia!? le 1080 stanno sui 600, ora, su amazon...) le performance mediamente uguali al D1 avresti fra i pro della RX il supporto al freesync, pieno supporto alle DX12 (le pascal, per dirti, non supportano l'AC) e dei possibili margini di miglioramento da qui in futuro. Di contro, ovviamente, i consumi e temperature allucinanti.

Mikael ne sa un botto, ottimo vederlo anche qui :D

@ Michael :

Ciao michael,
tutto bello, sempre esaustivo e ben dettagliato il tuo post ma qui pero' dobbiamo un attimo focalizzarci sul vero problema di fondo di Vega perchè alla fine i numeri dovrano essere dalla tua parte per avere "ragione" :
se mi fai un'architettura impostata in quel modo, con numeri decisamente "importanti", con spedicihe in parte del tutto superiori ai chip top di gamma di NVIDIA...ma non sai usarla o meglio non restituisce i risultati sperati allora hai sbagliato progetto.
Mi ripeto, ho dubbi, tantissimi dubbi che AMD abbia impostato un'architettura in quel modo, con quelle specifiche, per cercare di stare dietro una 1080FE da 180w. Se invece l'obiettivo di questa architettura è stato da sempre la 1080 di NVIDIA allora il progetto è sbagliato non uno ma 2 volte perchè improponibile presentarsi oggi con quelle specifiche e ridimensionarti su una scheda concorrente di 15 mesi fa.
L'architettura che sta alla base di Vega non funziona come avrebbe dovuto.Ce qualcosa di tremendamente sbagliato dentro.
Devo ancora trovare un motivo valido, uno solo, per pensare il contrario.
Fatti sentire più spesso di qua.

Radeon RX Vega 56 benchmark results:

Battlefield 1: 95.4FPS (GTX 1070: 72.2FPS)
Civilization 6: 85.1FPS (GTX 1070: 72.2FPS)
DOOM: 101.2FPS (GTX 1070: 84.6FPS)
COD:IW: 99.9FPS (GTX 1070: 92.1FPS)

Vega 56 vs 1070 ha senso, discreto upgrade.
Ovviamente bisognerebbe confermare tutto, anche perchè vorrebbe dire perdere un 5-10% da Vega 64, il che mi sembra improbabile, ma attendiamo conferme.

Lordpkappa ha scritto:Radeon RX Vega 56 benchmark results:

Battlefield 1: 95.4FPS (GTX 1070: 72.2FPS)
Civilization 6: 85.1FPS (GTX 1070: 72.2FPS)
DOOM: 101.2FPS (GTX 1070: 84.6FPS)
COD:IW: 99.9FPS (GTX 1070: 92.1FPS)

Vega 56 vs 1070 ha senso, discreto upgrade.
Ovviamente bisognerebbe confermare tutto, anche perchè vorrebbe dire perdere un 5-10% da Vega 64, il che mi sembra improbabile, ma attendiamo conferme.

Mha, mi puzzano troppo sti numeri

Inviato dal mio Redmi Note 2 utilizzando Tapatalk

Un po' di ottimismo, dopo tutta una serie di notizie non proprio belle, potrebbe essere che la decurtazione non incida poi molto.

Lordpkappa ha scritto:Un po' di ottimismo, dopo tutta una serie di notizie non proprio belle, potrebbe essere che la decurtazione non incida poi molto.

Possibilissimo, poi potrebbe esserci pure un po' di margine in OC (mi pare che le cut partivano da frequenze base sui 1250mhz). comunque se fosse vero potrei averci preso, tutti a pensare alla 1080 Ti quando la fascia della 1070 è praticamente diventata inesistente sia per il mining sia perchè non ha avuto un decente calo di prezzi

Nemesis Elite ha scritto:@ Michael :

Ciao michael,
tutto bello, sempre esaustivo e ben dettagliato il tuo post ma qui pero' dobbiamo un attimo focalizzarci sul vero problema di fondo di Vega perchè alla fine i numeri dovrano essere dalla tua parte per avere "ragione" :
se mi fai un'architettura impostata in quel modo, con numeri decisamente "importanti", con spedicihe in parte del tutto superiori ai chip top di gamma di NVIDIA...ma non sai usarla o meglio non restituisce i risultati sperati allora hai sbagliato progetto.
Mi ripeto, ho dubbi, tantissimi dubbi che AMD abbia impostato un'architettura in quel modo, con quelle specifiche, per cercare di stare dietro una 1080FE da 180w. Se invece l'obiettivo di questa architettura è stato da sempre la 1080 di NVIDIA allora il progetto è sbagliato non uno ma 2 volte perchè improponibile presentarsi oggi con quelle specifiche e ridimensionarti su una scheda concorrente di 15 mesi fa.
L'architettura che sta alla base di Vega non funziona come avrebbe dovuto.Ce qualcosa di tremendamente sbagliato dentro.
Devo ancora trovare un motivo valido, uno solo, per pensare il contrario.
Fatti sentire più spesso di qua.

Ciao Nemesis, purtroppo seguendo poco tutto ultimamente.

Tornando a noi, i numeri di Vega non possono essere confrontati con quelli di Nvidia.
Nvidia ha le unità funzionali abilitate in rapporto 4:1:1, ciò significa che ogni cuda è affiancato alla LDS (512 istruzioni 64 bit) ed alla relativa SFU (che calcola i vari seno, coseno etc).
AMD le unità funzionali deve emularle, quindi i dati, i famosi TF sono solo teorici, valgono nel calcolo puro, dove devasti lo shader core, impiegando molti meno cicli rispetto ad Nvidia.
Se AMD dovesse utilizzare le LDS come Nvidia perderebbe 1/4 del teorico (LDS a 32 bit tra l'altro.
Utilizzando le funzionali come Nvidia, 16 LDS e 4 SFU, perderebbe metà del teorico, Nvidia no.

Un GPC è perfettamente scalabile, sia in core, che in cache, geometria, z-cull etc. Ogni P.E (polymorph engine) elabora da 0,33 a 0,5 triangoli per ciclo, ed ad ogni ciclo il lavoro svolto passa via raster dove gli aspettano 3 stadi di pipeline, per il lavoro di backfaceculling (heaven o valley volano su Nvidia per questo).
AMD non lavora così, l'ultra thread dispachtor, può assegnare compiti solo alle ALU dei vari vettori, ed in uscita purtroppo non si riesce ad ottenere il massimo da cache-rop's (separati) e BW.
Con Vega la cache sarà affiancata alle rop's per migliorare la banda e permettere un throughput maggiore, ma dai test questo non riesce.

Qua possiamo notare come l'uscita effettiva della BW di Vega (almeno sulla FE) è pari ad un controller polaris a 384bit
https://abload.de/img/eee96qiy.png" onclick="window.open(this.href);return false;

I valori senza decompressione per i valori 2:1 sono molto inferiori a quanto visto su fiji.

Chiaramente con la RX tutto questo potrebbe cambiare, io parlo dei primi risultati.

Chiudo dicendo, che Vega non ha propriamente i calcoli matematici per competere con un GP102.
Ogni GPC Nvidia equivale a circa 3 TF AMD.
6 GPC equivalgono a circa 18TF AMD (ovviamente con la TI leggermente meno, specie per valori da review), 96 rop's ( 4 raster possono elaborare da 8 a 16 pixel, quindi si rimane a max 64).
La cache di 4mb va bene, ma il rapporto in BW dovrebbe essere di oltre 660 gb/s in compressione simil Pascal).

Diciamo che i dati non sono a favore della competizione con la TI, ma se AMD riesce a far funzionare meglio il tutto, potrebbe fare meglio di quanto ci si aspetti.

IlPresidente ha scritto:
mikael84 ha scritto:Ciao Nemesis, cerco di dare il mio contributo, magari può essere utile.
Le AMD hanno maggiore capacità di calcolo, se non vengono impiegate le LDS, e possono operare sino a 256st con soli 19 cicli di clock. Sono 4+4+4+4 + 3 di star, di un vettore all'altro.
Le rop's quando si attiva MSAA sono notevolmente più potenti. Pensa che in blendind 32 rop's AMD sono equivalenti a 128 rop's Nvidia, la quale svolge prevalente funzioni diverse, non MSAA, ma color buffer e color-ops, praticamente sono utili nel backfaceculling (ecco perchè gli unigine spingono fortissimo) I dati dello z-buffer sono utilizzati per calcolare la distanza degli oggetti dall'osservatore e, quindi, per le operazioni di rimozione dei poligoni nascosti.
AMD ha un freno a mano, ovvero, non riesce a gestire tutti i thread in contemporanea, ha problemi con la LDS, ed ha una banda, seppur con HBM a tratti irrisoria.

Nvidia invece, non ha alcun freno, ha le unità funzionali e se ne occupa il DU2, di conseguenza esprime al massimo la virgola mobile (TF).
L'host interface legge i dati dalla CPU, mentre il gigathread pesca i dati dalle memorie. Una volta completato il processo, il giga thread invia tutti i dati ai vari warp.
Ogni warp divide i calcoli, tra unità FP e unità funzionali (LDS/sfu che ogni 4 cicli offre 4 pixel /rop's). Le SFU oltre ai pixel si occupano di operazioni trascendentali e calcoli algebrici.
Il warp è composto da 32 thread, all'intero (sino a Pascal) è presente un contatore che assegna il compito di lavoro.
Se esegui dx11, o open gl, utilizzi praticamente tutti i thread, utilizzando calcoli paralleli, il contatore del warp si incasina, perchè lo suddivide in pezzi da 4x4 o simili, conseguentemente, si ritrova ad elaborare calcoli complessi, ed altri, subordinati, dove il lavoro secondario, lascia vari thread in idle, o li memorizza in cache, il cui accesso è molto veloce.
Tutto ciò va programmato per bene, altrimenti vai solo a peggiorare e succede questo.
http://www.gamersnexus.net/game-bench/2 ... 11-vs-dx12" onclick="window.open(this.href);return false;

Le dx12 salvo varie programmazioni danno il meglio di se, in multi gpu, quando molti shader dormienti riescono a lavorare (se ben programmati).
Volta, finalmente non integra più il contatore thread, ma ogni thread è indipendente e può decidere a suo modo.
Ciao Mikael, benvenuto. Non ci ho capito quasi una mazza, ma questo tipi di interventi penso siano quelli che arricchiscano la cultura di noi appassionati (e spesso, fanno la differenza fra chi è appassionato e chi ci lavora) quindi ti ringrazio.

Vorrei approfondire e vorrei capire cosa hai scritto, ma prima avrei qualche domanda (rivolta a te e chiunque altro) per chiarire un paio di carte:
1)Cosa sono le LDS?
2)cosa intendi con 256 ST ? cosa accade nei 14 cicli di clock?
3)cosa sono, esattamente, le ROP's e cosa determina l'aumentare di queste?
4)questo problema del "freno a mano" pensi si possa risolvere?
5)cosa sono le unità funzionali e le DU2 di nvidia?
6)e i gigathread e i warp?
7)quali sono le operazioni trascendenti di cui parli? intendi funzioni matematiche non polinomiali?
8)puoi spiegare meglio il problema delle dx11 di cui parli? non è che forse intendevi DX12?

Ti ringrazio (te e chiunque avrà voglia di rispondere, per la disponibilità)

Lordpkappa ha scritto:
semplifichiamo un secondo il discorso, allora: se la RX andasse quanto una 1080, prezzo minore-uguale, con margini di miglioramento, pensi che sarebbe una cattiva scheda da avere? ovviamente ipotizzando di non dover cambiare alimentatore
Riguardo a Rxvega penso vi sia meglio sul mercato, costasse un 100 euro meno rispetto a 1080 potrebbe avere un senso, ma la trovo poco elegante, GPU gigantesca.
dopo l'intervento di mikael quasi mi sembra di inquinare il topic
che per il momento sia poco elegante mi trovi assolutamente d'accordo, non troverei parole migliori per descrivere (io l'avrei chiamata "architettura ignorante" LOL). Però dai, spezziamo una piccola lancia, oltre all'architettura ha: le HBM2 e l'HBCC, che poco eleganti non sono

tuttavia, ipotizzando prezzo (partiamo da 500€ ma quanto staranno le custom qui in Italia!? le 1080 stanno sui 600, ora, su amazon...) le performance mediamente uguali al D1 avresti fra i pro della RX il supporto al freesync, pieno supporto alle DX12 (le pascal, per dirti, non supportano l'AC) e dei possibili margini di miglioramento da qui in futuro. Di contro, ovviamente, i consumi e temperature allucinanti.

Mi fa piacere che ti interessi l'argomento, però mi ci vorrebbero 3 giorni a spiegarti tutte le architetture, magari piano piano ne parliamo.

Ti rispondo meglio all'ultima, quella che magari ti interessa di più attualmente.
Prendi un SMM, questo è composto da 4 "blocchi" da 32cc, per un totale di 128cc (cuda core). Questo blocco si chiama warp, ed è collegato a due corsie (le DU), una corsia renderizza i 32 thread, l'altra serve le unità funzionali come la LDS (si occupa dei registri).
Un registro è dato che puoi elaborare istantaneamente, altrimenti devi pescare in cache. Più la cache è grande, più tempo impieghi a pescarlo.
Immagina un pentolone con tanti oggetti, più è grande più perdi tempo a cercarlo.
Se un dato viene elaborato istantaneamente, quello in cache ti può portare via anche 20 cicli di clock.

Ora. Il gigathread, quella "barra"principale dello schema Nvidia, assegna a tutti i blocchi (warp) le istruzioni, all'interno del warp (blocco), c'è un contatore, questo consente ai thread i lavorare al meglio.
Se come per BF1, svolgi compiti paralleli (dx12), spezzetti il warp, e rischi che vari blocchi (facciamo un 4x4) rimangano in idle ed il lavoro parallelo di alcuni thread, viene messo in coda, nel conservative (di cui sarà dotato anche Vega), saturando parte di registri e di cache.
Ecco perchè, se non ben programmato via driver, un gioco come BF1, su Nvidia perde, ma basta solo impostarlo in DX11.

grazie mille, molto più chiaro! sempre piacere saperne un po' di più

qualcosa di architetture l'ho studiato all'uni (più che altro su cpu "antiche", all'uni abbiamo studiacchiato l'8086). ma so proprio la base, registri, cache, alu, bus, pipeline... delle gpu per il momento so molto di meno. guarda, potresti darmi(o darci) una mano "espandendo" i vari acronimi, magari ho più facilità a cercare qualcosa da me!

ps: se posso: sei solo appassionato o lavori nel settore?

HW Legend

[Thread Ufficiale] AMD Radeon RX Vega

Re: Aspettando AMD VEGA

Re: [Thread Ufficiale] AMD Radeon RX Vega

Re: [Thread Ufficiale] AMD Radeon RX Vega

Re: [Thread Ufficiale] AMD Radeon RX Vega

Re: [Thread Ufficiale] AMD Radeon RX Vega

Re: [Thread Ufficiale] AMD Radeon RX Vega

Re: [Thread Ufficiale] AMD Radeon RX Vega

Re: [Thread Ufficiale] AMD Radeon RX Vega

Re: Aspettando AMD VEGA

Re: [Thread Ufficiale] AMD Radeon RX Vega