O desempenho em jogos ainda pode ser representado por uma figura singular como o Teraflops? Entenda...
Publicado por Merovingian, em .
O Teraflops são uma forma popular de medir o "poder gráfico" há anos. O termo se refere ao número de cálculos que uma GPU pode realizar, mas embora esteja nas folhas de especificações desde sempre, foi mais recentemente o teraflop se tornou popular, aparecendo em mensagens de marketing encontradas no lançamento de consoles como o Xbox Series X. Com a contagens de núcleo de GPU chegando a cinco dígitos, é bom ter um simples ponto de comparação. Infelizmente, os teraflops nunca foram menos úteis quanto agora.

O termo teraflop vem de FLOPs, ou "floating-point operations per second" (operações de ponto flutuante por segundo) que significa simplesmente "cálculos que envolvem pontos decimais por segundo". O Tera significa trilhão, então, juntar TeraFlops significa "Trilhão de operações de ponto flutuante por segundo".

A GPU mais popular entre os usuários do Steam hoje, a venerável GTX 1060 da NVIDIA , ela é capaz de gerar 4,4 teraflops, a 2080 Ti que logo será usurpada pode lidar com cerca de 13,5 e o Xbox Series X pode gerenciar 12,0 teraflops. Esses números são calculados pelo número de núcleos shader em um chip, multiplicando pela velocidade do clock em pico, em seguida, multiplicando-se que pelo número de instruções por clock. Em contraste com muitos números que vemos no universo do PC, este é um cálculo justo e transparente, mas isso não o torna uma boa medida de desempenho em jogos.

Quase toda família de GPU chega com ganhos geracionais

A RX 580 da AMD, uma GPU de 2017 com 6,17 teraflops, por exemplo, tem um desempenho semelhante a RX 5500, uma placa de 5,2 teraflops que a empresa lançou no ano passado. Esse tipo de melhoria "oculta" pode ser atribuída a muitos fatores, desde mudanças arquitetônicas até desenvolvedores de jogos fazendo uso de novos recursos, mas quase todas as famílias de GPU chegam com esses ganhos geracionais. É por isso que o Xbox Series X, por exemplo, deve superar o Xbox One X em mais do que os números de “12 versus 6 teraflops”. (Idem para o PS5 e o PS4 Pro.)

A questão é que, mesmo dentro da mesma empresa de GPU, a cada ano, as mudanças na forma como os chips e os jogos são projetados tornam mais difícil discernir o que exatamente "um teraflop" significa para o desempenho dos jogos. Pegue uma placa AMD e uma placa NVIDIA de qualquer geração e a comparação terá ainda menos valor.

Vídeo do YoutubeN1Flb1pZNHRmOUk=
Tudo isso nos leva à série RTX 3000. Estas chegaram com algumas especificações verdadeiramente chocantes. A RTX 3070, uma placa de $ 500, está listada como tendo 5.888 núcleos cuda (nome da NVIDIA para núcleos shader) com capacidade de entregar 20 teraflops. E a placa principal da Nvidia de US $ 1.500, a RTX 3090 com 10.496 núcleos cuda, chegando a 36 teraflops. Para fins de contexto, a RTX 2080 Ti que é a melhor placa de vídeo disponível para o "consumidor" atualmente, tem 4.352 "núcleos cuda.” A NVIDIA, então, aumentou o número de núcleos em seu carro-chefe em mais de 140% e sua capacidade de teraflops em mais de 160%.

As placas NVIDIA são compostas por muitos "multiprocessadores de streaming" ou SMs. Cada um dos 68 SMs "Turing" na 2080 Ti contém, entre muitas outras coisas, 64 núcleos cuda "FP32" dedicados à matemática de ponto flutuante e 64 núcleos "INT32" dedicados à matemática de ponto inteiro (cálculos com números inteiros).

A grande inovação no Turing SM, além da aceleração de IA e do ray tracing, foi a capacidade de executar matemática de ponto inteiro e ponto flutuante simultaneamente. Essa foi uma mudança significativa em relação à geração anterior, Pascal, em que os bancos de núcleos alternavam entre pontos inteiros e pontos flutuantes separadamente.

Clique para ver a imagem em tamanho original

As placas RTX 3000 são construídas em uma arquitetura que a NVIDIA chama de "Ampere", e seu SM, de certa forma, segue as abordagens Pascal e Turing. Ampere mantém os 64 núcleos FP32 como antes, mas os outros 64 núcleos agora são designados como "FP32 e INT32 ". Portanto, metade dos núcleos Ampere são dedicados ao ponto flutuante, enquanto a outra metade pode realizar cálculos matemáticos de ponto flutuante ou inteiro, assim como em Pascal.

Com essa opção, a NVIDIA agora está contando cada SM como contendo 128 núcleos FP32, em vez dos 64 que Turing tinha. Os "5.888 núcleos cuda" da 3070 são talvez melhor descritos como "2.944 núcleos cuda e 2.944 núcleos que podem ser cuda."

Conforme os jogos se tornaram mais complexos, os desenvolvedores começaram a se apoiar mais nos pontos inteiros. Um slide da NVIDIA do lançamento RTX de 2018 original sugeriu que a matemática de inteiros, em média, representava cerca de um quarto das operações da GPU no jogo.

A desvantagem do Turing SM é o potencial de subutilização. Se, por exemplo, uma carga de trabalho é 25% de matemática de pontos inteiros, cerca de um quarto dos núcleos da GPU podem estar parados sem nada para fazer. Esse é o pensamento por trás dessa nova estrutura de núcleo semi-unificado e, no papel, faz muito sentido: você ainda pode executar operações de pontos inteiros e de ponto flutuante simultaneamente, mas quando esses núcleos inteiros estão inativos, eles podem executar as operações de pontos flutuantes em vez de ficarem parados.

Vídeo do YoutubeWE81WDNUUWxXZGs=
[Este video foi produzido antes da NVIDIA explicar as mudanças no SM.]

No lançamento da RTX 3000 da NVIDIA, o CEO Jensen Huang disse que a RTX 3070 era "mais poderosa do que a RTX 2080Ti". Usando o que agora sabemos sobre o design da Ampere, ponto inteiro e ponto flutuante, velocidades de clock e teraflops, podemos ver como as coisas podem se desenrolar. Nessa carga de trabalho de "25% com número inteiro", 4.416 desses núcleos poderiam estar executando matemática FP32, com 1.472 lidando com o necessário INT32 .

Juntamente com todas as outras mudanças que a Ampere traz, a 3070 poderia superar o 2080 Ti em talvez 10%, assumindo que o jogo não se importaria de ter 8 GB em vez de 11 GB de memória para trabalhar. No pior caso absoluto (e altamente improvável), onde uma carga de trabalho é extremamente dependente do número de ponto inteiro, ela poderia se comportar mais como a 2080 basica. Por outro lado, se um jogo exigir muito pouca matemática de ponto inteiro, a vantagem sobre a 2080Ti pode ser enorme.

Suposições à parte, temos uma comparação até agora: um vídeo da Digital Foundry comparando a RTX 3080 com a RTX 2080. DF conseguiu notar um aumento de 70 a 90 por cento entre as gerações em vários jogos que a NVIDIA apresentou para teste, com a diferença de desempenho maior em títulos que utilizam recursos RTX, como o ray tracing. Esse intervalo dá um vislumbre do tipo de ganho de desempenho variável que esperaríamos, dados os novos núcleos compartilhados. Será interessante ver como um conjunto maior de jogos se comportará, já que a NVIDIA provavelmente deu o seu melhor com a seleção de jogos sancionada. O que você não verá é a melhoria de quase 3x que o salto na quantidade de teraflop da 2080 para a quantidade de teraflop da 3080 implicaria, se apenas isso bastasse.

Vídeo do YoutubeY1dEMDF5VVFkVkE=
Com as primeiras RTX 3000 chegando em semanas, você pode esperar análises que darão uma ideia firme do desempenho da Ampere em breve. Embora até agora pareça seguro dizer que Ampere representa um salto monumental para jogos de PC. A 3070 de $ 499 provavelmente estará trocando golpes com o carro-chefe atual, e a 3080 de $ 699 deve oferecer desempenho mais do que suficiente para aqueles que anteriormente optariam pela “Ti”. Independentemente de como essas placas estejam alinhadas, fica claro que seu valor não pode mais ser representado por uma figura singular como os TeraFlops.
Merovingia
Merovingian #Merovingia
Usuário do Site, 23 anos, SP
Deixe seu comentário para sabermos o que você achou da publicação
Gosta do site e quer ajudar a o manter online? Apoie-nos!.
Não se esqueça que você pode participar do nosso Discord.
E também nos seguir no Facebook, Twitter, Instagram e na nossa curadorida da Steam.