J.A.R.V.I.S. está se tornando uma realidade
Publicado por Char Aznable, em .
O CEO da NVIDIA, Jensen Huang, anunciou durante sua palestra no GTC 2020 um conjunto de grandes novos avanços tecnológicos para a empresa, incluindo três que são muito relevantes para o espaço de Mídia e Entretenimento (M&E).

  1. Raytracing da NVIDIA se beneficiando do Deep Learning Super Sampling (DLSS) 2.0
  2. Um Omniverse expandido
  3. Discurso excepcional sobre animação de personagens, como parte da estrutura de IA de conversação de Jarvis.

Ray Tracing em Tempo Real


O DLSS 2.0 é uma rede neural de aprendizado profundo nova e aprimorada que aumenta as taxas de quadros e as resoluções, gerando belas e nítidas imagens nos jogos. Dá aos criadores o desempenho máximo para maximizar as configurações de ray tracing e aumentar as resoluções.

Em sua palestra, Huang destacou uma simulação e demonstração de renderização de GPU em tempo real chamada Marbles RTX. A demo é um ambiente jogável, exibindo física em tempo real com iluminação dinâmica e materiais ricos e baseados em física. Huang também descreveu a plataforma Omniverse, que foi usada para fazer o Marbles RTX.

Vídeo do YoutubeSDBfTlpEU3FSM1k=
Durante a palestra virtual, Huang apresentou a demonstração criada remotamente pela equipe criativa da NVIDIA, para ilustrar o poder do ray tracing das suas RTX e da Plataforma Omniverse. O Marbles RTX foi criado por uma equipe distribuída de artistas e engenheiros usando o Omniverse. Eles reuniram os ativos de qualidade VFX+ em um jogo totalmente simulado fisicamente. A demonstração não exigiu sacrifício em qualidade e fidelidade que normalmente se associam a recursos artísticos de ''gamificação'' (engajamento; processo de adicionar elementos de jogo em atividades que não são games) para serem executados em tempo real. O Marbles RTX roda em uma única Quadro RTX 8000, simulando física complexa em um conjunto interno de ray tracing em tempo real. A demo não pode ser baixada "porque depende do servidor Omniverse", explicou Richard Kerris, GM da M&A da NVIDIA, quando conversamos com ele separadamente.

Clique para ver a imagem em tamanho original

A criação de efeitos visuais, visualizações de arquitetura ou projetos de fabricação geralmente requer várias pessoas colaborando entre equipes, locais de trabalho remotos e vários sites de clientes para revisões. Os assets 3D são desenvolvidos usando uma variedade de ferramentas de software. As transferências de dados entre aplicativos têm sido o desafio de milhões de artistas, designers, arquitetos, engenheiros e desenvolvedores em todo o mundo. Usando a Universal Scene Description (USD) da Pixar e a tecnologia NVIDIA RTX, o Omniverse oferece uma maneira de as pessoas trabalharem facilmente com aplicativos e colaborarem simultaneamente com colegas e clientes, onde quer que estejam. Destacamos esse exemplo com uma demonstração do GauGAN há algumas semanas aqui no fxguide.

Essa tecnologia também é muito aplicável à produção virtual, especialmente com muitas empresas atualmente em confinamento e trabalhando com equipes distribuídas. Kerris observou que "empresas como a ILM tiveram cinco vezes o nível de interesse em estágios virtuais nos últimos 90 dias". A NVIDIA forneceu as placas de GPU usadas no projeto de palco virtual The Mandalorian da ILM. O Omniverse está em desenvolvimento há algum tempo, mas é ideal para colaboração remota.

Enquanto a demonstração do Marble foi executada em uma única placa RTX 8000, o Omniverse da NVIDIA foi expandida para incluir um novo tipo de renderização no Omniverse View. Este módulo é acelerado por várias GPUs NVIDIA RTX e desenvolvido para extrema escalabilidade em grupo de GPUs para fornecer saída em tempo real de alta qualidade, mesmo com grandes modelos 3D. O Omniverse View exibe o conteúdo 3D agregado de diferentes aplicativos no Omniverse ou diretamente no aplicativo 3D em uso. Também foi desenvolvido para oferecer suporte a mecanismos de jogos comerciais e renderizadores offline.

Clique para ver a imagem em tamanho original

Machine Learning Ray Tracing Scaling


O DLSS 2.0 oferece qualidade de imagem comparável à resolução nativa, renderizando apenas um quarto a cerca da metade do número de pixels. Ele emprega novas técnicas de feedback temporal para obter detalhes mais nítidos da imagem e maior estabilidade de quadro a quadro. O DLSS 1.0 original exigia o treinamento da rede Machine Learning (ML) para cada novo ambiente ou jogo. O DLSS 2.0 foi ensinado usando conteúdo não específico do jogo, fornecendo uma rede generalizada que funciona em diferentes ambientes visuais. Não é uma ferramenta Upres geral para imagens. Ele usa um auto-codificador convolucional, que usa o quadro atual de baixa resolução e o quadro anterior de alta resolução, para determinar, pixel por pixel, como gerar um quadro atual de maior qualidade. O DLSS 2.0, portanto, possui duas entradas principais na rede ML:

  1. Imagens de baixa resolução e renderizadas pelo mecanismo de renderização
  2. Vetores de movimento e baixa resolução das mesmas imagens - também gerados pelo mecanismo de renderização.

Enquanto a NVIDIA falava em CPU e GPU, o foco da apresentação do GTC deste ano foi a computação em nuvem/servidor combinada com a DPU (Deep-Learning Processing Units). Anteriormente, a narrativa da NVIDIA era principalmente Ray-Tracing with AI, - mas esses resultados eram mais um reflexo dos algoritmos de redução de ruído. Este ano, Huang mostrou uma alta resolução incrível, com o Machine Learning fornecendo resultados consideráveis ao inferir renderizações de ray tracing de alta resolução. O processo combina o ray tracing com o Machine Learning para produzir renderizações de alta qualidade acima da resolução nativa sendo ray-traced. De fato, na demonstração, as imagens renderizadas com AI com resolução 1920 x 1080 de alta resolução, que foram convertidas em 720P, pareciam ser mais detalhadas do que a renderização correspondente que foi renderizada nativamente na resolução 1920.

Clique para ver a imagem em tamanho original

Outra demonstração importante foi mostrar o ray tracing de Minecraft. Isso já havia sido lançado. Em abril, uma versão beta do Minecraft com RTX foi lançada. A Mojang Studios e a NVIDIA fizeram uma edição do jogo para Windows 10 que oferecia ray tracing de cima para baixo.

Clique para ver a imagem em tamanho original

Jarvis


A segunda demonstração envolvendo o Omniverse foi a seção de demonstração Jarvis. Jarvis é o novo sistema de conversação da NVIDIA.

A IA de conversação é um dos problemas com solução mais difíceis, exigindo uma grande quantidade de Machine Learning, com reconhecimento de fala complexo para o Natural Language Processing (NLP). A indução precisa ser extremamente rápida, ou a conversa fica lenta e o efeito ou ilusão de uma conversa é interrompido. Além da impressionante IA, a demonstração também mostrou o desempenho de Jarvis sendo convertida em discurso humano plausível. Dois personagens foram mostrados sendo conduzidos pelo canal do Jarvis, um dos quais era uma personagem interativa, uma gota d'água chamada Misty. Mas talvez a demonstração de M&A mais impressionante e relevante tenha sido a demo de sincronização labial, que produziu uma sincronização labial notável de um funcionário da NVIDIA que forneceu apenas o áudio de uma batida, que depois foi interpretada em sincronização labial extremamente robusta em um modelo básico de uma face real.

Clique para ver a imagem em tamanho original


Clique para ver a imagem em tamanho original

Conversa casual da AI e Lipsync


A demo de rap (com nosso funcionário, John Della Bona, 'JohnnyD') demonstra a velocidade e a precisão de Jarvis para impulsionar a IA conversacional e a animação facial em tempo real, bem como os recursos de animação e gráficos em tempo real do Omniverse Kit, uma verdadeira solução de ponta a ponta, disse Kerris ao fxguide.


Clique para ver a imagem em tamanho original

Jarvis é uma estrutura totalmente acelerada para a criação de serviços de IA de conversação multimodal que usam um pipeline de aprendizado profundo de ponta a ponta. Os desenvolvedores podem ajustar facilmente os modelos de ponta em seus dados para obter um entendimento mais profundo de seu contexto específico e otimizar a inferência para oferecer serviços em tempo real que são executados em 150 milissegundos (ms) em comparação aos 25 segundos necessário em plataformas apenas de CPU. A estrutura Jarvis inclui modelos de IA de conversação pré-treinados, ferramentas no NVIDIA AI Toolkit e serviços de ponta a ponta otimizados para tarefas de fala, visão e compreensão da linguagem natural (NLU). O Jarvis vem com um conjunto de pré-treinamento que representa mais de 100.000 horas de treinamento, mas isso é adicionado por um desenvolvedor ao módulo NeMo, que combina termos específicos do domínio e treinamento adicional localizado. Essa adição de termos especiais e dados de treinamento, combinada com o treinamento básico do Jarvis, produz resultados incríveis.

A fusão de visão, áudio e outras entradas fornece simultaneamente recursos como conversas para vários usuários e contextos em aplicativos como assistentes virtuais, diarização para vários usuários e assistentes de call center.

Clique para ver a imagem em tamanho original

Os aplicativos baseados no Jarvis foram otimizados para maximizar o desempenho na plataforma NVIDIA EGX na nuvem, em data center. Um dos principais temas da palestra do CEO Jensen Huang foram os avanços da NVIDIA na Escala de Data Center. A escala e a economia de custos dos servidores de IA da NVIDIA são incrivelmente impressionantes.
-Funky-
Char Aznable #-Funky-
ーシャア・アズナブル、赤い彗星。
Usuário do Site, 26 anos, Principality of Zeon
Deixe seu comentário para sabermos o que você achou da publicação
Gosta do site e quer ajudar a o manter online? Apoie-nos!.
Não se esqueça que você pode participar do nosso Discord.
E também nos seguir no Facebook, Twitter, Instagram e na nossa curadorida da Steam.