NVIDIA Revoluciona IA Visual na CVPR 2024 com Modelos Generativos e Tecnologias Avançadas

Os pesquisadores da NVIDIA estão revelando novos modelos de IA visual generativa e técnicas na conferência de Visão Computacional e Reconhecimento de Padrões (CVPR) em Seattle. Os avanços abrangem áreas como geração personalizada de imagens, edição de cena 3D, compreensão de linguagem visual e percepção autônoma de veículos.

“A inteligência artificial, especialmente a IA generativa, representa um avanço tecnológico crucial,” disse Jan Kautz, VP de pesquisa de aprendizado e percepção da NVIDIA. “Na CVPR, a NVIDIA Research está mostrando como estamos empurrando os limites do que é possível — desde modelos poderosos de geração de imagens até software de direção autônoma que pode habilitar carros autônomos de próxima geração.”

Dos mais de 50 projetos de pesquisa da NVIDIA apresentados, dois artigos foram finalistas para os Prêmios de Melhor Artigo da CVPR – um sobre a dinâmica de treinamento de modelos de difusão e outro sobre mapas de alta definição para carros autônomos.

A NVIDIA também venceu a categoria End-to-End Driving at Scale do CVPR Autonomous Grand Challenge, superando mais de 450 inscrições globais. Este marco demonstra o trabalho pioneiro da NVIDIA em IA generativa para modelos abrangentes de veículos autônomos, ganhando também um Prêmio de Inovação da CVPR.

Um destaque é o JeDi, uma técnica que permite aos criadores personalizar rapidamente modelos de difusão para representar objetos ou personagens específicos usando apenas algumas imagens de referência, em vez do demorado ajuste fino em conjuntos de dados personalizados.

Outro avanço é o FoundationPose, um modelo base que pode entender e rastrear instantaneamente a pose 3D de objetos em vídeos sem treinamento específico por objeto. Estabeleceu um novo recorde de desempenho e pode desbloquear novas aplicações em AR e robótica.

Os pesquisadores da NVIDIA também introduziram o NeRFDeformer, um método para editar cenas 3D capturadas por um Neural Radiance Field (NeRF) usando uma única imagem 2D, em vez de reanimar manualmente as mudanças ou recriar completamente o NeRF. Isso pode simplificar a edição de cenas 3D para gráficos, robótica e gêmeos digitais.

Em colaboração com o MIT, a NVIDIA desenvolveu o VILA, uma nova família de modelos de linguagem visual que alcançam desempenho de ponta na compreensão de imagens, vídeos e texto. Com capacidades avançadas de raciocínio, o VILA pode até entender memes da internet combinando compreensão visual e linguística.

A pesquisa da NVIDIA em IA visual cobre várias indústrias, incluindo mais de uma dúzia de artigos sobre percepção, mapeamento e planejamento de veículos autônomos. Sanja Fidler, VP da equipe de pesquisa em IA da NVIDIA, está apresentando o potencial dos modelos de linguagem visual para carros autônomos.

A abrangência da pesquisa da NVIDIA na CVPR demonstra como a IA generativa pode capacitar criadores, acelerar a automação na fabricação e saúde, e impulsionar a autonomia e a robótica.

Qual desses avanços em IA visual você acha mais impressionante? Compartilhe suas opiniões nos comentários e explore mais sobre esses tópicos para ver como a IA está moldando o futuro!