MetaAI-Universidade de Austin, Texas, modelo de inteligência artificial de síntese de áudio de código aberto para Metaverse AR/VR


Foto: captura de vídeo
Foto: captura de vídeo


Esteja você em uma festa no Metaverso ou usando óculos de realidade aumentada (AR) e assistindo a um filme caseiro na sala de estar, o áudio desempenha um papel importante na experiência desses momentos. Estamos trabalhando em experiências de realidade virtual e mista como esta e acreditamos que a inteligência artificial (IA) será a chave para fornecer uma qualidade de som que corresponda de forma realista às configurações nas quais as pessoas estão imersas.




Assim, a equipe de pesquisa da Meta AI, especialistas em áudio do Meta Reality Labs e a equipe de pesquisa liderada pela professora Kristin Grumman, da Universidade do Texas, no Departamento de Ciência da Computação e Engenharia de Austin, lideraram a pesquisa. A fonte abriu três novos modelos de IA para compreensão audiovisual da fala humana e sons de vídeo.


Kristen Kristen Groman, Professora, Departamento de Ciência da Computação e Engenharia, Universidade do Texas em Austin
Kristen Kristen Groman, Professora, Departamento de Ciência da Computação e Engenharia, Universidade do Texas em Austin


Este modelo foi projetado para nos levar da realidade virtual para a realidade em um ritmo mais rápido.


O modelo da equipe de pesquisa é baseado na compreensão do ambiente físico de uma pessoa com base em sua aparência e voz. Por exemplo, há uma grande diferença entre fazer um concerto em um grande teatro e fazê-lo na sala de estar. A razão é que a geometria do espaço físico, os materiais e superfícies na área e a proximidade da fonte sonora são todos fatores que foram colocados na maneira como ouvimos o som.


Foto: morto
Foto: morto


O modelo que a equipe de pesquisa compartilha com a comunidade de IA concentra-se em três tarefas audiovisuais que superam os métodos tradicionais.


Em primeiro lugar, a correspondência audiovisualpapel) ‘, você pode inserir um clipe de áudio gravado em qualquer lugar com a imagem do ambiente de destino e converter o clipe em áudio como se tivesse sido gravado naquele ambiente (abaixo está uma apresentação oral de 5 minutos no CVPR 2022).

READ  Sony Interactive Entertainment Korea abre a loja pop-up FINAL FANTASY XVI do software PlayStation®5




Por exemplo, a modelo pode tirar uma foto de um restaurante em um restaurante com o som de um som gravado em uma caverna e, em vez disso, ter aquela voz soando como se tivesse sido gravada no restaurante na foto.


Correspondência Audiovisual: Converta o áudio gravado em um espaço para outro espaço de imagem na cena visual de destino.  Por exemplo, devido à fonte sonora gravada no estúdio, o som é recombinado para corresponder à acústica da sala de uma sala de concertos.
Correspondência Audiovisual: Converta o áudio gravado em um espaço para outro espaço de imagem na cena visual de destino. Por exemplo, devido à fonte sonora gravada no estúdio, o som é recombinado para corresponder à acústica da sala de uma sala de concertos.


O segundo modelo, “Remoção de falhas ópticas-papel)’ focado no cancelamento de eco (echo), que é o eco que o som faz de acordo com o ambiente gravado, usando as pistas visuais do som e do espaço observados em oposição à correspondência acústico-visual (menos do que o ambiente simulado e o mundo real ). Imagem audiovisual da fala com eco reduzido e eco em todos)




As pistas visuais revelam os principais fatores que influenciam o efeito do eco no som da voz humana.  Por exemplo, essas amostras de som e som (representadas por formas de onda e espectrogramas) são lexicalmente idênticas, mas têm propriedades de reverberação muito diferentes devido a ambientes diferentes.
As pistas visuais revelam os principais fatores que influenciam o efeito do eco no som da voz humana. Por exemplo, essas amostras de som e som (representadas por formas de onda e espectrogramas) são lexicalmente idênticas, mas têm propriedades de reverberação muito diferentes devido a ambientes diferentes.


Terceira Forma VisualVoice-papel/o apoio/cifra) aprende pistas visuais e auditivas de vídeo não classificado para alcançar a separação de fala audiovisual, semelhante à forma como as pessoas adquirem novas habilidades em várias situações.


Observando um vídeo, o objetivo é extrair sons relacionados ao rosto, apesar dos sons de fundo sincronizados e/ou de outros falantes humanos.  Enquanto os métodos atuais se concentram em aprender o alinhamento entre os movimentos dos lábios de um falante e os sons que ele produz, o modelo sugere explorar ainda mais as características faciais do falante antes de isolar as características de fala correspondentes que eles provavelmente produzirão.  A abordagem em conjunto aprende a separar o discurso audiovisual e integrar alto-falantes de mídia cruzada de vídeo não classificado.  Ele produz resultados sofisticados em cinco conjuntos de dados padrão para separação e otimização de fala audiovisual e generaliza bem para vídeo realista necessário em uma variedade de cenários.
Observando um vídeo, o objetivo é extrair sons relacionados ao rosto, apesar dos sons de fundo sincronizados e/ou de outros falantes humanos. Enquanto os métodos atuais se concentram em aprender o alinhamento entre os movimentos dos lábios de um falante e os sons que ele produz, o modelo sugere explorar ainda mais as características faciais do falante antes de isolar as características de fala correspondentes que eles provavelmente produzirão. A abordagem em conjunto aprende a separar o discurso audiovisual e integrar alto-falantes de mídia cruzada de vídeo não classificado. Ele produz resultados sofisticados em cinco conjuntos de dados padrão para separação e otimização de fala audiovisual e generaliza bem para vídeo realista necessário em uma variedade de cenários.


Ou seja, ele usa pistas visuais e de áudio para separar a fala dos sons de fundo e outras falas (abaixo está uma apresentação audiovisual da correspondência visual e de áudio dos dados sintéticos e do vídeo da web)



No Metaverse, por exemplo, você pode participar de reuniões de grupo com colegas de todo o mundo, mas o eco e o som se adaptam conforme as pessoas se movem e se juntam ao espaço virtual, em vez de falar menos e conversar umas com as outras.


Todas as três tarefas acima estão relacionadas à área geral de pesquisa de IA que a Meta AI faz em relação ao reconhecimento audiovisual. O objetivo é criar um futuro onde as pessoas possam usar óculos de realidade aumentada e se sentirem imersas em som e gráficos ao recriar uma memória 3D que se pareça exatamente com o que estão experimentando de sua perspectiva, ou quando jogam no ambiente virtual (abaixo ). é um vídeo introdutório de síntese de áudio baseada em IA para realidade aumentada e virtual)

READ  [아미랑] É saudável comer “com moderação” sem exagerar nas frutas



Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *