Grandes modelos multimídia vs. Ótimo modelo de linguagem

LMM (Grande Modelo Multimodal)É um tipo avançado de modelo de inteligência artificial que pode processar e compreender vários tipos de formatos de dados. Esses dados multimídia podem incluir texto, imagens, áudio, vídeo, etc. Os modelos multimodais podem integrar e interpretar informações dessas diferentes fontes de dados simultaneamente.

Isso pode funcionar com uma variedade de tipos de dados, não apenas com texto. Modelo de linguagem grande (LMM)Pode-se dizer que é uma versão avançada do . Além disso, os resultados do modelo de linguagem multimodal visam não apenas as linguagens textuais, mas também as linguagens visuais e auditivas.

Os modelos de linguagem multimodal são o próximo passo em direção à inteligência artificial geral.

Anistia Internacional.AIMultiple explica um grande modelo multimodal comparando-o a um grande modelo de linguagem.

A diferença entre LMM e LLM

1) Modelo de dados

O LMM foi projetado para compreender e processar muitos tipos diferentes de entrada de dados ou formulários. Isso inclui outros tipos de dados, como texto, imagens, áudio, vídeo e, às vezes, dados sensoriais. A principal função do LMM é integrar e compreender esses diferentes formatos de dados simultaneamente.

LLMEspecializado em processamento e geração de dados textuais. Eles são treinados principalmente em um grande corpus de texto e são adeptos da compreensão e produção da linguagem humana em uma variedade de contextos. No entanto, ele não processa inerentemente dados não textuais, como imagens ou áudio.

2) Aplicativos e tarefas

Devido à sua natureza multimodal, o LMM pode ser aplicado em tarefas que requerem compreensão e integração de informações sobre diferentes tipos de dados. Por exemplo, o LMM pode analisar artigos de notícias (texto), imagens (imagens) e vídeos relacionados para obter uma compreensão abrangente.

LMM Os aplicativos giram em torno de tarefas relacionadas a texto, como escrever artigos, traduzir idiomas, responder perguntas, resumir documentos e criar conteúdo baseado em texto.

READ Hancom Care Link, gestão nutricional personalizada através da análise de resultados de exames de saúde usando inteligência artificial

Modelos de dados para grandes modelos multimídia

• texto

Isso inclui todas as formas de conteúdo escrito, incluindo livros, artigos, páginas da web e postagens em mídias sociais. Os modelos podem compreender, interpretar e gerar conteúdo textual, incluindo tarefas de processamento de linguagem natural, como tradução, resumo e resposta a perguntas.

• foto

Este modelo pode analisar e gerar dados visuais. Isto inclui compreender o conteúdo e o contexto das fotografias, ilustrações e outras representações gráficas. Classificação de imagens, detecção de objetos e tarefas de geração de imagens baseadas em descrições de texto também se enquadram nesta categoria.

• Minha voz

Isso inclui gravações, música e linguagem falada. Os modelos podem ser treinados para reconhecer fala, música, sons ambientes e outras entradas auditivas. Ele pode gravar sua voz, entender comandos de voz e até criar sons ou músicas sintetizadas.

• vídeo

Elementos visuais e de áudio Inclui processamento de vídeo integrado Envolve compreender as imagens em movimento e os sons que as acompanham. Isso pode incluir a análise do conteúdo do vídeo, o reconhecimento de ações ou eventos no vídeo ou a criação de videoclipes.

Hoje, a maioria dos grandes modelos de linguagem multimídia só podem usar texto e imagens, mas pesquisas futuras estão avançando no sentido de incluir a entrada de dados de áudio e vídeo.

Como treinar grandes modelos multimodais

Um) Coleta e preparação de dados

LLMprata Ele se concentra principalmente em dados textuais. Colete extensas coleções de textos de livros, sites e outras fontes escritastodos. A diversidade e amplitude da linguagem são enfatizadas.

LMMprata Além dos dados de texto, outros tipos de dados, como imagens, áudio, vídeo e dados sensoriais, também são necessários. A coleta de dados é mais complexa porque envolve uma variedade de formatos e formas, bem como de conteúdo. Anotar e normalizar os dados é importante para organizar esses diferentes tipos de dados em um LMM.

READ O jogo de esconde-esconde da era digital que se tornou viral na China MIT Technology Review

2) Projeto arquitetônico típico

LLMprata Normalmente usa uma estrutura semelhante a um adaptador adequada para processar dados sequenciais (texto). Ele se concentra na compreensão e produção da linguagem humana.

LMM A estrutura é mais complexa porque deve combinar muitos tipos diferentes de entradas de dados. Isso geralmente envolve tipos de redes neurais, como CNNs de imagem, RNNs ou transformadores de texto, e mecanismos para combinar efetivamente essas modalidades.

3) Treinamento prévio

LLMpara O pré-treinamento envolve o uso de grandes blocos de texto. Técnicas como modelagem de linguagem de máscara, em que o modelo prevê quais palavras estão faltando em uma frase, são populares.

LMM Ele compraO treinamento completo é mais diversificado porque inclui outras modalidades além do texto. O modelo pode aprender como associar texto a imagens ou compreender sequências de um vídeo.

4) Ajuste fino

LLMpara O ajuste fino é Use conjuntos de dados de texto mais especializados, adaptados a tarefas específicas, como resposta a perguntas ou tradução.

LMM O ajuste fino inclui conjuntos de dados especializados para cada método, bem como conjuntos de dados que ajudam o modelo a aprender as relações entre as mídias. O formato específico de tarefa dos LMMs é mais complexo devido à variedade de tarefas para as quais foram projetados.

5) Avaliação e iteração

LLMpara avaliação Os indicadores concentram-se na compreensão da linguagem e nas tarefas de produção, como fluência, consistência e relevância.

LMMComo devem ser qualificados em diversas áreas, eles são avaliados em relação a uma gama mais ampla de métricas. Isso inclui precisão de reconhecimento de imagem, qualidade de processamento de som e capacidade do modelo de integrar informações em múltiplas modalidades.

Exemplos famosos de grandes modelos multimídia

Abra o CLIP da AI (pré-treinamento de linguagem de contraste e imagem)Ele foi projetado para compreender imagens no contexto da linguagem natural. Ao compreender as descrições textuais, você pode executar tarefas como classificação de imagens de disparo zero, permitindo classificar imagens com precisão, mesmo em categorias nas quais você não foi explicitamente treinado.

READ Primeiro aniversário do lançamento, um novo universo visto através do Telescópio Espacial James Webb - Faith Shinbo

O Flamingo da DeepMind foi projetado para aproveitar os pontos fortes tanto na linguagem quanto na compreensão visual, permitindo-lhe realizar tarefas que exigem interpretação e integração de informações de texto e imagens.

Limitações de grandes modelos de linguagem

• Requisitos de dados e preconceitos: Esses modelos exigem conjuntos de dados grandes e diversificados para treinamento. No entanto, a disponibilidade e a qualidade destes conjuntos de dados podem ser um problema. Além disso, se os dados de formação contiverem preconceitos, é provável que o modelo receba e amplifique esses preconceitos, levando a resultados injustos ou antiéticos.

• Recursos computacionais: O treinamento e a execução de modelos multimídia em grande escala requerem recursos computacionais significativos, tornando-os caros e de difícil acesso para pequenas organizações ou pesquisadores independentes.

• Explicabilidade e explicabilidade: Tal como acontece com modelos complexos de IA, não é fácil compreender como estes modelos tomam decisões. Esta falta de transparência pode ser um grande problema, especialmente em aplicações sensíveis como os cuidados de saúde ou a aplicação da lei.

• Integração de formatos: É muito difícil integrar eficazmente diferentes tipos de dados, incluindo texto, imagens e áudio, e ao mesmo tempo compreender verdadeiramente as nuances de cada formato. Os modelos nem sempre captam com precisão o contexto ou os detalhes da comunicação humana que surgem da combinação destas modalidades.

• Generalização e overfitting: embora o modelo seja treinado em um grande conjunto de dados, ele pode não generalizar para dados novos e não vistos ou cenários que diferem significativamente dos dados de treinamento. Por outro lado, pode ser ajustado demais aos dados de treinamento e capturar ruídos e anomalias como padrões.

Ragna Paredes

“Leitor implacável. Especialista em mídia social. Amante de cerveja. Fanático por comida. Defensor de zumbis. Aficionado por bacon. Praticante da web.”

portalcascais.pt

Grandes modelos multimídia vs. Ótimo modelo de linguagem

Deixe um comentário Cancelar resposta

Na Seung-beom, o “Líder Tigre”, despertou. [IS 스타]

Um mundo mais futurista que as antigas câmeras digitais – CAR&TECH

O primeiro-ministro pró-Rússia da Eslováquia foi baleado no estômago em “estado crítico”

Ministério da Justiça realiza ‘Sessão de Explicação Jurídica’ no Brasil… “Apoio às Empresas Locais”