Por que a IA de geração de imagens comete erros de ortografia….”Mesmo um LLM não consegue realmente ler o texto”


Resultado de uma solicitação de criação
Resultado do pedido de criação de “Sign with Hello” escrito em “DALI”


A explicação é que a razão pela qual a inteligência artificial generativa (IA) é tão fraca na “digitação”, que cria palavras dentro de imagens, é que ela não reconhece letras. Os LLMs também podem compor poesia e escrever artigos, mas não entendem o texto em si.


No dia 22 (horário local), o TechCrunch citou especialistas e forneceu uma explicação detalhada do problema de erros ortográficos frequentes de palavras na saída de IA geradora de imagens.


Conseqüentemente, a maioria dos sistemas atuais de IA de geração de imagens tendem a manipular a ortografia ao gerar caracteres em imagens. Embora “Idiogram”, considerado o melhor nesta área, e mais recentemente “Dali” e “Stable Diffusion” tenham resolvido muitos problemas, ainda não são perfeitos.


Por exemplo, “Hello” é produzido como “HeLIo” ou “HEELLLLOOOO”. Isto se torna um problema sério se a imagem criada for utilizada para fins comerciais.


Especialistas apontam que esse problema se deve ao princípio de funcionamento da inteligência artificial generativa.


“Os geradores de imagens tendem a funcionar bem em artefatos como carros ou rostos humanos, mas funcionam mal em objetos pequenos, como dedos ou escrita”, disse o cofundador Amilash Hajoor San.


Embora as tecnologias básicas de geradores de imagens e geradores de texto sejam diferentes, ambos os modelos enfrentam dificuldades semelhantes com detalhes como ortografia.


O construtor de imagens usa o modelo de difusão para remover ruído e reconstruir a imagem. “Os geradores de imagens basicamente aprendem padrões que contêm uma grande porção de pixels”, disse o fundador Hajo, “e o texto dentro da imagem não é reconhecido como uma parte muito importante”.

READ  Como as estrelas se formam? Fotografia da primeira fase do nascimento


No caso do texto, o LLM pode parecer ler e responder a solicitações como um ser humano, mas na realidade ele simplesmente usa princípios matemáticos para identificar padrões e classificar padrões com a maior probabilidade. Por esta razão, o LLM também é chamado de “papagaio probabilístico”.


Além disso, o modelo de IA foi criado para reproduzir algo semelhante ao que viu nos dados de treinamento, mas fundamentalmente não conhece as regras para soletrar palavras ou contar dedos.


“Até o ano passado, os modelos de geração de imagens tinham problemas para implementar corretamente a contagem de dedos e, em princípio, o texto tinha o mesmo problema”, disse Matthew Guzdial, pesquisador de inteligência artificial e professor da Universidade de Alberta.


Para resolver esse problema, os desenvolvedores estão melhorando o problema aumentando os conjuntos de dados com modelos de treinamento projetados especificamente para ensinar coisas de IA, como o formato das mãos. Mas os especialistas não esperavam que o problema ortográfico fosse resolvido tão rapidamente.


“Podemos melhorar o desempenho treinando o modelo, mas infelizmente a língua inglesa é muito complicada”, disse Guzdial. Se você expandir para outros idiomas, a quantidade de aprendizado aumentará dramaticamente.


Portanto, alguns modelos, como o Adobe Firefly, aprendem a não gerar texto em imagens. Quando a impressão é selecionada, apenas marcas brancas são impressas. No entanto, a explicação é que essas proteções podem ser contornadas assim que informações suficientes forem inseridas no roteador.


“O texto é muito mais difícil. É por isso que não consigo nem escrever 'ChatGPT' corretamente”, observou ele.


Por exemplo, foi usada arte “ASCII”. A arte ASCII refere-se à imitação de imagens ou palavras em letras.

READ  8BitDo Ultimate Wired, Xbox Approved Gamepad em três cores


Na verdade, existem vários vídeos postados no YouTube e no X (Twitter) onde as tentativas de criar um gráfico ASCII usando ChatGPT falharam. Esta é uma evidência de que o ChatGPT não entende a palavra em si.


“LLM depende de uma arquitetura de transformador que na verdade não lê o texto, “disse ele.” Quando você insere um prompt, ele é convertido em um codificador. ” Em outras palavras, existe uma codificação do que 'o' significa, mas ela não sabe o que é 'T' 'H' 'E'. significa.”



Ele acrescentou: “O problema não é apenas a grafia ou o número de dedos. Se os desenvolvedores trabalharem duro para resolver o problema de dedilhado, problemas como a saída das cordas da guitarra como 7 cordas ou as partes brancas e pretas do piano o teclado ficaria destacado fora do lugar.” “Ele disse.


Observou que, embora os modelos generativos de IA estejam a melhorar a um ritmo incrível, estes problemas continuarão a surgir porque, realisticamente, a capacidade tecnológica não pode continuar a expandir-se.


“Esses modelos sempre criam pequenos problemas, só que estamos particularmente equipados para reconhecer alguns deles”, disse Guzdial.


O fundador Hajo também disse: “A IA está avançando, não há dúvidas sobre isso”. “Mas esta tecnologia é exagerada”, sublinhou.


Repórter Lim Da Jun ydj@aitimes.com




Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *