Por que a IA de geração de imagens comete erros de ortografia...."Mesmo um LLM não consegue realmente ler o texto"

Resultado de uma solicitação de criação — Resultado do pedido de criação de “Sign with Hello” escrito em “DALI”

A explicação é que a razão pela qual a inteligência artificial generativa (IA) é tão fraca na “digitação”, que cria palavras dentro de imagens, é que ela não reconhece letras. Os LLMs também podem compor poesia e escrever artigos, mas não entendem o texto em si.

No dia 22 (horário local), o TechCrunch citou especialistas e forneceu uma explicação detalhada do problema de erros ortográficos frequentes de palavras na saída de IA geradora de imagens.

Conseqüentemente, a maioria dos sistemas atuais de IA de geração de imagens tendem a manipular a ortografia ao gerar caracteres em imagens. Embora “Idiogram”, considerado o melhor nesta área, e mais recentemente “Dali” e “Stable Diffusion” tenham resolvido muitos problemas, ainda não são perfeitos.

Por exemplo, “Hello” é produzido como “HeLIo” ou “HEELLLLOOOO”. Isto se torna um problema sério se a imagem criada for utilizada para fins comerciais.

Especialistas apontam que esse problema se deve ao princípio de funcionamento da inteligência artificial generativa.

“Os geradores de imagens tendem a funcionar bem em artefatos como carros ou rostos humanos, mas funcionam mal em objetos pequenos, como dedos ou escrita”, disse o cofundador Amilash Hajoor San.

Embora as tecnologias básicas de geradores de imagens e geradores de texto sejam diferentes, ambos os modelos enfrentam dificuldades semelhantes com detalhes como ortografia.

O construtor de imagens usa o modelo de difusão para remover ruído e reconstruir a imagem. “Os geradores de imagens basicamente aprendem padrões que contêm uma grande porção de pixels”, disse o fundador Hajo, “e o texto dentro da imagem não é reconhecido como uma parte muito importante”.

READ Como as estrelas se formam? Fotografia da primeira fase do nascimento

No caso do texto, o LLM pode parecer ler e responder a solicitações como um ser humano, mas na realidade ele simplesmente usa princípios matemáticos para identificar padrões e classificar padrões com a maior probabilidade. Por esta razão, o LLM também é chamado de “papagaio probabilístico”.

Além disso, o modelo de IA foi criado para reproduzir algo semelhante ao que viu nos dados de treinamento, mas fundamentalmente não conhece as regras para soletrar palavras ou contar dedos.

“Até o ano passado, os modelos de geração de imagens tinham problemas para implementar corretamente a contagem de dedos e, em princípio, o texto tinha o mesmo problema”, disse Matthew Guzdial, pesquisador de inteligência artificial e professor da Universidade de Alberta.

Para resolver esse problema, os desenvolvedores estão melhorando o problema aumentando os conjuntos de dados com modelos de treinamento projetados especificamente para ensinar coisas de IA, como o formato das mãos. Mas os especialistas não esperavam que o problema ortográfico fosse resolvido tão rapidamente.

“Podemos melhorar o desempenho treinando o modelo, mas infelizmente a língua inglesa é muito complicada”, disse Guzdial. Se você expandir para outros idiomas, a quantidade de aprendizado aumentará dramaticamente.

Portanto, alguns modelos, como o Adobe Firefly, aprendem a não gerar texto em imagens. Quando a impressão é selecionada, apenas marcas brancas são impressas. No entanto, a explicação é que essas proteções podem ser contornadas assim que informações suficientes forem inseridas no roteador.

“O texto é muito mais difícil. É por isso que não consigo nem escrever 'ChatGPT' corretamente”, observou ele.

Por exemplo, foi usada arte “ASCII”. A arte ASCII refere-se à imitação de imagens ou palavras em letras.

READ 8BitDo Ultimate Wired, Xbox Approved Gamepad em três cores

Na verdade, existem vários vídeos postados no YouTube e no X (Twitter) onde as tentativas de criar um gráfico ASCII usando ChatGPT falharam. Esta é uma evidência de que o ChatGPT não entende a palavra em si.

“LLM depende de uma arquitetura de transformador que na verdade não lê o texto, “disse ele.” Quando você insere um prompt, ele é convertido em um codificador. ” Em outras palavras, existe uma codificação do que 'o' significa, mas ela não sabe o que é 'T' 'H' 'E'. significa.”

Ele acrescentou: “O problema não é apenas a grafia ou o número de dedos. Se os desenvolvedores trabalharem duro para resolver o problema de dedilhado, problemas como a saída das cordas da guitarra como 7 cordas ou as partes brancas e pretas do piano o teclado ficaria destacado fora do lugar.” “Ele disse.

Observou que, embora os modelos generativos de IA estejam a melhorar a um ritmo incrível, estes problemas continuarão a surgir porque, realisticamente, a capacidade tecnológica não pode continuar a expandir-se.

“Esses modelos sempre criam pequenos problemas, só que estamos particularmente equipados para reconhecer alguns deles”, disse Guzdial.

O fundador Hajo também disse: “A IA está avançando, não há dúvidas sobre isso”. “Mas esta tecnologia é exagerada”, sublinhou.

Repórter Lim Da Jun ydj@aitimes.com

Faustino Farinha

“Pensador. Aspirante a amante do Twitter. Empreendedor. Fã de comida. Comunicador total. Especialista em café. Evangelista da web. Fanático por viagens. Jogador.”

portalcascais.pt

Por que a IA de geração de imagens comete erros de ortografia….”Mesmo um LLM não consegue realmente ler o texto”

Deixe um comentário Cancelar resposta

Kim Hyo-joo vence o European Tour realizado na Coreia, “Sinto que tomei remédio demais”

Cyberpunk 2077 tem classificação “Muito Positiva” no Steam

Um porta-aviões americano e japonês sobrevoando… O Japão foi humilhado por drones chineses

Brasil sem Neymar → Estreante de 17 anos como atacante principal… Copa América prevê top 11: Nate Sports