Espera-se que o modelo de linguagem seja utilizado além da geração de texto para condução autônoma. Software de direção autônoma que usa um grande modelo de linguagem multimodal (LLM) que pode compreender texto e imagens, ou o chamado grande modelo multimodal (LMM), para ler imagens de cenas de estrada de uma câmera de carro e entender as condições da estrada para controlar o carro é um tema quente.
A Tech Crunch informou no dia 9 (horário local) que a Ghost Autonomy, uma startup especializada em software de direção autônoma, está explorando maneiras de aplicar o LMM à direção autônoma.
Ghost é uma empresa fundada com um investimento de US$ 5 milhões (cerca de 6,6 bilhões de KRW) por meio do fundo inicial da OpenAI e usa o sistema OpenAI na nuvem Microsoft Azure. Sabe-se também que “GPT-4V” e “GPT-4 Turbo” com funções multimídia são usados para construir software de direção autônoma.
“O LMM fornece uma nova maneira de entender a ‘cauda longa’ e permite inferência sobre cenas complexas, o que é um ponto fraco dos modelos atuais”, disse John Hayes, CEO da Ghost. “Nesses casos, o LMM é mais rápido e tem mais funcionalidades. ” Ele explicou: “Isso aumentará com o nosso desempenho”.
A palavra “cauda longa”, que tem origem na estatística, refere-se a um fenômeno em que um grande número de eventos com baixa probabilidade de ocorrência são distribuídos em um lado de uma distribuição estatística. A cauda longa também tem um impacto significativo na concepção e operação de sistemas de inteligência artificial. Os atuais sistemas de IA são particularmente vulneráveis a dados de cauda longa porque a probabilidade de ocorrência é baixa e não estão incluídos nos dados de treino de IA que requerem grandes quantidades de dados.
O Ghost está testando um programa que usa LMMs treinados para interpretar e descrever cenas complexas e gerar scripts para controlar veículos autônomos. Por exemplo, um comando como “mover para a faixa da direita” é dado aos controles do veículo com base na imagem da cena da estrada obtida por uma câmera montada no veículo.
“Na Ghost, nos esforçaremos para maximizar a estabilidade e o desempenho na estrada, ajustando os modelos existentes e treinando nossos próprios modelos”, disse o CEO Hayes.
Também é dado um exemplo que mostra que um LMM seria realmente útil. As zonas de construção contêm componentes complexos e incomuns que podem ser difíceis de navegar usando modelos simples, como faixas temporárias, sinais de mudança e outras condições da estrada, mas os LMMs demonstraram ser capazes de lidar com todas essas variáveis com raciocínio humano. abrir.
No entanto, a maioria dos especialistas respondeu com ceticismo.
“O LMM não foi concebido ou treinado para condução autónoma e pode ser uma forma menos eficiente de resolver alguns desafios”, disse Os Kayes, professor da Universidade de Washington. “Estou convencido de que o LMM não é adequado para a condução autónoma.” Condução autônoma.”
“O modelo principal da IA aberta comete erros básicos que os humanos não cometem, como criar alucinações, copiar texto incorretamente ou inserir a cor errada”, disse Mike Cook, professor do King’s College London. “O LMM foi publicado em Dangerous e tarefas complexas, como dirigir um carro.” Não há absolutamente nenhuma razão para fazer isso. “É muito cedo para acreditar que esta tecnologia, muitas vezes imprevisível e instável, deva ser aplicada à condução autónoma”, disse ele.
No entanto, Brad Lightcap, COO da OpenAI, disse: “O LMM tem potencial para se expandir para muitos novos casos de uso, incluindo automotivo”, acrescentando: “O LMM tem a capacidade de combinar vídeo, imagens e áudio para compreender e tirar conclusões”. Pode criar novas maneiras de compreender cenas e navegar em ambientes complexos ou incomuns.
O CEO Hayes também concordou que era prematuro. “É claro que o modelo atual não está pronto para uso comercial em automóveis. Ainda há muito trabalho a ser feito para melhorar a confiabilidade e o desempenho”, disse ele.
Repórter Park Chan cpark@aitimes.com
“Leitor implacável. Especialista em mídia social. Amante de cerveja. Fanático por comida. Defensor de zumbis. Aficionado por bacon. Praticante da web.”