O número 1 envergonha Claude Chat GPT, Bing Chat e Bard

O chatbot de inteligência artificial (AI) da Antropic, Claude, que expandiu a janela de contexto para 100.000 caracteres, tem menos chatbots do que o ChatGPT da OpenAI, o “Bingchat” da Microsoft e o “Bard” do Google. Foi demonstrado que as alucinações geram mais textos mais rapidamente.

O Search Engine Journal, um especialista em mídia de busca, relatou no dia 3 (horário local) que Claude, ChatGPT, Bingchat e Bard foram usados para comparar tarefas de geração de texto e, como resultado, Claude superou significativamente outros chatbots de IA.

A Antropic lançou “Claude-Instant-100k” em maio, expandindo a janela de contexto de Claude de 9.000 tokens para 100.000 tokens.

A janela de contexto é o número de tokens indicados para prever a próxima palavra. Uma palavra corresponde a um ou mais símbolos. 100.000 caracteres equivalem a cerca de 75.000 palavras. Em essência, uma janela de contexto mais longa permite que o formulário se lembre de mais texto.

Modelos com quadros curtos tendem a ignorar conversas recentes e se desviar do assunto. Depois de alguns milhares de palavras, ele esquece a solicitação inicial e, em vez disso, infere a ação das informações recentes na janela de contexto, em vez da solicitação original.

O modelo GPT-4 padrão da OpenAI suporta 8.000 símbolos como uma janela de contexto, e seu modelo estendido suporta 32.000 símbolos (cerca de 25.000 palavras).

O Bingchat da Microsoft exibe 0/4000 na caixa de entrada instantânea, permitindo apenas até 4.000 caracteres, mas na realidade pode aceitar até 40.400 caracteres, o que equivale a 6.000 palavras, como entrada.

A Barra do Google permite até 10.000 caracteres.

READ 'Mesmo que seja 30% abaixo do preço de mercado, você será ignorado'... Apartamentos Sejong estão em declínio

Claude permite três vezes mais entradas do que o modelo de extensão GPT-4. Em termos de entrada rápida, quadros de contexto maiores podem responder a consultas mais complexas porque mais dados podem ser fornecidos como entrada.

Com uma longa janela de contexto, você pode responder com precisão a uma determinada consulta usando dados que nunca viu antes, por meio de “pequeno aprendizado instantâneo”, que fornece diretamente novos dados como entrada sem realmente modificar os pesos do modelo por meio de ajuste fino.

Para comparar os resultados do trabalho gerados por Claude, ChatGPT, Bingchat e Bard para a mesma consulta de entrada, primeiro pedimos para reescrever cada item em uma lista de 126 itens de 1.850 palavras (12.500 caracteres).

126 Captura de tela do item de reescrita da lista (foto = SEJ)

Como resultado, Claude completa a reescrita de todos os 126 itens sem alucinações. Ele executa tarefas mais rapidamente em comparação com outros programas de bate-papo.

Por outro lado, o ChatGPT parou de funcionar no item 37 (nº 38). Continuei dirigindo Create, completei o Item 37 e parei novamente. Dessa forma, as tarefas necessárias até o dia 126 (#127) foram concluídas, mas reescritas foram feitas após a criação dos itens (128 a #143) que não estavam na tarefa solicitada originalmente.

O Bingchat completou as reescritas até o item 126 (#127) sem alucinações, mas para os itens após o dia 18 (#19), gerou o mesmo conteúdo do item de entrada.

No caso do Google, apenas 99 (nº 100) itens podem ser enviados na lista de reivindicações devido ao limite de entrada de 10.000 caracteres.

READ Preços da gasolina e do diesel nos postos de gasolina caem há 6 semanas seguidas

Para comparar as duas tarefas, fomos solicitados a resumir um texto de 23.508 palavras (125.104 caracteres) de um documento PDF documentando a resposta do TikTok a uma audiência sobre como a plataforma social pode proteger os cidadãos americanos.

Como resultado do pedido, Claude resumiu todo o texto de forma sucinta.

Captura de tela do resultado do resumo de Claude (imagem = antrópico)

Por outro lado, o ChatGPT exigia um texto de entrada mais curto, o Bingchat cortou no meio do processo e Bard resumiu apenas os primeiros 10.000 caracteres.

Captura de tela do resultado do resumo do ChatGPT (imagem = OpenAI)

Captura de tela do resultado do resumo do Bingchat (imagem = MS)

Captura de tela legal do resultado do resumo (Foto = Google)

Por fim, pedi para depurar um código PHP de 14.787 caracteres.

Claude sugeriu várias modificações no código PHP fornecido.

Captura de tela da depuração de código de Claude (image = antropic)

Por outro lado, o ChatGPT disse que era difícil identificar o que havia de errado com o código PHP e, em vez disso, ofereceu apenas verificações genéricas.

Captura de tela de depuração do código ChatGPT (imagem = OpenAI)

O Bingchat respondeu que não conseguiu depurar o código.

Captura de tela de depuração do código do Bingchat (imagem = MS)

Bard respondeu que não há erros para os primeiros 10.000 caracteres.

Captura de tela de depuração de código de barra (Foto=Google)

Como resultado, Claude, ChatGPT, Bingchat e Bard foram capazes de gerar respostas adequadas para consultas de entrada curtas, mas o Claude da Antropic, que tinha uma longa janela de contexto, mostrou um desempenho impressionante para consultas longas e complexas.

Por outro lado, os requisitos computacionais crescem diretamente com o tamanho da entrada, portanto, quanto maior o texto descrito na janela de contexto, maior será o custo de execução do modelo em treinamento e inferência.

Os assinantes da nuvem podem usar o “Clode-Instant-100k”, que é expandido para 100.000 tokens, por US$ 19,99 por mês, o que é quase o mesmo que os assinantes do ChatGPT Plus.

READ “Até minha avó andava à deriva em estradas geladas” Visitei a Finlândia, o país do Audi Quattro

Repórter Park Chan cpark@aitimes.com

Ragna Paredes

“Leitor implacável. Especialista em mídia social. Amante de cerveja. Fanático por comida. Defensor de zumbis. Aficionado por bacon. Praticante da web.”

portalcascais.pt

O número 1 envergonha Claude Chat GPT, Bing Chat e Bard

Deixe um comentário Cancelar resposta

Lee Cheon-soo também está “extremamente zangado” com o “Desastre de Doha” cometido por Hwang Seon-hong. “É um grande crime para o futebol coreano. Chung Mong-gyu, Jeong Hae-seong e Hwang Seon-hong devem assumir a responsabilidade.”

[오늘의 스팀] Isso é chamado de alma

Dispersão da concentração de manifestantes pró-Palestina em frente à Universidade Francesa de Ciências Políticas (segundo relatório abrangente)

Patrimônio líquido da superestrela do Manchester City LW de KRW 100 bilhões 'queda vertical' → 'chocado' por viver em um lugar 2-Pyong por 9 anos com cama de solteiro, pia e vaso sanitário → trabalho paralelo produzindo 'produtos de toalete': Nate Sports