“Uma enorme quantidade de dados científicos”… A jornada da NASA para adotar a inteligência artificial

A Administração Nacional de Aeronáutica e Espaço (NASA) desenvolveu o Scientific Discovery Engine (SDE), que utiliza inteligência artificial generativa para fornecer resultados contextuais para que os cientistas possam aceder facilmente a grandes quantidades de dados científicos.

Cailin Bugbee ⓒ NASA

Ao gerar e coletar tantos dados quanto a NASA faz, pode ser difícil encontrar o conjunto de dados certo para um projeto de pesquisa.

Com sete centros operacionais, nove instalações de pesquisa e mais de 18 mil funcionários, a NASA gera grandes quantidades de dados em mais de 30 repositórios de dados científicos em cinco disciplinas: astrofísica, heliofísica, ciências biológicas, ciências da Terra e ciências planetárias. fiz isso. No total, temos 128 fontes de dados, mais de 88 mil conjuntos de dados e mais de 715 mil documentos, incluindo apenas dados de geociências. Espera-se atingir 250 petabytes até 2025Finalizado. Dada esta complexidade, os cientistas precisam de mais do que apenas conhecimentos especializados para explorar os dados.

“Os pesquisadores precisam saber quais repositórios devem ir e o que há nesses repositórios”, diz Kaylin Bugbee, cientista de dados da NASA no Marshall Space Flight Center em Huntsville, Alabama. “Conhecimento científico e conhecimento de dados são necessários”, disse ele.

Em 2019, a Diretoria de Missões Científicas (SMD) da NASA publicou um relatório baseado em entrevistas com cientistas pedindo a criação de uma função central de busca para ajudar a encontrar dados. O papel do SMD é colaborar com a comunidade científica americana, patrocinar pesquisas científicas e usar aeronaves, balões e programas de voos espaciais para explorar a órbita da Terra, o sistema solar e muito mais. Reconhecendo que proporcionar aos cientistas e investigadores acesso aos dados é fundamental para o propósito da instituição, a SMD criou a Open Source Science Initiative (OSSI) para garantir transparência, abrangência, acessibilidade e reprodutibilidade na investigação científica com financiamento público. A missão da OSSI é abrir e compartilhar software, dados e conhecimento (incluindo algoritmos, documentos, documentação e informações de apoio) o mais rápido possível no processo de pesquisa.

READ  Coreanos que ficam sentados 7 horas por dia, como protegemos sua saúde?

“Este projeto vem de cientistas e da comunidade científica e está alinhado com a prioridade do SMD de apoiar a ciência interdisciplinar”, disse Bugbee. “Novas descobertas podem ser feitas aqui.”

Para facilitar esta função, o SMD combina redes neurais e inteligência artificial generativa para colocar grandes quantidades de dados ao alcance dos cientistas.

recuperação do sistema
No coração do OSSI está o SDE, um recurso central de busca e descoberta de todos os dados e informações científicas abertas da NASA, alimentado pela plataforma de pesquisa empresarial da Sinequa.

“Antes da criação da SDE, não havia lugar para procurar dados e documentação abertos”, diz Bugbee. “Agora temos uma única função de pesquisa para dados científicos abertos.”

O Cinequa, que começou como um mecanismo de busca semântica há 20 anos, concentra-se em fornecer informações de busca contextual usando inteligência artificial e modelos de linguagem em larga escala (LLM). Além disso, a plataforma foi aprimorada com a integração do serviço Azure Open AI da Microsoft e sua funcionalidade de pesquisa de rede neural.

Em particular, a função de pesquisa neural do Cinequa procura informações combinando palavras-chave e pesquisas vetoriais, e o GPT ingere rapidamente as informações coletadas e as resume em um formato reutilizável. Também permite que os cientistas façam perguntas mais profundas e melhorem as pesquisas ou respostas usando linguagem natural. A SDE pode compreender cerca de 9.000 termos científicos diferentes, e espera-se que o número aumente à medida que a IA aprende.

A equipe multidisciplinar de cientistas, desenvolvedores e especialistas em IA e aprendizado de máquina da Bugbee com experiência em gerenciamento de dados e informática trabalha em estreita colaboração com as partes interessadas para identificar necessidades e colaborar com o Gabinete do Diretor de Informação da NASA e a Cinequa para desenvolver conceitos. O diretório foi construído.

READ  Mastigue sua comida pelo menos ○ uma vez para ser saudável

“Recebemos a ajuda deles para criar o ambiente que precisávamos”, disse ela. “Como precisávamos de funções abertas, precisávamos de uma arquitetura especial.”

Bugbee apontou o fato de que o conteúdo necessário para executar o sistema é distribuído por todo o ecossistema da NASA como um grande obstáculo. A equipe trabalhou por cerca de um ano para compreender o ambiente de informações e dados e o esquema de metadados.

“Todas as informações contextuais que enriquecem os dados (código, GitHub, documentação de algoritmo explicando como os dados foram desenvolvidos, etc.) estão espalhadas por várias páginas da web”, diz Bugbee. “Temos trabalhado para organizar e determinar onde reside esse conteúdo.”

Pronto para lançar
Bugbee está familiarizado com gerenciamento e administração de dados. Ela ganhou experiência de campo melhorando a qualidade dos metadados no Data.gov e na Climate Data Initiative do presidente Obama. No entanto, ao trabalhar com a SDE, tomei consciência da importância de um bom fluxo de trabalho de curadoria: um processo disciplinado e controlado para criar, manter e gerenciar dados.

“Se eu pudesse voltar no tempo, teria construído um fluxo de trabalho mais forte desde o início”, diz Bugbee. “Quando começamos, usamos uma abordagem inovadora e funcionou por um tempo, mas precisávamos de um fluxo de trabalho organizacional para obter os resultados que queríamos.”

Embora o SDE ainda esteja em beta, Bugbee diz que sua equipe recebeu muitos comentários positivos dos cientistas até agora e planeja entregar um sistema operacional mais completo ainda este ano. A equipe já implementou uma nova UI que permite aos usuários filtrar por tópico antes de iniciar uma pesquisa. ciokr@idg.co.kr

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *