banner
Lar / Notícias / Como estabelecer e manter um conjunto de dados de pesquisa animal multimodal usando o DataLad
Notícias

Como estabelecer e manter um conjunto de dados de pesquisa animal multimodal usando o DataLad

Jul 08, 2023Jul 08, 2023

Scientific Data volume 10, Número do artigo: 357 (2023) Cite este artigo

1 Altmétrica

Detalhes das métricas

O compartilhamento de dados, ferramentas de processamento e fluxos de trabalho requer serviços de hospedagem de dados abertos e ferramentas de gerenciamento. Apesar das diretrizes do FAIR e da crescente demanda de agências de financiamento e editores, apenas alguns estudos em animais compartilham todos os dados experimentais e ferramentas de processamento. Apresentamos um protocolo passo a passo para realizar controle de versão e colaboração remota para grandes conjuntos de dados multimodais. Um plano de gerenciamento de dados foi introduzido para garantir a segurança dos dados, além de uma estrutura homogênea de arquivos e pastas. As alterações nos dados foram rastreadas automaticamente usando o DataLad e todos os dados foram compartilhados na plataforma de dados de pesquisa GIN. Este fluxo de trabalho simples e econômico facilita a adoção de fluxos de trabalho de processamento e logística de dados FAIR, disponibilizando os dados brutos e processados ​​e fornecendo a infraestrutura técnica para reproduzir independentemente as etapas de processamento de dados. Ele permite que a comunidade colete conjuntos de dados adquiridos e armazenados de forma heterogênea não limitados a uma categoria específica de dados e serve como um projeto de infraestrutura técnica com grande potencial para melhorar o manuseio de dados em outros locais e estender a outras áreas de pesquisa.

O gerenciamento e o compartilhamento de dados requerem as melhores práticas recentemente introduzidas para ressonância magnética humana1,2. Em nossa experiência, a maioria dos laboratórios depende de armazenamento de dados não padronizados em discos rígidos locais ou unidades de rede com gerenciamento de usuários e capacidade de backup insuficientes. Apesar do fato de que apenas uma minoria dos estudos de ressonância magnética está usando pequenos animais, é alarmante que no OpenNeuro, uma plataforma de compartilhamento de dados de neuroimagem amplamente utilizada3, apenas 3% dos conjuntos de dados contenham dados de camundongos ou ratos. Da mesma forma, em outra plataforma popular de compartilhamento de dados, não específica para neuroimagem, Zenodo4, apenas cerca de 30% dos conjuntos de dados de ressonância magnética são de camundongos ou ratos. Além disso, é surpreendente e contrário aos princípios FAIR5, se na maioria desses conjuntos de dados de neuroimagem, apenas os dados de imagem forem fornecidos. Isso exclui uma grande parte dos dados que acompanham, por exemplo, os arquivos de microscopia usados ​​para validação cruzada in vivo. Também identificamos uma clara falta de guias passo a passo ou rotinas automatizadas necessárias para reproduzir os dados processados. Esses exemplos reforçam relatórios anteriores6 de que o compartilhamento de dados de pequenos animais está longe de ser comum e que não há padronização em termos de aquisição, armazenamento e compartilhamento de dados. Se os dados não são compartilhados e, portanto, não estão disponíveis para reutilização, como é o caso de 93% das publicações biomédicas de acesso aberto7, isso também contrasta fortemente com o princípio dos 3 Rs de minimizar o número de experimentos com animais8. Portanto, continua sendo muito difícil comparar estudos entre diferentes laboratórios, o que contribui para a crise de reprodutibilidade9, e os estudos em pequenos animais (neuroimagem) não são exceção10.

Prevemos uma mudança em direção às condições de boa prática científica e aos princípios de FAIR - Findable, Accessible, Interoperable, Reusable5 e Open Science2 para melhorar a confiabilidade e o reconhecimento dos estudos com animais. Nosso objetivo era criar uma abordagem facilmente aplicável para configurar um conjunto de dados multimodal que forneça acesso a dados brutos e processados, métodos, resultados e sua proveniência. O gerenciamento adequado de dados de pesquisa (RDM), como também é cada vez mais exigido por agências de financiamento e editores, é fundamental para atender a esses padrões2,11,12.

Aqui, descrevemos nossa estratégia para organização de dados, coleta de metadados e rastreamento de dados/análise usando três ferramentas estabelecidas: nosso banco de dados relacional13, a plataforma de dados GIN (G-Node Infrastructure services, https://gin.g-node.org) , e o software de gerenciamento de dados de pesquisa DataLad14. O banco de dados é usado para coletar todos os metadados experimentais sobre a linha do tempo completa de experimentos animais longitudinais e multimodais, incluindo ressonância magnética, histologia, eletrofisiologia e comportamento. O GIN e o DataLad são baseados no Git, um sistema de controle de versão popular, e no git-annex, que estende os recursos do Git, especialmente no que diz respeito ao gerenciamento de arquivos grandes. GIN é um serviço de gerenciamento de dados baseado na Web de código aberto com vários recursos para manipulação de dados colaborativos, por exemplo, versão integrada, acesso seguro, identificadores de dados persistentes para publicação (DOI), indexação automática e validação de dados. DataLad é um software de gerenciamento de dados projetado para apoiar as várias etapas do desenvolvimento de objetos digitais. É importante ressaltar que o DataLad pode ser visto como uma sobreposição sobre as estruturas e serviços de dados existentes: o rastreamento de arquivos não altera os próprios arquivos ou o local de onde eles podem ser recuperados por ferramentas de processamento de dados.

/p>

/p>