Nuovo dataset DPCfam-UHGP50: una risorsa preziosa per la ricerca sul proteoma gastrointestinale umano

31 Ottobre 2024
DPCfam-UHGP

Il nuovo strumento, sviluppato da Area Science Park, migliora l’annotazione delle sequenze proteiche e promuove scoperte nel campo della metagenomica.

 

Il Laboratorio di Data Engineering (LADE) di Area Science Park ha recentemente pubblicato su Nature – Scientific Data un importante articolo riguardante l’annotazione delle sequenze proteiche.

Grazie ai progressi tecnologici nel sequenziamento genomico, il numero di sequenze proteiche conosciute è cresciuto esponenzialmente.

Molte di queste sequenze provengono da progetti metagenomici che analizzano campioni ambientali e clinici.

 

Tra i dataset più rilevanti in questo ambito, si distingue il catalogo del Proteoma Gastrointestinale Umano Unificato (UHGP), con svariate applicazioni in medicina e biologia. Tuttavia, la limitata annotazione di queste sequenze ne riduce l’efficacia.

Per ovviare a questo problema, è stato sviluppato il dataset DPCfam-UHGP, che classifica le sequenze UHGP in famiglie proteiche, che tipicamente raggruppano proteine che condividono la stessa funzione biologica. Il dataset contiene 10.778 famiglie, generate attraverso il clustering DPCfam, un metodo non supervisionato che organizza le sequenze in architetture a singolo o multi-dominio.

Questo lavoro, che costituisce parte del lavoro di dottorato di Federico Barone supervisionato da Alessio Ansuini e Alberto Cazzaniga, è un esempio emblematico di interazione proficua tra data management e data science. In questo contesto, la costruzione di un database curato di proteine dell’apparato gastrointestinale ha portato ad una catalogazione più raffinata tramite algoritmi avanzati di machine learning, permettendo di aggiornare nuovamente il database, in un ciclo continuo di feedback interdisciplinare.

Il dataset DPCfam-UHGP, navigabile attraverso un web server, è stato costruito seguendo le migliori pratiche FAIR (Findable, Accessible, Interoperable, Reusable) e ha l’obiettivo di favorire nuove scoperte nel campo della metagenomica del tratto gastrointestinale umano.

In precedenza, il LADE aveva già prodotto il database DPCfam-UR50 accompagnato da una pubblicazione su PLOS – Computational Biology

 

fonte testo e foto: Area Science Park

Scheda azienda

© Riproduzione riservata

ARTICOLI CORRELATI

Biomateriali e stampanti 3D uni pisa

Biomateriali e stampanti 3D, la chirurgia del futuro offre una soluzione più efficace e meno invasiva

Al via il progetto europeo LUMINATE coordinato dall’Università di Pisa per riparare cartilagini e articolazioni in maniera personalizzata.

oleuropeina università di padova

Dagli ulivi la salute: l'oleuropeina stimola i mitocondri e combatte l'invecchiamento muscolare

Un team di ricerca internazionale, guidato dall’Università di Padova, ha dimostrato come una molecola presente nelle foglie di ulivo sia...

tumori da radiazioni studio ENEA

ENEA coordina progetto da 1,3 milioni per studio sviluppo tumori da radiazioni

Con i partner del progetto, ENEA punterà a comprendere i meccanismi che portano allo sviluppo del cancro con una particolare attenzione...

Testata giornalistica registrata presso il Tribunale di Milano in data 07.02.2017 al n. 60 Editrice Industriale è associata a:
Anes
Assolombarda

LabWorld

Testata giornalistica registrata presso il Tribunale di Milano in data 07.02.2017 al n. 59

Se vuoi diventare nostro inserzionista, dai un’occhiata ai nostri servizi.
Scarica il mediakit per maggiori dettagli in merito.

La nostra certificazione CSST WebAuditing

Editrice Industriale è associata a:Anes  Assolombarda