Un approccio composizionale allo studio del microbioma

Di Gianna S. Monti,

Dipartimento di Economia, Metodi Quantitativi e Strategie di Impresa (DEMS) dell’Università degli Studi di Milano-Bicocca

I dati composizionali sono osservazioni multivariate il cui contenuto informativo è strettamente legato al rapporto tra le componenti, altresì dette parti. Tipicamente una composizione è rappresentata da un vettore di proporzioni, o di percentuali, ma anche da esiti di misurazioni espresse in altre unità di misura come mg / kg o mg / l che riflettono la natura relativa del dato in analisi.  La scala relativa può essere spiegata attraverso un esempio: si pensi dapprima all’aumento di una probabilità da 0,05 a 0,1 (in termini relativi si tratta di raddoppio) e la si confronti con l’aumento di una probabilità da 0,5 a 0,55 (in termini relativi il 10% in più), anche se le differenze assolute sono le stesse in entrambi i casi, rendendo fuorviante il loro confronto.

John Aitchison, nel suo libro padre “The Statistical Analysis of Compositional Data” (1986) suggerì una metodologia di analisi dei dati composizionali basata su logaritmi di rapporti (logratio): l’idea è stata quella di mappare, attraverso una trasformata biunivoca, il simplesso, lo spazio campionario vincolato dei dati composizionali, nello spazio reale multidimensionale, riabilitando le usuali tecniche di analisi multivariata per dati non vincolati.

Inizialmente i contributi scientifici in tale area sono stati prettamente teorici: tra i più importanti e pivotali citiamo Egozcue et.al. (2003), che hanno fornito una metodologia consistente per l’analisi dei dati composizionali ispirata al principio del “lavorare in coordinate”, dando vita alla cosiddetta geometria di Aitchison.

Negli anni più recenti è cresciuta la consapevolezza dell’importanza di questo approccio per le applicazioni pratiche: dall’analisi delle statistiche ufficiali, all’economia, alla geologia, alla chemiometria e così via, resa ancora più fruibile grazie a numerosi pacchetti del software statistico open source R specifici per l’analisi dei dati composizionali. In particolare la libreria robCompositions ha implementato al suo interno una serie di funzioni utili per l’analisi multivariata: dal trattamento dei dati mancanti, alle tecniche di analisi robusta, ai metodi di individuazione dei valori anomali (Filzmoser et. al., 2018).

I principi fondamentali su cui deve basarsi l’analisi dei dati composizionali sono: l’invarianza per trasformazioni di scala (il contenuto informativo di una composizione non deve dipendere  dall’unità di misura in cui è espressa la composizione stessa), l’invarianza per permutazione delle componenti (la permutazione delle parti di una composizione non deve alterare le informazioni contenute nella composizione) e il principio di  coerenza  sottocomposizionale (le informazioni contenute in una composizione di D parti non dovrebbero essere in contraddizione con quelle provenienti da una sottocomposizione, ovvero un sottovettore della composizione originale, contenente d parti, con d < D).

Un contesto nuovo ed interessante per l’applicazione di questa metodologia è costituito dall’analisi dei dati di sequenziamento genomico high-throughput per lo studio del microbioma umano, ovvero l’insieme dei microrganismi che abitano il nostro corpo.  È ormai noto che lo studio del microbioma riveste un ruolo centrale nell’ambito terapeutico, dallo studio delle malattie infiammatorie alle patologie del sistema nervoso.  Il crescente interesse per tale studio è testimoniato ad esempio dello statunitense Human Microbiome Project (HMP), nato nel 2008 e oggi punto di riferimento per le ricerche e l’interpretazione dei dati relativi al microbioma intestinale umano.  Il database messo a disposizione dall’HMP contiene dati di sequenziamento del gene per la subunità 16S dell’RNA ribosomiale: sequenze simili di rRNA 16S vengono raggruppate in OTU (Operational Taxonomic Unit) al fine di identificare e conteggiare i microbi presenti.  Gli strumenti di sequenziamento hanno un limite di capacità legato al numero fisso di slot che devono essere riempiti, ne segue che il conteggio totale delle letture di una sequenza HTS è un numero fisso. Inoltre, il valore assoluto di ciascun conteggio, data l’estrema variabilità tra organismi, perde di significato. Ciò che realmente è informativo in una OTU è l’abbondanza relativa, ovvero i conteggi normalizzati dei componenti del microbioma.

figura 1 – Diagramma ternario dei phylum Firmicutes, Bacteroidetes e Proteobacteria
del microbiota intestinale. I dati sono distinti in base all’indice di massa corporea (BMI) data la stretta relazione tra la dieta e la composizione del microbiota intestinale.

ternary1_page-0001

fonte dei dati: Wu GD, Chen J, Hoffmann C, et al. (2011) “Linking long-term dietary patterns with gut microbial enterotypes”. Science. ;334(6052):105–108.

È essenziale allora l’approccio logratio per l’analisi della composizione delle comunità microbiche: per capire meglio e comprendere a pieno le funzionalità del microbioma e la sua stretta interazione con l’organismo ospitante non si può prescindere dall’uso delle tecniche proprie dell’analisi dei dati composizionali al fine di pianificare interventi strategici a livello terapeutico.

figura 2 – Diagramma ternario dei phylum Firmicutes, Bacteroidetes e Proteobacteria del microbiota intestinale, con una stima Kernel della densità.
ternary2_page-0001

fonte dei dati: Wu GD, Chen J, Hoffmann C, et al. (2011) “Linking long-term dietary patterns with gut microbial enterotypes”. Science. ;334(6052):105–108.

Bibliografia essenziale

Aitchison, J. (1986). The Statistical Analysis of Compositional Data. Monographs on Statistics and Applied Probability. Chapman & Hall Ltd., London (UK). (Reprinted in 2003 with additional material by The Blackburn Press). 416 p.

Egozcue, J.J., Pawlowsky-Glahn, V., Mateu-Figueras, G., Barceló-Vidal, C.  (2003) Isometric Logratio Transformations for Compositional Data Analysis. Mathematical Geology 35, 279–300

Filzmoser, P, Hron, K, and Templ, M (2018) Applied compositional data analysis: with worked examples in R. Springer Series in Statistics

Gloor GB, Macklaim JM, Pawlowsky-Glahn V and Egozcue JJ (2017) Microbiome Datasets Are Compositional: And This Is Not Optional. Frontiers in Microbiology. 8:2224

Pawlowsky-Glahn, V. and J. J. Egozcue (2001). Geometric approach to statistical analysis on the simplex. Stochastic Environmental Research and Risk Assessment (SERRA) 15 (5), 384–398.

 

 

 

Facebooktwitterlinkedinmail