Donata Marasini, Piero Quatto
Dipartimento di Economia, Metodi Quantitativi e Strategie di impresa, Università Milano-Bicocca
La dichiarazione sul p-value dell’American Statistical Association (ASA) è già stata riportata in un precedente lavoro di B. Liseo, ma, visto l’interesse suscitato a livello internazionale, merita un approfondimento.
La rivista Ecology nel 2014 ha pubblicato una serie di lavori, alcuni pro p-value, pur sottolineando interpretazioni non corrette, altri decisamente contrari per la presenza di lacune, sostenendo l’esclusività di approcci alternativi come quello bayesiano o l’Akaike Information Criterion.
Nell’editoriale del gennaio 2015, Basic and Applied Social Psychology ha annunciato che il p-value e in generale i test di significatività sono banditi come strumenti di “inferenza”, rivalutando la statistica descrittiva, le misure di effetto e incoraggiando i campioni numerosi, ma restando prudente sulle procedure bayesiane. A un anno di distanza l’editoriale ha ribadito la sua contrarietà al p-value, sottolineando il fatto che il solo p-value non risulta assolutamente conclusivo.
Nel 2015, l’ASA è entrata ufficialmente nel merito della discussione a proposito dell’ argomento e nel marzo 2016 è pervenuta a una dichiarazione pubblicata su The American Statistician nel giugno 2016.
L’European Journal of Epidemiology nell’aprile 2016 ha pubblicato un articolo (Greenland et al.) come materiale di supporto alla dichiarazione ASA. The Royal Statistical Society nelle web news dichiara il proprio accordo con l’iniziativa dell’ASA, affermando che per quanto riguarda l’impiego dei p-value occorre “to educate people about their uses and limitations”. Sul Blog Retraction Watch, l’Executive Director di ASA, ha sostenuto: “If the statement succeeds in its purpose, we will know it because journals will stop using statistical significance to determine whether to accept an article”, sottolineando una prassi ormai consolidata nella scelta dei lavori da pubblicare o non pubblicare. Interessante è la rassegna (Chavalarias et al.) del 2016 che, analizzando le banche dati Medline e PubMed Central dal 1990 al 2015, riscontra una concentrazione di valori del p-value “significativi” intorno a 0.05 e 0.001.
I sei punti della dichiarazione ASA che denunciano le forzature del p-value sono di seguito riportati e commentati brevemente.
Nel punto 1 (p-values can indicate how incompatible the data are with a specified statistical model) si ribadisce che tanto più piccolo è il p-value tanto più elevata è l’incompatibilità dei dati con l’ipotesi da verificare o, come viene affermato nel materiale supplementare, tanto più sono inusuali i dati se ogni assunto, oltre l’ipotesi da verificare, è corretto.
Il punto 2 (p-values do not measure the probability that the studied hypothesis is true, or the probability that the data were produced by random chance alone) fa riferimento all’inferenza inversa (inversione del dato sperimentale con l’ipotesi) e afferma che un p-value “grande” non è la probabilità che il solo caso ha prodotto un particolare effetto perché, accanto al caso, possono intervenire tutti gli assunti che sono stati considerati nell’esperimento. Nel punto 3 (scientific conclusions and business or policy decisions should not be based only on whether a p-value passes a specific threshold) la soglia “incriminata” è 0.05 che ovviamente non può portare a conclusioni circa la falsità o la verità di un’ipotesi; un piccolo/grande valore di p avvisa che i dati sono inusuali/non inusuali rispetto a tutti gli assunti.
Il punto 4 (proper inference requires full reporting and transparency) sottolinea che riportare il solo p-value rende quest’ultimo difficilmente interpretabile e impoverisce drammaticamente l’analisi statistica esponendola alla discutibile pratica del p-hacking (ricerca della sola significatività, a scapito di qualunque altro risultato).
Nel punto 5 (a p-value, or statistical significance, does not measure the size of an effect or the importance of a result) si intende che piccoli valori del p-value non implicano la presenza di effetti importanti, così come grandi valori non implicano la mancanza di effetti.
Con il punto 6 (by itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis), si afferma che un p-value non è una buona misura dell’evidenza di un’ipotesi; un p-value intorno a 0.05 può solo offrire una debole evidenza contro l’ipotesi da verificare, così come un valore relativamente sostenuto di p non implica evidenza a favore dell’ipotesi nulla perché possono esistere altre ipotesi coerenti con i dati ottenuti. Nell’interessante lavoro di Greenland et al. questo punto viene articolato mettendo a confronto due situazioni con uguale p-value ma con evidenza scientifica molto diversa.
In conclusione l’ASA propone di integrare il p-value con altre procedure consolidate come la stima insieme agli intervalli di confidenza, i metodi Bayesiani, il fattore di Bayes, il “decision-theoretic modeling” e il “false discovery rate”.
A tutt’oggi sulle linee guida di alcune riviste si trovano indicazioni del tipo “Exact p values should be provided, unless p<0·0001” o “Exact p-values should be reported for all results between .001 and .249”. Molti ricercatori suggeriscono soglie come 0.005 (statistically significant) e 0.001 (highly statistically significant), mentre nella Fisica la soglia è intorno a , corrispondente al famoso 5 sigma relativo a una variabile casuale normale, adottato come protezione verso “scoperte” che potrebbero erroneamente falsificare alcune leggi fondamentali della Fisica.
Riferimenti bibliografici
Chavalarias D,Wallach JD, LI AH, Ioannidis JP, (2016), Evolution of Reporting P Values in the Biomedical Literature,1990-2015, JAMA, 315 (11), 1141-8
Greenland S, Senn SJ, Rothman KR, Carlin JB, Poole C, Goodman SN, Altman DG, (2016) Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations, European Journal of Epidemiology 31 (5),337–350
- Liseo, L’era post valore p, 23.6.2016, Statistica&Società.
The ASA’s Statement on p-values: Context, Process, and Purpose, The American Statistician, 70 (2), 2016.