Ce vă poate spune un Boxplot despre un set de date statistice

De Deborah J. Rumsey

Un boxplot vă poate oferi informații cu privire la formă, variabilitate și centru (sau median ) a unui set de date statistice. Cunoscute și sub denumirea de diagramă cutie și mustăți, ploturile box sunt deosebit de utile pentru afișarea datelor înclinate. De asemenea, datele statistice pot fi afișate cu alte diagrame și grafice.



Ce dezvăluie forma boxplot despre un set de date statistice

Un boxplot poate arăta dacă un set de date este simetric (aproximativ același pe fiecare parte când este tăiat în mijloc) sau înclinat (înclinat). Un set de date simetric arată mediana aproximativ în mijlocul casetei.



Mediana, care face parte din rezumatul cu cinci numere, este prezentată de linia care trece prin casetă în boxplot.

Datele înclinate prezintă o parcela de tip box, în care mediana taie cutia în două bucăți inegale. Dacă partea mai lungă a casetei este în dreapta (sau deasupra) medianei, se spune că datele sunt înclinat la dreapta . Dacă partea mai lungă este la stânga (sau sub) mediana, datele sunt înclinat la stânga .



n = 83 de actrițe) ./>

Boxplot pentru vârsta celei mai bune actrițe (1928–2009; n = 83 de actrițe).

În figura de mai sus, vârstele sunt înclinate la dreapta. Partea casetei din stânga medianei (reprezentând actrițele mai tinere) este mai scurtă decât partea din dreapta medianei (reprezentând actrițele mai în vârstă). Asta înseamnă că vârstele actrițelor mai tinere sunt mai apropiate decât vârstele actrițelor mai în vârstă.

Statistici descriptive pentru vârstele celei mai bune actrițe (1928–2009).



Statistici descriptive pentru vârstele celei mai bune actrițe (1928–2009).

Această figură arată statisticile descriptive ale datelor și confirmă asimetria corectă: vârsta mediană (33 de ani) este mai mică decât vârsta medie (35,69 ani).

Dacă o parte a casetei este mai lungă decât cealaltă, aceasta nu înseamnă că acea parte conține mai multe date. De fapt, nu puteți spune dimensiunea eșantionului uitându-vă la o parcela box; se bazează pe procente din mărimea eșantionului, nu pe dimensiunea eșantionului în sine. Fiecare secțiune a boxplot (minim la Î 1, Î 1la mediană, mediana la Î 3, și Î 3la maxim) conține 25% din date indiferent de ce. Dacă una dintre secțiuni este mai lungă decât alta, aceasta indică o gamă mai largă în valorile datelor din acea secțiune (ceea ce înseamnă că datele sunt mai răspândite). O secțiune mai mică a graficului box indică faptul că datele sunt mai condensate (mai apropiate).

Deși un boxplot vă poate spune dacă un set de date este simetric (când mediana este în centrul casetei), nu vă poate spune forma simetriei așa cum o poate face o histogramă.

Histograme a două seturi de date simetrice

Histograme a două seturi de date simetrice

De exemplu, figura de mai sus prezintă histograme din două seturi de date diferite, fiecare conținând 18 valori care variază de la 1 la 6. Histograma din stânga are un număr egal de valori în fiecare grup, iar cea din dreapta are două vârfuri la 2 și 5. Ambele histograme arată că datele sunt simetrice, dar formele lor sunt clar diferite.

Graficele cutiei celor două seturi de date simetrice din figura de mai sus

Graficele cutiei celor două seturi de date simetrice din figura de mai sus

Această figură prezintă graficele corespunzătoare pentru aceste aceleași două seturi de date; observați că sunt exact la fel. Acest lucru se datorează faptului că ambele seturi de date au aceleași rezumate de cinci numere - ambele sunt simetrice cu aceeași cantitate de distanță între Î 1, mediana și Î 3. Cu toate acestea, dacă tocmai ați văzut boxplot-urile și nu histogramele, ați putea crede că formele celor două seturi de date sunt aceleași, atunci când într-adevăr nu sunt.

În ciuda slăbiciunii sale în detectarea tipului de simetrie (puteți adăuga o histogramă la analizele dvs. pentru a ajuta la completarea acelui gol), un boxplot are un mare avantaj în sensul că puteți identifica măsurile reale de răspândire și centru direct de la boxplot, unde pe o histogramă pe care nu o poți. Un boxplot este, de asemenea, bun pentru compararea seturilor de date, arătându-le pe același grafic, una lângă alta.

Ce dezvăluie un boxplot despre variabilitatea unui set de date statistice

Variabilitatea într-un set de date care este descris de rezumatul cu cinci numere este măsurată de gama interquartile ( IQR ). IQR este egal cu Î 3- Î 1, diferența dintre percentila 75 și percentila 25 (distanța care acoperă mijlocul 50% din date). Cu cât este mai mare IQR, cu atât setul de date este mai variabil.

Din figura de mai sus care prezintă statisticile descriptive pentru vârstele celei mai bune actrițe, variabilitatea în vârstă a câștigătorilor celei mai bune actrițe, măsurată de IQR , este Î 3- Î 1= 39 - 28 = 11 ani. Din grupul de actrițe ale căror vârste erau cele mai apropiate de mediană, jumătate dintre ele se aflau la 11 ani una de cealaltă când și-au câștigat premiile.

Observați că IQR ignoră datele sub percentila 25 sau peste percentila 75, care pot conține valori aberante care ar putea umfla măsura variabilității întregului set de date. Deci, dacă datele sunt înclinate, IQR este o măsură mai adecvată a variabilității decât deviația standard.