Statistica

LA STATISTICA

 

La statistica è una scienza ausiliaria, che fa da supporto alle scienze naturali, fisiche e sociali: essa raccoglie, organizza ed analizza i dati (ossia le informazioni) relativi ai fenomeni (ciò che le scienze studiano) e mette in evidenza le caratteristiche più rilevanti di essi. Inoltre la statistica permette di utilizzare le informazioni che sono state raccolte per poter prevedere i fatti non osservati.

 

La statistica descrittiva evidenzia, ossia descrive le caratteristiche dei fenomeni.

 I due momenti fondamentali della statistica descrittiva sono i seguenti:

1)misurazione;

2)descrizione.

La statistica descrittiva studia le caratteristiche più importanti dei fenomeni, ossia gli aspetti qualitativi e quantitativi di essi.

 

Gli aspetti qualitativi di un fenomeno comprendono le caratteristiche immediatamente evidenti, che generalmente sono individuate senza bisogno di misurazione. Quando diciamo che l’erba è verde, che un alunno è biondo, che una squadra è ben allenata, esprimiamo le qualità più evidenti dell’erba, dell’alunno e della squadra: Generalmente gli aspetti qualitativi vengono espressi in forma verbale, ricorrendo ad un aggettivo, che può indicare il colore della pelle, la nazionalità, la religione, lo stato civile etc.

 

Gli aspetti quantitativi di un fenomeno si riferiscono sia alla quantità con cui una caratteristica si manifesta in un individuo o in un oggetto (ad esempio Franco è alto m. 1,80; io peso kg. 50), sia alla sua intensità (ad esempio la mia preparazione in storia è stata valutata 5), sia alla frequenza con cui un certo fenomeno si presenta in una popolazione (ad esempio quanti sono in singles in Italia?). Gli aspetti quantitativi sono sempre espressi con un numero.

Il punto di partenza della statistica è la raccolta dei dati espressi in forma numerica: tutti gli aspetti dei fenomeni, anche quelli quantitativi, devono poter essere quantificati, ossia espressi numericamente.

 

La misurazione

 

La misurazione dei vari aspetti di un fenomeno può essere effettuata ricorrendo sia ad un metodo diretto, utilizzando uno strumento di misura (ad esempio misuriamo l’altezza di una persona utilizzando il metro), sia ad un metodo indiretto, utilizzando dei criteri di valutazione in base ai quali valutiamo l’intensità con cui una determinata caratteristica si presenta (ad esempio i voti scolastici, i punteggi di un test etc.) in un individuo o in una popolazione. E’ importante che, qualunque sia il sistema di valutazione utilizzato, due diversi ricercatori utilizzino gli stessi criteri per misurare le stesse caratteristiche o variabili.

 

Lo spoglio dei dati: la distribuzione di frequenza                                    

 

Quando l’indagine è terminata e abbiamo misurato i diversi aspetti di un fenomeno quantificandoli, abbiamo a disposizione una gran quantità di informazioni (dati). Prima di tutto facciamo lo spoglio, ossia mettiamo in ordine  e cataloghiamo i dati e, successivamente, li riassumiamo in una forma facile da consultare  e da comunicare.

Generalmente lo spoglio si conclude riportando in una tabella tutti i dati a caso, così come si presentano (tabella casuale). A questo punto inizia l’elaborazione statistica dei dati, perché nella tabella casuale  non risultano immediatamente evidenti le principali caratteristiche del fenomeno che vogliamo studiare.     

Prima di tutto dobbiamo individuare, nella tabella casuale, il punteggio minimo e quello massimo ottenuti dai soggetti esaminati; successivamente riportiamo tali punteggi, disposti in ordine crescente, in una colonna, che indichiamo con N, procedendo dal punteggio minimo a quello massimo. In un’altra colonna, che indicheremo con F, riportiamo la frequenza di ogni punteggio, ossia calcoliamo quante volte un punteggio si presenta nella tabella.

Quando i dati a nostra disposizione sono molto numerosi, è opportuno raggrupparli in intervalli di classe (IC). A seconda del numero dei dati da elaborare, potremo utilizzare un numero molto grande di classi ristrette o un numero ristretto di classi ampie. Generalmente si tende a raggruppare tutti i dati in 10 intervalli di classe. Possiamo anche raggruppare i dati in classi di ampiezza diversa, ponendo all’inizio e alla fine della distribuzione classi più ampie di quelle centrali.

 

Le misure della tendenza centrale

 

La statistica descrittiva mette in evidenza due caratteristiche fondamentali di qualsiasi distribuzione dei dati:

- la tendenza centrale;

-  la dispersione.

La tendenza centrale rappresenta ciò che vi  di costante in una distribuzione. Generalmente i dati tendono a raggrupparsi intorno a valori centrali, cioè quelli che si trovano al centro della serie dei punteggi,  disposti in ordine crescente.

Possiamo esprimere il significato di un intero gruppo di dati indicandoli con un unico valore, ossia di un dato riassuntivo e sintetico che ci permette di evidenziare la caratteristica principale del fenomeno studiato.

La dispersione rappresenta la variabilità dei punteggi di una distribuzione, ossia la tendenza di alcuni punteggi a disperdersi (ossia distanziarsi) rispetto al valore centrale. Mentre la tendenza centrale accentua le  somiglianze, la dispersione evidenzia le differenze.

 

LA MEDIA ARITMETICA

 

La media aritmetica esprime la caratteristica principale di una serie di dati.

Si calcola la media aritmetica quando:

- è richiesta la maggior precisione nel calcolo;

- serve per effettuare calcoli successivi;

 - la distribuzione presenta in uguale proporzione valori alti e valori bassi (ossia è simmetrica).

Quando si hanno a disposizione pochi dati, si calcola la media aritmetica semplice con la seguente formula:

  _          x

  x =  ---------

             n

         _

dove x è la media aritmetica da calcolare;

Sx è la sommatoria di tutti i dati della distribuzione;

n è il numero totale dei dati.

La formula completa per il calcolo della media aritmetica è.

 

      _        x1 + x2 + x3 + .......... + xn

      x   =  -----------------------------------

                               n

 

dove x1, x2, x3 … xn sono i dati da elaborare (i diversi punteggi della distribuzione);

n è il numero dei dati.

Quando i dati da elaborare sono numerosi, si fa ricorso al calcolo della media aritmetica ponderata, che si ottiene calcolando la frequenza di ciascun punteggio e sommando  i prodotti di ciascun punteggio per la relativa frequenza e dividendo per il numero dei casi.

La formula per il calcolo della media aritmetica ponderata è il seguente:

 

_          S NF

x     = -------------  

              n

La formula generale per il calcolo della media aritmetica è:

                                                                     n

                                                                     S

                                              -                    i  =  1  

                                              x       =   --------------------

                                                                     n                                                      

           _                                        

dove x  è la media da calcolare;

     n  

     S           è la sommatoria di tutti i dati da x1 a xn;

  i   =   1 

 

n è il numero dei dati.

 

B)Gli indici di dispersione

 

Per descrivere in modo completo una distribuzione non è sufficiente conoscere le misure della tendenza centrale. Spesso succede che due distribuzioni, pur avendo la stessa media aritmetica, abbiano valori estremi molto diversi.

Occorre pertanto procedere alla misurazione degli indici di dispersione, ossia misurare le distanze dei valori estremi rispetto al valore centrale (variabilità di una distribuzione).

 

LO SCARTO SEMPLICE

 

Calcoliamo, prima di tutto, lo scostamento (scarto semplice) di ogni punteggio, ossia la distanza di ciascun punteggio rispetto alla media aritmetica.

Indicando con xi un qualsiasi punteggio o valore della distribuzione, calcoliamo lo scarto di ogni punteggio della distribuzione dalla media aritmetica con la formula.

          

          _

s = xi -  x

 

                                                                                                            

                   LA DEVIAZIONE STANDARD

 

La deviazione standard (o scarto quadratico medio) è il più preciso indice di dispersione di una distribuzione (s = sigma). La formula per il calcolo della deviazione standard è la seguente:                                                                                                                                                                                                                                                                              

s    =     s2                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  S  (xi – x2)

  s2        __________

                               

             n

 I DIAGRAMMI

 

Oltre a rappresentare numericamente la tendenza centrale e la dispersione dei dati di una distribuzione, è possibile evidenziarle mediante i diagrammi, rappresentazioni grafiche che permettono di cogliere, a colpo d’occhio, gli aspetti qualitativi e quantitativi dei fenomeni.

Distinguiamo i diagrammi cartesiani da quelli non cartesiani.

 

I DIAGRAMMI CARTESIANI

 

Il diagramma cartesiano consiste in due rette che si incrociano perpendicolarmente fra loro (fig. 1). Il punto centrale è detto origine delle misure e, convenzionalmente, corrisponde a zero. L’asse verticale viene chiamata ordinata ed è indicato con la lettera y; l’asse orizzontale viene chiamato ascissa ed è indicato con la lettera x.

Sull’ascissa (ovvero sull’asse orizzontale) indicheremo i valori (o punteggi) del fenomeno studiato; sull’ordinata (ossia sull’asse verticale) le rispettive frequenze (ossia il variare del fenomeno dal punto di vista quantitativo).

Il punto più alto dell’ordinata è positivo; quello più basso ha segno negativo; per quanto riguarda l’ascissa, i valori positivi sono a destra, perché sono sempre superiori allo zero; quelli negativi a sinistra perché sono inferiori allo zero.

Generalmente nelle scienze sociali abbiamo sempre a che fare con punteggi superiori allo zero; pertanto possiamo utilizzare soltanto il quadrante in alto a destra (fig. 2).

Su di esso indicheremo i diversi punteggi disposti in ordine crescente e le relative frequenze.

A seconda dei punteggi (da indicare sulla x) e delle loro frequenze (da riportare sull’asse della y), tracceremo, in corrispondenza di ogni punteggio, un segmento perpendicolare all’ascissa e, per ogni frequenza, un segmento perpendicolare all’ordinata, evidenziando il punto di intersezione corrispondente a ogni punteggio e alla sua frequenza (Fig. 3).

Il diagramma cartesiano consente di tracciare dei grafici ricchi di informazioni quantitative.

 

Il diagramma a canne d'organo

 

Quando i dati a nostra disposizione sono costituiti da valori discontinui, oppure non possono essere ordinati in una serie crescente o decrescente o, ancora, quando dobbiamo evidenziare soltanto gli aspetti qualitativi di un fenomeno, possiamo costruire un ortogramma (o diagramma “a canne d’organo”).

Indichiamo sull’ascissa le modalità con cui si presenta un certo fenomeno, (ossia gli aspetti qualitativi) e  sull’asse dell’ordinata le frequenze corrispondenti (ossia gli aspetti quantitativi del fenomeno che vogliamo rappresentare. Per far ciò dobbiamo dividere l’ascissa in tanti segmenti separati fra loro quanti sono i punteggi a disposizione, attribuendo ad essi una grandezza arbitraria (ad esempio una base di 1 cm). Otterremo dei rettangoli aventi per base un segmento dell’ascissa e per altezza la frequenza corrispondente sull’ordinata.  I rettangoli, nel diagramma a canne d’organo, risultano staccati, per indicare la discontinuità del fenomeno. Sotto ciascun rettangolo si riporta il nome dell’aspetto o della modalità del fenomeno a cui si riferisce la frequenza.

 

 (fig. 4)

A volte si ricorre al diagramma composto, che permette di confrontare dati diversi relativi a rilevazioni diverse. In tal caso si inserisce una legenda, per indicare quali aspetti del fenomeno vengono evidenziati nel grafico.

 

L'istogramma

 

Il più frequente diagramma cartesiano è l’istogramma, che si utilizza quando si vuole rappresentare un fenomeno i cui punteggi o valori possono essere distribuiti in una serie ordinata e crescente. Esso si ottiene riportando i valori del fenomeno (i punteggi) sull’ascissa, dopo averli raggruppati in intervalli di classe (o fasce di livello) e sull’ordinata la frequenza dei diversi punteggi.

Se volessimo rappresentare graficamente i voti scolastici, potremmo dividerli in intervalli di classe e riportare gli IC sull’ascissa e le frequenze sull’ordinata.

Quando le ampiezze delle classi sono omogenee, divideremo l’ascissa  in tanti segmenti, uguali fra loro, quanti sono gli intervalli di classe in cui abbiamo raggruppato i punteggi; quando le classi non sono omogenee suddivideremo l’ascissa ricorrendo a unità di misura differenti

Per ottenere il grafico costruiremo dei rettangoli aventi per base l’intervallo di classe e per altezza la sua frequenza.

???A seconda del punteggio conseguito, raggruppiamo i punteggi in intervalli di classe (I.C.) disposti in una serie progressiva e crescente e calcoliamo le relative frequenze.

Poichè i punteggi sono continui e possono essere disposti in una serie ordinata e crescente, li rappresenteremo mediante un istogramma.

                  

Il poligono di frequenza

 

L’istogramma può essere trasformato in un poligono di frequenza, collegando tutti i punti centrali del lato superiore di ogni rettangolo.

Il poligono di frequenza si può realizzare anche quando la gamma di punteggi della distribuzione è ristretta, ossia quando abbiamo a disposizione pochi punteggi: in tal caso li riportiamo sull’ascissa; sull’ordinata  indichiamo le frequenze di ciascuno di essi e colleghiamo i punti di intersezione.

 

I diagrammi non cartesiani: l'areogramma

 

L’areogramma, detto anche “diagramma a torta”, si utilizza quando un fenomeno non è distribuito in modo uniforme nella popolazione.

Possiamo ricorrere all’areogramma quando vogliamo rappresentare la presenza di alunni con diverso colore di capelli in una classe, oppure quando vogliamo distinguerli in base alla loro provenienza, in rapporto alla totalità dei casi esaminati.

La totalità del fenomeno studiato viene rappresentata mediante la superficie di un cerchio. I casi parziali costituiscono una “fetta” o spicchio della torta. La superficie viene suddivisa in varie parti, che rappresentano le unità singole del fenomeno studiato.

Poiché l’angolo interno di un cerchio (angolo giro) misura 360°, dividiamo 360°  per il totale dei casi e poi moltiplichiamo il risultato rispettivamente per le unità singole (i parziali). Avremo così misurato l’ampiezza del settore di cerchio che rappresenta ciascuna unità del fenomeno studiato.

Disegniamo infine un cerchio, sul quale riportiamo le unità parziali del fenomeno espresse in gradi, come se fossero altrettante fette di una torta (la globalità della classe). Per realizzare un disegno più preciso possiamo servirci del goniometro.

Per realizzare grafici è sufficiente utilizzare i vari programmi di videoscrittura, come il WORD. 

 

I diagrammi
I DIAGRAMMI.docx
Documento Microsoft Word 41.4 KB