matematica |
'Statistica è la scienza che sviluppa metodi per l'analisi dei fenomeni collettivi'
Statistica: metodo
Oggetto: insiemi di unità
Analisi: caratteristiche variabili
.Una pluralità di "oggetti" dotati di almeno un carattere comune (variabile o mutabile)
costituisce un "insieme statistico"
.Ciascun oggetto è una "unità statistica" e come tale concorre alla determinazione delle proprietà (statistiche) dell'insieme.
.univariate (una alla volta)
.Bivariate (due simultaneamente)
.Multivariate (tre o più simultaneamente)
.variabili continue -> scelta di necessità
.variabili discrete -> scelta di opportunità
.n-pla di stati di grandezza di una variabile X n=numerosità del collettivo
.insieme statistico di n unità x,y=carattere, variab ogg di studio
j=unità i=1, . m
L'obiettivo di un valore medio è riassumere, sintetizzare, in una unica grandezza un insieme di n unità statistiche.
Esistono infiniti valori medi
Le medie lasche
Le medie lasche sono una particolare famiglia di valori medi legati a specifiche posizioni nella graduatoria crescente degli n valori x , x . , xn
Le medie lasche più note e diffuse sono la moda, la mediana e i percentili.
La moda
La moda è il valore del carattere più frequente, cioè quello associato alla frequenza assoluta (o relativa) più alta.
La moda può essere calcolata per qualunque tipo di variabile: quantitativa, qualitativa, sia ordinabile, sia non ordinabile.
La mediana è rappresentata dal valore o modalità dell'unità che occupa il posto centrale nella successione ordinata delle n osservazioni individuali x , x . , xn
E' definita per mutabili ordinate e per caratteri quantitativi.
Per la determinazione della mediana sono necessari i seguenti passi:
1.ordinamento non decrescente delle osservazioni;
2.individuazione del posto centrale.
Se n è dispari, la mediana occupa il posto (n+1)/2-esimo.
Se n è pari, si hanno, invece, due posti centrali (n/2-esimo e (n/2+1)-esimo: se le osservazioni a essi corrispondenti non coincidono, esse individuano due valori mediani. In questo caso, se il carattere è quantitativo si conviene di prendere come valore mediano la semisomma dei due valori mediani.
È necessario distinguere i seguenti casi:
(a)il carattere è una mutabile o una variabile discreta con modalità puntuali. In questo caso la mediana coincide con la modalità corrispondente alla classe mediana;
(b)le modalità della distribuzione sono intervalli e la variabile osservata è discreta. Si postula l'equidistribuzione nell'intervallo individuato come classe mediana e ci si riconduce al caso precedente;
(c)Le modalità della distribuzione sono intervalli e la variabile osservata è continua. Si introduce l'ipotesi che le unità si distribuiscano uniformemente all'interno di ciascuna classe. Ne deriva che il valore mediano viene determinato mediante un'interpolazione lineare all'interno della classe mediana.
Per un carattere quantitativo X la somma degli scarti assoluti tra i valori individuali e la loro mediana è la più piccola fra tutte le somme degli scarti assoluti rispetto a un termine fisso qualsiasi:
La presenza di valori estremi non incide sulla mediana
I percentili individuano valori del carattere legati a particolari livelli delle frequenze cumulate.
Il I percentile è, ad esempio, il valore del carattere associato ad una frequenza cumulata dell'1%. Analogamente, il II percentile è il valore del carattere associato ad una frequenza cumulata uguale al 2%.
Esistono particolari percentili, detti quartili, corrispondenti a frequenze cumulate del 25% (I quartile), 50% (II quartile), 75% (III quartile).
Il II quartile coincide con il 50° percentile, e coincide anche con la mediana.
La media aritmetica
La media aritmetica è definita solo per caratteri quantitativi e non pone particolari problemi nella sua determinazione qualora si applichi ad una distribuzione di frequenza secondo le k modalità di un carattere quantitativo discreto.
Proprietà I: identità della somma
Proprietà II: nullità della somma algebrica degli scarti
(scarti: diff tra un val osservato e la media aritmetica)
Proprietà III: minimo della somma del quadrato degli scarti
(la sommatoria
degli sacrti al quadrato assume il valore +
La media geometrica di una distribuzione di valori positivi é data da:
Proprietà di Cauchy una media statistica h deve inoltre rispondere alla condizione di 'internalità'. Un qualsiasi valore medio deve essere contenuto tra il valore piu piccolo e quello piu grande.
. Proprietà di Chisini: in generale, nel riassumere una pluralità di grandezze in una sola grandezza, un valor medio h deve rispettare la condizione di equivalenza (x media aritm identità di somma).
Per sapere quanto sia realmente valida la misura di tendenza centrale calcolata.
L'attitudine di un carattere quantitativo X di assumere valori differenti nelle unità componenti un insieme statistico è chiamata variabilità
Costituisce una caratteristica degli insiemi statistici e può essere descritta mediante indicatori che godano delle seguenti proprietà:
. una misura di variabilità deve annullarsi quando, e solo quando, tutte le unità osservate presentano il medesimo stato di grandezza del carattere;
. una misura di variabilità deve assumere valori crescenti all'aumentare della variabilità.
Gli indicatori comunemente utilizzati possono essere distinti in tre categorie fondamentali.
.Indicatori che misurano la diversità tra due particolari termini della distribuzione o fra due quartili (intervallo di variabilità, differenza interquartile
.Indicatori che misurano la dispersione dei valori osservati attorno ad un valore medio (scostamenti medi
.Indicatori che misurano le disuguaglianze a due a due fra tutti i valori individuali (differenze medie
- È uguale a 0 se non c'è variabilità e aumenta all'aumentare della variabilità (tt valori=a media);
- è espressa nel quadrato dell'unità di misura della variabile x;
- è influenzata dal valore di n
- rispetto alla Dev non è piu influenzata dal valore di n. Var=0 quando la Dev=0
- per la proprietà di minimo della media aritmetica, DS(x) è il minimo degli scostamenti quadratici medi da un qualunque altro valore medio;
- è espresso nella stessa unità di misura di X; DS=0 in assenza di variabilità.
- rispetto agli scostamenti semplici medi, sovrappesa gli scarti piu elevati perché li eleva al quadrato
- è un numero puro, non ha unità di misura;
- non dipende dal valor medio della X;
- può esser utilizzato x confrontar la variabilità: dello stesso carattere in 2° piu collettivi aventi medie diverse, stesso carattere espresso in diversa unità di misura, 2 diversi caratteri per unità di misura e per livello medio.
.Lo scarto quadratico medio dalla media aritmetica è un minimo fra tutti gli scarti quadratici medi (proprietà della media aritmetica)
.Lo scostamento semplice medio dalla mediana è un minimo fra tutti gli (scarti in valore assoluto) scostamenti semplici medi (proprietà della mediana) Σ ׀xj - Me׀
n
INDICE NORMALIZZATO DI VARIABILITA'
L'indice varia tra 0(assenza di variabilità) e 1 (massima variabilità
La distribuzione doppia
L'analisi congiunta di due caratteri X e Y sullo stesso insieme di n unità statistiche dà luogo a due n-ple di osservazioni x , x . , xn, e y , y . , yn, che possono essere efficacemente rappresentate attraverso la seguente tavola a doppia entrata, dove x , . , xu, sono le u modalità del carattere X, y , . , yv, sono le v modalità del carattere Y, nih è il numero di unità che presentano congiuntamente la i-esima modalità del carattere X e la h-esima modalità del carattere Y. Sia modalità qualitative ke quantitative.
Utilizzata x studiare un legame tra 2variabili (X e Y), legame ke può essere unidirezionale (da causa a effetto), reciproco (1influenza l'altra) o semplici associazioni tra variabili.
La tavola a doppia entrata consente di calcolare, accanto alla media della variabile X,
anche le medie
della variabile X condizionate alle modalità della Y. Ad
esempio,
è sempre una media della variabile X, calcolata, però, non su tutte le n osservazioni, ma soltanto in riferimento alle n unità che presentano la prima modalità della variabile Y.
Per il caso generale si ha
La media
generale può essere ottenuta
anche sulla base delle u medie condizionate grazie alla relazione
La media aritmetica del carattere X si calcola partendo dalla distribuzione marginale, applicando la formula della media aritmetica per un carattere quantitativo suddiviso in classi. Occorre -determinare il valore teorico di ciascuna classe, come semisomma degli estremi di ciascuna classe -si calcolano le intensità di ciascuna classe, moltiplicando il valore teorico per la corrispondente frequenza assoluta -si sommano le intensità -si divide per la numerosità del collettivo
Per calcolare le medie
condizionate, cioè le medie delle distribuzioni della X condizionate
alle varie modalità della Y si procede esattamente come al punto (e), ma
considerando di volta in volta la corretta distribuzione di frequenze.
Considerando la distribuzione di frequenze della X condizionata alla
modalità della Y:
-si determinano le intensità per
ciascuna classe e si sommano -si divide per la numerosità del collettivo in
esame -trascinando queste due formule verso destra risultano
automaticamente calcolate tutte le medie per le varie distribuzioni
condizionate.
Si può notare come la media aritmetica della X può essere otetnuta come media aritmetica ponderata delle medie condizionate.
Devianza e devianze condizionate
La tavola a doppia entrata consente, inoltre, di ricavare, accanto alla devianza della X
anche le v devianze della X condizionate alle v modalità della Y.
è la
devianza della X condizionata a y , cioè calcolata solo in riferimento alle n unità che presentano la prima modalità della
Y.
In generale
A differenza del caso delle medie, per le devianze non è possibile ottenere DEV(X) soltanto sulla base delle v devianze condizionate, ma è necessario introdurre una ulteriore componente, detta devianza tra i gruppi .
Scomposizione della devianza
La devianza tra i gruppi
misura il contributo alla variabilità della X riconducibile alla diversità tra i gruppi individuati dalle v modalità della modalità della Y.
La somma delle v devianze condizionate è detta devianza entro i gruppi (misura la variabilità all'interno di ciascuna distribuzione condizionata).
La devianza entro i gruppi misura la variabilità della X relativa alla dispersione all'interno dei v gruppi.
Date DEVentro(X) e DEVtra(X) è possibile ottenere DEV(X) come
DEV(X) = DEVentro(X) + DEVtra(X
La devianza del carattere X si calcola partendo dalla distribuzione marginale,
applicando la formula della devianza per un carattere quantitativo suddiviso in
classi. Occorre -determinare
il valore teorico di ciascuna classe, come semisomma degli estremi di ciascuna
classe -si calcola
la media della X come descritto sopra
-si calcolano gli scostamenti dalla media aritmetica
-si elevano gli scostamenti al quadrato e si ponderano per la corrispondenti
numerosità -si sommano
le quantità appena calcolate
Si calcoli la devianza del carattere
X tra i gruppi Applicando la formula
introdotta precedentemente, il calcolo della devianza tra i gruppi richiede di
calcolare per ciascuna distribuzione condizionata -la
differenza al quadrato tra la media generale e la media condizionata
corrispondente, ponderata con le rispettive numerosità
-si sommano le quantità calcoltate per ogni distribuzione condizionata.
Si calcoli la devianza del carattere X entro i gruppi -Occorre calcolare la devianza della X in ogni distribuzione condizionata alle modalità della Y -la devianza entro i gruppi si ottiene sommando le devianze condizionate
Indipendenza in media
Dalla scomposizione
della devianza è possibile ricavare l'indicatore
che vale 0 quando tutte le medie condizionate sono uguali tra loro
e che assume valore 1 quando
DEV(X|yh h=1, . , v.
quando tutta la variabilità della X è dovuta alle differenze tra le medie condizionate , cioè è riconducibile all'influenza della all'influenza della Y sulla X.
Per questo è noto come misura della dipendenza in media della X dalla Y.
Quando la X è indipendente in media dalla Y,
Sempre dalla tavola a doppia entrata, è possibile ricavare una misura ancora più forte del legame tra le due variabili X e Y.
Se tra la X e la Y non esiste alcuna relazione, allora la generica frequenza congiunta nih assume il valore
dove l'asterisco indica che si tratta del valore teorico, nell'ipotesi di assenza di relazione, cioè di indipendenza (in cui una variabile non influenza l'altra,l'1 è indipendente dall'altra), tra la X e la Y.
Sulla base delle
differenze tra le frequenze osservate, nih, e le frequenze teoriche nell'ipotesi di
indipendenza, , viene costruito
l'indicatore di connessione chi quadrato
che consente di valutare se vi è dipendenza tra le due variabili X e Y. L'indicatore è simmetrico e può essere calcolato sia per variabili quantitative, sia per variabili qualitative.
Oss: nell'indipendenza in media basta ke siano uguali tt le medie mentre nell'indipendenza in distribuzione devono essere uguali tt le frequenze relative condizionate. L'indipendenza in media è meno forte di quella in distribuzione. Dipendenza perfetta: ad ogni valore della X si associa solo 1 valore della Y
Indice di connessione normalizzato
Il valore minimo di è 0, valore che si ottiene quando tutte le frequenze osservate sono uguali alle frequenze teoriche, cioè nel caso di indipendenza tra la X e la Y.
Il valore massimo
di dipende, invece, dalle dimensioni
della tavola e dal numero di unità considerate:
E', così,
possibile ricavare un indice di connessione normalizzato
Privacy
|
© ePerTutti.com : tutti i diritti riservati
:::::
Condizioni Generali - Invia - Contatta