Distribuzione normale

Distribuzione normale

Distribuzione normale PDF.svgFunzione densità Funzioni densità della distribuzione normale : (blu), (rosso), (giallo) e (verde)

Funzione-densità-cumulativa-normale-distribuzione-molti.svgFunzione di distribuzione Funzioni di distribuzione delle distribuzioni normali: (blu), (rosso), (giallo) e (verde)
parametro - Valore atteso ( parametro posizione ) - Varianza ( parametro scala )
vettore
Funzione densità
Funzione di distribuzione
- con funzione di errore
Valore atteso
Mediano
modalità
Varianza
storto
Rigonfiamento
entropia
Funzione di generazione del momento
Funzione caratteristica
Informazioni sul pescatore

La distribuzione normale o di Gauss (secondo Carl Friedrich Gauß ) è un tipo importante di distribuzione di probabilità continua in stocastica . La loro funzione di densità di probabilità è anche chiamata funzione gaussiana, distribuzione normale gaussiana, curva di distribuzione gaussiana, curva gaussiana, curva a campana gaussiana, funzione a campana gaussiana, campana gaussiana o semplicemente curva a campana.

La particolare importanza della distribuzione normale si basa, tra l'altro, sul teorema del limite centrale , secondo il quale le distribuzioni che risultano dalla sovrapposizione additiva di un gran numero di influenze indipendenti sono approssimativamente normalmente distribuite in condizioni deboli. La famiglia delle distribuzioni normali forma una famiglia posizione-scala .

Le deviazioni dei valori misurati di molti processi naturali, economici e ingegneristici dal valore atteso possono essere descritte con un'ottima approssimazione dalla distribuzione normale (nei processi biologici spesso distribuzione normale logaritmica ) (in particolare i processi che agiscono indipendentemente l'uno dall'altro in direzioni diverse per diversi fattori).

Le variabili casuali con distribuzione normale vengono utilizzate per descrivere processi casuali come:

In matematica attuariale , la distribuzione normale è adatta per modellare i dati sui danni nell'intervallo di importi di danno medio.

In metrologia , viene spesso utilizzata una distribuzione normale per descrivere la diffusione dei valori misurati.

La deviazione standard descrive l'ampiezza della distribuzione normale. La metà larghezza di una distribuzione normale è circa volte (esattamente ) la deviazione standard. Quanto segue si applica approssimativamente:

  • Nell'intervallo della deviazione dal valore atteso, si può trovare il 68,27% di tutti i valori misurati,
  • Nell'intervallo della deviazione dal valore previsto, è possibile trovare il 95,45% di tutti i valori misurati,
  • Nell'intervallo della deviazione dal valore previsto, è possibile trovare il 99,73% di tutti i valori misurati.

E viceversa, le deviazioni massime dal valore atteso possono essere trovate per determinate probabilità:

  • Il 50% di tutti i valori misurati ha una deviazione al massimo dal valore atteso,
  • Il 90% di tutti i valori misurati ha una deviazione al massimo dal valore atteso,
  • Il 95% di tutti i valori misurati ha una deviazione al massimo dal valore atteso,
  • Il 99% di tutti i valori misurati ha una deviazione massima dal valore previsto.

Pertanto, oltre al valore atteso, che può essere interpretato come il focus della distribuzione, alla deviazione standard può essere assegnato anche un significato semplice per quanto riguarda l'ordine di grandezza delle probabilità o delle frequenze che si verificano.

storia

Curva a campana gaussiana su una banconota tedesca da dieci marchi degli anni '90

Nel 1733 Abraham de Moivre mostrò nel suo lavoro The Doctrine of Chances in connessione con il suo lavoro sul teorema limite per le distribuzioni binomiali una stima del coefficiente binomiale, che può essere interpretato come una preforma della distribuzione normale. Il calcolo della mancata elementari integrale necessaria per normalizzare la distribuzione normale densità alla densità di probabilità

successe a Pierre-Simon Laplace nel 1782 (secondo altre fonti Poisson ). Nel 1809 Gauß pubblicò la sua opera Theoria motus corporum coelestium in sectionibus conicis solem ambientium ( teoria tedesca del movimento degli astri che si muovono in sezioni coniche attorno al sole ), che definisce la distribuzione normale oltre al metodo dei minimi quadrati e della massima verosimiglianza stima . Fu anche Laplace a dimostrare nel 1810 il teorema del valore limite centrale , che rappresenta la base del significato teorico della distribuzione normale, ea completare il lavoro di de Moivre sul teorema del valore limite per le distribuzioni binomiali. Adolphe Quetelet riconobbe infine un sorprendente accordo con la distribuzione normale nelle indagini sulla circonferenza toracica di diverse migliaia di soldati nel 1844 e portò la distribuzione normale nelle statistiche applicate . Probabilmente ha coniato il termine "distribuzione normale".

definizione

Una variabile casuale continua ha una distribuzione normale ( gaussiana o) con aspettativa e varianza ( ), spesso scritta come se avesse la seguente densità di probabilità :

.

Il grafico di questa funzione di densità ha una “ forma a campana ” ed è simmetrico con il parametro come centro di simmetria, che rappresenta anche il valore atteso , la mediana e il modo di distribuzione. La varianza di è il parametro . Inoltre, la densità di probabilità ha punti di flesso a .

La densità di probabilità di una variabile casuale distribuita normalmente non ha un integrale definito che può essere risolto in forma chiusa , quindi le probabilità devono essere calcolate numericamente. Le probabilità possono utilizzare una tabella di distribuzione normale standard sono calcolate, un modulo standard utilizzato. Per vedere ciò, si usa il fatto che una funzione lineare di una variabile casuale distribuita normalmente è essa stessa distribuita normalmente di nuovo. In concreto, ciò significa che se e , dove e sono costanti con , allora vale . La conseguenza di ciò è la variabile casuale

Funzione di densità di una variabile casuale distribuita normalmente
,

che è anche chiamata variabile casuale distribuita normalmente standard . La distribuzione normale standard è quindi la distribuzione normale con parametri e . La funzione di densità della distribuzione normale standard è data da

.

Il suo andamento è mostrato graficamente a destra.

La generalizzazione multidimensionale può essere trovata nell'articolo distribuzione normale multidimensionale .

proprietà

Funzione di distribuzione

La funzione di distribuzione della distribuzione normale è passante

dato. Se si introduce una nuova variabile di integrazione invece di una sostituzione , il risultato è

È la funzione di distribuzione della distribuzione normale standard

La funzione di errore può essere rappresentata come

.

simmetria

Il grafico della densità di probabilità è una curva a campana gaussiana, la cui altezza e larghezza dipendono. È assialmente simmetrico alla retta con l'equazione e quindi una distribuzione di probabilità simmetrica attorno al suo valore atteso. Il grafico della funzione di distribuzione è punto-simmetrico rispetto al punto Per è particolarmente vero e per tutti .

Valore massimo e punti di flesso della funzione di densità

Con l'aiuto della prima e seconda derivata si possono determinare il valore massimo ei punti di svolta. La prima derivata è

Il massimo della funzione di densità della distribuzione normale è quindi a ed è lì .

La derivata seconda è

.

Pertanto, i punti di svolta sono inclusi nella funzione di densità . La funzione di densità ha il valore ai punti di svolta .

Normalizzazione

Densità di una distribuzione normale centrata . Per , la funzione diventa più alta e più stretta, ma l' area rimane invariata 1.

È importante che l'intera area sotto la curva sia uguale , cioè uguale alla probabilità dell'evento certo . Ne consegue che se due curve a campana gaussiana hanno la stessa curva , ma diversa , la curva con quella maggiore è più ampia e più bassa (poiché entrambe le superfici associate hanno ciascuna lo stesso valore e solo la deviazione standard è maggiore). Due curve a campana con le stesse ma diverse hanno grafici congruenti che vengono spostati l'uno dall'altro dalla differenza dei valori paralleli all'asse.

Ogni distribuzione normale è in realtà normalizzata, perché con l'aiuto della sostituzione lineare otteniamo

.

Per la normalizzazione di quest'ultimo integrale vedere l' integrale di errore .

calcolo

Non essendo riconducibile ad una primitiva primitiva , in passato per il calcolo si utilizzavano prevalentemente le tabelle (vedi tabella di distribuzione normale standard ). Al giorno d'oggi, le funzioni sono disponibili in linguaggi di programmazione statistica come R , che padroneggiano anche la trasformazione in arbitrario e .

Valore atteso

Il valore atteso della distribuzione normale standard è . è vero

poiché l'integrando può essere integrato ed è simmetrico al punto .


Is now , then is è distribuito normale standard, e quindi

Varianza e altre misure di dispersione

La varianza delle variabili casuali -normalmente distribuite corrisponde al parametro

.

Una dimostrazione elementare è attribuita a Poisson.

La deviazione media assoluta è e l' intervallo interquartile .

Deviazione standard della distribuzione normale

Le distribuzioni normali unidimensionali sono completamente descritte specificando il valore atteso e la varianza . Quindi, se c'è un - -distributed variabile casuale - in simboli  - la sua deviazione standard è semplice .

Intervalli di spargimento

Intervalli intorno alla distribuzione normale

Dalla tabella di distribuzione normale standard si può vedere che per variabili casuali distribuite normalmente in ogni caso approssimativamente

68,3% delle realizzazioni della intervallo ,
95,4% nell'intervallo e
99,7% nell'intervallo

menzogna. Poiché in pratica molte variabili casuali sono approssimativamente distribuite normalmente, questi valori della distribuzione normale sono spesso usati come regola empirica. Ad esempio, si presume spesso che sia la metà della larghezza dell'intervallo che comprende i due terzi centrali dei valori in un campione, vedi quantile .

Distribuzione normale (a) e distribuzione normale contaminata (b)

Tuttavia, questa pratica non è consigliata perché può portare a errori molto grandi. Ad esempio, la distribuzione difficilmente può essere differenziata visivamente dalla distribuzione normale (vedi foto), ma il 92,5% dei valori si trova nell'intervallo , dove denota la deviazione standard di . Tali distribuzioni normali contaminate sono molto comuni nella pratica; l'esempio citato descrive la situazione in cui dieci macchine di precisione producono qualcosa, ma una di esse è mal regolata e produce con deviazioni dieci volte superiori alle altre nove.

I valori al di fuori di due o tre volte la deviazione standard sono spesso trattati come valori anomali . I valori anomali possono essere un'indicazione di errori grossolani nell'acquisizione dei dati . Tuttavia, i dati possono anche essere basati su una distribuzione molto distorta . D'altra parte, con una distribuzione normale, in media circa ogni 20 valore misurato è al di fuori del doppio della deviazione standard e circa ogni 500 valore misurato è al di fuori di tre volte la deviazione standard.

Poiché la proporzione di valori al di fuori di sei volte la deviazione standard è estremamente piccola a circa 2  ppb , tale intervallo è una buona misura per una copertura quasi completa di tutti i valori. Questo viene utilizzato nella gestione della qualità attraverso il metodo Six Sigma , in cui i requisiti di processo prevedono limiti di tolleranza di almeno . Tuttavia, si presume uno spostamento a lungo termine del valore atteso di 1,5 deviazioni standard, in modo che la parte di errore consentita aumenti a 3,4  ppm . Questa proporzione di errore corrisponde a quattro volte e mezzo la deviazione standard ( ). Un altro problema con il metodo è che i punti sono praticamente indeterminabili. Se la distribuzione è sconosciuta (cioè se non è del tutto certo che si tratti di una distribuzione normale), ad esempio, i valori estremi di 1.400.000.000 di misurazioni limitano un intervallo di confidenza del 75% per i punti.

Dipendenza della probabilità (percentuale all'interno) dalla dimensione dell'intervallo di dispersione
Dipendenza del limite dell'intervallo di dispersione dalla probabilità inclusa
Proporzioni attese dei valori di una variabile casuale distribuita normalmente all'interno o all'esterno degli intervalli di dispersione
Percentuale entro Percentuale all'esterno ppb fuori Frazione all'esterno
0.674490 50% 50% 500.000.000 1/2
0,994458 68% 32% 320.000.000 1 / 3.125
1 68.268 9492% 31.731 0508% 317.310.508 1 / 3.151 4872
1.281552 80% 20% 200.000.000 1/5
1.644854 90% 10% 100.000.000 1/10
1.959964 95% 5% 50.000.000 1/20
2 95.449 9736% 4.550 0264% 45.500.264 1/21.977 895
2.354820 98.146 8322% 1.853 1678% 18.531.678 1/54
2.575829 99% 1 % 10.000.000 1/100
3 99.730 0204% 0,269 9796% 2.699.796 1 / 370.398
3.290527 99,9% 0,1% 1.000.000 1 / 1.000
3.890592 99,99% 0,01% 100.000 1 / 10.000
99,993 666% 0,006 334% 63,340 1 / 15.787
4.417173 99,999% 0,001% 10.000 1 / 100.000
4.891638 99,9999% 0,0001% 1.000 1 / 1.000.000
5 99,999 942 6697% 0,000 057 3303% 573.3303 1 / 1.744.278
5,326724 99,999 99% 0,000 01% 100 1 / 10.000.000
5.730729 99,999 999% 0,000 001% 10 1 / 100.000.000
99,999 999 8027% 0.000 000 1973% 1.973 1/506.797.346
6.109410 99,999 9999% 0,000 0001% 1 1 / 1.000.000.000
6,466951 99,999 999 99% 0,000 000 01% 0.1 1 / 10.000.000.000
6.806502 99,999 999 999% 0.000 000 001% 0.01 1 / 100.000.000.000
99,999 999 999 7440% 0,000 000 000 256% 0.002 56 1 / 390.682.215.445

Le probabilità per determinati intervalli di dispersione possono essere calcolate come

,

dove è la funzione di distribuzione della distribuzione normale standard .

Viceversa, per un dato da

i limiti dell'intervallo di dispersione associato possono essere calcolati con probabilità .

Un esempio (con intervallo di fluttuazione)

La dimensione corporea degli esseri umani è distribuita approssimativamente normalmente. In un campione di 1.284 ragazze e 1.063 ragazzi di età compresa tra 14 e 18 anni, le ragazze avevano un'altezza media di 166,3 cm (deviazione standard 6,39 cm) e i ragazzi un'altezza media di 176,8 cm (deviazione standard 7,46 cm).

Secondo l'intervallo di fluttuazione sopra, ci si può aspettare che il 68,3% delle ragazze abbia un'altezza nell'intervallo 166,3 cm ± 6,39 cm e il 95,4% nell'intervallo 166,3 cm ± 12,8 cm,

  • Il 16% [≈ (100% - 68,3%) / 2] delle ragazze è più basso di 160 cm (e il 16% corrispondentemente più alto di 173 cm) e
  • Il 2,5% [≈ (100% - 95,4%) / 2] delle ragazze è più basso di 154 cm (e il 2,5% corrispondentemente più alto di 179 cm).

Per i ragazzi ci si può aspettare che il 68% abbia un'altezza nell'intervallo 176,8 cm ± 7,46 cm e il 95% nell'intervallo 176,8 cm ± 14,92 cm,

  • il 16% dei ragazzi di altezza inferiore a 169 cm (e il 16% di altezza superiore a 184 cm) e
  • Il 2,5% dei ragazzi è più basso di 162 cm (e il 2,5% più alto di 192 cm).

Coefficiente di variazione

Il coefficiente di variazione è ottenuta direttamente dal valore atteso e la deviazione standard della distribuzione

storto

L' asimmetria è indipendente dai parametri e dall'ottenimento del valore .

Rigonfiamento

Anche la volta è di e indipendente e uguale . Per valutare meglio la curvatura di altre distribuzioni, vengono spesso confrontate con la curvatura della distribuzione normale. La curvatura della distribuzione normale è normalizzata a (sottrazione di 3); questa dimensione è chiamata eccesso .

accumulatori

La funzione generatrice cumulativa è

Questo è il primo cumulante , il secondo è e tutti gli altri cumulanti scompaiono.

Funzione caratteristica

La funzione caratteristica per una variabile casuale standard distribuita normalmente è

.

Per una variabile casuale si ottiene :

.

Funzione di generazione del momento

La funzione generatrice del momento della distribuzione normale è

.

momenti

Lascia che la variabile casuale sia distribuita . Quindi i suoi primi momenti sono i seguenti:

ordine momento momento centrale
0
1
2
3
5

Tutti i momenti centrali possono essere rappresentati dalla deviazione standard :

è stata utilizzata la doppia facoltà :

Si può anche specificare una formula per i momenti non centrali. Per fare ciò, si trasforma e si applica il teorema binomiale.

Invarianza alla convoluzione

La distribuzione normale è invariante alla convoluzione , i. Cioè, la somma delle variabili casuali normalmente distribuite indipendenti è distribuita normalmente di nuovo (vedi anche sotto distribuzioni stabili e sotto infinite distribuzioni divisibili ). La distribuzione normale forma quindi un semigruppo di convoluzione in entrambi i suoi parametri. Una formulazione illustrativa di questa situazione è: La convoluzione di una curva gaussiana della metà larghezza con una curva gaussiana FWHM produce ancora una curva gaussiana con la metà larghezza

.

Quindi sono due variabili casuali indipendenti con

quindi anche la loro somma è distribuita normalmente:

.

Ciò può essere dimostrato, ad esempio, con l'ausilio delle funzioni caratteristiche sfruttando il fatto che la funzione caratteristica della somma è il prodotto delle funzioni caratteristiche delle somme (cfr. Teorema di convoluzione della trasformata di Fourier).

Più in generale, sono date variabili casuali indipendenti e normalmente distribuite . Quindi ogni combinazione lineare è distribuita normalmente di nuovo

in particolare, la somma delle variabili casuali è distribuita di nuovo normalmente

e anche la media aritmetica

Secondo il teorema di Cramér , è vero il contrario: se una variabile casuale distribuita normalmente è la somma di variabili casuali indipendenti, anche le somme sono distribuite normalmente.

La funzione di densità della distribuzione normale è un punto fisso della trasformata di Fourier , i. Cioè, la trasformata di Fourier di una curva gaussiana è di nuovo una curva gaussiana. Il prodotto delle deviazioni standard di queste corrispondenti curve gaussiane è costante; Si applica il principio di indeterminazione di Heisenberg .

entropia

La distribuzione normale è l' entropia : .

Poiché ha la più grande entropia di tutte le distribuzioni per un dato valore atteso e data varianza, è spesso usato come probabilità a priori nel metodo della massima entropia .

Rapporti con altre funzioni di distribuzione

Trasformazione nella distribuzione normale standard

Come accennato in precedenza, una distribuzione normale con arbitraria e e la funzione di distribuzione ha la seguente relazione con -distribuzione:

.

Qui c'è la funzione di distribuzione della distribuzione normale standard.

Se è così , la standardizzazione porterà

a una variabile casuale distribuita normalmente standard , perché

.

Dal punto di vista geometrico, la sostituzione effettuata corrisponde ad una trasformazione di area uguale della curva a campana da alla curva a campana da .

Approssimazione della distribuzione binomiale per la distribuzione normale

La distribuzione normale può essere utilizzata per approssimare la distribuzione binomiale se la dimensione del campione è sufficientemente ampia e la proporzione della proprietà ricercata non è né troppo grande né troppo piccola nella popolazione ( teorema di Moivre-Laplace , teorema del limite centrale , per la conferma sperimentale si veda anche sotto Galtonbrett ).

Se un esperimento di Bernoulli con livelli reciprocamente indipendenti (o esperimenti casuali ) è dato con una probabilità di successo , la probabilità di successo può essere generalmente calcolata da ( distribuzione binomiale ).

Questa distribuzione binomiale può essere approssimata da una distribuzione normale se è sufficientemente grande e né troppo grande né troppo piccola. La regola pratica per questo si applica . Quanto segue si applica quindi al valore atteso e alla deviazione standard :

e .

Questo vale per la deviazione standard .

Se questa condizione non dovesse essere soddisfatta, l'inesattezza dell'approssimazione è ancora accettabile se si verifica quanto segue: e allo stesso tempo .

Si può quindi utilizzare la seguente approssimazione:

Nella distribuzione normale, il limite inferiore viene ridotto di 0,5 e il limite superiore viene aumentato di 0,5 per poter garantire una migliore approssimazione. Questo è anche chiamato "correzione di continuità". Se ne può fare a meno solo se ha un valore molto alto.

Poiché la distribuzione binomiale è discreta, è necessario prendere in considerazione alcuni punti:

  • Si deve tener conto della differenza tra o (così come tra maggiore di e maggiore di o uguale a ) (che non è il caso della distribuzione normale). Pertanto deve essere scelto il numero naturale immediatamente inferiore, i. H.
o ,
in modo che la distribuzione normale possa essere utilizzata per ulteriori calcoli.
Per esempio:
  • è anche
(necessariamente con correzione di continuità)
e può quindi essere calcolato utilizzando la formula sopra indicata.

Il grande vantaggio dell'approssimazione è che moltissimi livelli di una distribuzione binomiale possono essere determinati molto rapidamente e facilmente.

Relazione con la distribuzione di Cauchy

Il quoziente di due variabili casuali standard normalmente distribuite stocasticamente indipendenti è distribuito di Cauchy .

Relazione con la distribuzione del chi quadrato

Il quadrato di una variabile casuale distribuita normalmente ha una distribuzione chi-quadrato con un grado di libertà . Quindi: se , allora . Inoltre, se ci sono variabili casuali distribuite chi-quadrato stocasticamente indipendenti , allora si applica

.

Da ciò segue con variabili casuali normalmente distribuite indipendenti e standard :

Altre relazioni sono:

  • La somma con e variabili casuali normalmente distribuite indipendenti soddisfa una distribuzione chi-quadrato con gradi di libertà.
  • La distribuzione del chi quadrato viene utilizzata per stimare il livello di confidenza per la varianza di una popolazione distribuita normalmente.

Relazione con la distribuzione di Rayleigh

La quantità di due variabili casuali distribuite normalmente indipendenti , ciascuna con una media e le stesse varianze , è distribuita con parametri di Rayleigh .

Relazione con la distribuzione normale logaritmica

Se la variabile casuale è distribuita normalmente con , allora la variabile casuale è distribuita normalmente in log , cioè .

L'emergere di una distribuzione normale logaritmica è dovuta a fattori moltiplicativi, mentre una distribuzione normale è dovuta all'interazione additiva di molte variabili casuali.

Relazione con la distribuzione F

Se le variabili casuali stocasticamente indipendenti e identicamente distribuite normalmente e i parametri

allora la variabile casuale è soggetta a

una distribuzione F con gradi di libertà. Ci sono

.

Relazione con la distribuzione t di Student

Se le variabili casuali indipendenti sono identicamente distribuite normalmente con i parametri e , allora la variabile casuale continua è soggetta a

con la media campionaria e la varianza campionaria di una distribuzione t di Student con gradi di libertà.

Per un numero crescente di gradi di libertà, la distribuzione t di Student si avvicina sempre più alla distribuzione normale. Come regola generale, dalla distribuzione t di Student circa in poi, è possibile approssimare la distribuzione normale se necessario.

La distribuzione t di Student viene utilizzata per stimare la confidenza per il valore atteso di una variabile casuale distribuita normalmente quando la varianza è sconosciuta.

Calcola con la distribuzione normale standard

Per compiti in cui la probabilità di - variabili casuali normalmente distribuite deve essere determinata dalla distribuzione normale standard, non è necessario calcolare ogni volta la trasformazione data sopra. Invece, fa solo la trasformazione

utilizzato per generare una variabile casuale distribuita .

La probabilità per l'evento che ad es. B. si trova nell'intervallo , è uguale a una probabilità della distribuzione normale standard mediante la seguente conversione:

.

Domande fondamentali

In generale, la funzione di distribuzione assegna l' area sotto la curva a campana fino al valore , es. cioè si calcola l' integrale definito di a .

Nei compiti, ciò corrisponde a una probabilità desiderata in cui la variabile casuale è minore o non maggiore di un certo numero . A causa della continuità della distribuzione normale, non fa differenza se è ora o richiesta, perché z. B.

e così .

Lo stesso vale per "più grande" e "non più piccolo".

Poiché può essere solo più piccolo o più grande di un limite (o all'interno o all'esterno di due limiti), ci sono due domande fondamentali per i problemi con i calcoli di probabilità per le distribuzioni normali:

  • Qual è la probabilità che in un esperimento casuale la variabile casuale standard distribuita normalmente assuma al massimo il valore ?
Nella matematica scolastica , il termine puntato a sinistra è usato occasionalmente per questa affermazione , poiché l' area sotto la curva gaussiana va da sinistra al confine. Per valori negativi sono ammessi. Tuttavia, molte tabelle della distribuzione normale standard hanno solo voci positive, a causa della simmetria della curva e della regola di negatività
della "punta sinistra", tuttavia, questa non è una restrizione.
  • Qual è la probabilità che la variabile casuale distribuita normalmente standard assuma almeno il valore in un esperimento casuale ?
Il termine puntato a destra è usato occasionalmente qui, con
c'è anche una regola di negatività qui.

Poiché ogni variabile casuale con distribuzione normale generale può essere convertita nella variabile casuale con distribuzione normale standard , le domande si applicano ugualmente a entrambe le quantità.

Area di dispersione e area di anti-dispersione

Spesso la probabilità è interessante per un intervallo di variazione ; H. la probabilità che la variabile casuale distribuita normalmente standard assuma valori compresi tra e :

Nel caso speciale del campo di dispersione simmetrico ( , con ) si applica

Per il corrispondente intervallo anti-scatter , la probabilità che la variabile casuale distribuita normalmente standard assuma valori al di fuori dell'intervallo tra e è:

Quindi segue con una regione anti-scattering simmetrica

Spargere le aree usando l'esempio della garanzia di qualità

Entrambe le gamme sono di particolare importanza. B. nella garanzia della qualità dei processi produttivi tecnici o economici . Ci sono limiti di tolleranza da osservare qui e , per cui di solito c'è una distanza massima ancora accettabile dal valore previsto (= il valore target ottimale). La deviazione standard , invece, può essere ricavata empiricamente dal processo produttivo.

Se è stato specificato l'intervallo di tolleranza da osservare, allora (a seconda della domanda) esiste un'area di dispersione o anti-dispersione simmetrica.

Nel caso dell'area di dispersione, vale quanto segue:

.

L'area antidispersione è quindi ottenuta da

o se nessuno spread è stato calcolato da

Il risultato è la probabilità per i prodotti vendibili, mentre la probabilità significa per gli scarti, entrambi dipendenti dalle specifiche di , e .

Se è noto che la deviazione massima è simmetrica rispetto al valore atteso, allora sono possibili anche domande in cui è data la probabilità e deve essere calcolata una delle altre variabili.

Test per la distribuzione normale

Quantili di una distribuzione normale e di una distribuzione chi-quadrato
Una variabile casuale distribuita in con 5 gradi di libertà viene testata per la distribuzione normale. Per ogni dimensione del campione, vengono simulati 10.000 campioni e quindi vengono eseguiti 5 test di bontà di adattamento a un livello del 5%.

I seguenti metodi e test possono essere utilizzati per verificare se i dati disponibili sono distribuiti normalmente:

I test hanno caratteristiche diverse in termini di tipi di deviazioni dalla distribuzione normale che rilevano. Il test di Kolmogorov-Smirnov riconosce le deviazioni nel mezzo della distribuzione piuttosto che le deviazioni ai bordi, mentre il test di Jarque-Bera reagisce in modo abbastanza sensibile a valori individuali fortemente devianti ai bordi (" bordi pesanti ").

A differenza del test di Kolmogorov-Smirnov, il test di Lilliefors non deve essere standardizzato; cioè, e la distribuzione normale presunta può essere sconosciuta.

Con l'aiuto di diagrammi quantile-quantile o diagrammi normale-quantile, è possibile un semplice controllo grafico per la distribuzione normale.
Il metodo della massima verosimiglianza può essere utilizzato per stimare i parametri e la distribuzione normale e confrontare graficamente i dati empirici con la distribuzione normale adattata.

Stima dei parametri, intervalli di confidenza e test

Molte delle domande statistiche in cui si verifica la distribuzione normale sono state ben studiate. Il caso più importante è il cosiddetto modello di distribuzione normale, che si basa sull'implementazione di esperimenti indipendenti e normalmente distribuiti. Ci sono tre casi:

  • il valore atteso è sconosciuto e la varianza è nota
  • la varianza è sconosciuta e il valore atteso è noto
  • L'aspettativa e la varianza sono sconosciute.

A seconda di quale di questi casi si verifica, risultano diverse funzioni di stima , intervalli di confidenza o test. Questi sono riassunti in dettaglio nell'articolo principale modello di distribuzione normale.

Di particolare importanza sono le seguenti funzioni di stima:

è uno stimatore imparziale per il valore atteso sconosciuto sia per la varianza nota che per quella sconosciuta. In effetti, è il miglior stimatore imparziale ; H. lo stimatore con la varianza minore. Sia il metodo della massima verosimiglianza che il metodo del momento forniscono la media campionaria come stimatore.
.
è uno stimatore imparziale per la varianza sconosciuta per un dato valore atteso . Può anche essere ottenuto sia dal metodo della massima verosimiglianza che dal metodo del momento.
.
è uno stimatore imparziale per la varianza sconosciuta quando il valore atteso è sconosciuto.

Generazione di numeri casuali normalmente distribuiti

Tutti i seguenti metodi generano numeri casuali con distribuzione normale standard. Qualsiasi numero casuale normalmente distribuito può essere generato da questo mediante trasformazione lineare: se la variabile casuale è -distribuita, allora infine -distribuita.

Metodo Box-Muller

Utilizzando il metodo di Box-Muller , è possibile simulare due variabili casuali standard distribuite normalmente indipendenti e due variabili casuali uniformemente distribuite indipendenti , i cosiddetti numeri casuali standard :

e

metodo polare

Il metodo polare di George Marsaglia è ancora più veloce su un computer perché non richiede valutazioni di funzioni trigonometriche:

  1. Genera due numeri casuali indipendenti equamente distribuiti nell'intervallo e
  2. Calcola . Se o , torna al passaggio 1.
  3. Calcola .
  4. for fornisce due numeri casuali standard distribuiti normalmente indipendenti e .

Regola del dodici

Il teorema del limite centrale afferma che in determinate condizioni la distribuzione della somma di numeri casuali distribuiti in modo indipendente e identicamente si avvicina a una distribuzione normale.

Un caso particolare è la regola del dodici , che è limitata alla somma di dodici numeri casuali di una distribuzione uniforme sull'intervallo [0,1] e che già porta a distribuzioni accettabili.

Tuttavia, l'indipendenza richiesta delle dodici variabili casuali non è garantita nei generatori di congruenza lineare (LKG) che sono ancora frequentemente utilizzati . Al contrario, il test spettrale per LKG di solito garantisce solo l'indipendenza di un massimo da quattro a sette dei . La regola del dodici è quindi molto discutibile per le simulazioni numeriche e dovrebbe, se non del tutto, essere utilizzata solo con generatori pseudo-casuali più complessi ma migliori come B. si può usare il Mersenne Twister (standard in Python , GNU R ) o WELL . Altri metodi, ancora più facili da programmare, sono quindi i. D. R. preferibile alla regola del dodici.

Metodo di rifiuto

Le distribuzioni normali possono essere simulate con il metodo del rifiuto (vedi lì).

Metodo di inversione

La distribuzione normale può essere calcolata anche con il metodo dell'inversione .

Poiché l' integrale di errore non può essere integrato esplicitamente con funzioni elementari, si può ricorrere allo sviluppo in serie della funzione inversa per un valore iniziale e successiva correzione con il metodo di Newton. Questi sono e sono necessari, che a loro volta possono essere calcolati con l'espansione in serie e l'espansione in frazione continua - nel complesso uno sforzo relativamente elevato. Gli sviluppi necessari possono essere trovati in letteratura.

Sviluppo dell'integrale dell'errore inverso (può essere utilizzato solo come valore di partenza per il metodo di Newton a causa del polo):

con i coefficienti

Applicazioni al di fuori della probabilità

La distribuzione normale può essere utilizzata anche per descrivere fatti non direttamente stocastici, ad esempio in fisica per il profilo di ampiezza dei raggi gaussiani e altri profili di distribuzione.

Viene anche utilizzato nella trasformazione di Gabor .

Guarda anche

letteratura

  • Stephen M. Stigler: La storia della statistica: la misurazione dell'incertezza prima del 1900. Serie Belknap. Harvard University Press, 1986. ISBN 978-0-674-40341-3 .

link internet

Commons : distribuzione normale  - raccolta di immagini, video e file audio

Evidenze individuali

  1. Wolfgang Götze, Christel Deutschmann, Heike Link: Statistiche. Testo e quaderno con esempi dal settore del turismo e dei trasporti . Oldenbourg, Monaco di Baviera 2002, ISBN 3-486-27233-0 , p. 170 ( anteprima limitata in Google Ricerca Libri).
  2. Hans Wußing: Da Gauß a Poincaré: la matematica e la rivoluzione industriale. pag. 33.
  3. Questa è la funzione esponenziale con la base
  4. ^ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl , TC Lee: Introduzione alla teoria e pratica dell'econometria. 1988, pagina 47.
  5. ^ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl , TC Lee: Introduzione alla teoria e pratica dell'econometria. 1988, pagina 48.
  6. ^ H. Schmid, A. Huber: Misurare un piccolo numero di campioni e l'errore 3σ. (PDF) In: IEEE Solid-State Circuits Magazine , Volume 6, No. 2, 2014, pp. 52–58, doi: 10.1109 / MSSC.2014.2313714 .
  7. ^ Mareke Arends: Epidemiologia dei sintomi bulimici tra gli studenti di 10 anni nella città di Halle. tesi di laurea. Martin Luther University of Halle-Wittenberg, 2005 Tabella 9, p 30 urn : nbn: de: gbv: 3-000008151
  8. ^ George G. Judge, R. Carter Hill, W. Griffiths, Helmut Lütkepohl , TC Lee: Introduzione alla teoria e pratica dell'econometria. 1988, pagina 49.
  9. ^ William B. Jones, WJ Thron: Frazioni continue: Teoria e applicazioni analitiche. Addison Wesley, 1980.