(z vidika statistike) Statistika je veda, ki preučuje množične pojave. Z zbiranjem, urejanjem, grupiranjem, povezovanjem, prikazovanjem in analiziranjem številskih podatkov o teh pojavih skuša odkriti njihove splošne zakonitosti in nato pridobljena spoznanja izkoristiti za oblikovanje ustreznih napovedi oziroma odločitev. Skupna značilnost večine statističnih proučevanj je, da pojavov ne moremo zajeti v celoti (so preobsežni, iz ekonomskega vidika je prezahtevno,...). Prisiljeni smo sklepati na osnovi nepopolnih informacij, dobljenih na vzorčnih populacijah, zato tudi o dobljenih ugotovitvah ne moremo trditi, da so zagotvo pravilne, lahko so le bolj ali manj verjetne. Za pravilno razumevanje dejanske vrednosti oziroma zanesljivosti podatkov moramo zato obvladati vsaj osnove verjetnostnega računa. Dobljene podatke (niz vrednosti statističnega znaka) običajno grupiramo, da se izognemo nepreglednosti. Tako dobljene frekvence podatkov predstavimo v tabelah ali na grafu v obliki histograma ali poligona. V tem članku se bomo ukvarjali s porazdelitvami dobljenih podatkov, natančneje, z normalno porazdelitvijo, za razumevanje je nujno potrebno poznavanje osnovnih pojmov statistike in verjetnostnega računa.
2.NORMALNA PORAZDELITEV Vemo, da je verjetnostna porazdelitev vrednosti znakov različnih populacij različna, kljub tej različnosti se mnogo pojavov porazdeljuje podobno. Med takimi teoretičnimi porazdelitvami je najpomembnejša normalna porazdelitev, mnoge druge porazdelitve se ji v posebnih pogojih približujejo. Matematično normalno porazdelitev izpeljemo iz binomske porazdelitve Bin(n,p), ta ima zanimivo lastnost, da pri povečevanju parametra n (velikosti vzorca) graf ustrezne verjetnostne porazdelitve postaja vedno bolj podoben gladki krivulji zvončaste oblike (primer večanja parametra). Približevanje binomske porazdelitve si lahko ogledate tudi z programom v Javi. Krivuljo binomske porazdelitve pri velikem n lahko opišemo z enačbo, ki predstavlja verjetnostno gostoto normalno porazdeljene slučajne spremenljivke:
Formula normalne porazdelitve Tako krivuljo imenujemo normalna ali Gaussova krivulja po nemškem matematiku Carlu Friedrichu Gaussu (1777 - 1855) , ki jo je uporabil v analizi slučajnih napak pri merjenjih. Večkrat uporabljano ime normalna krivulja izvira iz dejstva, da z njo lepo opišemo porazdelitev frekvenc izmerkov pri zaporednih merjenjih neke količine v normalnih pogojih, torej takrat, ko pri merjenju ne delamo sistematičnih napak, ampak so napake povsem slučajne. Izmerki so vrednosti neke slučajne spremenljivke X (zato tudi f ( x ) matematiki imenujejo verjetnostna gostota) in lahko zavzamejo katerokoli realno vrednost in ne le celoštevilske, zato imamo opraviti z zvezno slučajno spremenljivko (zvezno porazdeljenim znakom), normalno porazdelitev pa štejemo med zvezne porazdelitve. Lep primer normalne porazdelitve je tudi naključno padanje kroglic: Oglejmo si sedaj graf neke normalne porazdelitve (na absciso nanašamo vrednost znaka in na ordinato ustrezne verjetnostne gostote):
Graf normalne porazdeljene slučajne spremenljivke Krivulja ima, kot smo že povedali, obliko simetričnega zvonca in je unimodalna (ima en vrh). Površina pod krivuljo je, zaradi korena v imenovalcu enačbe, enaka 1 in pomeni verjetnost, da ima lahko slučajna spremenljivka (znak) katerokoli vrednost. V enačbi krivulje nastopata dva parametra:
Ta dva parametra vplivata na graf krivulje. Aritmetična sredina (matematično upanje) M odloča o položaju krivulje na abscisni osi - največjo vrednost dobimo pri x = M (največja verjetnostna gostota oz. vrh krivulje!). Standardni odklon meri razpršenost vrednosti okoli matematičnega upanja (oz. aritmetične sredine), zato vpliva na sploščenost krivulje (večji kot je odklon, bolj sploščena je krivulja) . Ko smo zapisali, da največja verjetnostna gostota nastopi pri aritmetični sredini, smo s tem povedali tudi, da je pri normalni porazdelitvi Modus enak Aritmetični sredini, zaradi simetričnosti pa je tema dvema enaka tudi Medijana. Vrednosti levo in desno (navzgor in navzdol) od aritmetične sredina imajo vse manjšo verjetnostno gostoto. Z zbiranjem, urejanjem in analiziranjem podatkov različnih normalno porazdeljenih znakov so ugotovili, da se vse tako porazdeljene slučajne spremenljivke porazdeljujejo podobno - na določen interval pade enak procent vrednosti te spremenljivke!
Iz zgornje tabele je razvidno, da se za več kot tri standardne odklone od aritmetične sredine razlikuje le 0.27% vseh zbranih podatkov. S tem dejstvom si lahko pomagamo pri računanju verjetnosti, da bo imela slučajna spremenljivka določeno vrednost. Na grafu verjetnost dogodka predstavlja ploščina pod normalno krivuljo. Tako lahko izračunamo verjetnost:
Če bi vsako stvar računali matematično pravilno, s pomočjo integrala verjetnostne gostote na nekem intervalu, bi nas verjetno že pri prvem računu zagrabila panika. Vemo tudi, da so si normalne porazdelitve različne in zato težko primerljive med seboj. Primerjanje in računanje si močno olajšamo z standardiziranjem, ki nam bo poenotilo vse normalne porazdelitve!
3. STANDARDIZIRANA NORMALNA PORAZDELITEV Kljub temu, da se pojavi normalno distribuirajo, so njihove normalne krivulje postavljene na različnih mestih na abscisni osi in so bolj ali manj sploščene. Te razlike med krivuljami odpravimo z standardiziranjem odklonov vrednosti spremenljivke od aritmetične sredine. Standardiziran odklon označimo z Z, dobimo ga iz slučajne spremenljivke X, tako da ji odštejemo aritmetično sredino M in dobljeno delimo z njenim standardnim odklonom : Standardizirana spremenljivka X Tako dobljene spremenljivka je še vedno porazdeljena normalno: le njena enačba se poenostavi:
Formula standardizirane normalne porazdelitve in jo imenujemo Standardizirana normalna porazdelitev. Aritmetična sredina je sedaj pri vrednosti 0, standardni odklon pa je enak 1. Tako, preprostejšo funkcijo lažje proučimo in primerjamo z krivuljami ostalih normalno porazdeljenih spremnljivk.
Graf standardizirane normalne porazdelitve Površina pod standardizirano normalno krivuljo je 1, deli površin pa predstavljajo verjetnost, da bo slučajna spremenljivke (statistični znak) Z zavzela določeno vrednost. Površine pod krivuljo so statistiki tabelirali na štiri decimalke natančno. S pomočjo tabel lahko hitro izračunamo verjetnost, da spremenljivka zavzame določeno vrednost, oziroma, da njene vrednosti ležijo na določenem intervalu. Manjša pomankljivost je, da so tabelirane le površine desno od 0, vendar nam to ne bi smelo povzročati prevelikih preglavic, saj vemo, da je normalna krivulja zvončaste oblike in zato - simetrična. Torej, če nas zanima ploščina na negativnem delu v tabeli poiščemo procente za ekvivalentno ploščino desno od aritmetične sredine. Podobno se lotimo problema iskanje verjetnosti na določenem intervalu - odštejemo ali seštejemo verjetnosti dveh intervalov. Da ne bomo samo teoretizirali si raje oglejmo nekaj primerov:
Vsi primeri so bili narejeni za standardizrane slučajne spremenljivke, če se v nalogah znajdejo nestandardizirane slučajne spremenljivke, je dela le toliko več, kolikor ga porabimo za standardiziranje!
Za najbolj lene med bralci, pa je v naslednjem poglavju kuharski recept za reševanje nalog.
3. UPORABA
Pri izračunu površine pod normalno krivuljo pa si lahko pomagamo tudi s programom v Javi!
Povzeto po knjigah:
|
---|
Stran nastala...Januar 2001 | © Deja Kačič | Zadnji popravki...Februar 2001 |
---|
[ začetek strani ] [ rolanje ] [ me, myself & I ] [ uvodna stran ] [ povezave ] |
---|