Statistikk: Forberedelse til dataanalyser
I mange tilfeller kan vi legge inn data direkte inn i statistikkprogrammet, og så kjøre analyser umiddelbart. Det vanligste er imidlertid at data må bearbeides en del før vi kan utføre analysene.
Praktisk: Data kan legges direkte inn i statistikkprogrammet, eller importeres fra andre kilder. F.eks. kan man skrive data inn i et tekstbehandlingsprogram, og deretter imporere dataene inn i statistikkprogrammet.
Her er noen sjekkpunkter og vanlige operasjoner før vi starter analysene:
- Sjekke for feil. Feil kan oppstå på mange måter, og de må korrigeres. Alle som har tastet inn data vet at feil vil oppstå. Tilfeldige feil (noen verdier er tastet inn feil) er vanlig men kanskje ikke avgjørende for utfallet av analysene. Verre er det hvis man har gjort en systematisk feil, f.eks. at koden for kjønn blandes, slik at vi får en systematisk feilkoding for hele datasettet. Uansett, alle slike feil rettes opp før analyser gjennomføres
- Sjekke for manglende data. Hvis noen observasjoner mangler, må disse enten få en kode for "missing value", eller man kan legge inn en verdi (ofte kan man her bruke gjennomsnittet for variabelen eller for datasettet). Hva man konkret gjør med missing data kan være viktig, siden noen analyser vil ekskludere en deltaker hvis en observasjon skulle mangle. Regler for hvordan denne prosessen gjennomføres bestemmes på forhånd
- Forenkling. I mange tilfeller må data forenkles for å kunne analyseres. Dette gjelder f.eks. når vi har data der fysiologiske målinger er registrert. Her er datamengden ofte så stor (eks. 1000 verdier lest inn per sekund), slik at vi må redusere antallet verdier. Har vi 1000 målinger per sekund, kan vi f.eks. beregne gjennomsnitt blokker av 100 målinger om gangen, slik at vi får 10 mål per sekund
- Avvikende observasjoner ("outliers"). I noen datasett ser man at en eller få observasjoner er svært avvikende fra de andre i utvalget. Dette kan selvsagt skyldes noe så trivielt som en feil i inntasting av data, og må selvsagt rettes opp. Men hvis slike feil utelukkes, må man gjøre nærmere undersøkelser: Stammer observasjonen fra en deltaker som ikke skulle vært med (dvs. fra en deltaker som ikke tilhører populasjonen man vil undersøke)? I så fall må denne deltakeren tas bor fra datasettet. I noen tilfeller vil ingen av disse løsningene være riktig. I så fall må man sørge for at avvikende observasjoner ikke får avgjørende betydning for utfallet av analysen (f.eks. ved å transformere data; se under).
- Transformasjon av data. En del analyser har bestemte forutsetninger til data. F.eks. krever mange statistiske (f.eks. variansanalyse) at data er normalfordelte. Man vil derfor rutinemessig sjekke for dette kravet, og hvis det ikke tilfredsstilles, kan man gjennomføre en transformasjon av en eller flere variabler for å oppnå normalfordeling. Se her for et eksempel.
- Nye variabler. En av de vanligste operasjonene man gjør på et datasett, er å slå sammen eksisterende variabler til nye variabler. I eksemplet nedenfor lager vi en ny variabel "A+B+C" fra de tre variablene "A", "B", og "C". Variabelen "Mean" er ganske enkelt fremkommet med kommandoen "Mean(A:C)" i Statistica. Hvis du kjenner Excel, kan du dette fra før.
Case A B C A+B+C Mean
103 44 12 42 98 32,67
104 39 9 38 86 28,67
105 40 11 36 87 29,00
106 38 10 43 91 30,33
Tilbake
| |
|
|