Analiza e te dhenave te kerkimit shkencor ne SPSS dhe Nvivo
 9789928211224

Table of contents :
Kapitulli I
Koncepte bazë
1.1. Popullata, individët dhe kampioni
1.2. Hipotezat
1.2.1 Hipotezat e thjeshta
1.2.2 Hipotezat nul dhe ato alternative
1.3. Variablat
1.3.1 Llojet e variablave
Matja e variablave-Shkallët
1.3.2 Llojet e shkallëve të matjes cilësore.
1.3.3 Shkallët e matjes ordinale-rendore
1.3.4 Llojet e shkallëve matëse sasiore
1.3.5 “Variable View” në SPSS
1.4. Të dhënat
1.4.1 Data View
1.4.2 Frekuenca (shpeshtësia) e të dhënave
Grafikët e shpërndarjes së frekuencave.
Histogramet
Modelet “Stem and Leaf”
1.4.3 Kurba lineare dhe shpërndarja normale
1.4.4 Shpërndarje të anuara pozitivisht dhe ato të anuara negativisht (Kurtosis dhe Skewness )
1.4.5 Testi i normalitetit në SPSS
Kapitulli II
2. Disa veprime me variablat në SPSS
2.1. Kthimi një variabli sasior në variabla nominal me kategori.
2.2. Visual binning
2.3. Ndërtimi i një variabli të ri me komandën “Compute Variable”
3. Kapitulli III
Statistika deskriptive
3.1.1 Treguesit e qendërzimit
3.1.2 Treguesit e shpërndarjes (dispersionit).
3.1.3 Devijimi standard dhe varianca
3.1.4 Outliers (vlerat ekstreme)
3.1.5 Treguesit e pozicionit: Percentilet dhe Vlerat Z
3.1.6 Statistikat deskriptive në SPSS
3.1.7 Vlerat Z dhe paraqitja e tyre në SPSS
3.2. Korrelacioni
3.2.1 Korrelacioni me variabla ordinalë.
3.2.2 Korrelacioni pjesor (Partial Correlation)
3.3. Tabelat e kryqëzuara
3.4. Analiza TURF
4. Kapitulli IV
Statistika Inferenciale (Përgjithësuese)
4.1. Llojet e testeve Inferenciale
4.2. Koncepte bazë
4.2.1 Intervali i besueshmërisë
4.2.2 Vlera P, Vlera Alfa dhe “Effect Size”
4.3. Krahasimi i mesatareve të grupeve.
4.3.1 T-testi
4.3.2 One Way ANOVA
4.3.3 Two Way ANOVA
4.4. Regresioni Linear
4.4.1 Regresioni i thjeshtë linear
4.4.2 Regresioni i shumëfishtë
4.4.3 Regresioni ordinal
4.5. Modelet parashikuese
4.6. Analiza Faktoriale në SPSS
Kapitulli V
5. Grafikët
5.1. Grafikët me variabla nominalë dhe ordinalë
5.2. Grafikët me kolona me disa variabla
5.3. Grafikët me variabla sasiorë
5.4. Grafikët me variabla të përzier sasior dhe dihotomikë
5.5. Grafikët me dy variabla sasiorë
5.6. Grafikët matrix me shumë variabla sasiorë
Pjesa II
Kapitulli VI
6. Kërkimi cilësor në NVIVO
6.1. Importimi i materialit
6.1.1 Ncapture
6.1.2 Importimi i fileve të hard diskut
6.1.3 Klasifikimet
6.1.4 Externals
Kapitulli VII
7. Kodifikimi në NVIVO
7.1. Kodifikimi i imazheve dhe materialeve digjitalë.
7.2. Sentiments
7.3. Cases
7.4. Autokodimi
7.5. Relationships (Marrëdhëniet)
7.6. Shënimet
7.6.1 Memo
7.6.2 Lidhja e teksteve të ndryshme
7.6.3 Annotation (shënimet)
7.7. Setet
Kapitulli VIII
8. Analiza e të dhënave në NVivo
8.1. Word Frequency
8.2. Cluster Analysis
8.3. Grafikët
8.3.1 Hierarchy Chart
8.4. Crosstabet
8.5. Maps (hartat)

Citation preview

JULJAN MYFTARI

ANALIZA E TË DHËNAVE TË KËRKIMIT SHKENCOR

në SPSS dhe NVivo

A N A L I Z A K Ë R K I M I T

E

T Ë

D H Ë N A V E

S H K E N C O R

S P S S

D H E

T Ë

N Ë P Ë R M J E T

N V I VO

Juljan Myftari

1

Titulli : Analiza e të dhënave të kërkimit shkencor në SPSS dhe NVIVO Copyright © 2021 Juljan Myftari. Të gjitha të drejtat e rezervuara. Printuar në Republikën e Shqipërisë. Asnjë pjesë e këtij libri nuk mund të riprodhohet pa lejen me shkrim të autorit. Kjo leje nuk kërkohet kur pjesë të shkurtra përdoren për citim, apo për të kritikuar librin. Kopertina: Autori Redaktoi Manuela Loca ISBN: 978-9928-211-22-4 Botimi i parë: 2021 10 9 8 7 6 5 4 3 2 1

2

Juljan Myftari

Përmbajtja Kapitulli I

........................................................... Error! Bookmark not defined.

Kapitulli I ........................................................................................................ 11 Koncepte bazë ................................................................................................. 11 1.1.

Popullata, individët dhe kampioni .................................................... 12

1.2.

Hipotezat ......................................................................................... 13

1.2.1

Hipotezat e thjeshta ..................................................................... 14

1.2.2

Hipotezat nul dhe ato alternative ................................................. 15

1.3.

Variablat .......................................................................................... 17

1.3.1

Llojet e variablave ........................................................................ 17

1.3.2

Llojet e shkallëve të matjes cilësore. ............................................. 21

1.3.3

Shkallët e matjes ordinale-rendore ................................................ 23

1.3.4

Llojet e shkallëve matëse sasiore .................................................. 24

1.3.5

“Variable View” në SPSS ............................................................. 26

1.4.

Të dhënat ........................................................................................ 29

1.4.1

Data View .................................................................................... 31

1.4.2

Frekuenca (shpeshtësia) e të dhënave ........................................... 32

1.4.3

Kurba lineare dhe shpërndarja normale ........................................ 37

1.4.4 Shpërndarje të anuara pozitivisht dhe ato të anuara negativisht (Kurtosis dhe Skewness ) ......................................................................... 38 1.4.5

Testi i normalitetit në SPSS .......................................................... 39

Kapitulli II ....................................................................................................... 43 2.

Disa veprime me variablat në SPSS .......................................................... 43 2.1.

Kthimi një variabli sasior në variabla nominal me kategori. .............. 43

2.2.

Visual binning .................................................................................. 47

2.3.

Ndërtimi i një variabli të ri me komandën “Compute Variable” ....... 51 3

3.

Kapitulli III.............................................................................................. 55

Statistika deskriptive ........................................................................................ 55 3.1.1

Treguesit e qendërzimit ................................................................ 57

3.1.2

Treguesit e shpërndarjes (dispersionit).......................................... 59

3.1.3

Devijimi standard dhe varianca .................................................... 60

3.1.4

Outliers (vlerat ekstreme) ............................................................. 63

3.1.5

Treguesit e pozicionit: Percentilet dhe Vlerat Z ............................ 65

3.1.6

Statistikat deskriptive në SPSS ...................................................... 68

3.1.7

Vlerat Z dhe paraqitja e tyre në SPSS ........................................... 70

3.2.

4.

Korrelacioni ..................................................................................... 72

3.2.1

Korrelacioni me variabla ordinalë. ................................................ 75

3.2.2

Korrelacioni pjesor (Partial Correlation) ....................................... 77

3.3.

Tabelat e kryqëzuara ........................................................................ 79

3.4.

Analiza TURF .................................................................................. 80

Kapitulli IV .............................................................................................. 85

Statistika Inferenciale (Përgjithësuese) .............................................................. 85 4.1.

Llojet e testeve Inferenciale .............................................................. 85

4.2.

Koncepte bazë ................................................................................. 88

4.2.1

Intervali i besueshmërisë .............................................................. 89

4.2.2

Vlera P, Vlera Alfa dhe “Effect Size” ........................................... 93

4.3.

Krahasimi i mesatareve të grupeve. .................................................. 98

4.3.1

T-testi .......................................................................................... 98

4.3.2

One Way ANOVA .................................................................... 104

4.3.3

Two Way ANOVA .................................................................... 109

4.4.

Regresioni Linear ........................................................................... 111

4.4.1 4.4.2 4.4.3 4

Regresioni i thjeshtë linear ......................................................... 111 Regresioni i shumëfishtë ........................................................ 114 Regresioni ordinal ...................................................................... 119

Juljan Myftari 4.5.

Modelet parashikuese ..................................................................... 121

4.6.

Analiza Faktoriale në SPSS............................................................. 124

Kapitulli V ..................................................................................................... 131 5.

Grafikët ................................................................................................. 131 5.1.

Grafikët me variabla nominalë dhe ordinalë ................................... 131

5.2.

Grafikët me kolona me disa variabla .............................................. 134

5.3.

Grafikët me variabla sasiorë ........................................................... 135

5.4.

Grafikët me variabla të përzier sasior dhe dihotomikë .................... 136

5.5.

Grafikët me dy variabla sasiorë ...................................................... 137

5.6.

Grafikët matrix me shumë variabla sasiorë ..................................... 139

Pjesa II .......................................................................................................... 141 Kapitulli VI.................................................................................................... 143 6.

Kërkimi cilësor në NVIVO .................................................................... 143 6.1.

Importimi i materialit ..................................................................... 146

6.1.1

Ncapture.................................................................................... 146

6.1.2

Importimi i fileve të hard diskut ................................................. 149

6.1.3

Klasifikimet ............................................................................... 151

6.1.4

Externals ................................................................................... 156

Kapitulli VII .................................................................................................. 159 7.

Kodifikimi në NVIVO .......................................................................... 159 7.1.

Kodifikimi i imazheve dhe materialeve digjitalë. ............................. 164

7.2.

Sentiments ..................................................................................... 169

7.3.

Cases ............................................................................................. 170

7.4.

Autokodimi ................................................................................... 172

7.5.

Relationships (Marrëdhëniet) ......................................................... 177

7.6.

Shënimet ........................................................................................ 180

7.6.1

Memo ........................................................................................ 181

7.6.2

Lidhja e teksteve të ndryshme .................................................... 182 5

7.6.3 7.7.

Annotation (shënimet) ............................................................... 183 Setet ............................................................................................... 184

Kapitulli VIII ................................................................................................. 187 8.

Queries ....................................................... Error! Bookmark not defined. 8.1.

Word Frequency ............................................................................ 191

8.2.

Cluster Analysis ............................................................................. 192

8.3.

Grafikët ......................................................................................... 196

8.3.1

6

Hierarchy Chart ......................................................................... 197

8.4.

Crosstabet ...................................................................................... 199

8.5.

Maps (hartat).................................................................................. 201

Hyrje Qëllimi i këtij libri është t’ju vijë në ndihmë studentëve dhe studiuesve të shkencave sociale dhe ekonomike, në përdorimin e metodave të automatizuara të analizës së të dhënave të kërkimit shkencor. Ky libër ka natyrë të ndërmjetme midis manualit teknik dhe një udhëzuesi mbi bazat konceptuale të analizës së të dhënave në kërkimin shkencor. Edhe pse qëllimi i tij është të ndihmojë në përdorimin e softwareve të kërkimit shkencor, përgjatë librit shtjellohen koncepte të metodave statistikore dhe kodifikimit të të dhënave cilësore, në mënyrë që lexuesi të jetë në gjendje të kuptojë nga pikëpamja konceptuale mjetet që përdoren. Libri nuk është një hyrje në statistikë apo në metodat e kërkimit shkencor. Pjesa e parë e librit i kushtohet kërkimit sasior, duke u bazuar në tri linja kryesore. Së pari, zhvillohen konceptet kryesore të kërkimit sasior, si hipotezat, variablat, shpërndarja e të dhënave etj. Më tej trajtohen raste konkrete si përdoren këto dhe do të shikojmë se si produktet që rrjedhin nga përdorimi i mjeteve të kërkimit sasior përpunohen në softwarin e analizës statistikore SPSS: Për këtë qëllim, kjo pjesë e librit i kushtohet edhe koncepteve bazë të statistikës të cilët janë të domosdoshme për të ndërmarrë me sukses një kërkim sasior. Gjatë kësaj pjese shpjegohen në mënyrë sa më të kuptueshme këto koncepte bazë të statistikës, duke e bërë librin të qartë edhe për ata që nuk kanë ndjekur më parë një kurs në këtë fushë. 7

Koncepte bazë të kërkimit sasior në SPSS

Aty trajtohen koncepte si: mesatarja, moda, varianca, devijimi standard, korrelacioni, regresioni linear etj. Kësisoj, kjo pjesë trajton analizën sasiore të të dhënave nëpërmjet zhvillimit të aftësive kompjuterikë të studiuesit të fushës. Duhet të kemi parasysh se SPSS është një software me kapacitete jashtëzakonisht të mëdha. Këtu trajtohen vetëm disa prej tyre sepse është e pamundur që një libër të përshkruaj të gjitha analizat që mundëson SPSS-i. Janë përzgjedhur ato më kryesoret, të cilat përbëjnë një bazë të mirë për fillimin e njohjes së këtij programi kompjuterik. Gjithashtu, që i japin studiuesve mjetet e duhura për të zhvilluar kërkime shkencore relativisht komplekse. Në përgjithësi libri kërkon përdorimin e një gjuhë sa më të thjeshtë dhe që të jetë i dobishëm përdoruesin. Libri anashkalon detaje të formulave statistikore, të cilat realizohen në mënyrë automatike nga softwaret në fjalë. Në fakt arsyeja e përdorimit të këtyre programeve kompjuterike është reduktimi i punës manuale të studiuesve. Kështu, që kjo qasje duket e përshtatshme për qëllimet e tij. Në pjesën e dytë të librit shtjellohet analiza e të dhënave të kërkimit cilësor. Kjo pjesë e librit kërkon të trajtojmë imtësisht mënyrat dhe rrugët që ndiqen gjatë zhvillimit të kërkimit cilësor. Koncepte si vëzhgimi, kodifikimi, tema, diagramet, etj. do të trajtohen në këtë pjesë me shembuj konkret. Edhe në këtë pjesë një vëmendje e veçantë ka përdorimi i programeve kompjuterik që na ndihmojmë gjatë procesit të kërkimit cilësor. Në këtë manual do të përdorim një nga softwaret më të njohur në trajtimin e kërkimit cilësor i cili është Nvivo. Ky program lehtëson tej mase punën voluminoze të kërkuesit në shkencat sociale përfshirë dhe ato ekonomike, por dhe të antropologëve që kryejnë vëzhgime të drejtpërdrejta apo që realizojnë intervista cilësore. NVivo i vjen në ndihmë për mbledhjen, kategorizimin, kodifikimin, analizën dhe paraqitjen e rezultateve të analizës cilësore. NVivo ndihmon që kërkimi cilësor të ketë trajta të vërteta shkencore dhe të mos jetë vetëm një përshkrim gjysmë kaotik i ngjarjeve apo i fenomeneve. Do të shohim se me anë të këtij programi mund të kthejmë të dhënat cilësore në njësi të matshme dhe të analizueshme shkencërisht. 8

Juljan Myftari

PJESA E PARË Kërkimi shkencor sasior

9

Koncepte bazë të kërkimit sasior në SPSS

10

Juljan Myftari

Kapitulli I Koncepte bazë Kërkimi shkencor sasior për shumë kohë ka qenë forma më e rëndësishme e kërkimit në shkencat sociale dhe ato ekonomike. Në nga arsyet kryesore të kësaj prirjeje është mundësia që ai i jep studiuesit për të përdorur metoda matematikore në shpjegimin dhe analizën e fenomeneve sociale. Kjo rrit shkallën e qartësisë dhe saktësisë në analizën e këtyre fenomeneve, gjithashtu mundëson një nivel të lartë përgjithësimi. “Në kërkimin sasior mbledhim të dhëna numerike” 1. Kjo bën të mundur një ndërveprim më të epshëm me të dhënat dhe manipulime më të shumta me to. Një avantazh tjetër i të dhënave sasiore është fakti që ato mund të përgjithësohen në popullata të gjëra duke u bazuar në të dhëna të marra nga kampione më të vogla. Për këtë shërbejnë dhe procedura të statistikës inferenciale (përgjithësuese) të cilat shkojnë përtej një kampioni të dhënë dhe nxjerrin konkluzione për popullata më të gjëra studimi. Në faqet në vijim do të paraqesim disa koncepte kryesore, të cilat na shërbejnë gjatë analizës të së dhënave sasiore. Duhet të konsiderojmë 1

Daniel Muijs, Doing Quantitative Research in Education with Spss (Sage, 2010), 1.

11

Koncepte bazë të kërkimit sasior në SPSS

se ky libër i kushtohet analizës së të dhënave dhe nuk është një manual i mirëfilltë i kërkimit shkencor. Ai trajton përgjithësisht fazën pas kryerjes mbledhjes së të dhënave të kërkimit shkencor. Rrjedhimisht, trajtesa e momenteve kryesore të koncepteve të kërkimit shkencor do të jetë në funksion të analizës së të dhënave dhe nuk ka qëllim të jetë shteruese për metodat e kërkimit shkencor që përfshijnë momentet para dhe gjatë kryerjes së kërkimit shkencor.

1.1.

Popullata, individët dhe kampioni

Tërësia e individëve apo e fenomeneve që studiohen quhet popullatë. Me individ kuptojnë të dhënën potenciale për variablin e zgjedhur në studim. Për shembull një studiues mund të jetë i interesuar për lidhjen midis numrit të nxënësve dhe arritjeve akademike për studentet e vitit të tretë bachelor në Shqipëri. Në këtë rast popullata e studimit janë të gjithë studentët e vitit të tretë bachelor në vendin tonë, ndërsa individi i studimit janë secili prej këtyre studentëve. Përcaktimi i popullatës dhe i individëve duhet të bëhet që në fillim të studimit dhe studiuesi

duhet të jetë sa më i qartë për sa i përket popullatës që po studion. Në të shumtën e rasteve popullatat nuk janë të analizueshme në tërësinë e tyre për shkak të madhësisë. Është e pamundur që studiuesi të intervistojë të gjithë zgjedhësit apo të gjithë klientët potencialë të një produkti të caktuar. Kësisoj, për të marrë të dhëna për popullatën zakonisht përdoren kampionimet. “Kampionimi është baza e 12

Juljan Myftari

kërkimit shkencor” 2 sepse ai na lejon të nxjerrim konkluzione mbi popullatën që është objekti i vërtetë i studimit tonë. Të dhënat që kemi për popullatat emërtohen “parametra të popullatës”, ndërsa të dhënat që përftojmë nga kampionimet quhen “statistika”. Për shembull, mesatarja e moshës së qytetarëve të Shqipërisë përbën një parametër të kësaj popullate, ndërsa mesatarja e një kampioni të këtyre qytetarëve përbën një statistikë të këtij kampioni. Duhet të kemi parasysh se shumë nga procedurat e analizës së të dhënave që do të konsiderojmë më poshtë, nënkuptojnë që studimi është kryer në një kampion dhe jo në të gjithë popullatën. Kjo sepse rrallëherë studiuesit kanë kohë apo burime financiare apo mundësi të tjera të studiojnë gjithë popullatën, ndaj procedurat statistikore janë ngritur mbi këtë supozim. Nuk është në fokus të këtij libri të paraqesë llojet e ndryshme të kampionimin dhe përparësitë përkatëse, por studiuesi duhet t’i njohë mirë këto procedura pasi nëse kemi një kampion jopërfaqësues të popullatës, atëherë rezultatet e studimit janë jo domethënëse.

1.2.

Hipotezat Hipotezat janë guri i themelit i kërkimit shkencor sasior. “Testimi i hipotezave është themelor për kërkimin shkencor sasior në shkencat sociale” 3. Synimi i kërkimit shkencor është të verifikojë raportet e variablave të cilat paraqiten në hipotezë. Duhet të kemi parasysh se fortësia e hipotezës varet mbi të gjitha nga raporti i pjesëve përbërëse të saj. Ky raport verifikohet gjatë analizës së të dhënave të mbledhura gjatë studimit. Mund të dallojmë të

Stephen Gorard, Quantitative Methods in Educational Research: The Role of Numbers Made Easy (A&C Black, 2001), 56. 3 David L Weakliem, Hypothesis Testing and Model Selection in the Social Sciences (Guilford Publications, 2016), 1. 2

13

Koncepte bazë të kërkimit sasior në SPSS

paktën 6 (gjashtë) lloje hipotezash në kërkimin shkencor sasior. Në vijim do të përmendën disa prej tyre dhe do të ndalemi më gjatë te hipotezat nul dhe ato alternative. 1.2.1 Hipotezat e thjeshta Hipotezat e thjeshta janë ato hipoteza në të cilat marrëdhënia e supozuar është midis dy variablave. Në këto hipoteza njëri variabël është i varur, ndërsa tjetri i pavarur. Shembuj për hipotezat e thjeshta

janë të panumërt. Mund të përmendim disa prej tyre si më poshtë. Zakonisht hipotezat e thjeshta janë më të përdorshmet gjatë kërkimeve shkencore sepse është më e lehtë të verifikohen marrëdhëniet midis dy variablave sesa kur kemi një numër më të lartë të tyre. Për qartësinë e punimit është e këshillueshme që hipotezat të kufizohen në numrin e variablave të kërkojnë të studiojnë. Nga ana tjetër hipotezat komplekse kërkojnë të gjejnë një marrëdhënie midis dy, ose më shumë variablave të pavarur dhe dy ose më shumë variablave të varur. Mund të përmendim disa prej tyre si më poshtë.

14

Juljan Myftari

1.2.2 Hipotezat nul dhe ato alternative Hipoteza nul dhe hipoteza alternative janë dy pohime të kundërta me njëra tjetrën mbi të njëjtën çështje. Zakonisht hipotezën nul e shënojmë me (H0) dhe hipotezën alternative me (H1). Shpeshherë kur kryejmë një kërkim shkencor na duhet të nxjerrim konkluzionin mbi dy hipoteza të kundërta që kemi përpara. Për shembull nëse ka lidhje midis nivelin të varfërisë dhe kriminalitetit, ose jo. Apo nëse vitet që një individ shpenzon për shkollimin e tij do t’i japin atij mundësi të ketë më shumë të ardhura etj. Zakonisht kërkuesi shkencor dëshiron

të gjej lidhje midis fenomeneve dhe jo mungesë të këtyre lidhjeve. Megjithatë, verifikimi i lidhjeve midis variablave mund të vij si pasojë i përjashtimit të mundësisë së mungesës së lidhjes së tyre. Kjo kërkon hedhjen poshtë të hipotezës nul. Hipoteza nul është një pohim mbi mungesën e marrëdhënies së dy variablave. Ajo përdoret si një pikë nisjeje kur studiuesi nuk është i sigurt për lidhjen midis dy variablave për të cilat kërkon të pohojë një marrëdhënie gjatë studimit. Zakonisht, studiuesi ka pritshmëri që hipoteza nul të mos jetë e vërtetë dhe hedhja poshtë e saj është një bazë e mirë për të pohuar lidhjen midis variablave nëpërmjet hipotezës alternative. Në përgjithësi një kërkim shkencor e fillojmë duke supozuar përkohësisht se hipoteza nul është e vërtetë dhe më tej kërkojmë ta hedhim poshtë atë. Duhet të kemi parasysh se nuk kemi qëllim përfundimtar të vërtetojmë hipotezën nul, “ne nuk themi se ajo është e vërtete” 4. Vërtetësia e supozuar e saj është vetëm një mjet ynë

4

Gorard, Quantitative Methods in Educational Research: The Role of Numbers Made Easy, 125.

15

Koncepte bazë të kërkimit sasior në SPSS

i përkohshëm “ose një bazë e mirë për të gjykuar hipotezën tonë aktuale” 5. Supozojmë se ngremë një hipotezë që “Shkollimi ndikon mbi nivelin e të ardhurave”. Kjo nënkupton se njerëz me nivel shkollimi të ndryshëm nga njëri tjetri mendohet të kenë të ardhura të ndryshme nga njëri tjetri. Madje supozojmë se ata me nivel shkollimi më të lartë kanë aktualisht nivele më të larta të të ardhurave. Nga pikëpamja logjike, hapi i parë për ta verifikuar këtë pohim është të shikojmë nëse pohimi i kundërt është apo jo i vërtetë. Si pasojë, nëse hipoteza jonë është: “Ka një dallim domethënës në të ardhurat midis grupeve të ndryshme të individëve që kanë nivel shkollimi të ndryshëm” (A). Pohimi i kundërt do të ishte “Nuk ka një dallim të të ardhurave midis këtyre grupeve” (E). Ne dimë se dy pohime të kundërta nuk mund të jenë njëkohësisht të vërteta. Kësisoj, nëse pohimi: “E” nuk është “i vërtetë”, atëherë ky është një hap bazë i mirë për të pohuar pranueshmërinë e pohimit “A” që hipoteza bazë është hipoteza alternative. Duhet të kemi parasysh faktin nëse pranojmë hipotezën nul apo atë alternative është dhe një çështje sasiore, ose më saktë e probabilitetit që njëra apo tjetra të ndodhë. P.sh. mund të kemi një kampion prej 50 individësh dhe vëmë re se ka disa dallime të vogla midis të ardhurave të tyre, edhe pse niveli i tyre i shkollimit është dukshëm i ndryshëm. Në këtë rast edhe pse ka disa dallime, ato janë minimale nuk mund ta hedhim poshtë hipotezën nul. Kjo ndodh sepse e kemi të vështirë t’i përgjithësojmë këto dallime në popullata më të gjera se kampionimi ynë. Këto dallime në të ardhura mund të jenë si pasojë e gabimit të zakonshëm të kampionimit në raport me parametrat e popullatës. Ky dimension probabiliteti i pranimi të H0, ose H1 na bënë të kuptojmë se termat “i vërtetë”, “jo-i vërtetë” në këtë rast nuk kanë një kuptim të rreptë, por më shumë operacional. Madje, mund të përdoren shumë mirë dhe termat “i pranueshëm” dhe “jo i pranueshëm”. Në këtë kuptim, konsiderohen si të vërteta ato pohime që kanë mundësi shumë më të lartë të jenë të dobishme për të kuptuar një fenomen të caktuar në një kohë të caktuar dhe që kanë gjasa të mëdha të përshkruajnë fenomene e ngjarje të caktuara. Kësisoj, më poshtë do të shikojmë se mundësia tejet e ulët e ngjarjes 5

Ibid.

16

Juljan Myftari

së hipotezës nul na lejon të konsiderojmë hipotezën alternative si të vërtetë (pranueshme) për t’u përdorur. Një pjesë e mirë e testeve statistikore që do të trajtojmë në këtë libër përdorin pikërisht testimin e hipotezës nul si bazë për të pranuar, ose jo hipotezën alternative. Më poshtë, kur të trajtohen në kapitullin e 4-t “vlerat P” dhe “Vlerat Alfa”, do të shpjegohen më në detaje nivelet e pranueshmërisë së gjasave të hipotezës nul dhe asaj alternative.

1.3.

Variablat

Hipotezat, ndër të tjera, përbëhen nga variablat, që janë njësia kryesore e kërkimit shkencor. “Në shkencat sociale presupozojmë që cilësitë e një fenomeni janë të matshme” 6. Variabli është tipar ose gjendje që mund të ndryshojë apo të marrë vlera të ndryshme të cilat mund të maten nga studiuesi. Studiuesit e fillojnë hulumtimin e tyre me një supozim rreth lidhjes së dy variablave të një popullate të caktuar (hipotezë). “Tipari kryesor i variablave është se ato mund të marrin vlera të ndryshme” 7. Në shembujt e mësipërm shikojmë se secila prej këtyre variablave mund të marrë një vlerë të caktuar. Niveli i papunësisë mund të shprehet si përqindje në raporte të caktuara, niveli shkollimit mund të shprehet me vitet që dikush ka shpenzuar në shkollimin e tij, etj. 1.3.1 Llojet e variablave Gjatë ndërtimit të një kërkimi sasior, por dhe gjatë analizës së të dhënave sasiore është shumë e rëndësishme të kuptojmë llojin e variablave që duam të analizojmë dhe shkallët e matjes me anë të cilave kryejmë analizën. Nëse rezultojnë pasaktësi në këtë moment të

6 Mark Balnaves and Peter Caputi, Introduction to Quantitative Research Methods: An Investigative Approach (Sage, 2001), 45. 7 Ibid., 46.

17

Koncepte bazë të kërkimit sasior në SPSS

Figura 1

rëndësishëm, atëherë kjo ka pasoja në rezultatin e kërkimit tonë. Dy llojet kryesore të variablave janë ata kategorikë dhe ata numerikë. Variablat kategorikë zakonisht janë cilësi të objekteve të studimit si: gjinia, kombësia, përkatësia fetare etj. Këto variabla kur kanë vetëm dy kategori përjashtuese quhen dihotomikë. Si shembull të variablave dihotomik mund të përmendim: pjesëmarrja në një konference ose jo të qenit i martuar, ose beqar etj..

18

Juljan Myftari

Variablat numerikë zakonisht shprehin gjendje ku variabli ndryshon nga pikëpamja sasiore shfaqjen e tij. Këto variabla mund të klasifikohen në dy lloje; diskretë dhe të vazhdueshëm. Variablat diskretë (p.sh. numri i nxënësve të klasës), edhe pse shprehen me numra, përbëhen nga kategori të pandashme. Nuk mund të konceptohet një individë e gjysmë, ose një individë e çerek. Variablat e vazhdueshme (si koha dhe pesha) janë të ndashme në mënyrë të pafundme sipas njësisë së matjes që zgjedh kërkuesi shkencor. Për shembull pesha mund të matet sipas miligramëve, gramëve, kilogramëve etj. Kohëzgjatja sipas milisekondave, sekondave, minutave etj. Matja e variablave-Shkallët

Figura 2

Për të përcaktuar një marrëdhënie midis variablave, studiuesi duhet të vëzhgojë variablat dhe të regjistrojë me përpikëri të dhënat e vëzhguara. Procesi i matjes së variablave kërkon një set kategorish që quhen “shkallë të matjes” dhe është një proces i cili klasifikon çdo individ në një kategori. Shkallët e matjes janë cilësore dhe sasiore. 19

Koncepte bazë të kërkimit sasior në SPSS

Është e qartë se ekziston një lidhje midis llojit të variablave dhe shkallëve të tyre të matjes. Variablat kategorikë zakonisht maten me shkallët cilësore të matjes, ndërsa ata numerikë me shkallët sasiore. Rëndom, variablat i gjejmë të emërtuar sipas shkallës së matjes që është përdorur për ta. P.sh. themi variabla cilësor, apo variabla sasior kur në fakt i referohemi shkallës së matjes së tyre. Edhe në libër do të ndjekim këtë zakon të ndërshkëmbimit të emrave të variablave dhe të shkallëve. Megjithatë, siç do shikojmë më poshtë një variabël nominal mund të paraqitet me anë të numrave, por të matet me anë të një shkalle nominale, ose ordinale. P.sh. mund t’i vendosim vlerave të variablit “gjini”, ( mashkull, femër) nga një numër. Vendosim numrin “0” për gjininë mashkullore dhe numrin “1” për gjininë femërore. Kësisoj, këtë variabël cilësor e paraqesim si në variabël numerik, por përdorim shkallën e matjes nominale sepse numrat “0” apo “1” këtu përfaqësojnë vetëm vlera nominale dhe jo reale. Kategoritë cilësore dhe sasiore të matjes ndahen secila në dy momente për të dhënë katër llojet e shkallëve të matjes: nominale, ordinale, intervale dhe raport. Duke pasur parasysh se variablat shpesh identifikohen sipas kategorive të matjes së tyre shpesh shikojmë të flitet për variabla nominalë (emërorë), variabla ordinalë, variabla intervale dhe variabla raport.

20

Juljan Myftari

1.3.2 Llojet e shkallëve të matjes cilësore.

Figura 3

Shkallët matjes cilësore ndahen në shkallë nominale dhe shkallë ordinale. Një shkallë nominale i paraqitet individët në një set të parenditur kategorish, të cilat identifikohen vetëm nga një emër.

Figura 4

Matjet nominale lejojnë të përcaktosh vetëm nëse dy individë janë të njëjtë apo të ndryshëm. Ato shërbejnë për të matur variabla kategorikë dhe jo numerikë. Këto shkallë lejojnë numrin më të vogël të veprimeve matematikore. . P.sh. mund të gjejmë përqindjen e individëve femra në një kampion të caktuar në raport me atë të meshkujve. Veprimet më komplekse matematikore janë të 21

Koncepte bazë të kërkimit sasior në SPSS

pamundura me to Zakonisht këto konsiderohet si shkallë ndarëse sepse i ndajnë individët e studimit në grupe të ndryshme. Paraqitja e variablave cilësore nominalë mund të bëhet më disa forma. Një nga format më të njohura është me anë të grafikëve “Pie” në formë rrethore ku paraqiten të gjitha gjendjet e variablit cilësor nominal. Në këtë lloj grafiku secilës gjendje i caktohet një pjesë e rrethit në përpjesëtim me Figura 5 frekuencën e kësaj gjendje në raport me të gjitha gjendjet e variablit. Në shembullin që kemi dhënë në “figurën 5” shikojmë se nga disa të dhëna që ka mbledhur INSTAT-i në vitin 2002 punëdhënësi më i madh në Republikën e Shqipërisë në atë vit ishte sektori publik. Për këtë arsye edhe pjesa e rrethit që i caktohet kësaj gjendjeje të variablit është më i madh. Në këtë pjesë të librit do të paraqesim disa shembuj të grafikëve për variablat dhe shkallët e ndryshme të matjes së tyre. Për detajet se si ndërtohen grafikët në SPSS shërben “kapitulli V” i librit. Që i kushtohet paraqitjes me anë të grafikëve të shpërndarjes së të dhënave dhe raporteve të tyre në një kapitull të veçantë të librit. Në atë kapitull do të trajtojmë në mënyrë më specifike disa forma të grafikëve dhe mënyrës se si ato ndërtohen në SPSS:

22

Juljan Myftari

1.3.3 Shkallët e matjes ordinale-rendore Në shkallët ordinale renditja e vlerave është e rëndësishme. Megjithatë, niveli i ndryshimit midis vlerave të ndryshme nuk është i përcaktuar. Një shkallë ordinale është një set i renditur kategorish. Shkalla ordinale jep mundësinë e identifikimit të kahut të ndryshimit midis dy individëve, edhe pse nuk jep distancën midis tyre. P.sh. mund të themi se Artani është nxënësi më i mirë në klasë, Arbeni i dyti, Greta e treta etj. Megjithatë, nuk dimë se sa më i mirë është njëri se tjetri. Zakonisht këto variabla përdoren për të matur njësi jonumerike, edhe pse ku bëjmë analizën e të dhënave mund t’i vendosim numra secilës prej gjendjeve. P.sh. mund të vendosim

Figura 6

numrin “1” përgjigjes “Aspak”, numrin 2 përgjigjes “Disi” e kështu me radhë. Përmendëm se shkallët e matjes ordinale bëjnë pjesë në shkallët e matjes cilësore.

23

Koncepte bazë të kërkimit sasior në SPSS

Variablat ordinalë mund të paraqiten me një grafik me kolona të ndara ku në boshtin e X-ve paraqiten me kolona të ndara gjendjet e ndryshme të variablit, ndërsa në boshtin e Y-eve paraqitet shpërndarja e të dhënave mbi këto gjendje.

Figura 7

1.3.4 Llojet e shkallëve matëse sasiore

Figura 8

“Shkallët Interval” janë seri të renditura të kategorive me përmasa të njëjta. Matjet me anë të intervaleve japin informacion kahun dhe madhësinë e ndryshimit midis individëve. Dallimi kryesor i kësaj shkalle matjeje me shkallët raport është se në këto shkallë, pika zero vendoset arbitrarisht (Temperatura). Kjo nënkupton se kur flasim për temperaturë 0 gradë nuk do të thotë se kemi mungesë së gjendjes së variablit. Temperatura 0 gradë nuk nënkupton se nuk ka temperaturë “Shkallët raport” janë shkallë interval në të cilat vlera 0 tregon se vlera e variablit nuk është e pranishme. Për shembull nëse themi se 24

Juljan Myftari

shpejtësia e një mjeti është 0, atëherë po themi se ai mjet nuk po lëviz d.m.th. shpejtësia në këtë rast nuk është e pranishme. Nëse themi se rritja ekonomike është “0”, kjo do të thotë se nuk ka asnjë rritje ekonomike. Nëse themi se të ardhurat janë zero do të thotë se nuk kemi asnjë para në xhep. Në këtë rast vlera 0 nuk është thjesht arbitrare, por përshkruan një gjendje të veçantë të variablit. Për cilësitë e tjera shkallët raport janë të njëjta me shkallët interval. Ato tregojnë kahun dhe madhësinë e ndryshimit midis variablave dhe me to mund të kryhen veprime të ndryshme të statistikave deskriptive dhe inferenciale. Atyre mund t'u gjendet mesatarja, mediana, devijimi standard. Mund të llogarisim regresionin linear midis dy variablave etj. Këto lloj shkallësh lejojnë numrin më të madh të veprimeve matematikore dhe një manipulim më të lartë nga ana e studiuesit.

Figura 9

e vazhdueshme të variablit.

Nga pikëpamja vizuale variablat sasiorë paraqiten me histogram dhe forma të tjera të grafikëve në varësi të synimit të paraqitjes. Shihen në “figurën 9” se kolonat e grafikut janë të puthitura me njëra tjetrën. Kjo tregon natyrën

25

Koncepte bazë të kërkimit sasior në SPSS

1.3.5 “Variable View” në SPSS Paraqitja e variablave është një nga dy qëllimet kryesore të ndërfaqes së SPSS. SPSS ka dy të tilla: “Data View” dhe “Variable View” (fig. 10). Sapo hapim programin dritarja kryesore na shfaqet në këto dy modalitete, në “Data View”, që do ta trajtojmë më poshtë, dhe në “Variable View” e cila fokusohet te variablat. Pjesa e sipërme e

Figura 10

ndërfaqes kryesore ka menutë dhe ikonat e ndryshme me anë të së cilës kryhen veprimet. Nuk do të përshkruajmë me radhë këto menu dhe ikona sepse ato do të zhvillohen sipas qëllimeve specifike të kapitujve të ndryshëm të librit. Megjithatë, mund të themi se menuja “File” dhe ajo “Edit” janë të ngjashme me menutë me të njëjtin emër në software të tjera. Me anë të tyre mund të ruajmë, ose hapim, një dataset apo të shkojmë në një variabël të caktuar etj. Për qëllimet tona tre janë menutë kryesore: “Transform”, “Graphs” dhe “Analyze”. Kjo e fundit do të luaj një rol qendror gjatë gjithë pjesës së parë të librit që i kushtohet kërkimit shkencor sasior. Duke u kthyer te “Variable View”, shohim se ajo jep mundësinë të krijohen variablat dataseti , ose na jep detaje për variablat kur i kemi krijuar, ose për variablat që tashmë janë në një dataset. Megjithëse 26

Juljan Myftari

“Variable View” shfaqet e dyta në radhën e tabeve poshtë në të djathtë të ekranit, ajo zakonisht përdoret e para, sepse me anë të saj ndërtojmë variablat ku do të hedhim të dhënat për individët. Për të shkuar në këtë pamje duhet të klikojmë drejtkëndëshin “Variable View”, i cili ndodhet në pjesën e poshtme të dritares në të majtë si tregon shigjeta në “figurën 10”. Në këtë pamje nuk kemi asnjë informacion për individët e studimit, por vetëm për variablat. SPSS në këtë dritare na jep të dhëna mbi variablat, të cilat janë shumë të rëndësishme për të kryer veprimet e mëtejshme. Në rast se po ndërtojmë një dataset të ri në të cilin nuk kemi asnjë të dhënë, duhet së pari të shkojmë në këtë faqe për të shtuar variablat për të cilat kemi marrë të dhëna gjatë procesit të mbledhjes së tyre. Siç shikojmë në “figurën 10” për secilin variabël ekzistojnë një sërë parametrash që duhen përcaktuar dhe që gjenden në kolonat e “variable view”. Për të shtuar një variabël mjafton të shkoni në kolonën e parë nën “name” dhe të përcaktoni emrin e tij. Për cilësitë e tjera të variablave që duhet të manipulojmë në dataset shërbejnë të dhënat e tabelës së mëposhtme. Secila prej tyre mund të modifikohet sipas interesave të studimit.  Emri i Variablit (Name)- Ku përcaktohet emri i variablit. Kujdes! Emri i variablit nuk mund të ketë hapësira boshe dhe zakonisht është i shkurtër p.sh. “mosha”.  Tipi e variablit (Type) – Ku llojet kryesore janë variablat “string” dhe ato “numerikë”. Kujtojmë këtu se shumë nga variablat sasiorë në SPSS duhet të përcaktohen si variabla numerikë dhe jo variabla “string”, edhe pse ato janë variabla kategorikë.  Gjerësia e Variablit (Width) – Tregon numrin e karaktereve që variabli zë në “Data View”  Decimals – Tregon dhe përcakton se sa numra pas presjes shfaqen për variablat numëror.  Label –Tregon dhe përcakton etiketën e variablit që është një pohim shpjegues që tregon cilësi të variablit. Këtu mund të vendosim një shpjegim për variablin dhe 27

Koncepte bazë të kërkimit sasior në SPSS

mund të përdorim hapësira bosh p.sh. “mosha e të pyeturve”  Value – na jep mundësi që një vlerë të caktuar të variablit t’i atashojmë një etiketë të caktuar. Kjo shërben në rastet kur një variabël nominal apo ordinal është i shprehur me numra. P.sh. variablin “gjinia” mund ta kodojmë me dy numra 0 dhe 1. Për secilën nga këto numra mund të vendosim një etiketë të “Value”. Një rast do të ishte kur vendosim etikën “Femër” për numrin 0 dhe më tej vendosim etiketën “Mashkull” për numrin 1. Kështu, kur kryejmë “data entry” për datasetin tonë mund të vendosim numrin 0 për individët femrat dhe numrin 2 për individët meshkuj. Në rast se variabli ynë ka 3 (tre) gjendje, atëherë mund të përdorim numrat 0,1 dhe 2 për ta karakterizuar. Edhe në këtë rast për secilin numër vendosim një etiketë. Kjo gjë vlen dhe për variabla me më shumë gjendje. Megjithatë, duhet të kemi parasysh se “Value” nuk përdoret për variablat sasior, të cilat nuk ndahen në gjendje kategorike. Kur përdorim forma numerike të paraqitjes së variablave që maten me shkallë cilësore është e nevojshme që për çdo numër të vendosim një etiketë. Kjo pasi siç përmendëm këta variabla kërkojnë shkallë matje cilësore dhe numrat që përdorim për të paraqitur gjendjet e tyre janë nominale dhe jo reale.  Missing – përcakton një kod të cilën e vendosim gjatë procesit “data entry” për të shënjuar ato raste për të cilat nuk kemi të dhëna për një variabël të caktuar. P.sh.. mund të vendosim numrin 999 te variabli mosha. Në rast se nuk kemi moshën e një individi, atëherë vendosim këtë vlerë te kjo e dhënë për këtë individ. Kësisoj, programi kupton se nuk e kemi këtë të dhënë për individin në fjalë.  Measure – Paraqet shkallët e matjes së variablit në fjalë. Shkallët me të cilat operon SPSS janë: 1) Shkalla nominale (Nominal), 2) Shkalla Ordinale (Ordinal), 3) Shkalla Raport (Scale). Këtu duhet të kemi kujdes sepse 28

Juljan Myftari

duhet të përcaktojmë qartë nëse variabli ynë është i tipit kategorik. Kështu, edhe pse kemi zgjedhur “type” numerik, duhet të përdorim shkallët nominale, ose ordinale. Nëse variabli ynë është vërtetë numerik (numri, pesha gjatësia etj.) vendosim shkallën e matjes (scale) që në SPSS përfshin shkallën interval dhe raport.

1.4.

Të dhënat

Figura 11

kemi hasur ata gjatë kërkimit.

Të dhënat përbëhen nga informacioni që kemi mbledhur nga individët në lidhje me variablat e përfshirë në studim. Pra, ato janë produkti bruto i kërkimit shkencor. Janë gjendjet në të cilat është individi në momentin kur i

Në një studim duhet të dallojmë individët nga variablat, që janë gjendjet e tyre specifike, të cilat i interesojnë studimit. “Njëri aspekt ka të bëjë me objektet që duam të studiojmë dhe aspekti tjetër ka të bëjë me karakteristikat e këtyre objekteve që duam të studiojmë” 8. Siç shikojmë në “figurën 11” në tabelë paraqiten disa të dhëna demografike të qyteteve të Beratit dhe Tiranës për sa i përket numrit të popullsisë, ndarjes gjinore të banorëve të këtyre qyteteve e disa të dhëna të tjera. Duhet të kemi parasysh që në varësi të synimeve të studimit diçka konsiderohet si individ e të tjera si variabla. P.sh. në “figurën 11” bëjmë një krahasim midis qytetit të Beratit dhe atij të Tiranës për disa variabla demografikë. Në këtë rast si individë konsiderojmë këto qytete. Pra, Berati dhe Tirana janë dy individët që janë pjesë e analizës tonë.

David J Hand, Statistics: A Very Short Introduction, vol. 196 (Oxford University Press, 2008), 26.

8

29

Koncepte bazë të kërkimit sasior në SPSS

Në këtë shembull tjetër (figura 12) në të cilin studiuesi ka dashur të mbledhë të dhëna mbi disa shtete, kemi tre variabla për secilin shtet. Ato janë : kontinenti, popullsia, sipërfaqja. Në këtë rast individët janë nëntë të tillë. Ata janë shtetet e Figura 12 renditura në kolonën e parë të tabelës. Po të shikojmë në kolonën e dytë tregohet se cilit kontinent i përket ai shtet. Kjo kolonë në këtë rast është variabël. Pra, cilësi e shtetit që është individi i studimit tonë. Në një rast tjetër kur studiojmë kontinentet kolona e dytë mund të tregonte individët studimit dhe të mos ishte një variabël.

30

Juljan Myftari

1.4.1 Data View Ky moment na çon përsëri në ndërfaqen kryesore të SPSS. Këtë herë në “Data View” ku shkojmë duke klikuar mbi tabelën poshtë në të

Figura 13

majtë të ekranit (fig. 13). Këtu paraqiten të dhënat mbi individët e studimit. Ashtu siç ndodh në përgjithësi, edhe në SPSS është e rëndësishme të dallojmë individët (cases) nga variablat, të cilat renditen në program. Në këtë formë paraqitjeje të dhënat renditen në rreshta sipas individëve apo rasteve. Pasi kemi shtuar variablat e studimit si në paragrafin 1.3.5, shkojmë te “Data View” dhe në secilin rresht vendosim të dhënat për një individ të caktuar duke klikuar në çdo drejtkëndësh sipas renditjes së të dhënave. Konkretisht numri 1, apo rreshti i parë, paraqet rastin e parë apo individin e parë dhe kështu me radhë deri në rastin e 22-të. Kolonat e tjera shfaqin të dhënat për secilin individ apo variablat e ndryshme për të cilat kemi mbledhur të dhëna për këta individ. Kjo view përdoret kur kryejmë data entry për të vendosur të dhënat në dataset para se të kryejmë analizën e tyre. Është e rëndësishme të theksojmë se në rastin e paraqitur në “figurën 13” kemi shënuar si individë emrat e disa personave për të cilët kemi 31

Koncepte bazë të kërkimit sasior në SPSS

të dhëna mbi gjininë, orët e tyre së studimit etj. Kjo është bërë për lehtësi në dallimin e individëve nga variablat. Në fakt vetë kjo kolonë është një “variabël string” e cila paraqet emrat e personave të cilëve u janë marrë të dhënat, duke luajtur rolin e renditjes së individëve. Në shumë raste gjatë studimeve nuk kemi emrat e individëve të përfshirë në studim dhe individët përcaktohen vetëm me numrin e rreshtit që jepet gjithmonë në të majtë të “Data View”. 1.4.2 Frekuenca (shpeshtësia) e të dhënave Pasi kemi mbledhur të dhënat, detyra e parë për një studiues është te organizojë dhe të thjeshtëzojë të dhënat. Kjo bëhet për të pasur një këndvështrim sa më gjithëpërfshirës të rezultateve. Pikërisht ky është qëllimi i statistikës deskriptive që do e trajtojmë në kapitullin e tretë. Një nga mënyrat për të Figura 14 organizuar dhe thjeshtëzuar të dhënat është ndërtimi i shpërndarjes së frekuencave. Në “figurën 14” kemi paraqitur notat që janë vlerësuar 22 studentë për një provim në të cilin, secili prej tyre ka përdorur një nga dy metodat e ndryshme të studimit. Gjithashtu, në kolonën e fundit është paraqitur ora e zgjimit të secilit student. Për të paraqitur në mënyrë më të përmbledhur këto të dhëna mund të ndërtojmë një tabelë frekuencash për cilindo variabël që na intereson. Për këtë, në SPSS shkojmë te menuja “Analyze”/ “Descriptive Statistics”/ “Frequency”. Në Figura 15 tabelën që shfaqet (figura 1), zhvendosim në hapësirën në të djathtë variablin për të cilin duam të 32

Juljan Myftari

ndërtojmë tabelën e frekuencës dhe klikojmë “OK”. Në këtë rast kemi përdorur variablin “metoda 1”. Pasi kemi shtypur “OK” programi përpunon të dhënat dhe na jep rezultatin.”. Rezultatet që përpunon SPSS dalin në një faqe të veçantë që quhet “output”. Kjo faqe hapet automatikisht kur ne kryejmë një veprim të caktuar. Gjatë punës sonë në SPSS veprimet e reja shtohen në “output” në mënyrë të vazhdueshme. Nga “output-i” mund të kopjojmë çdo pjesë që na intereson dhe ta ruajmë në MS Word apo çdo program tjetër. Madje që aty mund të eksportojmë analizat Figura 16 tona në forma të ndryshme. Edhe në këtë rast “output” na paraqet rezultatet e veprimit, ndër të cilat tabela e shpërndarjes, apo e frekuencave. Në këtë rast, dhe siç do të veprojmë më poshtë në libër, këtë tabelë e kemi kopjuar nga dritarja “output” ku kryem veprimin (fig. 16) Në kolonën e parë kemi të renditura nga më e ulëta te më e larta notat që kanë marrë studentët, kurse në kolonën e dytë paraqitet frekuenca për secilën notë. Shikojmë se notat më të shpeshta janë nota 8 dhe nota 9. Me këto nota janë vlerësuar përkatësisht 6 studentë. Megjithatë, SPSS ofron tabela më komplekse të shpërndarjes së të dhënave. Një tabelë më komplekse është ajo e paraqitur në “figurën 17”.

Figura 17

Në këtë tabelë një kolonë e tretë të përdoret për të shprehur përqindjen e vlere të variablit n raport me të dhënat. (p) për çdo kategori: p= f/N. Shuma e p-ve gjithmonë duhet të dalë 100. Një kolonë e katërt mund të paraqesë përqindjen 33

Koncepte bazë të kërkimit sasior në SPSS

kumulative të shpërndarjes për çdo vlerë të X-it. Shuma totale e kolonës së përqindjes është e barabartë me 100% dhe rritet në mënyrë progresive deri sa arrin vlerën 100. Grafikët e shpërndarjes së frekuencave. Grafikët janë një nga mënyrat më të rëndësishme të divulgimit të dhënave. Në një grafik që paraqet shpërndarjen e frekuencave, kategoritë e të dhënave paraqiten në boshtin e X-eve ndërsa frekuencat paraqiten në boshtin e Y-eve. Kur të dhënat e kategorive janë numerike dhe janë intervale apo raporte, grafikët duhet të jenë histograme, grafikë me pika ose poligone. Histogramet Histogrami është një nga mënyrat kryesore të paraqitjes vizuale të frekuencave. Në një histogram, një kolonë paraqet një vlerë të variablit ose një interval vlerash të tij. Gjatësia e kolonës paraqet

Figura 18

frekuencën, d.m.th. numrin e rasteve ku haset ajo vlerë e variablit.. Në histograme kolonat e frekuencave janë të puthitura me njëra tjetrën që tregon se variabli është i vazhdueshëm.

34

Juljan Myftari

Poligonet Në një poligon, një pikë paraqet çdo të dhënë të mbledhur në atë mënyrë që pozicioni i pikës tregon frekuencën. Pikat në poligone janë të lidhura nëpërmjet vijave të drejta. Këta lloj grafikësh janë të përshtatshëm për të Figura 19 dalluar prirje të dhënave sepse theksojnë uljet apo ngritjet të vlerave të tyre. Grafikët me kolona

Figura 20

nga një hapësirë boshe.

Në rast se kategoritë e të dhënave janë matje që vijnë nga variabla nominalë apo ordinal, grafikët duhet të jenë me kolona. Një grafik me kolona është i ngjashëm me një histogram, përveç se, në të, kolonat janë diskrete apo të ndara

35

Koncepte bazë të kërkimit sasior në SPSS

Modelet “Stem and Leaf” Modelet “Stem and Leaf” përdoren për të paraqitur frekuencat. Të dhënat ndahen në stems dhe leafs. Stem (kërcelli) paraqet ndarjen e të dhënave me anë të shifrës së parë, ndërsa leaf (gjethja paraqet ndarjen e të dhënave sipas shifrës së fundit. Në “figurën 21” është paraqitur një model i tillë për një seri numrash që janë dhënë në të majtë të tabelës. Siç shikojmë në Figura 21 të djathtë numri 7 që paraqet dhjetëshet është numri më i shpeshtë pasi ai shfaqet 7 herë si dhjetëshe. “Dega” e numrit 7 rezulton më e gjata, sepse në grupin e të dhënave kemi 7 numra që fillojmë me 7. Nga ana tjetër kemi vetëm dy raste të numrave që fillojnë me 3,4 apo 9. Kësisoj, kemi një pamje të përmbledhur në të cilin lehtësisht mund të dallojmë shpërndarjen e të dhënave në të majtë të figurës.

Figura 8

Figura 22

Për të krijuar një model “stem and leaf” në SPSS mjafton të shkojmë në “Analyze”/ “Descriptive Statistics”/ “Explore” dhe te dritarja që hapet (fig. 22) pasi të vendosim variablin për të cilin duam të ndërtojmë modelin, klikojmë mbi “Plots” dhe aktivizojmë “Stem and leaf” dhe tabela na shfaqen në “output”. 36

Juljan Myftari

1.4.3 Kurba lineare dhe shpërndarja normale Nëse rezultatet e të dhënave maten me anë të një shkalle interval apo raport, zakonisht për të paraqitur shpërndarjen e tyre përdoret kurba lineare e cila tregon në mënyrë të përafërt shpërndarjen e tyre. Këto kurba theksojnë faktin se grafiku nuk tregon Figura 23 frekuencën e saktë për çdo të dhënë, por një përafrim të tyre. Për të dhëna të ndryshme forma e kësaj kurbe mund të marrë pamje të ndryshme. Një nga format kryesore të shpërndarjes së të dhënave sasiore është kurba e “shpërndarjes normale” të tyre. Shpërndarja normale e vlerave përcakton faktin se për popullata dhe kampione të mëdha te të dhënave sasiore shpërndarja e tyre shtrihet pothuajse simetrike rreth mesatares së të dhënave. Shumë nga testet që kryen në statistikën inferenciale kërkojnë që, vlerat e variablit të jenë të shpërndara në mënyrë normale dhe të supozohet një shpërndarje normale e parametrit të popullatës (shiko kapitullin 4). Kur kemi një shpërndarje normale të dhënave mesatarja, moda dhe mediana janë të barabarta me njëra tjetrën. Megjithatë, duhet të kemi parasysh se normaliteti absolut i të shpërndarjes së të dhënave është praktikisht i paarritshëm. Kjo do të thotë se ajo që kërkohet praktikisht janë vlera që janë shpërndarë përafërsisht në mënyrë normale. Siç do ta shikojmë më poshtë kur të dhënat tona nuk janë të shpërndara në mënyrë normale, atëherë duhet të zgjedhim teste të tjera të statistikës inferenciale, ose kur mundemi duhet të ndërmarrim disa hapa për normalizuar të dhënat.

37

Koncepte bazë të kërkimit sasior në SPSS

1.4.4 Shpërndarje të anuara pozitivisht dhe ato të anuara negativisht (Kurtosis dhe Skewness ) Në figurat 24 dhe 25 paraqiten shpërndarje të dhënave, të cilat nuk janë simetrike apo normale. Në një shpërndarje të anuar pozitivisht (fig. 24) rezultatet e të dhënave janë më të ngritura në anën e majtë sesa në Figura 24 anën e djathtë të grafikut. Në një shpërndarje të anuar negativisht (figura 25), rezultatet e të dhënave anojnë djathtas në grafikun e shpërndarjes. Skewness është një vlerë që mat anshmërinë e të dhënave. Ajo tregohet lehtësisht në SPSS dhe llogaritet si raporti i diferencës së mesatares dhe medianës me devijimin standard *. Kuptohet që anshmëria e të dhënave ka vlera të ndryshme. Shumë autorë pranojnë 3 intervale vlerash për të përcaktuar nivelin e anshmërisë së të dhënave. Të dhënat mund të jenë: 1) relativisht simetrike kur vlera skewness është midis -0.5 dhe 0.5; 2) të anshme të moderuara kur vlera skewness midis -0.5 dhe -1, ose 0.5 dhe 1; 3) të anshme kur kjo vlerë është më e vogël se -1, ose më e madhe se 1. Një vlerë tjetër që mat rregullsinë e të dhënave është “kurtosis”. Figura 25 Ndryshe nga skewness që mat deformimet horizontale të dhënave, kurtosis mat ato vertikale. Pra, përcakton se sa të ngritura, apo të shtypura janë të dhënat tona. Autorë të tjerë përcaktojnë se nëse vlerat e skewness dhe kurtosis janë

*

Për devijimin standard shiko paragrafin 3.1.4.

38

Juljan Myftari

midis vlerave 1 dhe -1 9, atëherë mund t’i konsiderojmë të dhënat të shpërndara normalisht dhe të kryejmë teste parametrikë. SPSS-i na lejon të kontrollojmë nëse të dhënat tona janë të shpërndara normalisht apo janë të anshme edhe me teste të tjera normaliteti. Kjo është shumë e rëndësishme kur na duhet të zgjedhim se cilat teste duhet të përdorim për të analizuar të dhënat tona. 1.4.5 Testi i normalitetit në SPSS Siç thamë, shumë nga testet që do të paraqesim në kapitullin 4 të librit kërkojnë që të dhënat tona të jenë të shpërndara në mënyrë normale. Këto teste quhen teste parametrike sepse supozojnë një shpërndarje normale të dhënave në popullatën për të cilën zhvillohet studimi. Kjo nënkupton se para se të kryhen këto teste duhet të verifikohet nëse të dhënat janë të shpërndara normalisht. Ky verifikim mund të kryhet relativisht thjesht me anë të SPSS. Për të kryer testin e normalitetit për të dhënat tona numerike do të përdorim datasetin * në të cilin paraqiten pikët e mara nga rreth 200 studentë (fig. 26) në provimin e parë dhe në një provim tjetër të Figura 2625 Figura dytë. Për të pasur një ide sa më të qartë për këtë proces po e kryejmë testin e normalitetit për secilin prej dy variablave.

Joseph F Hair Jr et al., A Primer on Partial Least Squares Structural Equation Modeling (PlsSem) (Sage publications, 2021), 83. * Në shumë raste përgjatë librit datasetet apo të dhënat do të paraqiten vetëm pjesërisht në libër. Kjo pasi për shumë analiza ne duhet të përdorim kampione me shumë individë, por ato nuk mund t’i paraqesim në libër për arsye hapësirë. Kështu, gjatë shpjegimit do të themi se kemi një numër të caktuar individësh ndërkohë që lexuesi do të shikoj vetëm versionin e shkurtuar të të dhënave, edhe pse për të kryer testet janë përdorur versione të plota të tyre. 9

39

Koncepte bazë të kërkimit sasior në SPSS

Për të kryer këtë test përdorim menynë “Analizë”/“Descriptive Statistics” dhe në fund komandën “Explore”. Kur klikojmë mbi “Explore” na shfaqet dritarja e “figurës 27”. Aty, së pari duhet të përzgjedhim variablat për të cilat do të testojmë normalitetin. Në këtë rast kemi zgjedhur dy variablat që përmendëm më sipër. Më tej

Figura 27

klikojmë te “Plots” (2) dhe zgjedhim “Normality plot tests”. Si zakonisht për të parë rezultatet e veprimit shkojmë në faqen “Output” të SPSS (figura 28). Aty shikojmë disa momente kryesore për të interpretuar normalitetin e të dy variablave. Tabela e testit të normalitetit na jep dy testet e normalitetit që janë kryer. E dhëna e parë që duhet të verifikojmë

Figura 28

është koeficienti i sinjifikancës sigma (Vlera P *). Në testet e normalitetit niveli i sinjifikancës sigma përcakton probabilitetin që hipoteza nul të jetë e vërtetë (shiko paragrafin 4.2.2). Për një përshkrim më të detajuar të vlerave P dhe koeficienteve të sinjifikancës shiko kapitullin 5.

*

40

Juljan Myftari

Në këtë rast hipoteza nul është kjo: “Nuk ka ndonjë dallim midis të dhënave tona dhe shpërndarjes normale”. Me sa shikojmë koeficientin e sinjifikancës për të dy variablat tanë, ky probabilitet është afër zeros. Kjo do të thotë se në të dy rastet hipoteza nul nuk mund të jetë e vërtetë. Kjo nënkupton se variablat tanë janë statistikisht të dallueshëm nga shpërndarja normale. Që do të thotë se të dhënat tona nuk janë të shpërndara në mënyrë krejt normale, d.m.th. janë të anuara. Vëmë re se ndryshe nga shumë teste të tjera që do të shikojmë më poshtë në këtë rast kërkojmë një vlerë të koeficientit të sinjifikancës mbi 0.05 sepse këtu kërkojmë që H0 të jetë “e vërtetë”. Në tabelën që paraqitet në “figurën 29” dhe që është tabela e radhës në “output” shikojmë masën e këtij animi. Masa e animit është shumë e rëndësishme kur duam të vendosim nëse Figura 29 mund të përdorim testet parametrike. Një qasje më konservatore do të ishte që të mjaftohemi me rezultatin e figurës 28 për të mos i quajtur të dhënat të shpërndara normalisht. Megjithatë do të shikojmë dhe masën e animin. Figura 28 tregon pjesë të tabele që shfaq të dhënat deskriptive për variablat. Shikojmë se për variablin e parë vlera e Skewnes është jo shumë e madhe, por niveli i Kurtosis është e më e theksuar. Për variablin e dytë vlera e kurtosis është më e vogël, ndërsa vlera e Skewness është më e madhe. Megjithatë, siç thamë më sipër shumë autorë e konsiderojnë legjitime që në rast se këto vlera janë ndërmjet 1 dhe -1, mund të konsiderohen të shpërndara normalisht, edhe pse kryerja e testeve parametrikë në këtë rast do jepte rezultate relativisht më pak të sigurta. Në fund është e këshillueshme të ndërtojmë dhe një histogram me të dhënat tona për të parë animin e tyre.

41

Koncepte bazë të kërkimit sasior në SPSS

Figura 30

të pavarur

Ky nuk është rasti i të dhënave të cilat janë paraqitur në “figurën 30”. Këto të dhënat janë të shpërndara shumë afër shpërndarjes normale. Ky set na paraqet 19 të dhëna, të cilat do t’ia nënshtrojmë testit të normalitetit. Të gjitha hapat kryen si më sipër, kështu që nuk po i përsërisim. Ajo tek e cila do të ndalemi janë rezultatet në këtë rast. Siç shikojmë për këtë dataset kemi një vlerë sinjifikancë për testin e normalitetit prej 0.2 gjë që nënkupton se në këtë rast hipoteza nul se popullata nuk dallon nga një shpërndarje normale konsiderohet si e pranuar. Gjithashtu, po të shikojmë më sipër vlera e skewness është poshtë 0.5 gjë që na tregon se megjithëse është e pranishme një anshmëri e të dhënave ajo nuk është e atij niveli sa të mos i konsiderojmë këto të dhëna si me shpërndarje normale. Në këtë rast mund të kryejmë me siguri të plotë testet parametrikë duke i përdorur këto të dhëna si variabël të varur që shpjegohen me variabla të tjerë

Figura 31

42

Kapitulli II 2. Disa veprime me variablat në SPSS

2.1.

Kthimi një variabli sasior në variabla nominal me kategori.

Figura 32

Pasi kemi shtuar të gjitha variablat në datasetin tonë dhe kemi përfshirë të gjitha të dhënat që kemi mbledhur, mund lind nevoja të bëjmë disa manipulime të mëtejshme të variablave. Ka raste kur na intereson të kthejmë një variabël sasior në variabël kategorik ose ordinal. Për shembull kemi një variabël në të cilin janë paraqitur pikët që kanë marrë studentët në një provim të caktuar. Këto pikë janë paraqitur në gjendjen e tyre fillestare siç janë marrë nga studentët. Vlerat e tyre janë nga 10 pikë deri në 96 pikë *. Mund të na interesoj të ndërtojmë një variabël i cili t’i ndajë në tre kategori studentët; ata me rezultate të ulëta, studentët me rezultate mesatare dhe studentët me rezultate të larta. Shndërrimet e variablave bëhet te menuja “Transform”

Te kjo menu duhet të përdorim komandën “Recode into different variables” Kjo komandë na jep mundësi të ndërtojmë një Në këtë rast për të kryer veprimin e plotë na është dashur të kemi një numër të lartë të të dhënave dhe jemi të detyruar të paraqesim vetëm një pjesë të variablit në “figurën 28”.

*

43

Veprime me variablat në SPSS

variabël të ri i cili ndan në intervale variablin e vazhdueshëm ekzistues. Duhet të kemi kujdes se në këtë menu ndodhet edhe një komandë tjetër “Recode into the same variable”, por është e rëndësishme që të mos zgjedhim “Recode into the same variabiles”, sepse kjo e fundit fshin variablin ekzistues duke e zëvendësuar me të riun. Në të kundërt, kur përdorim “Recode into different variabiles” variabli i ri shtohet në dataset pa fshirë variablin ekzistues. Pothuaj gjithmonë është e këshillueshme të mos fshijmë asnjë të dhënë bazë që kemi në dataset. Kur klikojmë te komanda e sipërpërmendur na shfaqet dritarja në “figurën 33”. Te dritarja që shfaqet duhet të ndjekim disa hapa paraprake që të përgatisim variablin të cilin duam ta rikodojmë. Figura 33 Së pari, variablin ekzistues që dëshirojmë ta rikodojmë, e zhvendosim te hapësira në qendër të dritares (1). Më tej vendosim një emër për variablin e ri kategorik që do të formohet (2) (kujtojmë që emrat e variablave nuk mund të kenë hapësirë). Nëse duam mund të vendosim dhe një etiketë (label) për variablin e ri dhe klikojmë butonin “Change” (3). Në fund (4) klikojmë tek “Old and New Values” . Kjo na çon në dritaren pasardhëse (figura 34)

44

Juljan Myftari

Figura 34

Kjo është dritarja (në të cilën përcaktojmë se cilat nga vlerat e variablit ekzistues do të përkthehen në vlera të variablit të ri. Dritarja ndahet në dy pjesë kryesore. Pjesa e majtë ku përcaktojmë vlerat e variablit të vjetër dhe ajo në të djathtë ku përcaktojmë vlerat e të riut. Procesi në të vërtetë nënkupton krijimin e 3 grupeve të ndryshme duke u bazuar në variablin sasior që tashmë kemi. Për të bërë këtë ndarje parashikojmë 3 intervale në të cilat do të ndajmë variablin ekzistues. Kufijtë e këtyre intervaleve janë zgjedhje e studiuesit. Në këtë rast variablin tonë do ta ndajmë në tri intervale: intervali i parë do të përfshijë vlerat nga 0 deri në 50 pikë të variablit ekzistues, intervali i dytë do të përfshijë vlerat nga 51 pikë deri në 70 pikë dhe i treti të gjitha vlerat që ngelen pa u përfshirë në dy intervalet e para. Secilit prej këtyre intervaleve do t’i vendosim një vlere të re nominale përfaqësuese për t’i dalluar nga njëri tjetri. Intervalit parë do t’i vendosim vlerën nominale “0”, të dytit “1” dhe të tretit “2”. Për të realizuar këtë transformim, së pari duhet të vendosim në pjesën e majtë të dritares (1) vlerat e intervalit të parë. Këtë mund ta bëjmë me disa mënyra. Në rastin e intervalit të parë përdorim opsionin “ Range lowest through value” sepse te kategoria e parë e variablit tonë të ri do të përfshihen vlerat nga me e ulëta deri në vlerën 50. Klikojmë mbi këtë opsion dhe vendosim aty vlerën 50. Më tej, shkojmë në dritaren sipër në të djathtë (2) dhe aty vendosim vlerën numerike që do të përfaqësojë këtë kategori në variablin e ri që ndërtohet. Duke qenë se 45

Veprime me variablat në SPSS

kemi vendosur që numri 0 do të përfaqësojë këtë kategori vendosim këtë numër në të djathtë të “Value”. Shtypim “ADD” dhe në dritaren (3) shtohet intervali në fjalë. Këtë proces do ta përsërisim dhe për dy intervalet e mbetura. Megjithatë, në çdo rast është e nevojshme të përdorim opsionin e përshtatshëm në pjesën e majtë të dritares. P.sh., opsioni “range” mund të përdoret për të ndërtuar një interval i cili ka dy kufij të brenda vlerave të variablit ekzistues. Në rastin tonë intervali i dytë i cili i ka kufijtë nga vlera 51 te vlera 70 duhet të përdorë pikërisht këtë opsion. Këtij intervali të dytë do t’i japim vlerën “1” në “Value” (2) dhe klikojmë “ADD”. Për intervalin e fundit, duke qenë se ai do të përfshijë të gjitha vlerat e mbetura e përcaktojmë me anë të opsionit “All other values”. Pasi kemi përcaktuar tre intervalet dhe vlerat e tyre të reja Figura 35 nominale “0”,”1” dhe “2”, klikojmë “Continue” dhe te dritarja tjetër klikojmë “OK”. Pasi softweri ka kryer përpunimin dhe kthehemi në dritaren kryesore të datasetit tonë në “Data View”, shikojmë se variabli i ri është shtuar në dataset (figura 35). Ky variabël ka tre vlera: “0”,”1” dhe “2”. Këto vlera tashmë përfaqësojnë përkatësisht studentët me rezultate të ulëta, ata me rezultate mesatare dhe së fundi ata me rezultate të larta. Ajo çka na ka ngelur për të bërë është të vendosim nga një etiketë (label) secilit prej këtyre vlerave. Për këtë, në dritaren kryesore të datasetit, shkojmë te “Variable View” (fig. 36). Në rreshtin e fundit, i cili

Figura 36

46

Juljan Myftari

paraqet variablin që sapo u formua klikojmë në kolonën Values dhe na hapet dritarja në të cilën vendosim etiketat( (labels) për secilën nga vlerat e variablit. Së pari vendosim 0 te “value” dhe “Rezultate të ulëta” te label dhe klikojmë “Add”. Përsërisim veprimin dhe për dy vlerat tjera deri sa të kemi nga një etiketë për secilën nga tre vlerat.

Figura 37

2.2.

Po të shkojmë te “Data View” dhe të shtypim Ikonën e paraqitur në “figurën 37”, vlerat “0”,”1” dhe “2” shndërrohen në etiketat e tyre dhe përftojmë variablin e ri me tri vlerat nominale të tij. Kemi parasysh se çdo herë të aktivizojmë ikonën në fjalë shfaqen etiketat, ndërsa kur e çaktivizojmë rishfaqen numrat.

Visual binning

Figura 38

Visual binning është një mënyrë tjetër shumë e favorshme për të grupuar një variabël të vazhdueshëm sasior në intervale sipas disa parametrave që caktojmë. Përparësia e kësaj procedure është se mund të grupojmë të dhënat e një variabli të vazhdueshëm në intervale të barabarta ose dhe sipas kuartileve/percentileve e të dhënave (shiko paragrafin 3.1.5).

47

Veprime me variablat në SPSS

Në fillim përzgjedhim variablin që duam të grupojmë në intervale. Në këtë rast kemi përzgjedhur “pikët e provimit të parë”. Nëse duam mund të përzgjedhim dhe më shumë se një variabël. Megjithatë, nëse përfshijmë më shumë se një variabël ata trajtohen veçmas nga SPSS dhe procedura është e ndarë për secilin prej tyre. Teorikisht mund ta Figura 39 ndjekim procedurën edhe për variabla ordinalë. Megjithatë, këto variabla zakonisht nuk kanë një numër të lartë vlerash të ndryshme. Kështu që grupimi për variablat ordinalë në këto raste nuk është i dobishëm.

Figura 40

48

Juljan Myftari

Pasi kemi përzgjedhur variablin kalojmë te dritarja tjetër në të cilën duhet të kryejmë disa veprime (fig. 40). Duhet të kemi parasysh se në fund të procedurës krijohet një variabël i ri në datasetin tonë i cili përfaqëson vlerat e variablit të vjetër, por të ndara në intervale të caktuar. Së pari, duhet të vendosim një emër për variablin e ri që do të krijohet te kutiza “Binned Variable”. Në këtë rast kemi vendosur “pikëtprov1interval” sepse është mirë që emri i variablit të ri të jetë i ngjashëm me emrin e variablit të vjetër për shkak se i variabli i ri është derivat i variablit ekzistues. Shikojmë ndër të tjera se dritarja na tregon vlerën minimale dhe maksimale të variablit ekzistues. Shikojmë se vlera minimale është 10 dhe maksimale është 95. Pra, studentët janë vlerësuar me pikë nga 10 deri në maksimalisht 95. Kjo do të thotë se intervalet krijohen brenda këtyre vlerave. Më tej duhet të klikojmë te “Make Cutpoint” për të përcaktuar limitet intervaleve. “Cutpoint” janë kufijtë e intervaleve që do të krijohen. Në këtë dritare (figura 41) na paraqiten disa mundësi se si mund t’i vendosim kufijtë e intervaleve. Mundësia e parë është t’i vendosim kufijtë në distancë të barabartë nga njeri-tjetri. Kufiri i parë vendoset te vlera më e ulët e variablit që siç thamë, ishte vlera 10. Më tej duhet të përcaktojmë se sa kufij të tillë do të ketë. P.sh. nëse duam te ndërtojmë 5 intervale, atëherë vendosim 4 kufij që i ndajnë vlerat e variablit në 5 intervale të ndryshme. Pasi kemi vendosur numrin e “cutpoints”. Vëmë re se sapo kemi vendosur numrin e kufijve SPSS ka përcaktuar gjerësinë e tyre. Gjerësia e intervalit llogaritet duke llogaritur range-n e të dhënave dhe duke e pjesëtuar me Figura 41 numrin e kufijve. Në këtë rast 9510/4=21.25. 49

Veprime me variablat në SPSS

Figura 942

Klikojmë “Apply” (fig.41). dhe me tej “OK” dhe shikojmë se në ndërfaqen kryesore është shfaqur një variabli i ri (fig. 42). Ky variabël është emërtuar me emrin që vendosëm më sipër. Secili prej individëve në këtë variabël ka marrë një vlerë sipas intervalit që i përket në ndarjen që kemi bërë më parë. P.sh. Alketi në këtë rast i përket intervalit të tretë pasi pikët që ai kishte marrë në këtë provim e përfshijnë pikërisht në këtë interval.

Nëse ndërtojmë një histogram të këtij variabli, ai do të jetë i tillë (fig.43). Siç shikojmë, histogrami është ndarë në 5 kolona sepse variabli ynë i ri ka 5 intervale të barabarta por me shpërndarje të ndryshme nga njëri tjetri gjë që shihet në lartësinë e ndryshme të kolonave. Kjo sepse secili interval ka një shpeshtësi të ndryshme të Figura 43 individëve. Në rast se duam t’i ndërtojmë intervalet duke u bazuar në percentilet apo kuartilet * e variablit, duhet të zgjedhim opsionin e dytë në “figurën 41” si në “figurën Figura 44 44”. Aty na jepet mundësia që intervalet t’i krijojmë në bazë të numrit të shpërndarjes së barabartë të individëve brenda intervaleve të ndryshme (percentilet). Nëse duam që intervalet të bazohen në kuartile, atëherë vendosim numrin 3 te “Number of Cutpoints” (fig.44) në mënyrë që të dhënat të ndahen në *

Për më shumë rreth kuartileve shiko paragrafin 3.2.1.

50

Juljan Myftari

4 grupe me numër individësh pak a shumë të barabartë duke u nisur nga vlerat më të vogla e deri te më të mëdhatë. Kësisoj, vlerat ndahen në përqindjen e 25të, të 50n, dhe të 75. Që janë përkatësisht kuartili i parë, i dytë dhe i tretë. Hapat e tjerë ndiqen njësoj si në rastin e mësipërm. Në këtë rast nëse shkojmë te variabli që është ndërtuar dhe fokusohemi tek Figura 45 individët, vëmë re se ata janë ndarë sipas kuartileve përkatëse. Për shembull Miranda e cila ka marrë 70 pikë është në kuartilen e tretë, kurse Bankoja i cili ka marrë vetëm 20 pikë në provim lokalizohet në kuartilin e parë. Kjo do të thotë se Bankoja është te 25% -shja e studentëve me rezultatin më të dobët.

2.3.

Ndërtimi i një variabli të ri me komandën “Compute Variable”

Komanda “Compute Variable” e cila ndodhet në menunë “Transform” na lejon të kryejmë një seri veprimesh me variablat ekzistuese të datasetit. Më poshtë do të konsiderojmë disa raste kur kjo komandë mund të përdoret për interesat e studimit.

Figura45 46 Figura

Në “figurën 46” është paraqitur një dataset i cili, ndër të tjera, përbëhet nga disa variabla të karakterit dihotomik ku të intervistuarit janë përgjigju po, ose jo, për përvojat e tyre kulturore gjatë një viti. Ata janë pyetur nëse; kanë parë një shfaqje të muzikës klasike, një 51

Veprime me variablat në SPSS

shfaqje të muzikës popullore, baleti, kanë shkuar në teatër, kanë lexuar një libër apo kanë shkuar në muze përgjatë kësaj periudhe. Studiuesit mund t’i interesojë të ndërtojë një variabël të ri në të cilën të paraqitet nëse të secili prej të pyeturve ka pasur të paktën një përvojë të tillë kulturore. Për këtë qëllim fillimisht duhet të ndërtojmë një variabël të ri në të djathtë të variablit të fundit të serisë të variablave që na interesojnë për llogaritjen tona. Këtë variabël të ri duhet ta emërtojmë. Në këtë rast po e emërtojmë variablin e ri “Kulturë_dihotomik”. Siç shikojmë, variabli i ri nuk ka të dhëna për momentin. Veprimet pasardhëse realizojnë popullimin e këtij variabli me të dhëna. Duke shkuar në menynë “Transform” dhe klikuar komandën “Compute Variable” dalim në dritaren e mëposhtme (fig.47) tek e cila duhet të kryejmë disa veprime sipas radhës. Së pari shkojmë te “Function Group” (1) dhe aty zgjedhim “Statistical”. Më tej te “Function and Special Variables” zgjedhim funksionin “Sum” (2). Veprimi në fjalë kryhet në hapësirën (3) e sipërme të dritares. Në këtë

Figura 47

hapësirë shikojmë të shfaqet shprehja matematikore : “Sum (?,?)”. Pikëpyetjet duhen zëvendësuar me variablat për të cilat na interesojnë të kryejmë veprimet. 52

Juljan Myftari

Për këtë, duhet të fshijmë pikëpyetjen përkatëse dhe me pulsorin e lënë aty klikojmë dy herë mbi secilin variabël ekzistues dhe të sigurohemi që emri i variablit të jetë shtuar të listë brenda formulës matematikore. Duhet të kemi kujdes që brenda formulës secila prej variablave që llogariten të jetë e ndarë me presje nga tjetra. Në fund duhet të vendosim emrin e variablit të ri që krijuam në fillim në hapësirën “Target Variable”. Në fund klikojmë, si gjithmonë, “OK”.

Figura 48

Po të shkojmë te dritarja kryesore shikojmë se variablit të ri i janë shtuar vlera (fig.48). Vëmë re se individi i parë ka pasur 6 përvoja kulturore, ndërsa i treti asnjë. Këtë variabël mund ta përdorim për të kryer renditje të individëve apo veprimet të tjera, ose me anë të tij, siç paracaktuam, mund të ndërtojmë një variabël dihotomik. Nëse është kështu, ajo që na intereson në këtë rast është të ndajmë të gjithë individët të cilët kanë vlera nga 1 deri në 6 nga ata që kanë vlerën 0. Për këtë kryejmë një procedurë të ngjashme me atë të ndjekur në paragrafin 2.1 Figura 49 me ndryshimin që këtu në menunë “Transform” përdorim komandën “Recode Into the Same Variable” dhe jo “Recode into Different Variable”. Vlerën 0 nuk e ndryshojmë ndërsa vlerat nga 1 deri në 6 i japim vlerën “1” (fig. 50). Po të kthehemi në dritaren kryesore vëmë re se vlerat e variablit Figura 50 “Kulturë_dihotomik” janë 53

Veprime me variablat në SPSS

shndërruar. Ata individë të cilët nuk kanë pasur asnjë përvojë kulturore kanë një vlerë “0”, ndërsa individët e tjerë të cilët kanë pasur të paktën një përvojë të tillë kanë marrë vlerën 1 (fig. 51). Kësisoj, kemi përftuar një variabël të ri të cilët i ndajnë individët në dy grupe. Në fund mund të krijojmë etiketa për këto dy vlera sipas hapave të shpjeguar në paragrafin 2.1. Ata persona që nuk kanë pasur një përvojë kulturore mund t’i etiketojmë “pa përvojë kulturore” dhe ata të cilët kanë pasur të paktën një përvojë kulturore mund t’i etiketojmë si “me përvojë kulturore” Komanda “Compute” mund të përdoret dhe për një sërë veprimesh të tjera me variablat. Mund ta përdorim këtë komandë për të kryer shumën apo për të zbritur variabla sasiorë të caktuar nga njëri. Marrim rastin kur kemi dy variabla. I pari na tregon përvojën paraprake të punonjësve dhe një të dytë, i cili na tregon përvojën aktuale të tyre. Me anë të “Compute” mund të ndërtojmë një variabël të ri, i cili do të na paraqesë Figura 51 përvojën totale të punonjësve si shumë të dy variablave paraprake. Për të gjitha këto veprime duhet ndjekur, përgjithësisht, hapat që kemi treguar më sipër. Gjithashtu, siç do të trajtohet në paragrafin 3.1.5, kjo komandë mund të përdoret për të bërë reduktimin e “outlierve” me anë të ndërtimit të ndërtimit të variablave të rinj bazuar në vlerat logaritmike të variablave ekzistues.

54

3. Kapitulli III Statistika deskriptive

Figura 52

“Qëllimi kryesor i statistikës deskriptive (përshkruese) është të paraqesë të dhënat në një formë sa më të volitshme, të përdorshme dhe të kuptueshme.” 10 “SPSS” ofron mundësi të shumta për të nxjerrë statistika deskriptive nga një dataset i dhënë. Në fakt kjo kategori analize është ndër më themeloret që mund të kryejmë me këtë software. Në menynë Analyze- Deskriptive Statistics jepen një sërë mundësish për të përftuar të dhëna përshkruese mbi një dataset të dhënë. Siç shikojmë në nën-menunë “Descriptive Statistics” mund të kemi informacion mbi shpërndarjen, të dhënat

Robert Ho, Handbook of Univariate and Multivariate Data Analysis and Interpretation with Spss (Chapman and Hall/CRC, 2006), 1.

10

55

Statistika deskriptive

përshkruese, mund të ndërtojmë krostabe, apo të kryejmë dhe analiza të tjera. Në vijim do të shikojmë disa prej të dhënave dhe analizave kryesore që mund të përdorim në këtë nënmenu. Disa nga treguesit e statistikës deskriptive që mund të përftojmë me anë të SPSS janë:  Treguesit e qendërzimi -mesatarja, mediana, moda.  Treguesit e shpërndarjes – Devijimi standard, varianca.  Treguesit e pozicionit- Percentilet, Frekuencat., Zscore.  Analiza korrelative a) Korrelacionet Pearson bivariate që përdoren kur kemi të dhëna numerike dhe që janë të shpërndara në mënyrë normale b) Korrelacionet ordinale kur kemi variabla ordinalë c) Korrelacionet pjesore  Krostabet  Analiza Turf Më tej do të përshkruhen nga pikëpamja konceptuale disa nga treguesit univariate që u renditën më sipër dhe do të jepen avantazhet dhe disa dobësi në përdorimin e secilit prej tyre. Kjo bëhet për të pasur një ide sa më të plotë të natyrës së tyre. Për disa prej tyre do të përshkruhet aty për aty mënyra se si mund t’i përftojmë ato në SPSS. Për disa të tjera do të tregojmë veçmas sesi paraqiten në SPSS. Në pjesën e dytë të kapitullit trajtohen më në detaj analizat bivariate dhe multivariate si korrelacionet, Krostabet apo Analizën Turf.

56

Juljan Myftari

3.1.1 Treguesit e qendërzimit Treguesit e qendërzimit janë të dhëna statistikore, të cilat përcaktojnë vlera që përshkruajnë qendrën e shpërndarjes dhe përfaqësojnë të gjithë shpërndarjen e të dhënave. Qëllimi i përcaktimit të tyre është identifikimi i vlerave të cilat janë përfaqësuese për të gjithë vlerat e datasetit. Ka një sërë të dhënash që japin prirjen qendërzuese të një variabli. Një shembull është “Mesatarja aritmetike” e cila na lejon të “kondensojmë” të dhënat e datasetit në një vlerë të vetme. Këto lloj të dhënash përfshihen në atë që quhet statistika përshkruese sepse bëjnë një përshkrim të kondensuar për të dhëna tashmë të përftuara. Ato lejojnë dhe krahasime të thjeshtëzuara midis dy variablave të krahasueshme apo dy dataseteve të ndryshme. P.sh. mund të krahasojmë mesataren e variablave brenda një dataseti etj. Më poshtë do të paraqesim treguesit e prirjes qendërzuese duke analizuar pikat e tyre të forta dhe të dobëta. Do të trajtojmë mesataren, medianën dhe modën. Më tej do të shikojmë se si mund t’i përfitojmë dhe analizojmë këto të dhëna në SPSS. Mesatarja aritmetike (mesatarja) Mesatarja është treguesi më tipik për qendërzimin e të dhënave. Ajo llogaritet si shumë e vlerave duke u pjesëtuar me numrin e të dhënave të përftuara. Mesatarja përftohet kur shuma totale e vlerave (ΣX) pjesëtohet me numrin e të dhënave. Mesatarja është pikë balance në shpërndarjen e të dhënave. Shuma e vlerës së të dhënave poshtë mesatares është e njëjtë me shumën e vlerës së të dhënave mbi mesataren. Kjo është e dhëna e cila raportohet më rëndom. Matja e mesatares kërkon: 1. Të dhëna numerike 2. Të matura në shkallë intervale apo shkallë raport. 57

Statistika deskriptive

Megjithatë, ka raste në kur mesatarja nuk është një tregues i mirë i karakteristikave të një dataseti dhe raste kur nuk është e përdorshme.  Në rastet në të cilat të dhënat e një dataseti përmbajnë vlera ekstreme (shiko paragrafin 3.1.4), mesatarja nuk jep një vlerë qendërzuese dhe domethënia e saj cenohet. Në rast se kemi një shpërndarje të anuar të të dhënave dhe jo normale mediana është një tregues më i besueshëm se mesatarja. “Ndjeshmëria e madhe e mesatares ndaj vlerave është arsyeja pse mediana parapëlqehet nga mesatares në disa raste” 11. Marrim rastin kur kemi një pabarazi shumë të madhe midis të varfërve dhe të pasurve. Edhe pse numri i të pasurve është i vogël sasi e pasurisë që ata zotërojnë është jashtëzakonisht e madhe. Për ta thjeshtuar marrim rastin e një shoqërie prej 10 njerëzish ku 9 të parët kanë një pasuri prej 200 000 lekësh, ndërsa i fundit ka një pasuri prej 200 000 000 lekësh. Në këtë rast mesatarja e pasurisë së këtyre individëve është μ=20 200 000. Shikojmë qartë se mesatarja në rast nuk jemi ndonjë të dhënë interesante për gjendjen ekonomike të këtij grupi pasi individi i fundit rrit vlerën e saj në mënyrë dramatike.  Gjithashtu, kemi raste të tjera kur mesatarja nuk është e përshtatshme për tu përdorur. Kështu, në rast se të dhënat bazohen te variablat nominalë, nuk ka kuptim të flasim për një mesatare. Në rast se variablat janë ordinalë zakonisht nuk është e përshtatshme për të përdorur mesataren, edhe pse kjo është e mundshme. Mediana Me medianë kuptojmë vlerën e mesit kur rendisim vlerat nga më e ulëta te më e larta. Mediana i ndan vlerat në dy grupe me nr. të barabartë individësh, ku secili prej banorëve të një grupi ka vlerë më të madhe se secili prej banorëve të grupit tjetër. Matja e medianës kërkon vlera të cilat mund të renditen. Mund të përdoret kur shkallët janë ordinale, intervale, apo në shkallën raport. Mediana është më e përshtatshme se mesatarja kur kemi të dhëna ordinale. Gjetja e vlerës së medianës arrihet nga veprime të thjeshta. Në rast se kemi një numër të dhënash mediana është vlera e mesit e renditur. Në rast se kemi një numër çift të dhënash mediana gjendet në mes të vlerave të mesit të të dhënave.

11

Hand, Statistics: A Very Short Introduction, 196, 30.

58

Juljan Myftari

Në rast se të dhënat i kemi në formën e variablit të vazhdueshëm është e mundur të gjejmë medianën duke i vendosur të dhënat në një histogram në të cilin secila vlerë Figura 53 përfaqësohet në boshtin e X-ve. Në këtë rast, hapi i dytë është vendosja e një linje vertikale në kutinë e mesit të boshtit të X-eve (fig. 53) Siç përmendëm më sipër një avantazh i medianës është se ndryshe nga mesatarja ajo nuk ndikohet nga vlerat ekstreme. Kjo nënkupton se mediana është një alternativë e mirë ndaj mesatares kur kemi të dhëna me disa të dhëna ekstreme, apo kur kemi të dhëna me anësim shumë të theksuar në variabla sasior, ose kur kemi të dhëna ordinale. Moda Moda është vlera më e zakontë që gjendet te të dhënat e një variabli. Në një grafik frekuencash moda është kolona më e lartë e grafikut. Moda mund të matet për të gjitha shkallët e matjeve të variablave nominale, intervale, ordinale dhe raport. Nga sa më sipër, vlera kryesore e modës është se ajo përfaqëson vlerën e vetme që ka kuptim të përdoret te variablat nominalë. Të dhënat e variablit mund të kenë më shumë sesa një modë. P.sh. mund të hasim në dy vlera të cilat përsëriten më shumë se vlerat e tjera. 3.1.2 Treguesit e shpërndarjes (dispersionit). Nëse mjaftohemi me treguesit e qendërzimit mund të kemi një panoramë të cunguar të të dhënave. Marrim rastin e një grupi prej 5 individësh që janë vlerësuar në një provim me notat 6,7,8,8,9. Mesatarja e notës për këtë grup është 7.6. Një grup tjetër mund të jetë vlerësuar me notat 5,6,8,9,10. Edhe në këtë rast mesatarja e notave është 7.6. Madje dhe mediana është e njëjta për të dy grupet e të dhënave (Median=8) . Megjithatë, duket se grupet dallojnë nga njëri 59

Statistika deskriptive

tjetri. Për këtë, na duhen tregues të tjerë që cilët të na tregojnë sa të shpërndara janë të dhënat. Range është e treguesi më i thjeshtë i shpërndarjes dhe përftohet duke llogaritur diferencën midis vlerës më të lartë dhe vlerës më të ulët të të dhënave. Në dy shembujt e mësipërm për grupin e parë range është 9-7=2, ndërsa për grupin e dytë 10-5=5. Kjo është një e dhënë se grupi i parë mund të ketë një nivel më të ulët të shpërndarjes së të dhënave se grupi i dytë. Range është një tregues shumë i thjeshtë për t’u llogaritur. Megjithatë, duket qartë se ai ka kufizime pasi ai konsideron vetëm dy vlera nga të gjitha vlerat e variablit që kemi në dispozicion. Kur kemi shumë vlera për një variabël p.sh. 200, 500 vlera, nëse konsiderojmë vetëm dy prej tyre, nënkupton të lemë jashtë analizës pjesën dërrmuese të vlerave. Kjo mangësi e Range-t shmanget nga tregues të tjerë të dispersionit si varianca apo devijimi standard. 3.1.3 Devijimi standard dhe varianca Devijimi standard dhe varianca janë dy treguesit kryesor të shpërndarjes së të dhënave sasiore (interval dhe raport). Për devijimin standard të kampionit përdorim simbolin “s ” për popullatën “σ” . Për variancën përdorim katrorin simbolit të devijimit standard për secilin rast (s², σ²). Të dy këta tregues kanë lidhje me mesataren e të dhënave të një grupi. Devijimi standard është një njësi të mat shpërhapjen e të dhënave, në të kundërt, mesatarja tregon përqendrimin. Këta tregues llogarisin se në çmasë të dhënat janë të shpërndara në raport me mesataren. Matematikisht devijimi standard është rrënja katrore e variancës. Duke qenë se devijimi standard përdoret më shumë në analizat e të dhënave në SPSS, do të ndalemi tek ai. Formula e llogaritjes së devijimit standard është kjo:

Siç e shikojmë nga formula devijimi standard është rrënja katrore e raportit midis shumës së katrorëve të diferencave të çdo të dhëne dhe mesatares, me numrin e të dhënave. Në këtë formulë 60

Juljan Myftari

x= secila prej të dhënave x̄ = mesatarja e të dhënave N = numri total i të dhënave Si shembull marrim të dhënat e paraqitura në “figurën 54”. Mesatarja aritmetike e së cilave është x̄ =5. Për vlerën e parë veprimi do të ishte, 3-5=-2, -22=4. Për të dytën, 5-5=0, 02=0, e kështu me radhë llogarisim katrorët e diferencave të të gjitha të dhënave. Si rezultante do të na dalin këta numra: 4,0, 1, 1, 2, 1, 9, 9, 1, 0. Shuma e këtij vargu është 30. Atëherë, 30/101=3.33... Në fund √33.3=1.8245. Kështu devijimi standard i këtij vargu është rreth 1.82. Kjo e dhënë na tregon mesataren distancës së të dhënave të variablit nga mesatarja aritmetike e variablit. Sa më i madh të jetë devijimi standard, aq më të Figura 54 shpërndara janë të dhënat e një variabli. Sa më i vogël të jetë devijim i standard, aq më të përqendruara rreth mesatares janë të dhënat e variablit. Po të kemi parasysh se datasetet përfshijnë qindra apo më shumë individë, llogaritja ne mënyrë manuale e devijimit standard do të kërkonte shumë punë. Kësisoj, software si SPSS janë shumë të dobishme për përftuar një të dhënë të tillë në mënyrë automatike. Siç mund të shihet nga histogrami i të dhënave të mësipërme(fig. 55), këto të dhëna janë të shpërndara në mënyrë uniforme rreth mesatares dhe shpërndarja e këtij vargu të dhënash është e rregullt. Figura 55

61

Statistika deskriptive

Në këtë set tjetër të dhënash mesatarja aritmetike është po 5 si në rastin e të dhënave të mësipërme. Megjithatë, devijimi standard në këtë rast nuk është më 1.8, por është 2.211. Kjo tregon se në këtë rast të dhënat janë mesatarisht më larg mesatares aritmetike. Nëse shikojmë histogramin e të dhënave të setit të dytë (fig. 57), vëmë re se ato janë të shpërndara më larg mesatares dhe se kurba e normalitetit të këtij histogrami është më e gjerë se në rastin e parë . Figura 56

Siç do të shikojmë pak më poshtë largësia e një të dhëne nga mesatarja mund të paraqitet me sa devijime standarde është kjo e dhëne nga mesatarja në fjalë (shiko Z-score paragrafi 3.2.2). Rregulli i përgjithshëm është që në një shpërndarje normale 68% e të dhënave ndodhen brenda 1 devijimi standard, 95% e të dhënave ndodhen brenda dy devijimeve standarde dhe 99% e tyre ndodhen brenda tre devijimeve standarde (fig.58). Për të dhënat e shembullit të dytë ku mesatarja ishte 5 dhe devijimi standard përafërsisht 2.1 mund të themi se 68 % e të dhënave janë brenda vlerave 2.9 dhe 7.1, 95% e tyre janë brenda vlerave 0.8 dhe Figura 58 9.2 e kështu me radhë. Kemi parasysh që nuk flasim për 100% të të dhënave sepse nuk mund Figura 57

62

Juljan Myftari

të jemi tërësisht të sigurt nëse ka apo jo vlera ekstreme në popullatën tonë. 3.1.4 Outliers (vlerat ekstreme) Outliers janë “vlerat ekstreme”. Ato janë vlera të cilat janë shumë larg mesatares të të dhënave dhe nuk janë të zakonshme në raport me vlerat e tjera të variablit. Outliers hasen shpesh në datasetet studimore dhe është e rëndësishme t’i dallojmë dhe t’i shmangim sa të mundet sepse ato shkaktojnë animin e të dhënave tona. Marrim një dataset ku janë paraqitur 10 të dhëna numerike (fig.59). Duam të zbulojmë nëse në këtë dataset ka ndonjë, apo më shumë vlera që mund të konsiderohet si vlera ekstreme (outliers). Për ta zbuluar këtë duhet të shkojmë në Analyze/Descriptive Statistics dhe Figura 59 të përdorim komandën “Explore”. Në dritaren që paraqiten mjafton të vendosim në hapësirën “Dependent List” variablin që na intereson të analizojmë dhe klikojmë “OK”. Në “Output” na jepen një sërë të dhënash ndër të cilat paraqitet dhe një grafik si ai i “figurës 60”. Ky grafik na tregon nëse ka vlera të tilla ekstreme në variablin e analizuar. Në rastin konkret SPSS ka dalluar se ka një vlerë ekstreme. Kjo vlerë ekstreme është vlera e rastit 8 të dataset. Po të kthehemi në “figurën 59”, shikojmë se rasti 8 ka vlerën 45. Kështu që 45 konsiderohet një vlerë ekstreme në këtë dataset. Vlerat ekstreme janë të rëndësishme sepse testet inferenciale parametrikë që do t’i trajtojmë në Figura 60 kapitullin e IV, kërkojmë një shpërndarje 63

Statistika deskriptive

normale të variablit të varur numerik dhe saktësia e tyre zvogëlohet kur ka vlera ekstreme në dataset. Duke qenë se ka raste kur këto të dhënat ekstreme duhet të shmangen është e rëndësishme që paraqesim mënyrën se si ato mund të shmangen në SPSS. Për këtë na shërben ndërtimi i një variabli të ri i cili paraqet logaritmet me një bazë të caktuar të Figura 61 vlerave të variablit ekzistues tek i cili kemi dalluar outliers. Më shpesh për këtë qëllim përdoret logaritmi me bazë 10. Për ta realizuar këtë duhet të kthehemi te menuja “Transform” dhe Komanda “Compute Variable” që u përdor në paragrafin 2.3. Në këtë dritare (fig.61) duhet të kryejmë disa veprime për të ndërtuar variablin i cili paraqet logaritmet me bazë 10 të variablit të ekzistues. Në fillim klikojmë mbi te “Arithmetic” në “Function Group” (1), në hapësirën “Functions and Special Variables” shkojmë te “Log10” dhe klikojmë dy herë. Në këtë moment funksioni “Log10” na shfaqet te hapësira në pjesën e sipërme të dritares “Numeric Expression”. Më tej shkojmë aty ku është renditur Figura 62 variabli ekzistues dhe e klikojmë dy herë (3) dhe emri i tij na shfaqet brenda kllapave të funksionit. Në fund vendosim një emër për variablin e ri (4) dhe klikojmë “OK”. 64

Juljan Myftari

Po të kthehemi në datasetin tonë shikojmë që është shtuar një variabël i ri me ermin që kishim zgjedhur (fig. 62). Ky variabël është ndërtuar me vlerat e logaritmit me bazë 10 të secilit prej vlerave të variablit origjinal. Verifikojmë nëse ky variabël i ri ka vlera ekstreme dhe shikojmë që nuk gjenden vlera të tilla në të. Kështu që variabli ruan një pjesë të mirë të karakteristikave të variablit origjinal dhe mund të përdoret si variabël i varur për teste të ndryshme parametrike inferenciale (kapitulli 4), sepse në të nuk ka vlera ekstreme shihet në “figurën 63”. Figura 63

3.1.5 Treguesit e pozicionit: Percentilet dhe Vlerat Z Këto janë të dhëna që tregojnë pozicionimin e një vlere të caktuar në raport me vlerat e tjera të variablit. Vendndodhja relative e rezultatit të individëve të caktuar mund të përshkruhet me anë të percentileve. Renditja e percentileve për një individ X të caktuar është përqindja e individëve me rezultate të barabarta apo më të ulëta se kjo vlerë e X-it. Kur një vlerë e X përshkruhet nga renditja e tij, ajo quhet percentile. Për të gjetur percentilet dhe renditjet e percentileve, shtohen dy kolona të tjera në tabelën e shpërndarjeve që kemi trajtuar në paragrafin 1.4.2. Çdo përqindje kumulative Figura 64 identifikon percentilet e renditura për secilin interval. Duke qenë se percentilet janë 100 të tilla shpesh përdoren disa prej percentileve më domethënëse, të cilat quhen kuartile. Kuartilet janë tre dhe ato nuk i ndajnë të dhënat në 100 pjesë, por në 4 pjesë. Kuartili i parë është percentili i 25-të. Kuartili i dytë është percentili i 50 i të dhënave, ose ndryshe mediana për të cilën kemi folur më sipër. Kuartili i tretë përkon me kufirin e çerekut të tretë dhe 65

Statistika deskriptive

të katërt të të dhënave. Pra, është percentili 75-të i tyre. Në datasetin e paraqitur në “figurën 64” kemi treguar 15 studentë të cilët kanë marrë rezultatet provimit të tyre të parë. Për të paraqitur percentilet e datasetit të “figurës 64” në SPSS përdorim menynë “Analyze”/ “Descriptive Statistics” / “Frequencies”.

Figura 65

Në dritaren që na paraqitet (fig. 65) vendosim në hapësirën në qendrore variablin që duam të analizojmë (1). Aktivizojmë “Display Frequency tables” për të ndërtuar tabelat e frekuencave (2), klikojmë mbi “Statistics” e cila na hap dritaren e paraqitur në të djathtë të figurës. Në këtë dritare aktivizojmë “Quartiles” dhe ndonjë percentile specifike që na intereson. Siç thamë, duke qenë se percentilet janë 100 vlera të ndryshme nuk është me vend t’i paraqesim të gjitha prandaj dhe është më e përshtatshme të paraqesim kuartilet. Sa për të dhënë një shembull kemi përzgjedhur që të paraqesim dhe një percentil tjetër atë të 35-tin. Kuartilet mund të paraqiten dhe në statistikat që paraqiten në paragrafin 3.1.6. Megjithatë, në atë mënyrë nuk mund të paraqesim një percentil specifik.

66

Juljan Myftari

Rezultatet na paraqiten të tilla (fig. 66). Në pjesën e poshtë kemi një tabelë frekuencash. Në këtë tabelë të gjitha të dhënat janë paraqitur në një rend rritës. Në fillim janë vendosur vlerat më të vogla dhe në fund janë vendosur vlerat e mëdha të variablit. Në kolonën e fundit të tabelës tregohen përqindjet kumulative në të cilën pozicionohet secila vlerë e të dhënave. Marrim si shembull vlerën 40 pikë. Kjo vlerë ka frekuencë =1 sepse vetëm një student është vlerësuar me 40 pikë. Në kolonën e fundit shikojmë se kjo vlerë pozicionet diku te percentili i 33 (33.3). Kjo nënkupton se ajo është Figura 66 më e madhe se rreth 33% të vlerave që kemi në këtë variabël. Gjë që nënkupton se ai që është vlerësuar me 40 pikë dhe ka një rezultat më të lartë se rreth 33% e studentëve. Megjithatë, nëse kemi të dhëna për qindra apo mijëra individë lista e përqindjeve kumulative e të dhënave bëhet tepër e gjatë. Për këtë shërben dhe tabela në pjesën e sipërme të figurës x e cila jep vlerat e kuartileve dhe atyre percentileve që kemi vendosur në t’i paraqesim në mënyrë specifike. Në rastin konkret vlerat e kuartileve janë 35, 55 dhe 70. Po të shikojmë të dyja tabelat ka një mospërputhje midis vlerave që dikush merr në percentile dhe ato që merr te kuartili. Kjo ndodh sepse ne kemi vetëm 15 individë dhe më pak vlera të ndryshme nga njëra tjetra. Nëse variabli ka 100 vlera të ndryshme nga njëra tjetra këta dy tregues janë të njëjtë sepse çdo e dhënë zë vendin e saj në këtë ndarje qindëshe.

67

Statistika deskriptive

3.1.6

Statistikat deskriptive në SPSS

Figura 67

Kthehemi për pak te të dhënat kryesore të statistikës deskriptive për t’i parë sesi shfaqen ato në SPSS. Për të shfaqur të gjitha këto të dhëna, por dhe të tjera akoma, në SPSS përdorim komandën “Frequencies” që është komanda e parë që gjejmë në nënmenynë “Descriptive Statistics”. Nëse klikojmë mbi këtë komande na hapet dritarja e mëposhtme (fig.67) pjesa (1) , e cila na tregon të gjitha variablat e datasetit tonë. Në të, paraqiten si variablat sasiorë dhe ata nominalë. Megjithatë, duhet të marrin në konsideratë faktin që pjesa më e madhe e të informacionit që marrim me anë të kësaj komande janë të përshtatshme për variablat sasiorë sepse të dhëna si mesatarja, mediana, devijimi standard etj., nuk kanë kuptim për variablat nominalë. Për të përftuar të dhënat që na interesojnë shtypim mbi butonin “Statistics” dhe na shfaqet dritarja (2) në të cilën mund të zgjedhim të gjitha të dhënat që na interesojnë. Kjo dritare është e ndarë në 4 grupe të ndryshme të dhënash. Grupi i parë ka të bëjë me vlerat e percentileve dhe kuartileve (shiko paragrafin 3.2.1). Grupi i dytë na jep të dhëna e qendërzimit të variablit si mesatarja, moda etj. Te grupi i tretë përftojmë parametra apo statistika mbi nivelin e shpërndarjes së të dhënave të variablit si, varianca devijimi standard etj. Nëse duam që të na shfaqen dhe tabelat e shpërndarjen te dritarja (1) lemë të përzgjedhur kutizën “Display frequency tables”.

68

Juljan Myftari

Duke qenë se kemi zgjedhur “Display frequency variabiles”, te dritarja “output” na paraqiten dy tabela (fig. 68). E para është tabela e të dhënave statistikore që kemi përzgjedhur më parë. Tabela e dytë është tabela e shpërndarjes së të dhënave të variablit sasior që kemi përmendur dhe në kapitullin e parë. Në këtë rast shikojmë se mesatarja e të dhënave të variablit është rreth 60 pikë ndërsa mediana është 65 pikë. Kjo tregon se ka më shumë individë me vlerë mbi mesataren se individë me vlerë nën mesatares. Në rastin tonë Skewness është -0.619, gjë që tregon se të dhënat janë relativisht të anuara në të majtë, ose negativisht. Aty gjithashtu jepet “Range” që është diferenca midis vlerës maksimale dhe minimale të vlerave të variablit. Në këtë rast range=85 sepse siç vëmë re në tabelën e shpërndarjes “2”, vlera me e madhe që merr variabli 95

Figura 68

dhe më e vogla 10. Kësisoj, diferenca e këtyre vlerave është 85. Më tej jepen dhe tri percentilet kryesore apo kuartilet.

69

Statistika deskriptive

3.1.7 Vlerat Z dhe paraqitja e tyre në SPSS Vlerat Z apo “Z-scores” japin distancën e një të dhëne të caktuar nga mesatarja e të dhënave të variablit. Edhe këto janë të dhëna të cilat përcaktojnë vendndodhjen e një individi në raport me të tjerët, si percentiliet dhe kuartilet. Megjithatë, në këtë rast Z-score e mat këtë vendndodhje në raport me mesataren e përgjithshme të të dhënave dhe distanca përcaktohet me anë të devijim standard. Një vlerë Z përcakton sa devijime standarde larg mesatares ndodhet një e dhënë specifike. Kjo na Figura 69 jep një ide të mirë se ku ndodhet një e dhënë e caktuar në një shpërndarje normale të të dhënave dhe kjo nënkupton se kemi një vlerë Z të ndryshme për secilën nga të dhënat në dataset. Marrim rastin e këtyre të dhënave (fig. 69) të cilat paraqesin pikët e marra në provim nga disa studentë. Vlera mesatare e këtyre të dhënave është 50.75 dhe devijimi standard për këto të dhëna është përafërsisht 8.63. Vlera z në këtë rast tregon se sa devijime standarde larg mesatares është secila prej tyre.

Figura 70

70

Për të paraqitur vlerat Z për këto të dhëna përdorim “Analyze" “Descriptive Statistics”/“ -Descriptives”. Aty zgjedhim “Standardised Values and Variables”. Kjo komandë mundëson shfaqjen e vlerave Z për secilën të dhënë duke krijuar një variabël të ri në të djathtë të këtyre të

Juljan Myftari

dhënave. Vlerat e këtij variabli të ri përbëjnë vlerat Z për secilën të dhënë të variablit ekzistues. Variabli i ri merr emrin e variablit paraprak duke i shtuar një Z para emrit të këtij të fundit. Në tabelën e mëposhtme (fig. 71) shikojmë se vlera 60 është pothuaj një devijim standard larg mesatares e cila ishte 50.75 kur vetë devijimi standard ishte 8.63. Nëse kujtojmë “figurën 58” në paragrafin 3.1.3 dimë se nëse të dhënat tona kanë Figura 71 shpërndarje normale atëherë ne dimë që vlerat 68% e vlerave janë të shpërndara brenda 1 devijimi standard nga mesatarja dhe 95% e tyre janë brenda 2 devijimeve standarde. Vlerat z tregojnë shpërndarjen e të dhënave të një variabli. Megjithatë, një nga përdorimet e tyre kryesore ka të bëjë me aftësinë e tyre për të standardizuar variablat e ndryshme që kemi në një dataset. Standardizimi është një proces i vlefshëm kur duam të krahasojmë dy ose më shumë variabla të cilat kanë shkallë të ndryshme matjeje Figura 72 pikësh p.sh. pikët e provimit me orët e studimit. Nëse variabli origjinal në këtë rast shpreh orët e studimit, vlerat z që përfaqësojnë këtë variabël nuk kanë njësi të veçanta matjeje. Ato nuk janë as orë, as minuta etj. Marrim rastin kur për disa studentë janë marrë të dhënat për orët të cilët ata i kanë kushtuar studimit për një provim dhe pikët që kanë marrë ata në këtë provim. Konkretisht fokusohemi te Beatriçja e cila ka studiuar 40 orë për këtë provim dhe është vlerësuar me 40 pikë pas kryerjes së provimin. Kjo do të thotë se ajo ka marrë një numër pikësh të barabartë Figura 73 me numrin e orëve që ka 71

Statistika deskriptive

studiuar. Të krahasojmë këto të dhëna në mënyrë të drejtpërdrejtë nuk ka shumë kuptim, pasi të parat maten me orë dhe të dytat me pikë. Ajo çka mund të bëjmë është të krahasojmë të dhënat e këtij individi në raport me pozicionin e tyre brenda të dhënave për secilën variabël. Për këtë ndërtojmë si më sipër (fig. 73) dy variabla të reja të që janë vlerat z për secilën variabël të “figurës 72” dhe shkojmë të Beatriçja për të parë vlerat z për dy variablat në fjalë. Për orët e studimit Beatriçja ka një vlerë z=1.36. Kjo do të thotë se kjo studente ka studiuar 1.3 devijime standarde mbi mesataren e studentëve. Megjithatë, rezultati i saj ka qenë i ulët sepse ajo është pothuaj 1 (0.9) devijim standard nën rezultatin mesatar të grupit. Kësisoj, mund të krahasojmë dy të dhënat e kësaj studenteje në mënyrë të kuptimtë. D.m.th. kjo studente ka studiuar më shumë se sa është vlerësuar në provim. Nëse bëjmë një dallim midis percentileve dhe vlerave z, ky është se të parat kanë si vlerë të mesme të tyre medianën, kurse të dytat kanë vlerë të mesme të tyre mesataren aritmetike të të dhënave.

3.2.

Korrelacioni

Korrelacioni (r) është një analizë bazë e statistikës bivariate. Kjo do të thotë se korrelacioni tregon marrëdhënie variablash dhe ka të bëjë me më shumë se një të tillë. Qëllimi i studimeve korrelative është të përcaktojnë nëse ka një lidhje midis dy variablave dhe të përshkruajnë këtë lidhje nga pikëpamja sasiore. Korrelacioni tregon shkallën e marrëdhënies midis dy variablave. Kjo procedurë tregon marrëdhënien midis variablave sasior, ose variablave ordinalë. Studimet korrelative i vëzhgojnë variablat në formën e tyre natyrore. Për të llogaritur korrelacionin midis dy variablave ekzistojnë koeficientë të ndryshëm korrelacioni. Fillimisht do të trajtojmë korrelacionin bivariat Figura 74 Pearson i cili është koeficienti më i përdorur në statistikë. Ky koeficient na jep mundësinë të zbulojmë marrëdhënien midis dy variablave sasiorë. Ai mund të përdoret vetëm me variabla sasiorë, si të tipit interval ashtu dhe ato raport. Koeficienti i 72

Juljan Myftari

korrelacionit Pearson mund të marrë vlera nga -1 deri në 1. Sa më afër numrit 0 të jetë koeficienti i korrelacionit aq më e dobët është lidhja midis dy variablave. Nëse ky koeficient është 0, do të thotë që nuk ka asnjë lidhje midis dy variablave të shqyrtuara. Sa më afër numrave 1, ose -1 të jetë ky koeficient aq më e fortë është kjo lidhje. Në mënyrë më specifike nëse koeficienti është midis vlerave 0.1 dhe 0.3 apo midis -0.1 vlerave -0.3 korrelacioni konsiderohet i dobët; nëse koeficienti është midis vlerave 0.3 dhe 0.5 apo midis vlerave -0.3 dhe -0.5 korrelacioni konsiderohet mesatar; nëse koeficienti është midis vlerave 0.5 dhe 1 apo -0.5 dhe -1, ai korrelacioni konsiderohet i fortë. Për të kryer analizën e korrelacionit përdorim menunë Analyze-CorrelateBivariate dhe na shfaqet dritarja e mëposhtme në të cilën zgjedhim -Pearson dhe kalojmë në të djathtë dy Figura 75 variablat të cilat duam t’i korrelojmë. Gjithashtu, është e rëndësishme të zgjedhim dhe kutizën “Flag significant correlations” kjo na mundëson të dallojmë nëse korrelacionet janë domethënëse nga pikëpamja statistikore. Kujtojmë se variablat duhet të jenë të tipit sasior të vazhdueshëm. Rezultati paraqitet në tabelën e mëposhtme të paraqitur në “fig. 76”. Në këtë tabelë duhet të kemi kujdes në tre të dhëna kryesore. Së pari duhet të verifikojmë nëse koeficienti i sinjifikancës * është më i vogël se 0.05 apo jo. Figura 76 Nëse rezulton i tillë, atëherë korrelacioni i gjendur midis dy variablave konsiderohet domethënës. Në rastin tonë kemi një vlerë përafërsisht 0.000 e cila është shumë më *

Për më shumë rreth koeficientit të sinjifikancës shiko kapitullin pasardhës.

73

Statistika deskriptive

e vogël se vlera e kërkuar prej 0.05. Kjo tregon se në këtë rast korrelacioni është domethënës nga pikëpamja statistikore. Duke qenë se më parë kemi zgjedhur “Flag significant correlation” kjo tregohet edhe me asterikse në pjesën e poshtme të tabelës. Në këtë rast SPSS na tregon se korrelacioni i dy variablave në fjalë është domethënës në nivelin 0.01 domethënë kemi një siguri prej 99 % për sinjifikancën e tij. Nëse kjo vlerë do të ishte mbi 0.05 nuk do ishim të sigurt për domethënien e tij statistikore. Kështu që koeficienti Pearson në atë rast nuk do të kishte vlerë statistikore. Pasi kemi kontrolluar që analiza e korrelacionit ka domethënie statistikore shikojmë madhësinë e efektit të këtij korrelacioni. Në rastin konkret vlera e koeficientit është rreth 0.7 dhe siç shpjeguam më sipër ky nivel i koeficientit na tregon një korrelacion të fortë midis variablave. Kjo vlerë tregon një korrelacion pozitiv dhe të kënaqshëm midis dy variablave. Lidhja e tyre është e drejtë dhe sa herë kemi rritje në nivelin e njërit variabël ka gjasa që kjo të shoqërohet me një rritje në nivelin e variablit tjetër. Kur bëjmë raportimin e rezultatit të korrelacionit për këtë rast në një punim shkencor, ai Figura 77 do të jetë i tillë: r=0.7, p=0.00, N 34. Siç shihet raportohet vlera e korrelacionit, “vlera P” dhe numri i kampionimit. Korrelacioni mund të paraqitet edhe me anë të grafikut me pika të cilin do ta trajtojmë në mënyrë më të hollësishme në kapitullin 5. Në të majtë kemi paraqitur një grafik hipotetik në të cilin paraqitet korrelacioni midis orës së zgjimit nga gjumi të studentëve dhe notës së tyre mesatare. Siç duket në grafik ka një lidhje midis notës së tyre mesatare dhe orës së zgjimit. Duket se ata që zgjohen më vonë kanë prirje të arrijnë rezultate më të ulëta. Nga grafiku vëmë re se kjo nuk është e vërtetë për të gjithë rastet sepse ka individë të cilët janë zgjuar 74

Juljan Myftari

më vonë, por janë vlerësuar me një notë më të lartë të provim. Megjithatë, në përgjithësi shihet se lidhja ekziston. 3.2.1 Korrelacioni me variabla ordinalë. Lloji i mësipërm i korrelacionit është i përshtatshëm kur të dhënat tona janë të dhëna sasiore të vazhdueshme. Në shumë raste kemi të dhëna të cilat janë ordinale. Në këto raste duhet përdorur një lloj tjetër korrelacioni. Në vend të korrelacionit “Pearson” në këtë rast duhet të përdorim korrelacionin “Spearman”. Në “figurën 78” kemi paraqitur dy variabla ordinalë. Variabli i parë “pikëtordinalë” i ndan studentët në tre kategori. Në ata që kanë arritur rezultat të ulët në provim, ata që kanë arritur një rezultat mesatar në provim dhe ata që kanë arritur një rezultat të lartë në provim. Variabli i dytë “orëtordinal” i ndan studentët sipas tre kategorive ordinale. Kategoria e parë përcakton ata studentë të cilët kanë studiuar pak për provimin, e dyta përcakton ata studentë që kanë studiuar Figura 78 mesatarisht për provimin dhe kategoria e fundit përcakton ata studentë të cilët kanë studiuar shumë për provimin. Për arsye studimore është me interes të shohim nëse ka ndonjë korrelacion sinjifikativ midis kategorive të njërit variabël dhe kategorive të variablit tjetër. Fundja studiuesit, i intereson të dijë nëse studentë që mësojnë më shumë arrijnë rezultate më të larta. Për këtë duhet të ndjekim të gjitha hapat që konsideruam më sipër në rastin e variablave sasior të vazhdueshëm vetëm se në këtë rast zgjedhim “Spearman” dhe jo “Pearson”.

75

Statistika deskriptive

Figura 79

Siç shihet në “figurën 79” duhet te kujtojmë të përzgjedhim kutizën “Flag significant korrelation” në mënyrë që programi të na tregojë automatikisht të gjitha korrelacionet domethënëse. Edhe pse mund t’i dallojmë korrelacionet sinjifikante duke parë vlerat P, është e volitshme kur softweri i tregon këto korrelacione në mënyrë automatike.

Rezultatet si zakonisht shfaqen në “output” pasi kryejmë veprimin. “Figura 80” na tregon nëse ka një relacion midis dy variablave. Hapi i parë që duhet te ndërmarrim është të Figura 80 shikojmë nëse ka domethënie statistikore midis variablave. Në këtë rast shikojmë se tabela na thotë se ka një korrelacion domethënës midis variablave dhe ky korrelacion është domethënës në nivelin 0.01. Kjo nënkupton se mund të jemi 99% të sigurt se marrëdhënia midis dy variablave nuk është rastësore. Më tej mund të shikojmë dhe nivelin e fortësisë së kësaj marrëdhënie. Në këtë rast koeficienti i korrelacionit është ~0.64 dhe tregon një lidhje pozitive dhe të fortë midis dy variablave.

76

Juljan Myftari

3.2.2 Korrelacioni pjesor (Partial Correlation) Korrelacioni pjesor është një lloj korrelacioni i cili na mundëson të gjejmë marrëdhënien midis dy variablave sasior duke mbajtur konstant një variabël të tretë. Marrim në konsideratë një dataset në të cilin paraqiten ndër të tjera dhe 3 variabla (fig. 81), të

Figura 81

cilat japin të dhëna për rreth 500 individë. Variabli i parë na tregon sasinë e produkteve të blera nga secili individ. Në variablin e dytë është paraqitur opinioni që secili nga të pyeturit ka për produktin e dhënë. Figura 82 Së fundi, në variablin e tretë është paraqitur niveli i të ardhurave sipas një shkalle nominale rritëse ku me numrin 1 janë paraqitur të ardhurat më të ulëta dhe me numrin 11 ato më të lartat. Ne marrim me mend se midis këtyre tre variablave ka një marrëdhënie të caktuar. Është e kuptueshme që ka një lidhje midis opinionit për produktin dhe blerjeve për një produkt të individëve.. Gjithashtu mund të konsiderojmë se ka një lidhje midis të ardhurave të individëve dhe sasisë së produkteve që ata kanë blerë. Nëse kryejmë një korrelacion bivariat midis dy prej variablave të sipërpërmendur, “opinionit mbi produktin” dhe “blerjeve”, shikojmë se ka një korrelacion pozitiv domethënës nga pikëpamja statistikore me një koeficient 0.64 (fig. 82). Kjo tregon se ka një lidhje të konsiderueshme midis opinionit që secili individ ka pasur mbi produktin dhe sasisë së produkteve që ai ka blerë. Megjithatë, jemi të 77

Statistika deskriptive

interesuar të shohim se sa variabli tjetër, ai i të ardhurave të secilit individ ndërhyn në këtë marrëdhënie. Për ta verifikuar këtë duhet të mbajmë variablin e të ardhurave konstant. Në këtë mënyrë arrijmë të kontrollojmë lidhjen që ekziston midis opinionit mbi produktin dhe blerjeve nëse individët do të kishin të ardhura të barabarta midis tyre. Në dritaren e korrelacionit (fig.83), në kutinë e parë djathtas vendosim dy variablat për të cilat duam të gjejmë korrelacionin(1). Në kutinë më poshtë vendosim variablin e Figura 83 kontrollit(2) të cilin duam ta mbajmë të pandryshueshëm. Si gjithmonë nuk duhet të harrojmë që shenja e nivelit të sinjifikancës të jetë e zgjedhur. Siç shikojmë në këtë rast koeficienti i korrelacionit (fig. 84) është 0.622, i cili është disi më i ulët se sa rezultati që pamë më sipër, ku ishte 0.64. Kjo tregon se në rast se të ardhurat e Figura 84 individëve janë mbajtur konstante, atëherë ndikimi që opinioni i tyre mbi produktin ka pasur mbi sasinë e blerjeve është pak i ulët. Megjithatë, në këtë rast shikojmë se pavarësisht të ardhurave të individëve opinioni që ata kanë mbi produktin ka një lidhje të fortë me sasinë e blerjeve.

78

Juljan Myftari

3.3.

Tabelat e kryqëzuara Tabelat e kryqëzuara (crosstabs) janë një metodë shumë e thjeshtë, por efikase, për të paraqitur marrëdhënien midis dy variablave. Tabelat e kryqëzuara funksionojnë më mirë nëse përdorim në to variabla të cilët janë matur me shkallë nominale ose ordinale. Për të ndërtuar një tabelë të kryqëzuar shkojmë tek “Analyze”/ “Descriptive Statistics”/ “Crosstabs”

Në këtë dataset (fig. 85) kemi dy variabla kategorikë. Variabli i parë tregon një kampion të punonjësve të një industrie të caktuar të ndarë sipas hierarkisë së funksionit të tyre. Në variablin tjetër paraqitet gjinia e secili prej tyre. Në këtë rast kemi interes të paraqesim pikë-prerjet e secilës prej kategorive të këtyre variablave. Për të ditur sa meshkuj janë punëtorë, sa femra janë të tillë, apo për të zbuluar dhe kombinimet e tjera midis kategorive të variablave. Në dritaren që hapet kur klikojmë mbi komandën e sipërpërmendur përfshijmë dy variablat që duam të analizojmë. Nëse duam të përfshijmë me shume se dy variabla këtë mund ta bëjmë, por duhet të kemi parasysh se SPSS ndërton krostabe me dy variabla. Kësisoj, nëse shtojmë variabla të tjerë, krostabi ndërtohet dy e nga dy në disa tabela. Figura 85

Figura 86

79

Statistika deskriptive

Në këtë rast, në boshtin e kolonave vendosim gjininë në rreshta vendosim kategorinë e punësimit. Në këtë mënyrë na paraqitet tabela e kryqëzuar midis variablave. “Kategoria e punës” dhe “Gjinia”. Shikojmë aty se kemi gjithsej 474 punonjës të cilët janë 216 femra dhe 258 meshkuj. Ajo çka bie në sy nga tabela është shpërpjesëtimi gjinor për sa i përket hierarkisë së punësimit. Megjithëse femrat janë më pak në total se meshkujt, në kategorinë punëtorë kemi më shumë femra se sa meshkuj. Në dy kategoritë më të larta të punësimit të Figura 87 dhënat janë në favor të meshkujve. Këtu nuk kemi asnjë femër në rolin e drejtueses të ulët. Ndërsa në rolin e drejtuesve të lartë meshkujt janë mbi shtatë herë më shumë në raport me femrat. Kjo na bëjnë të mendojmë se diskriminimi gjinor luan rol në ndarjen e punës. Ky fenomen, me gjasë, është i vështirë të eliminohet në të ardhmen e afërt.

3.4.

Analiza TURF

Analiza TURF (Total Unduplicated Reach and Frequency) ndihmon për të kuptuar se cili kombinim i mundshëm i të dhënave është më i suksesshëm për një kampionim të dhënë. Mund të marrim shembull kur një agjenci qeveritare e cila ka një fond të caktuar për të realizuar disa politika kërkon të dijë se cili kombinim i këtyre politikave vlerësohet më shumë nga publiku. Agjencia në fjalë ka fond për të realizuar vetëm 3 politika nga 11 që janë marrë në konsideratë për atë vit. Duke qenë se Agjencia ka fonde për realizimin vetëm të tre prej tyre, atëherë ajo kërkon të dijë se cili kombinim i tyre sjell një dobi më të madhe për publikun. Agjencia në fjalë realizon një anketim ku një kampion i caktuar i popullatës pyetet se sa e vlerëson secilën prej politikave në fjalë.

80

Juljan Myftari

Kjo pyetje është bërë për secilën prej 11 politikave të mundshme. Për të zbuluar parapëlqimin e qytetarëve për secilën politikë, si përgjigje është përdorur një shkallë ordinale nga 1 në 5, ku numri “1” është përdorur për të përshkruar një politikë aspak të pëlqyer dhe me numrin “5” një politik që i intervistuari e vlerëson në mënyrë maksimale. Qëllimi i analizës është të kuptojë se cila nga kombinimet treshe e këtyre politikave kënaq më shumë njerëz. Sigurisht që nëse agjencia do të kishte mundësi të realizonte të gjitha politikat, ajo do të kënaqte maksimumin e numrit të njerëzve. Megjithatë, duke qenë se ajo ka vetëm fonde për 3 nga to, i duhet të zbulojë se cili kombinim rrit dobishmërinë për numrin më të madh të njerëzve në krahasim me kombinimet e tjera. Duke qenë se Agjencia duhet të zgjedhë 3 nga 11

Figura 88

politikat ajo duhet të zgjedhë njërën prej kombinimeve të ndryshme treshe të këtyre 11 politikave. Me një fjalë duhet të vlerësojë se cili nga këto kombinime treshe është ai që maksimizon dobishmërinë për më shumë njerëz. Zakonisht një dataset që përdoret për të kryer një analizë Turf ka një pamje të tillë si ajo të na jepet në “figurën 88”. Aty renditen një sërë politikash si në këtë rast, apo si në raste të tjera produkte, shërbime etj. Në datasetin e mësipërm paraqiten rezultatet e pyetësorit të kryer te 180 qytetarë mbi preferencat e tyre, për 11 politikat e ndryshme që përmendëm më sipër.

81

Statistika deskriptive

Analiza TURF, gjendet në “Analyze”/“Descriptive Statistics”/“Turf Analysis”. Veprimet për të kryer këtë analizë i bëjmë në dritaren (fig. 89) që na shfaqet kur klikojmë sa më sipër. Hapi i parë është të përfshijmë të gjithë variablat që kemi në dataset në hapësirën në qendër të dritares. Pra, i zhvendosim ato nga “Variables” te “Variables to Analyze”. Figura 89 Theksojmë se duhet të përfshijmë të gjitha variablat që kemi. Më tej vendosim numrin e variablave që do të përbëjnë kombinimin tonë fitues. Siç thamë, agjencia publike e cila do të implementojë këto politika ka fonde vetëm për implementimin e tre prej tyre. Rrjedhimisht, vendosim numrin 3 në “Maximum

Figura 90

Variable Combinations”. Më tej duhet të përzgjedhim ato përgjigje të të intervistuarve të cilat duhet të konsiderohen si pozitive. Në rastin tonë të intervistuarit, janë pyetur nëse e përkrahnin politikën parë, të dytën e me radhë dhe u ishte dhënë një shkallë nga “1” deri në “5” në të cilën mund të zgjidhnin një vlerë. Shikojmë se vlerat 4 dhe 5, mund të konsiderohen se janë zgjedhur nga dikush qe është pro një politike të caktuar. Kështu që, në kutizën “Positive Response Values” përfshijmë numrat 4 dhe 5 (fig. 89), duke 82

Juljan Myftari

i ndarë me një presje. Pasi japim komandën “OK” shkojmë tek “Output” për të parë rezultatin. Tabela më e rëndësishme është ajo që na jep një përmbledhje të kombinimeve të mundshme, më të vlerësuara të politikave (fig. 91). Në këtë tabelë paraqiten në tre rreshta, tri modele të ndryshme, të cilat arrijnë “reach-in” dhe frekuencën më të madhe. Modeli me 1 politikë, me dy të tilla dhe me tre të tilla. Me “reach” kuptojmë numrin e

Figura 91

personave që miratojnë të paktën një nga elementët e kombinimit të modelit. Në këtë rast me maksimalisht tri * politika të caktuara. Kjo është sikur çdo person të pyetet për çdo kombinim 3 elementesh të 11 politikave dhe të shikohet nëse ai vlerëson të paktën një politikë nga treshja e caktuar. Shuma e të gjithë atyre individëve që kanë zgjedhur të paktën një nga politikat e një tresheje konkrete, në këtë rast, është “reach”-i i asaj tresheje. Në rreshtin e parë paraqitet modeli i cili parashikon vetëm një politikë. Në këtë rresht paraqitet politika e cila ka më shumë miratime nga të tjerat. Pra, një “reach” më të madh. Kjo është “politika3” e cila ka një “reach” prej 64 personash. Pra, 64 persona i japin vlerësimin 4, ose 5 opsionit “politika3”. Kjo përbën 34.6% të të pyeturve. Një e dhënë tjetër e rëndësishme që jepet është “frequency” apo frekuenca. Kjo e dhënë përcaktohet nga shuma e miratimeve që do të marrë secila prej Me tre politika sepse ky numër u vendos paraprakisht në kushtet e analizës. Në rast se do të ishte vendosur numri 5 ateherë do të kishim kombimin me 5 politika e kështu me rradhë.

*

83

Statistika deskriptive

politikave që bëjnë pjesë në këtë kombinimit. Në modelin me një elementë “reach” dhe “frequency” janë sigurisht të njëjta sepse në vetvete “politika3” ka marrë 64 miratime në anketim. Po të shkojmë në rreshtin e dytë, na jepet modeli me kombinimin më të pëlqyer me dy faktorë dhe në rreshtin e tretë ajo që kërkonim. Pra, kombinimi që arrin dobishmërinë më të madhe me tre politika të ndryshme. Nëse fokusohemi te rreshti i tretë shikojmë se “reach-i” këtu ka arritur nga 64 që ishte në rastin e parë dhe 92, që ishte në rastin e dytë, në 100. Pra, 100 persona pëlqejnë të paktën një produkt nga kombinimi i “politika1”, “politika10” dhe “politika3”. Ky rezulton kombinimi me “reach-in” më të lartë ndër gjithë kombinimet e tjera me 3 elementë. Kësisoj, agjencia publike duhet të zgjedhë të realizojë këto tre politika nga 11 që kishte marrë në konsideratë paraprakisht. Po të shikojmë më tej raportin midis “reach” dhe “frequency” (frekuencës) kjo e fundit paraqet një numër më të lartë. Kjo, sepse frekuenca tregon shumën e vlerave pozitive (4,5) që kanë marrë secili prej 3 politikave veç e veç, pavarësisht nëse janë në kombinim me dy të tjerat ose jo. Rrjedhimisht frekuenca është më e madhe se “reach” sepse në rast se një person pëlqen dy, apo tri politika të kombinimit ai numërohet si 1 “reach”. Megjithatë si 2, ose 3 “frekuenca”. “Frekuenca” përdoret kur kemi kombinime të cilat kanë “reach” të barabartë. Në këto raste ai kombinim që ka “frekuenca” më të larta përzgjidhet si kombinimi më i përshtatshëm. Në e dhënë tjetër interesante nga kjo tabelë është se në rreshtin e dytë ku na jepet kombinimi me dysh, me politikat më të vlerësuara shfaqet dhe “politika9”, por kjo politikë në rreshtin e tretë është mënjanuar. Kjo do të thotë se në kombinimin dysh “politika9”, kur kombinohet me “politika3”, së bashku janë dyshja më e vlerësuar. Megjithatë, “politika9” nuk kombinohet kënaqshëm me dy politika të tjera. Kështu që kur shtojmë edhe dy politika të tjera veç saj, ajo nuk rezulton fituese dhe hidhet poshtë nga modeli.

84

Statistika inferenciale

4. Kapitulli IV Statistika Inferenciale (Përgjithësuese)

4.1.

Llojet e testeve Inferenciale

Statistika inferenciale ka të bëjë me metodat me anë të së cilave të dhënat e kampionimeve përdoren për të nxjerrë konkluzione rreth popullatës së studimit. Siç kemi përmendur më sipër kampioni është vetëm një pjesë e popullatës dhe të dhënat që përftohen prej tij japin informacion të pjesshëm mbi popullatën. Rrjedhimisht, statistikat e kampioneve janë përfaqësuese të papërsosura të parametrave të popullatës. Statistika inferenciale mundëson përgjithësimet për të shkuar nga kampioni te popullata e studiuar. “Pyetja kryesore që shtron statistika inferenciale është nëse një rezultat, gjetje apo vëzhgim i një studimi reflekton një fenomen domethënës të popullatës ku është kryer studimi” 12 Në varësi të të dhënave në Kevin R Murphy, Brett Myors, and Allen Wolach, Statistical Power Analysis: A Simple and General Model for Traditional and Modern Hypothesis Tests (Routledge, 2014), 1.

12

85

Statistika inferenciale

dispozicion mund të përdoren dy përqasje të ndryshme ndaj statistikës inferenciale, testet parametrikë dhe ato jo parametrikë. Testet parametrike janë teste statistikore të cilat përdoren për të analizuar kampione, ku supozohet që popullata ka një shpërndarje normale të të dhënave. Ndërsa testet jo-parametrike nuk e kanë këtë kusht. Në këtë libër do të trajtojmë testet parametrike. Këto teste kanë një shkallë të lartë besueshmërie dhe rrjedhimisht preferohen në raport me testet jo-parametrikë. Duhet të kemi parasysh se për të zhvilluar këto teste është e nevojshme që të dhënat tona të plotësojnë disa kushte. Kushti kryesor, siç thamë dhe më sipër, është që të dhënat e variablit të varur duhet të kenë një shpërndarje normale (shiko paragrafët, 1.4.3, 1.4.4., 1.4.5). Përveç normalitetit të shpërndarjes së të dhënave duhet të kontrollojmë nëse këto të dhëna kanë outliers. Për të dhënat numerike lloji i testit që përdorim është në varësi edhe të faktit nëse ka outliers në të dhënat tona apo jo. Për kujtesë, outliers janë ato të dhëna të cilat ndryshojnë në mënyrë domethënëse nga vlerat e tjera që kemi. P.sh. kur në një grup ku mesatarja e të ardhurave të individëve është 40 000 lekë dhe pjesa më e madhe e individëve janë afër mesatares, kemi një numër shumë të vogël individësh të cilët kanë të ardhura mbi 1 000 000 lekë (shiko paragrafin 3.1.5). Për të dhënat nominale, që zakonisht luajnë rolin e variablave të pavarur në këto teste, duhet të kontrollohet nëse grupet që përbëjnë kategoritë e variablit janë numerikisht të balancuara apo jo. P.sh. nëse në një variabël individët “femra” janë 60 dhe individët “meshkuj” janë 15, nuk kemi të bëjmë me kategori të balancuara. Në këtë rast që testi i kryer ka pak peshë dhe domethënie. Në vijim po paraqesim një listë të testeve kryesorë parametrikë para se të trajtojmë më në detaje disa prej tyre.  T-testi (përdoret kur kemi dy grupe të ndryshme për të cilët duam të gjejmë dallime të mesatareve, ose kur kemi një grup i cili matet në dy momente të ndryshme). Ky test përdoret për variablat e vazhdueshme. Kur duam të gjejmë dallimin midis dy grupeve të pavarura, si p.sh. 86

Juljan Myftari

meshkujt dhe femrat, apo banorët e qytetit, ose ata ruralë, përdorim “Independent T-test. Kur duam të zbulojmë ndryshimin që ka pësuar një grup në dy kohë të ndryshme. P.sh. gjendja e banorëve para dhe pas zhvillimin të një politike të caktuar ekonomike, ose sociale, përdorim “Paired T-test”.  “One Way ANOVA”, përdoret kur duam të verifikojmë ndryshimin midis më shumë se dy grupeve. Ndryshe nga “T-testi” i cili kufizohet në dy grupe dhe jo më shumë, “One Way ANOVA” nuk e ka këtë kufizim dhe përdoret kur kemi më shumë se dy grupe. P.sh.. mund të përdoret kur duam të krahasojmë të ardhurat për banorë të qyteteve të ndryshme apo të kategorive të ndryshme të punësimit etj. Termi “one way” përdoret sepse verifikohet ndikimi që ka vetëm një variabël i pavarur mbi një variabël të varur.  “Two way ANOVA”, përdoret kur duam të verifikojmë ndikimin e dy ose më shumë variablave të pavarur mbi një variabël të varur. P.sh. mund të kemi rastin kur dyshojmë se niveli i varfërisë ndikon në nivelin e kriminalitetit, por vetëm te të rinjtë dhe jo tek e gjithë popullsia. 

Regresioni linear, i cili paraqet marrëdhënien shkakësore midis dy variablave ndër të cilat, një apo më shumë variabla janë të pavarur dhe një variabël është i varur.

 Modelet parashikuese, të cilët na lejojnë të bëjmë parashikime të vlerave të variablit të pavarur për të ardhmen, duke u bazuar në vlerat e deritanishme.  Analiza faktoriale, e cila përdoret për të reduktuar një numër të madh variablash, në një, ose pak faktorë të cilët qëndrojnë “nën” këto variabla. 87

Statistika inferenciale

Një nga momentet e rëndësishme kur kryejmë analizën e të dhënave është të paracaktojmë nëse duhet të kryejmë teste parametrikë apo teste jo parametrikë. Testet parametrikë janë më solid ndër dy llojet e testeve. Megjithatë, kur të dhënat tona nuk i plotësojnë kushtet për të kryer testet parametrikë, atëherë mund të përdorim disa metoda për t’iu afruar kushteve të këtyre testeve. Një opsion që kemi kur të dhënat tona nuk plotësojnë kushtet për të kryer testet parametrikë është, të transformojmë të dhënat tona me teknika që kanë të bëjnë me transformimin logaritmik të të dhënave tona, ose siç e gjejmë në SPSS, “log transformation”. “Log transformation” kufizon rolin e outlierve në datasetin tonë, duke i dhënë kësisoj një shpërndarje më normale të dhënave tona. Për të kryer procesin e normalizimit të të dhënave të anuara, ku është e mundur duhet të ndjekim hapat e treguara në paragrafin 3.1.5. Nëse në fund të dhënat janë qartësisht të anuara do të përdorim testet jo-parametrike. Për shumë prej testeve parametrikë kryesorë ekzistojnë teste ekuivalent jo-parametrikë. Megjithatë, duhet të kemi parasysh se testet jo-parametrikë nuk janë aq specifikë dhe solid sa ata parametrikë. Më poshtë po paraqesim një listë të shkurtër të alternativave jo-parametrike të testeve parametrikë. Megjithatë, në këtë botim do të fokusohemi në detaje vetëm te testet parametrikë. Këto teste jo-parametrike në SPSS mund t’i kryejmë nëpërmjet menysë “Analyze”/Nonparametric Tests. Në vend të T-test, përdoret “Mann-Whitney U Test”. Në vend të “Dependent T-test”, përdoret “Wilcoxon Signed Rank test”. Në vend të “One Way Anova”, përdoret “Kruskal- Wallis Test”.

4.2.

Koncepte bazë

Para se të zhvillojmë testet e sipërpërmendura parametrike duhet të sqarojmë një sërë konceptesh të rëndësishme që përdoren në 88

Juljan Myftari

statistikën inferenciale si: intervali i besueshmërisë, vlerat P (koeficienti i sinjifikancës), vlerat alfa dhe “effect size”. 4.2.1 Intervali i besueshmërisë Intervali i besueshmërisë ka të bëjë drejtpërdrejtë me raportin e një statistike të kampionimit dhe një parametri të popullatës. Siç thamë dhe më sipër, kampioni është vetëm një pjesë e popullatës, ai nuk është asnjëherë një përfaqësim i saktë i saj. Kjo nënkupton se gjithmonë kemi një nivel të caktuar gabueshmërie që i detyrohet procesit të kampionimin. Ky quhet “gabimi i Figura 92 kampionimit” dhe është gjithmonë i pranishëm në një studim. Për shembull nga dy kampione të ndryshme që mund të merren në një popullatë të caktuar mund të kemi të dhëna të ndryshme të mesatares që rezultojnë nga secila prej tyre (fig. 92). Është e lehtë të llogarisim mesataren e të ardhurave për kampionin e individëve të cilin e kemi përzgjedhur nga popullata. Megjithatë, nuk mund të jemi krejt të sigurte se kjo mesatare është dhe parametri i të gjithë popullatës që na intereson. Duke pasur parasysh këtë, kur shprehim një parametër të caktuar të popullatës, ky jepet si një interval i caktuar besueshmërie dhe jo si një numër i vetëm. Për shembull themi se mesatarja e të ardhurave të një popullate të caktuar është midis 40000 dhe 44000 lekë dhe jo vetëm 41000 lekë ose 42 000 lekë. Intervali i besueshmërisë shpreh probabilitetin e saktësisë të vlerësimit tonë dhe kjo paraqitet si probabilitet që mesatarja e vërtetë e popullatës të jetë brenda këtij intervali. Zakonisht ky probabilitet është 95%. Pra, më e saktë do të ishte të thoshim se me 95% siguri mesatarja e popullatës është brenda intervalit 40 000 leke dhe 44 000 89

Statistika inferenciale

leke. Sa më i vogël është ky interval aq më shumë saktësi presupozohet të kenë rezultatet tona. Në rastin e mësipërm, nga një popullatë e caktuar kemi marrë një kampion prej 250 personash dhe mesatarja e të ardhurave të tyre ka rezultuar 42000 lekë, atëherë themi se të ardhurat mesatare të së gjithë popullatës janë midis 40000 lekë dhe 44000 lekë me një siguri prej 95%. Intervali i besueshmërisë varet nga dy të dhëna kryesore, së pari varet nga varianca e vlerave të variablit brenda popullatës dhe së dyti varet nga madhësia e kampionimit. Kuptohet që nëse varianca në popullatë është e vogël, atëherë dhe rezultatet e të dhënave të marra në kampionime të ndryshme brenda popullatës do të ishin të përafërta me njëra tjetrën dhe të ngjashme me parametrin e popullatës së studiuar. Në këtë rast intervali i besueshmërisë do të ishte i ngushtë. Gjithashtu, e kundërta është e vërtetë. Sa më e madhe të jetë varianca në një popullatë, aq më i gjerë është intervali i besueshmërisë. Për më tepër, madhësia e kampionimit ndikon në gjerësinë e intervalit të besueshmërisë. Kampione shumë të vogla kanë një gabim kampionimi më të madh dhe intervali i besueshmërisë në to është më i gjerë. Për ta ilustruar sa më sipër në SPSS marrim një dataset në të cilin na janë paraqitur dy raste. Në rastin e parë kemi një kampionim të rreth 200 studentëve për të cilët kemi të dhëna për pikët e tyre të marra në një provim të caktuar. Për të ndërtuar një interval besueshmërie për këtë kampionim shkojmë në menynë “Analyze” dhe te grup-komandat “Descriptive Statistics” zgjedhim “Explore”. Në dritaren që hapet si në “figurën 93”, zhvendosim variablin që na intereson në Figura 93 kutizën “Dependent list”. Nuk ka nevojë të kryejmë asnjë veprim tjetër, klikojmë menjëherë te 90

Juljan Myftari

butoni “OK”. Më tej shkojmë të verifikojmë rezultatin në dritaren e zakonshëm “Output”. Në këtë tabelë shikojmë s (fig. 94) janë analizuar e 204 individë. Mesatarja aritmetike e pikëve që këta individë kanë arritur të marrin është 59.79 pikë. Pra, kjo është mesatarja ekzakte e kampionit tonë. Përveç kësaj mesatareje ekzakte shikojmë dhe variancën e kampionit i cili është 465 pikë. Nga këto të dhëna SPSS ka llogaritur Figura 94 dhe intervalin e besueshmërisë 95% të këtij kampioni për popullatën nga i cili është marrë ai. Kjo mesatare e popullatës është midis 56.82 pikëve dhe 62.77 pikëve. Me fjalë të tjera, jemi të sigurt, me 95% saktësi, se mesatarja e vërtetë e një popullate më të gjerë studentësh që përfshin këtë kampionim është midis këtyre vlerave. Po të shikoni me vëmendje në këtë rast intervali i sigurisë 95% është rreth 6 pikë i gjerë që përcaktohet nga diferenca midis dy vlerave të mësipërme.

Figura 95

Një vlerë tjetër e sigurisë së intervalit është ajo 99%. Kjo vlerë është me lartë se ajo 95% dhe na lejon të ndërtojmë një interval besueshmërie për vlerën e të cilit jemi më të sigurt (fig. 95). Megjithatë, vlera 99% e sigurisë së intervalit të besueshmërisë na jep një interval më të gjerë se ai i 91

Statistika inferenciale

mësipërmi dhe kjo përbën një problem pas këtij intervali i mungon specificiteti. Për të ndërtuar një interval besueshmërie 99% në SPSS ë tabelën e “figurën 95” zgjedhim butonin “Statistics” dhe në kutizën që hapet zgjedhim vlerën 99 % dhe klikojmë “OK” duke përsëritur hapat si në rastin e parë. Megjithatë, në këtë rast kur shkojmë të shikojmë tabelën e re që është Figura 96 ndërtuar në “output” me intervalin e besueshmërisë 99%, megjithëse të gjitha vlerat e tjera janë të njëjta, ky interval ka ndryshuar. Siç e shikojmë tashmë intervali është nga 55.87 deri në 63.72. Do të thotë që ai është rreth 8 pikë i gjerë dhe jo 6 pikë i gjerë si në rastin e intervalit 95%. Kjo nënkupton që edhe pse siguria jonë në rastin e dytë është shtuar, zgjerimi i intervalit ul shkallën e dobisë së tij, sepse një interval tepër i gjerë bëhet i papërdorshëm kur duam të kemi një ide sa më konkrete të mesatares së një popullsie apo dhe të parametrave të tjerë të saj. Siç thamë, një nga ndikuesit e gjerësisë intervalit të sigurisë është Figura 97 numri i individëve që përbëjnë kampionin. Marrim një rast sikur nga database i mësipërm konsiderojmë vetëm 31 individë si kampion dhe ndërtojmë intervalin e besueshmërisë 95%. Në këtë rast kemi këtë rezultat që paraqitet në “figurën 97”. Shihet qartë që në këtë rast intervali është tepër i gjerë për të qenë i përdorshëm. Pra, mesatarja që marrim nga një kampion kaq i vogël nuk është përfaqësuese, sepse mesatarja e vërtetë e popullatës do të ishte midis 54 pikëve dhe 69 pikëve. Ky interval është tepër i gjerë për të shprehur diçka domethënëse për mesataren e popullsisë. Është e rëndësishme që kur paraqesim rezultatet e studimit të paraqesim dhe intervalin e besueshmërisë për të dhënat tona. Një format për të raportuar intervalin e besueshmërisë për rastin e figurës 97 është ky: 95% CI[54.09, 69.22]. Në këtë raportim dallojmë nivelin e sigurisë 95%, akronimin CI që në anglisht është shkurtimi për “Coinfidence interval” dhe brenda kllapave katrore vlera e poshtme dhe e sipërme e intervalit. Marrim rastin kur duam të raportojmë vlerën 92

Juljan Myftari

e mesatares μ= 37 së një popullate të caktuar. Në këtë rast duhet raportuar vlera e mesatares dhe pas saj me presje vlera e intervalit të besueshmërisë në formatin e mësipërm, μ= 37, 95% CI[54.09, 69.22]. 4.2.2 Vlera P, Vlera Alfa dhe “Effect Size” Në kapitujt pararendës rëndom kemi përmendur konceptin e domethënies statistikore, apo koeficientin e sinjifikancës. “Vlera P” është nga konceptet më qendror të procesit të testimit të hipotezës në statistikën inferenciale. “vlera P”, ose koeficienti i sinjifikancës, është një numër midis 0 dhe 1 dhe përcakton gjasat që hipoteza nul të jetë “e vërtetë”. Ajo përcakton nëse mund të jemi të sigurt që ndryshimi i një variabli të varur ka lidhje me një variabël (disa variabla) të pavarur, ose ky ndryshim është thjesht i rastësishëm dhe vjen si pasojë e shumësisë së variablave të cilët nuk merren në shqyrtim në atë rast. Siç thamë më sipër, hipoteza nul (H0) është një pohim i kundërt me hipotezën primare (H1) të studimit (shiko paragrafin 1.2.2). Të dyja këto bëjnë pjesë e atij procesi që në statistikën inferenciale quhet “testimi i hipotezës” (hypothesis testing). Nëse hipoteza H1 e një studimi përcakton se: “Ka një dallim midis notave mesatare të meshkujve dhe të femrave në një popullatë të caktuar”, atëherë H0 do të ishte që: “Nuk ka një dallim midis notave mesatare të meshkujve dhe të femrave në një popullatë të caktuar”. H0 supozon se faktori gjini nuk ka ndikim në popullatën e mesatares së notave. Kjo do të thotë se po verifikojmë disa individë të zgjedhur në mënyrë krejt rastësore nga kjo popullatë, atëherë nuk do të gjenim asnjë dallim të mesatares së tyre bazuar në gjini. Sa më pak të jenë këta individ që testojmë nga popullata aq më shumë ka gjasa që për ndonjë gabim kampionimi ne të na rezultojë që ka një dallim midis gjinive edhe pse në popullatën në tërësi nuk ka një dallim të tillë. Sa më i madh të jetë kampionimi aq më të ulëta janë gjasat që ne të gjejmë dallime midis gjinive në kampion dhe këto të mos reflektojnë një dallim real të gjinive në të gjithë popullatën. Kështu, “vlera P” përcakton gjasat që ndryshimi në kampion të jetë rastësor nëse nuk ka asnjë ndryshim në një popullatë të caktuar” 13. Në rastin konkret kjo vlerë tregon nëse dallimi i pranishëm në kampionin 13

Muijs, Doing Quantitative Research in Education with Spss, 185.

93

Statistika inferenciale

tonë në mesataret e notave midis femrave dhe meshkujve, i detyrohet gabimit të kampionimit, ose në të kundërt, që ky dallim reflekton një dallim të vërtetë në popullatë. Një nga favoret e SPSS është pikërisht se llogarit vlerat P, në mënyrë automatike pa qenë nevoja për të kryer veprime mekanike. Duke qenë se “vlera P” është një numër i caktuar, p.sh. 0.4, dhe nuk arrin vlerën 0 absolute *, duhet të përcaktohet një kufi minimal kur kjo vlerë konsiderohet aq e madhe sa për të pranuar hipotezën nul, apo aq e vogël sa ta hedhim poshtë atë. Kështu, kjo vlerë krahasohet kundrejt një kufiri të përcaktuar pranueshmërie. Nëse vlera konkrete P është më e madhe se ky kufi, H0 do të pranohet dhe H1 do të hidhet poshtë. Zakonisht kufiri që “vlera P” të konsiderohet aq i madh sa H0 të konsiderohet e pranuar, është 0.05 (5%), ose 0.01 (1%). Në shkenca sociale kufiri 0.05 është më i zakontë. Këta kufij emërtohen si “vlera alfa” (α). Pra, vlera alfa është ajo vlerë që konsiderohet si kufiri i një vlere P që ndan nëse një hipotezë nul konsiderohet e pranuar apo e hedhur poshtë. Nëse P>α, atëherë H0 konsiderohet e pranuar në rast të kundërt e hedhur poshtë. Vlera alfa nënkupton se gjithmonë ka një rrezik të bëjmë një gabim kur pranojmë një hipotezë H1. “Kur kemi α=0.05 studiuesi pranon se ke 5% mundësi që ai të pranojë një marrëdhënie midis variablave që në të vërtetë nuk ekziston” 14 Vlerat afla vendosen paraprakisht nga studiuesi dhe nevoja e tij për siguri. Megjithatë, kjo vendimmarrje bazohet të traditën e disiplinës ku përfshihet studimi. Siç thamë, në shkencat sociale vlera më e zakonshme alfa është 0.05 (5%), por ka raste dhe që të vendoset 0.01 (1%). Kur vlera afla është 00.5, atëherë studiuesit i mjafton që gjasat që hipoteza nul të jetë e vërtetë të jenë më të vogla se 5% që të konsiderojë se hipoteza H1 (hipoteza alternative) të quhet si e pranuar dhe ato të konsiderohet domethënëse nga pikëpamja statistikore. Në përgjithësi sa më e vogël të jetë “vlera P”, aq më të sigurt jemi se ndryshimi i gjendjeve të variablit të varur varet nga variabli i pavarur. Sa më e madhe të jetë “vlera P” aq më i rastësishëm është ky ndikim Shpesh në SPSS na jepen vlera p=0.00. Megjithatë, ajo që nga jepen është rrumbullakosja e vlerës së vërtetë që mund të jete shumë afër 0, por jo në 0 absolute. 14 Jim Frost, Hypothesis Testing: An Intuitive Guide for Making Data Driven Decisions (Statistics by Jim Publishing, 2020), 25. *

94

Juljan Myftari

dhe aq më e mundshme është hipoteza nul H0. Në shumë prej analizave që bëjmë në SPSS, ky është një moment shumë i rëndësishëm në interpretimin e rezultateve të të dhënave tona. Nëse në një korrelacion, një T-test, ANOVA etj., nuk janë domethënës nga pikëpamja statistikore, pra nuk janë statistikisht sinjifikativ, atëherë e gjithë analiza ndalon aty, sepse rezultatet nuk faktohen. “Duhet të kemi parasysh se gjithmonë ekzistojnë dallime midis grupeve apo dhe kur matim të njëjtin individ dy herë në kohë të ndryshme. Ajo çka është e rëndësishme është të vlerësojmë, nëse ky dallim është domethënës apo duhet konsideruar si i pa pavlerë.” 15 Shikojmë më në detaje shembullin e mësipërm. Marrim rastin kur kemi një dataset (fig. 98) me të dhëna për pikët që kanë marrë në një provim rreth 200 studentë *,, të cilët janë meshkuj, ose femra. Ne ndërtojmë një hipotezë që gjinia është një faktor që ndikon në nivelin e pikëve të marra në këtë provim. Nga grafiku i mëposhtëm (fig.99) shikojmë se mesatarja e pikëve që kanë marrë meshkujt në provim është 57 pikë, ndërsa mesatarja e pikëve të studenteve femra është 64 pikë. Në këtë rast “vlera P” tregon gjasat që ky Figura 98 dallim në mesatare të ndodh, nëse në popullatë nuk ka asnjë dallim midis dy mesatareve. Ajo çka na intereson është të kuptojmë nëse ky dallim është rastësor apo se dallimi është i qenësishëm. Ka mundësi që dallimi midis mesatareve të këtyre grupeve t’i detyrohet një sërë arsyesh të tjera dhe jo gjinisë së individëve. hipoteza nul në këtë rast është se: “Nuk ka dallim midis të dy gjinive”.

Hugh Coolican, Research Methods and Statistics in Psychology (Psychology Press, 2017), 234. Për arsye hapësire nuk mund të paraqesim të gjithë datasetin në figurë.

15 *

95

Statistika inferenciale

Për të parë në SPSS nëse ka një dallim të tillë, përdorim një test i cili quhet “Independent Sample T Test”. Për këtë lloj testi do të flasim më tej. Ajo që ka rëndësi tani është se një nga rezultatet që japin teste të tilla është dhe “vlera P”. Në këtë rast vlera P=0.016. Kjo do të thotë se ka 1.6% mundësi që të rezultojë ky dallim midis mesatareve sipas gjinive në Figura 99 këtë kampion, nëse në popullatë nuk ka asnjë dallim midis mesatareve. Kjo nënkupton se ka shumë gjasa që dallimi në kampion i përgjigjet një dallimi në popullatë në përgjithësi. Vlera 0.016 është më e ulët se α=0.05 (ose 5%), që është niveli i sigurisë që kërkojmë për të konsideruar si të vlefshme hipotezën tonë. Me fjalë të tjera në këtë rast “vlera P” na thotë se ka vetëm 1.6% mundësi që hipoteza nul të konsiderohet e vërtetë. Apo më konkretisht se ka vetëm 1.6% mundësi që dallimi midis mesatares së femrave dhe mesatares së meshkujve të jetë i rastësishëm. Kësisoj, me siguri statistikore mund të arrijmë në përfundimin se ka një dallim domethënës midis mesatares së meshkujve dhe mesatares së meshkujve për kampionin e dhënë. Kur paraqiten rezultatet e një kërkimi shkencor është e rëndësishme të tregohet qartë “vlera P” për secilën nga marrëdhëniet e verifikuara të variablave të analizës sonë dhe vlera alfa që është marrë si kufi për vlerësimin e H0. Effect Size Megjithatë, duhet të kemi parasysh se “vlera P” që tregon domethënien statistikore të një marrëdhënieje midis variablave, na thotë se ka një dallim apo lidhje midis variablave, i cili duhet marrë në konsideratë, por nuk tregon masën e ndikimit, dallimit apo lidhjeve midis variablave. Sinjifikanca statistikore, në fund të fundit, është një tregues dihotomik “ka”, ose “nuk ka”. Kjo do të thotë që, ose ka domethënie statistikore, ose nuk ka. Në studime të caktuara mund të 96

Juljan Myftari

ndodhë që të gjejmë lidhje domethënëse nga pikëpamja statistikore, por këto lidhje të kenë një ndikim të dobët në praktike. Kjo ndodh sidomos kur kemi të bëjmë me kampione shumë të mëdha në numër, ku çdo dallim/ngjashmëri që hasim në variablat e kampionit me gjasë të lartë na rezulton në dallim/ngjashmëri sinjifikative. Megjithatë, jo gjithmonë këto dallime, edhe pse domethënëse nga pikëpamja statistikore, na japin të dhëna me vlerë për popullatën reale. Siç thamë më sipër, “vlera P” ndikohet nga madhësia e kampionimit. P.sh. mund të kemi një kampion aq të madh studentësh, sa edhe një dallim i mesatares së notave të tyre prej 0.3 pikësh sipas gjinisë, mund të rezultojë domethënës nga pikëpamja statistikore. Megjithatë, ky dallim rezulton jo shumë domethënës për shkak të përmasës së tij në botën reale dhe praktikisht i padobishëm për të ndërtuar politika të caktuara arsimore bazuar mbi të. Rrjedhimisht, edhe pse vlerat P janë shumë të rëndësishme kur bëjmë një analizë statistikore, shpesh ato duhet të plotësohen me të dhëna të tjera sasiore, të cilat na japin një panoramë më të qartë për forcën e marrëdhënieve midis variablave. Kjo na sjell në një koncept tjetër të rëndësishëm të statistikës atë të “shkallës së ndikimit” (effect size). Shkalla e ndikimit na tregon madhësinë e marrëdhënies apo e dallimit midis variablave dhe është një tregues që na lejon të matim ndikimin praktik të marrëdhënies së variablave. Në fakt tashmë kemi trajtuar një nga treguesit e shkallës së ndikimit. Në kapitullin e mëparshëm trajtuam korrelacionin që na tregonte lidhjen midis dy variablave me anë të një koeficienti numerik. Siç pamë, korrelacioni përveç se tregonte se kishte një marrëdhënie midis variablave jepte dhe sa e fortë ishte kjo marrëdhënie. Kjo nënkupton që një nga treguesit e shkallës së ndikimit që kanë variablat te njëra tjetra, është koeficienti i korrelacionit. Një tregues tjetër që tregon shkallën e ndikimit të një variabli mbi një tjetër është koeficienti “Cohen’s d”. Ky tregues mund të përdoret për të parë se në çmasë një variabël dihotomik ndikon mbi një variabël sasior. Zakonisht përdoret për T-testet, të cilat do t’i shikojmë më poshtë. Ky tregues mat diferencën midis mesatareve të dy grupeve të një variabli dihotomik, ose dy kategorive të një variabli nominal, në raport me devijimin standard të ponderuar të këtyre dy grupeve. Treguesi në fjalë mund të marrë vlera nga 0 deri në pafundësi dhe tregohet me shkronjën “d”. Një d=0.2 konsiderohet se tregon një 97

Statistika inferenciale

shkallë ndikimi të ulët të variablit të pavarur te variabli i varur, në rast se d=0.5 ndikimi është mesatar dhe nëse d=0.8, ose më i madh, atëherë ndikimi konsiderohet i madh.

4.3.

Krahasimi i mesatareve të grupeve.

Në përgjithësi mund të themi se, ndër të tjerë, dy janë llojet kryesorë të testeve të statistikës inferenciale. Njëri lloj kërkon të zbulojë lidhjet midis dy variablave numerikë dhe tjetri kërkon të gjej dallime midis grupeve të caktuara, ky lloj është në fokus të kësaj pjesë të librit (paragrafët 4.3.1, 4.3.2 dhe 4.3.3), ndërsa në paragrafin 4.4 trajtohet lloji i parë. Në llojin e dytë përfshihen teste si T-testet me tipat përkatëse apo ANOVA me tipat përkatës. Siç do të shikojmë një karakteristikë e këtyre testeve është se variabli i pavarur është nominal dhe ai i varur është numerik. 4.3.1 T-testi

Lloji i parë i analizës inferenciale që do të trajtojmë janë T-testet. Në mënyrë më specifike do të trajtojmë një nga format kryesore të T-testeve, që është “Independent Sample T-test”. Ky test shërben për të verifikuar nëse ka një dallim të mesatareve të të dhënave të dy grupeve të ndryshme të një variabli nominal, duke e llogaritur këtë ndryshim në raport me variancat e dy grupeve të një variabli të varur sasior. Emri “independent sample” do të thotë se kategoritë e variablit nominal të pavarur janë të pavarura nga njëra tjetra. Duhet të Figura 100 theksojmë se T-testi përdoret kur variabli i pavarur është dihotomik, ose kur duam të krahasojmë vetëm dy kategori të një variabli nominal me më shumë kategori . Për shembull anë të këtij testi mund të verifikojmë nëse mesatarja e pikëve të marra në provim nga studentët meshkuj ka dallim domethënës nga mesatarja e studenteve femra për të njëjtin provim. T-testet nuk përdoren kur kemi një variabël të pavarur nominal me shumë kategori dhe duam t’i të analizojmë ndryshimet për të gjitha kategoritë. Për t-testin duhet të

98

Juljan Myftari

verifikojmë nëse shpërndarja e variablit të varur është kënaqshëm normale dhe numri i individëve të grupeve të variablit të pavarur të jetë i ngjashëm. Për të parë si zhvillohet “Independent sample T-test”, do të zhvillojmë në detaje shembullin që paraqitëm më parë në paragrafin 4.2.2. Në “figurën 100” kemi paraqitur përsëri disa të dhëna nga pikët e marra nga grupi i studentëve. Këta studentë më tej janë identifikuar dhe sipas gjinisë së tyre. Konkretisht me numrin “1” kemi identifikuar studentët meshkuj dhe me numrin “2” studentët femra. Po të verifikojmë mesataren e përgjithshme të këtyre pikëve ajo është 60 pikë. Kjo mesatare e përgjithshme llogarit pikët e të gjithë kampionimin qoftë për femrat , ashtu dhe për meshkujt. Ne duam të

Figura 101

verifikojmë nëse ka dallim të kësaj mesatareje sipas kriterit “gjini” për të parë nëse ka ndonjë dallim sinjifikativ midis studentëve femra dhe atyre meshkuj për sa i përket pikëve të marra në provim. Kjo na jep mundësinë të arrijmë në konkluzionin e saktë nëse faktori gjini ka një rol në nivelin e pikëve marra në provim. Për të kryer këtë analizë duhet të shkojmë te menuja “Analyze”/“Compare Means”/“Independent Sample Test”. Në këtë moment na shfaqet tabela e “figurës 101” në të cilën duhet të ndjekim tre hapat që paraqiten në figurë. Së pari përcaktojmë variablin për të 99

Statistika inferenciale

cilën duhet të nxjerrim të dhënat. Në këtë rast kërkojmë informacion rreth mesatares së pikëve të provimit. Kështu që vendosim në kutizën në të djathtë këtë variabël. Hapi i dytë është të vendosim kriterin me anë të të cilin duam të ndajmë variablin sasior. Këtu vendosim variablin “gjinia” në kutizën në të djathtë, në kutizën poshtë dritares (2). Më tej shkojmë te “Define Groups” për të vendosur kriteret e ndarjes së variablit (3). Siç e pamë në tabelën paraardhëse përdorëm numrin “1” për të përcaktuar meshkujt dhe numrin “2” për të përcaktuar femrat. Vendosim numrin “1” te “Group 1” dhe numrin “2” te “Group 2”. Kujtojmë se kjo procedurë vlen vetëm nëse variabli grupues ka vetëm dy kategori. Nëse variabli ka më shumë se dy kategori kryhet një analizë tjetër të cilën do ta trajtojmë më poshtë. Klikojmë “Continue” dhe me tej “OK”. Pas kësaj si rëndom rezultatet na jepen në faqen “output”. I cili për këtë test përbëhet nga dy tabelat e paraqitura në “figurën 102”. Tabela e parë (1) tregon disa të dhëna bazë ku shikojmë mesataren e të dhënave për secilën gjini. Për meshkujt ajo është 56.75 dhe për femrat 64.14. Numri i individëve meshkuj që kemi në dataset është 20 dhe i individëve femra është 14. Pra, Figura 102 kemi 34 individë gjithsej. Në këtë rast mesatarja e të dhënave për meshkujt duket e ndryshme me mesataren për femrat. Megjithatë, nuk mund të arrijmë menjëherë në përfundimin se ky dallim është statistikisht sinjfikativ. Për këtë, duhet të shikojmë vlerën e koeficientit të sinjifikancës P(2). Në këtë rast ky koeficient llogarit probabilitetit e hipotezës nul. Hipoteza nul pohon se nuk ka asnjë dallim domethënës midis mesatareve të dy gjinive. Hipoteza nuk siç kemi shpjeguar dhe më sipër duhet të hidhet poshtë në mënyrë që të pranohet hipoteza H1 e cila na thotë se: “Ka një dallim midis dy gjinive për sa i përket mesatareve të tyre”. Në varësi të nivelit të sigurisë që duam, 95% apo 99% ky koeficient duhet të jetë nën 0.05 në rastin e parë dhe 0.01 në rastin e dytë. Siç 100

Juljan Myftari

dimë, zakonisht 95% është i mjaftueshëm. Kështu që kërkojmë që ky koeficient të jetë nën 0.05. D.m.th. të ketë më pak se 5% mundësi që hipoteza nul të jetë e vërtetë. Në këtë rast vlera është 0.399, kjo vlerë është shumë më e lartë se 0.05. Për shkak se ka rreth 40% mundësi që dallimi midis mesatares të dy gjinive të jetë krejt rastësor, nuk kemi asnjë siguri që dallimi i mesatareve të ketë lidhje me gjininë e studentëve. Në këtë rast problematik është dhe fakti që për një numër të vogël të kampionimit diferenca midis numrit të femrave dhe meshkujve është e konsiderueshme. Po të shikojmë dhe intervalet e besueshmërisë kuptojmë me mirë pse nuk arrimë dot se H1 është e pranueshme. Në kolonën në të djathtë të koeficientin sigma (fig.102) shihet se diferenca midis mesatareve është rreth -7 pikë. Kjo është diferenca aktuale e llogaritur midis 20 meshkujve dhe 14 femrave. Megjithatë, po të shkojmë në kolonën e fundit shikojmë se na jepet një informacion për intervalin e besueshmërisë së kësaj diference të mesatares midis dy grupeve. Aty paraqitet intervali i besueshmërisë së këtij ndryshimi të mesatareve. Ky interval është midis -22 pikëve dhe 8 pikëve. Kështu, jemi 95% të sigurt se diferenca reale e një popullate të ndarë në këto dy gjini, bazuar në këtë kampion rastësor, është nga 22 pikë më e ulët për meshkujt, deri në 8 pikë më e lartë për ta. Shihet qartë se ky interval besueshmërie është tepër i gjerë. Kjo gjerësi e tij nuk na garanton që diferenca jonë prej 7 pikëve midis meshkujve dhe femrave të jetë e besueshme. Siç pamë më sipër kur trajtuam intervalet e besueshmërisë, ato ndikohen drejtpërdrejtë nga madhësia e kampionimit tonë. Studentët për të cilët kemi të dhëna janë më pak se 40 persona. Kësisoj, diferenca midis mesatareve të të dyja gjinive nuk është e mjaftueshme për tu konsideruar sinjifikative për këtë madhësi të kampionit. Për ta verifikuar këtë do të trajtojmë të njëjtat të dhëna, por duke i shumëfishuar ato sikur të kishim një kampion me 200 individë. N.q.s. do kishim të njëjtat të dhëna për rreth 200 persona edhe pse diferenca

101

Statistika inferenciale

midis mesatareve të gjinive është e njëjta, kjo diferencë do të jetë sinjifikative (Figura 103).

Figura 103

Në këtë rast të dytë diferenca e mesatareve të dy gjinive është e njëjta me rastin e parë sepse mesataret janë të njëjta si më sipër. Për meshkujt mesatarja është afërsisht 57 pikë pike, ndërsa për femrat 64 pikë. Megjithatë, po të shikojmë më poshtë “vlera P” është shumë më e ulët se në rastin e parë. Ai është më i ulët se 0.05, gjë që na jep të drejtën të themi se ka një dallim midis meshkujve dhe femrave për sa i përket rezultateve të secilës gjini në këtë provim. Madje po të shkojmë të shikojmë intervalin e besueshmërisë për diferencën e mesatareve shikojmë se ky interval është ngushtuar shumë. Nga rreth 30 pikë që ishte intervali i besueshmërisë në rastin me kampion të vogël tani kemi një interval prej 12 pikësh ( nga rreth -13.3 te rreth 1.4). Kjo nga tregon se edhe në rastin e diferencën më të ulët të mesatareve, kjo diferencë është -1.4 pikë, kjo në favor të gjinisë femërore. Kështu, kemi një siguri që ka një dallim midis dy gjinive dhe ky dallim nuk është rastësor. Për të raportuar një T-test në një artikull shkencor apo libër merren elementë nga tabela 1 dhe tabela 2 e “figurës 103”. Një raport në këtë rast do të ishte i tillë:

102

Juljan Myftari

“Verifikuam një dallim sinjifikativ midis mesatares së meshkujve (M=56,75, SD 19.59) dhe femrave (M= 61.14, SD 23.55) për kushtet; t(208)=-2.43, p=0.016.” *

Figura 104

Megjithatë, siç thamë më sipër, fakti që dallimi është sinjifikativ nga pikëpamja statistikore nuk na tregon se sa është niveli apo shkalla e këtij dallimi. Për këtë duhet të llogaritet koeficienti “Cohen’s d”. Problemi në këtë rast qëndron në faktin se SPSS nuk e llogarit drejtpërdrejtë këtë koeficient. Kështu që duhet të përdorim një rrugë të tërthortë. Në këtë rast na duhet të ndërtojmë një variabël të standardizuar të variablit tonë të varur. Për këtë mund të përdorim datasetin me 200 individë. Për ta ndërtuar një variabël të tillë përdorim hapat që kemi treguar në paragrafin kushtuar “vlerave z” (paragrafi 3.1.7) sepse do të jetë një variabël i populluar nga vlerat z që do të shërbejë si variabël i standardizuar. Pasi kemi ndërtuar këtë variabël që merr emrin “Zpikët_prov1” ribëjmë T-testin duke përdorur këtë variabël si variabël të varur. Rezultati në këtë rast na paraqitet në “figurën 104”. E dhëna që na intereson të shikojmë është “Mean Difference”. Është pikërisht ky numër që na jep një vlerë shumë të përafërt të koeficientit “d”. Në këtë rast vlera është përafërsisht 0.34 (shenjën minus mund të mos e marrim në konsideratë). Kështu, kemi një d=0.34. Po të rikujtojmë nivelet e koeficientit “d” që shpjeguam në paragrafin 4.2.2, në këtë rast shihet se ndikimi i gjinisë mbi mesataren e notave te studentët është i dobët deri në mesatar. Për pasojë, edhe nëse ai është sinjifikativ Me shkronjën e madhe M kemi treguar mesataret e dy grupeve, me SD kemi treguar devijimin standard të secilit grup duke përdorur shkurtimin e devijimit standard në anglisht (SD). Te kushtet, pas shkronjës “t” në kllapa është vendosur vlera “208” që e gjejme te tabela e dytë e figures 103 në kolonën “degrees of freedom”, më tej vlera “t” që e gjejmë përsëri te tabela e dytë dhe në fund vlera p e testit.

*

103

Statistika inferenciale

nga pikëpamja statistikore, pesha e tij nuk është e madhe. E këshillueshme, që këtë vlerë ta shtojmë në formatin e raportimit që ndërtuam më sipër. 4.3.2 One Way ANOVA Testi ANOVA (Analysis of Variance), apo analiza e variancës ngjason me Ttestin, por ka veçorinë se mund të përdoret kur variabli grupues ka më shumë se dy kategori. Pra, ka tre ose më shumë të tilla. Në këtë pjesë do të trajtojmë One Way ANOVA që është forma bazë e ANOVËS e cila teston një variabël të pavarur nominal dhe një variabël të varur sasior. Testi ANOVA bën krahasimin e variancave brenda grupeve me variancën midis grupeve të ndryshme në të cilat ndahet një variabël i varur numerik. Për të dhënë një Figura 105 shembull të këtij testi marrim në shqyrtim një dataset në të cilin paraqiten të ardhurat e disa punonjësve të një sektori dhe kategoritë e tyre të punësimit. Ky dataset ka dy variabla. Në variablin e parë paraqiten punonjësit të ndarë në tre kategori. Në kategorinë e parë janë paraqitur punëtorët e thjeshtë, në atë të dytën drejtuesit e nivelit të ulët dhe në të tretën drejtuesit e lartë. Variabli i dytë paraqet pagat për secilin prej punëtorëve. Ajo çka duam të zbulojmë, është nëse ka një ndryshim sinjifikativ midis këtyre tre kategorive për sa i përket pagës që ata marrin. Ashtu si “Independent Sample T-test” edhe “Anova” niset me një hipotezë nul e cila mbështet supozimin se nuk ka një diferencë domethënëse midis pagave të kategorive të ndryshme. Ajo çka bën ANOVA është krahasimi midis variancave të brendshme të secilit grup të variablit të pavarur duke i krahasuar këto varianca me ato të grupeve të tjera. Me fjalë të tjera ANOVA krahason se sa pjesë e variancës së të gjithë të dhënave i detyrohet variancës brenda grupeve dhe sa i detyrohet variancës midis grupeve. Nëse varianca brenda grupeve është më e madhe se varianca midis grupeve, atëherë arrihet në përfundimin se 104

Juljan Myftari

hipoteza nul është e pranueshme dhe se nuk ka një dallim midis grupeve të ndryshme për sa i përket pagës së tyre. E kundërta është po ashtu e vërtetë, nëse varianca midis grupeve është më e madhe se varianca brenda grupeve, atëherë nxjerrim përfundimin se hipoteza nul nuk është e pranueshme dhe mund të pranojmë hipotezën tonë se ka një dallim midis këtyre grupeve. Raport i variancave midis grupeve dhe variancës brenda grupeve shënohet me një vlerë (F). Sa më e madhe të jetë kjo vlerë F aq më shumë dallim ka në variancën midis grupeve se sa brenda grupeve. Duhet të kemi parasysh se para se të kryejmë testin ANOVA duhet të shikojmë nëse shpërndarja e të dhënave tona të jetë normale, madhësia e grupeve të variablit nominal të jetë e ngjashme, që kampionimet të jetë të pavarura nga njëra tjetra. Në këtë shembull do t’i konsiderojmë si të plotësuara këto kushte. Për të kryer një test “One Way ANOVA” në SPSS shkojmë te menuja “Analyse” dhe më tej te grup komanda “Compare Means” dhe aty zgjedhim komandën “One Way Anova”. Vendosim Figura 106 variablin e varur në kutizën sipër në qendër të tabelës dhe variablin e pavarur në kutizën “Factor”. Shtypim “OK” dhe në faqen “output” na shfaqet tabela (fig. 106) që tregon rezultatin e testit ANOVA. Treguesi i parë që duhet të shikojmë në këtë tabelë në vlera e koeficientit të sinjifikancës p. Nëse kemi vendosur një kufi minimal të sigurisë prej 95% (α=0.05), atëherë që të pranojmë se hipoteza nul nuk merret në konsideratë kjo vlerë duhet të jetë nën 0.05, Figura 107 pra nën 5%. Në këtë rast “vlera P” është afër 0. Rrjedhimisht, është në mënyrë të dukshme më pak se 0.05. Kësisoj, mund të arrijmë në përfundimin se H0 që na 105

Statistika inferenciale

thotë se “nuk ka ndonjë dallim midis mesatareve të tri kategorive”, ka shumë pak mundësi të jetë e vërtetë. Rrjedhimisht, mund të pranojmë Hipotezën (H1), kësisoj, konkludojmë se ka një dallim sinjifikativ midis pagës së tre kategorive të punonjësve. Në fakt nëse shikojmë kolonën e dytë të tabelës, ku paraqiten variancat e të dhënave, shikojmë se variancat që i detyrohen dallimit midis tre grupeve, që tregohen në rreshtin e parë, përbëjnë rreth 2/3 e të gjitha variancave që paraqitet në rreshtin e fundit të kësaj kolone. Kjo tregon se pjesa më e madhe e variancës totale përbëhet nga dallimet që kanë të dhënat për shkak të përkatësisë së tyre në një grup apo në një tjetër. Gjithashtu vlera “F” është e rëndësishme sepse sa më lartë të jetë ajo aq më i fortë është ndikimi i kategorive te variabli i varur. Si në rastin e T-testin, kur bëjmë raportimin për ANOVËN, duhet të tregojmë mesataret e secilit group, devijimin standard të tyre, vlerën P në këtë rast edhe vlerën “F” që e gjejmë në kolonën e parafundit të tabelës në “figurën 107”. Një version i shkurtuar i raportimit të mësipërm do të ishte: “Pasi përdorëm testin ANOVA, verifikuam se ka një dallim sinjifikativ midis tri kategorive të punësimit në pagën e tyre mujore F(2,471)= 434.431, p