Kodiranje podataka je dodeljivanje broja nekoj kategoriji odgovora i njeno dosledno primenjivanje. To je proces pridodavanja brojeva vrednostima ili nivoima svake varijable. Preporuke za kodiranje podataka su sledeće:

  • svi podaci bi trebalo da budu izraženi brojem,
  • u jednoj koloni matrice podataka se nalaze podaci jedne varijable za sve ispitanike,
  • u ćelije kolone matrice podataka se unosi po jedna vrednost ili broj,
  • kodiranje varijable treba da obezbedi maksimum informacija,
  • predvideti način kodiranja izostavljenih odgovora,
  • upotrebljavati veće brojeve za „veće slaganje“, „pozitivnije stavove“, „ jače“ kod ordinalnih varijabli i
  • jednom određen način kodiranja treba primenjivati dosledno.

Uobičajno je da se vrednosti varijable u matricu podataka unose u vidu broja. Varijable na intervalnom i racio nivou merenja prirodno se izražavaju brojem. Na primer godine života, telesna težina, inteligencija, visina i dr. U matricu podataka se unose vrednosti varijable bez jedinica merenja.

U teoriji merenja ne postoji razlog koji bi objasnio unošenje nominalnih ili ordinalnih varijabli u matricu podataka u vidu broja. Za to postoje praktični razlozi, kao što su:

  • unos i provera tačnosti unosa je lakša sa brojevima nego sa slovima,
  • lakša je transformacija numeričkih podataka i
  • brojevi zauzimaju manju memoriju na računaru.

Prilikom kodiranja nominalne varijable najčešće se koriste sledeća dva načina:

  • Svakoj kategoriji dodelimo neki broj i onda svakom ispitaniku koji pripada određenoj kategoriji dodelimo broj te kategorije i
  • Nominalnu varijablu predstavimo preko onoliko binarnih varijabli koliko ona ima kategorija - svakoj kategoriji odgovara jedna binarna varijabla, a svaka od tih binarnih varijabli sadrži podatak o tome da li ispitanik pripada toj kategoriji ili ne.

Primer za prvi način kodiranja nominalnih varijabli je varijabla pol. Ova varijabla se može kodirati brojevima 1 i 2, pri čemu se dosledno jedinica dodeljuje jednom polu, a 2 drugom polu. Takođe, varijabla pol se može kodirati sa 1 za ispitanike muškog pola i 0 za ispitanike ženskog pola, pri čemu bi nula u ovom slučaju značila „nije muškog pola“. Ovakvo kodirana varijabla se naziva dami varijabla (eng. dummy coding).

Kada su u pitanju nominalne varijable, bitno je obuhvatiti sve moguće odgovore na pitanje. Kod pitanja kod kojih se ne može unapred predvideti raspon svih mogućih odgovora, sveobuhvatnost odgovora se uobičajno rešava na tri načina:

  • Prvi način je da se prvo u pilot istraživanju proveri repertoar odgovora;
  • Drugi način je da se pored ponuđenih odgovora ponudi i alternativa zaokruživanja odgovora „ne znam“ ili „ostalo“;
  • Treća mogućnost je da se postavi pitanje otvorenog tipa, a da se odgovori naknadno klasifikuju analizom sadržaja ili da se napravi kombinacija ponuđenih odgovora i ispitaniku dozvoli da upiše svoj odgovor „drugo nešto____“, ukoliko se ne slaže sa ponuđenim.

Bitno pitanje nominalnih varijabli je i klasifikacija. Dobra klasifikacija je ona koja obezbeđuje da svaki entitet spada u neku kategoriju (sveobuhvatnost), da jedan entitet spada u jednu i samo jednu kategoriju (nepreklapanje kategorija) i da se može jasno odrediti u koju kategoriju entitet spada (jasan kriterijum).

Primer za drugi način kodiranja nominalnih varijable bi bilo pitanje višestrukog izbora gde ispitanik ima mogućnost zaokruživanja više od jednog odgovora. U ovom slučaju svaki ponuđeni odgovor u matrici podataka zauzima jednu kolonu i kodira se binarno: 1 – „zaokružio je“ i 0 – „nije zaokružio“. Slično je i sa složenijim pitanjima. Na primer, ako postavimo pitanje ispitaniku koliko često gleda određene TV stanice, pri čemu za svaku TV stanicu može da odredi učestalost gledanja, u matrici podataka se svaka TV stanica unosi kao posebna varijabla.

U matrici podataka svi podaci za jednog ispitanika se nalaze u jednom redu, a svi podaci jedne varijable u istoj koloni. U jednu ćeliju matrice podataka se unosi samo jedan broj. Ako je u istraživanju više puta mereno jedno svojstvo, kao što je slučaj u eksperimentalnim nacrtima, onda se podaci unose u onoliko kolona koliko je puta vršeno merenje.

Način kodiranja podataka bi trebalo da obezbedi maksimum informacija. Podaci na višem nivou merenja imaju višu informativnu vrednost. Poželjno je postavljati pitanja na način koji omogućuava dobijanje podataka na najvišem mogućem nivou merenja, jer na taj način dobijamo i najviše informacija. Pri tome treba voditi računa da se ispitanici prilikom odgovaranja na pitanje ne osećaju neprijatno ili da ne mogu znati odgovor na pitanje, jer se onda povećava mogućnost izostavljanja odgovora ili davanje nerazumljivog odgovora. Ukoliko se ukaže potreba za kategorisanje intervalnih/racio varijabli ili spajanje kategorija kod nominalnih varijabli za neku statističku analizu, to se može uraditi prilikom obrade podataka, a ne prilikom kodiranja.

Kodiranje svih mogućih odgovora na određeno pitanje kod nominalnih varijabli obično započinje sa jedinicom, dok 0 ili 99 najčešće označavaju izostavljeni odgovor ispitanika. Može se napraviti i razlika između neadekvatnog, besmislenog odgovra (kodiranog na primer sa brojem 98) i izostavljenog odgovora (kodiranog na primer sa brojem 99). Nije neubičajno da se za nedostajući podatak ostavi prazno polje u matrici podataka.

Kod uređenih varijabli uobičajno je da se najvećim brojem kodira odgovor koji predstavlja saglasnost, dobru ili pozitivnu opciju odgovora. Ovakav način kodiranja smanjuje mogućnost zabune prilikom tumačenja rezultata, jer visoka vrednost rezultata ima pozitivno značenje. Nije pogrešan ni obrnuti način kodiranja, ukoliko se on dosledno primenjuje. Posebnu pažnju treba obratiti na stavke koje su formulisane u odričnom obliku, jer saglasnost sa negacijom je negacija. Primer za uređene varijable su stavke Likertove skale.

Na primer, postavljamo pitanje: „Koliko jezika ispitanik zna da govori?“. Ako želimo da znamo koje to sve jezike ispitanik zna da govori, onda će se svaki ponuđeni odgovor kodirati kao binarna varijabla. Ako želimo da znamo samo broj jezika koje ispitanik govori, onda će se ta varijabla kodirati kao broj zaokruženih odgovora.

U svakom pojedinačnom istraživanju se donose odluke na koji način će se kodirati podaci. To se posebno odnosi na podatke koji su na nominalnom ili ordinalnom nivou merenja. Način kodiranja podataka se unosi u dokument koji se zove kodeks šifara. Pomoću kodeksa šifara se obezbeđuje doslednost u unosu podataka i sličan način rešavanja istih ili sličnijh problema prilikom kodiranja za sve ispitanike.