Korelacija je međusobni odnos između različitih pojava koje su predstavljene vrednostima u dve ili više slučajnih varijabli. Pri tome, povezanost znači da je na osnovu poznavanja vrednosti jedne varijable, uz određenu verovatnoću, moguće prognozirati vrednost druge varijable, pošto se ove vrednosti pojavljuju u određenom odnosu. Stepen u kojem su dve vrednosti podudarne može se predstaviti grafički na dijagramu rasturanja, ili putem koeficijenta korelacije.

Regresiona analiza je proširenje korelacione analize i jedna je od najčešće upotrebljavanih statističkih tehnika danas. Regresiona analiza je skup analitičkih tehnika koje se koriste da bi se bolje razumela međusobna povezanost između fenomena koji se posmatraju, izraženih u vidu prikupljenih podataka. Kao krajnji rezultat, analiza proizvodi regresionu jednačinu, ali i svi rezultati do kojih se dođe u tom procesu mogu pružiti vredne informacije o posmatranim pojavama i njihovom okruženju.

U svojoj osnovi, regresiona analiza uključuje dve ili više varijabli koje su međusobno u nekakvoj vezi. Pri tome je jedna od varijabli od posebnog interesa, jer je svrha analize da se objasne promene na njoj preko promena koje istovremeno nastaju na ostalim varijablama u modelu. Ta varijabla se naziva zavisna ili kriterijumska varijabla i označava se sa Y. Ostale varijable služe za objašnjenje ili predviđanje vrednosti zavisne varijable. Ove varijable se nazivaju nezavisne ili prediktorske varijable i označavaju se sa X. Obično se u modelu koristi više nezavisnih varijabli, pa se one označavaju sa X1, X2, ... Xn, gde n označava ukupan broj nezavisnih varijabli u regresionom modelu. Prediktorske varijable se još nazivaju nezavisne, kovarijati, regresori, faktori ili nosioci. Iako se najčešće koristi, naziv nezavisne varijable najmanje odgovara realnosti, jer su ove varijable retko nezavisne jedna od druge.

Veza između zavisne i nezavisnih promenljivih iskazuje se u vidu jedne ili više jednačina koje se jednim imenom nazivaju regresioni model. Stvarni odnos između zavisne i nezavisnih promenljivih se može aproksimirati sledećim regresionim modelom:

Y = f(X1, X2, ..., Xp) + ε,

gde je ε slučajna greška koja predstavlja razliku između aproksimacije i stvarne vrednosti zavisne promenljive Y, a funkcija f opisuje relaciju između zavisne i nezavisnih promenljivih.

Regresione modele možemo podeliti prema više kriterijuma. U daljem tekstu navodimo neke od podela.

Prema broju nezavisnih promenljivih u regresionom modelu postoji

  • prosta regresija, kod koje postoji jedna zavisna i jedna nezavisna varijabla i

  • višestruka regresija, gde postoji jedna zavisna, ali više nezavisnih varijabli.

Prema tome koja je vrsta zavisne varijable, regresione modele možemo podeliti na:

  • modele sa kontinuiranom zavisnom promenljivom,

  • modele sa kategoričkom zavisnom promenljivom koja nije dihotomna, već uzima više od dve vrednosti (kategorije) i

  • modele sa dihotomnom zavisnom promenljivom koji predstavljaju specijalan slučaj modela sa kategoričkom zavisnom promenljivom, jer zavisna promenljiva može uzimati samo dve vrednosti.

Prema vrsti veze između zavisne i nezavisnih varijabli, regresija može da bude:

  • linearna regresija, koju karakteriše postojanje linearne veze između nezavisnih varijabli i zavisne varijable, a koja se u modelu iskazuje kao sabiranje nezavisnih varijabli prvog stepena i

  • nelinearna regresija, a koja može biti:

    • kvadratna regresija,

    • polinomna regresija,

    • eksponencijalna regresija i dr.

Prema broju zavisnih varijabli, regresioni model može biti

  • univarijantni regresioni model, tj. model sa jednom zavisnom promenljivom i

  • multivarijantni regresioni model kod kojeg se javlja više zavisnih promenljivih, zbog čega ga čini više regresionih jednačina.

Osim što omogućava procenu stepena povezanosti pojava, regresiona analiza daje i verovatnoću dešavanja izračunate povezanosti. Koristi se za testiranje hipoteza u studijama i eksperimentima, ali i za prognozu budućeg kretanja pojave koja se posmatra.

Koncept regresije je lako razumljiv i implementiran je u skoro svakom statističkom paketu, a omogućava ispitivanje funkcionalne zavisnosti između varijabli, pa kao takav leži u osnovi mnogih savremenih statističkih tehnika. Zato se primena korelacione i regresione analize može naći u skoro svih akademskim oblastima ili primenjenoj nauci danas. Ovde će radi ilustracije biti navedeni samo neki primeri:

  • ekonomija - predviđanje potrošnje, predviđanje kretanja cena akcija na berzi i dr.,

  • psihologija - uticaj inteligencije na postignuće pojedinca, uticaj načina vaspitanja i kulturnih vrednosti pojedinca na njegov osećaj sreće i sl.,

  • poljoprivreda - kako predvideti količinu proizvodnje mleka na osnovu poznavanja skupa drugih podataka,

  • istorija - kako proceniti starost nekog objekta na osnovu drugih poznatih karakteristika objekta,

  • politika - predviđanje kretanja stanovništva na osnovu poznavanja pola, vremenskih uslova i stope nezaposlenosti u nekom regionu,

  • životna sredina - veza između kvaliteta vode i upotrebe zemljišta, tj. da li povećanom upotrebom zemljišta dolazi do zagađenja vodenih tokova i dr.