Glavna prednost open-source softverskih paketa je njihova cena. Oni su besplatni za komercijalnu i nekomercijalnu upotrebu. Međutim, ovakva pogodnost nosi i određene nedostatke. Svaki open-source i besplatni paket ima svoje boljke.
Generalno, veliki korisnici obično zahtevaju podršku proizvođača kada se javi neki problem u instalaciji ili radu softvera, kao i garanciju ispravnosti rada. Obzirom na karakter open-source softvera, nije realno očekivati da velika organizacija dovede sebe u poziciju da probleme rešava tako što šalje zahteve za ispravljanje grešaka u softveru na SourceForge portalu.
Važna stvar je i postojanje dokumentacije i mogućnost obuke. Iako je ovde stvar nešto bolja nego po prethodnom pitanju, za mnoge open-source statističke pakete ne postoji dovoljno dobra dokumentacija, odnosno nedostaju mogućnosti za obuku. Ipak, za najpopularnije se mogu pronaći ekstenzivni i napredni on-line ili off-line kursevi koji su veoma često i besplatni ili po veoma niskim cenama.
Mnogi besplatni statistički paketi pokazuju i slabost po pitanju sveobuhvatnosti statističkih tehnika iz domena za koji su napravljeni, kao i razne tehničke nedostatke. Razlozi se opet nalaze u prirodi open-source ili besplatne licence: obzirom na odsustvo značajnije komercijalne vrednosti za autore, oni veoma često ne mogu da odvoje dovoljno vremena za punu implementaciju svih potrebnih softverskih rešenja. Tehnički problemi se u velikoj meri odnose i na popularna open-source rešenja.
Ova grupa statističkih paketa se može podeliti po obuhvatnosti statističkih tehnika na one koji pretenduju da obuhvate sve ili većinu značajnih statističkih tehnika za određeni domen i na parcijalna rešenja koja se mogu pronaći na internetu, a odnose se uglavnom na jednu, dve ili manji skup statističkih tehnika kojima se rešava specifičan problem iz određene naučne oblasti.
R
R je programski jezik i okruženje za statističko izračunavanje i crtanje grafikona. To je GNU projekat veoma sličan S jeziku i okruženju koje je razvijeno u Bel laboratorijama. Može se smatrati da je R drugačija implementacija jezika S. Iako postoji značajna razlika, većina S koda će raditi u R-u neizmenjena. Radi na širokom spektru UNIX platformi, Windows i MacOS operativnim sistemima.
Prvi put se pojavio 1990-tih i služio je kao implementacija S statističkog programskog jezika. Jezgro tima čini 20 ljudi, a još 50 ispravljaju greške. Najveći kvaliteti su ekosistem paketa (ako postoji statistička tehnika, sve su šanse da već postoji R paket za nju) i grafičke mogućnosti. Najviše se koristi u oblasti finansija i statistici.
R je integrisani skup softverskih rutina za manipulaiju podacima, kalkulacija i grafički prikaz koji uključuje:
- rutine za rukovanje i skladištenje podataka,
- skup operatora za kalkulacije nad nizovima, a naročito matricama,
- veliku, koherentnu i integrisanu kolekciju alata za analizu podataka,
- grafičke rutine za analizu i prikazivanje podataka na ekranu ili na papiru i
- dobro razvijen, jednostavan i efektivan programski jezik koji ima grananje, iteracije, korisnički definisene funkcije i I/O rutine.
Pojam “okruženje” treba da okarakteriše R kao planski razvijen koherentni sistem, a ne kao postpeno povećavanje broja veoma specifičnih i nefleksibilnih alata, kao što je to slučaj kod većine drugih statističkih paketa. Uz instalaciju R-a stiže i standardno razvojno okruženje, a osim njega, trenutno je popularno okruženje Studio R koji proizvodi istoimena firma, a koje nudi nešto naprednije opcije. Studio R u velikoj meri podseća na integrisana okruženja za razvoj u drugim programskim jezicima i ima sve alate potrebne za rad sa R-om:
- editor,
- pomoć,
- prozor za output,
- debugger,
- razne dijagnostičke alate,
- inspektor varijabli i dr.
R je dizajniran kao pravi programski jezik koji omogućava korisnicima dodavanje novih funkcionalnosti putem definisanja novih funkcija. Veći deo sistema je napisan u R-u. Za zadatke koji zahtevaju intenzivno računanje, a samim tim i veliku brzinu, omogućeno je povezivanje i pozivanje C, C++ i Fortran koda u realnom vremenu. Napredni korisnici mogu pisati C kod i manipulisati R objektima direktno.
R se proširuje putem paketa. Postoji osam paketa koji se isporučuju sa instalacijom R-a, a mnogi dodatni se nalaze na CRAN sajtovima i pokrivaju široku oblast savremene statistike. Dodatni paketi se instaliraju jednostavno iz komandne linije, nakon čega R okruženje pronađe lokaciju paketa na internetu, sačuva ga na lokalni disk, raspakuje i pripremi za upotrebu. Pošto za proširenje R-a nije potrebna ničija dozvola, R zajednica veoma aktivno doprinosi stvaranjem novih paketa, tako da danas postoji nekoliko hiljada paketa dostupnih preko CRAN-a. Pošto je jako vezan za akademsku zajednicu, svaka nova oblast studija verovatno ima R paket, tako da R prati trendove.
R je veoma objektno orijentisan i više je od statističkog programskog jezika. R je postao alat za data mining. Velika snaga R-a leži u generisanju statičke grafike koja može da proizvede kvalitetne grafikone, uključujući i matematičke simbole. Kroz dodatne pakete je moguće kreirati i dinamičke i interkativne grafikone.
Najveći problem R-a je organizacija memorije, zbog čega ima problem sa veličinom podataka. U besplatnoj verziji, svi podaci se učitavaju u RAM. Zato je veličina operativne memorije računara na kojem je pokrenut ograničenje za veličinu podataka koje je moguće obraditi u R-u. Postoji i verzija koja se plaća, Revolution R Enterprise u vlasništvu Microsoft-a, a koja nema problem sa memorijom jer radi dinamički swap. Razlika u brzini je 15-20 puta.
Takođe, programeri koji dolaze iz drugih programskih jezika smatraju R čudnim. Osnovni programerski principi proističu iz programskih jezika 60-tih godina. U tom smislu, R je stara tehnologija, što i dovodi do problema upravljanja memorijom kada se radi sa velikim skupovima podataka.
Postoji i problem interaktivnosti koji se prevazilazi kombinovanjem R-a sa JavaScript-om. Na ovim osnovama trenutno je najpopularnija biblioteka Shiny koja olakšava izradu interaktivnih R skriptova koji se pokreću preko web browser-a.
U prilog korišćenju R-a ide njegova široka upotreba u industriji i akademskoj zajednici, snaga i fleksibilnost, veoma velika baza korisnika, mnoštvo knjiga i dokumentacije, i dostupnost nekoliko kvalitetnih okruženja za rad. Međutim, R nije prijatan prema korisniku i veoma se teško uči u odnosu na druge statističke pakete.
Gretl
(Gnu Regression, Econometrics and Time-series Library)
Gretl je namenjen rešavanju ekonometrijskih problema i analizi i modelovanju vremenskih serija, te na neki način predstavlja besplatni pandam EViews programu.
Ima problem u radu sa velikim podacima.
Gretl dolazi sa opcijama za testove stacionarnosti, dozvoljavajući korisniku da izabere vrstu testa. Predviđanja se rade automatski i uključuju aktuelne vrednosti, estimaciju tačke, predviđanje intervala i grafikon. Posebno je pogodan za diferenciranje ili serije koje uključuju autokorelaciju.
Gephi
Gephi je besplatni open-source statistički alat namenjen analizi grafova (mreža). Postoje verzije za sve glavne operativne sisteme: Windows, Mac OS i Linux.
Gephi omogućava vizualizaciju i analizu raznih vrsta mreža, otkrivanje strukture veza između objekata (analizu linkova), analizu i kreiranje bioloških i društvenih mreža. Kao rezultat rada dobijaju se svi važni metrički pokazatelji mreže: stepen mreže, povezanost, bliskost, gustina, dužina staze, prečnik mreže, modularnost, koeficijent klasterovanja i dr.
Gephi ne zahteva programerske veštine a ima mogućnosti za proširivanje putem instalacije dodataka. Postoji internet zajednica koja radi na razvoju dodataka, tako da je moguće pronaći gotova rešenja za mnoge standardne probleme.
PSPP
PSPP teži da bude besplatni ekvivalent SPSS-a. Krajnji plan je potpuno kopiranje funkcionalnosti SPSS-a, ali 2016 godine, iako se razvija još od 1998. godine ovaj plan nije daleko odmakao. Razlog za to leži u tome što na njegovoj izradi radi veoma mali tim, čak manji nego kod R-a.
Iako po korisničkom interfejsu i organizaciji programa veoma podseća na SPSS i nema problema sa veličinom podataka, njegov najveći problem je veoma mali skup implementiranih statističkih procedura.
Komentari (0)