Big data
Koncept veľkých dát (Big Data) patrí k dnes k najskloňovaňejším pojmom v teórii biznisu. Každý vie, že dáta je potrebné zbierať a vyhodnocovať. Kedy však majitelia alebo manažéri firmy dokážu dáta využiť spôsobom, ktorý im prinesie konkurenčnú výhodu? Koľko dát tvorí veľké dáta? Ako dlho je potrebné dáta zbierať? Na koľko musia byť presné?
Veľké dáta neznamená veľa dát. Základom každej definície sú takzvané 4V: volume, velocity, variety a veracity.
Volume, teda objem, hovorí o tom, koľko dát je potrebné mať, aby sa s nimi dalo ďalej pracovať a aby výsledky, ktoré z dát analytici získajú boli reprezentatívne. Samozrejme platí čím viac dát, tým lepšie. Ak však dataset neobsahuje veľa chýb, aj z menšieho počtu dát je možné spraviť zaujímavé závery.
Veracity, teda frekvencia alebo rýchlosť, vyjadruje tempo, ktorým nové dáta vstupujú do datasetu. Ideálne je, ak model počíta s dátami, ktoré sú aktualizované v reálnom čase. Ak takáto aktualizácia nie je možná, je potrebné pracovať s najposlednejšou verziou a po získaní ďalšej overiť dosiahnuté výsledky.
Variety, teda variabilita alebo rôznorodosť, znamená, že na zodpovedanie kladených otázok je potrebné mať čo najväčší počet premenných, medzi ktorými existujú korelácie a závislosti. Nestačí mať napríklad dáta o cene a objeme predaja, ale aj dáta o čase, charakteristikách výrobkov, zákazníkov, konkurencii a ďalšie.
Veracity, teda pravdivosť alebo presnosť, hovorí o tom, že dáta musia byť čo najkvalitnejšie. Najčastejším problémom sú chyby pri zbere dát, spôsobené technickým zlyhaním alebo ľudským faktorom. Každú premennú v rámci datasetu je potrebné najskôr individuálne preskúmať a zistiť jej správnosť, aby výsledok nebol skreslený a tým nesprávny.