Velké organizace se každý den aktualizují pomocí technologií, které usnadňují a lépe vyhovují každé společnosti, a čelí velkým výzvám, které jim umožňují objevovat a analyzovat nad rámec nástrojů, které se denně používají, právě pro ně byla vytvořena co je ve španělštině známé jako Big Data nebo Mass Data, což jsou rozsáhlé systémy pro ukládání dat.
Tento fenomén ukládání dat je zakomponován do nových informačních a komunikačních technologií. Big Data je to, co zabírá všechny aktivity související se systémy, které ukládají velkou sadu dat. Jednou z hlavních charakteristik je, že manipuluje s velkým množstvím informací, shromažďuje je, klasifikuje a poté ukládá. Účelem této sbírky je vytvářet statistické zprávy pro použití organizacemi, mimo jiné jako analýza obchodních plánů, reklamy, špionáže.
Úroveň úložiště v průběhu let rostla, od roku 2008 byla úroveň úložiště měřena v petabytech na zettabytech dat. Odborníci pravidelně hledají nová opatření pro ukládání dat, protože existují určité oblasti, kde je třeba ukládat velké množství dat, a stávající programy nejsou příliš optimální.
Existují tisíce nástrojů pro vytváření a správu velkých dat, ale ne všechny jsou stejné, existují tři typy dat, kterými jsou:
- Strukturovaná data: jsou data, která mají velmi konkrétní strukturu, jako jsou data, čísla a další. Příkladem jsou tabulky.
- Nestrukturovaná data: obvykle se jedná o data, která mají konkrétní formát a nelze je uložit do tabulky, natož manipulovat s informacemi, příklad dokumentů PDF.
- Polostrukturovaná data: tento typ dat nemá konkrétní formát, protože má svá vlastní polostrukturovaná metadata, příkladem jsou kódy HTML.