Големи данни срещу хранилища на данни. Каква е разликата?

Технологията напредва с темпове, които е невъзможно да бъде в крак, а застаряващите ръководители на технологии скоро ще открият, че всички тези курсове по бакалавърска технология бързо остаряват. Ако сте главен технологичен директор (CTO) в голяма фирма, нямате много време да се запознаете с новите технологии, защото сте твърде заети с борбата с пожарите и се уверете, че изглеждате добре на следващото заседание на борда в пред всички останали хора, които се опитват да направят същото. В даден момент може да се окажете, че се питате: каква е разликата между големи данни срещу складове за данни?

Всеки специалист по технологии ще бъде запознат с това, какво представлява базата данни. Това е просто колекция от данни, която се разраства с течение на времето и от която научавате интересни неща, като задавате заявки. Тогава има представата за склад на данни, каквото означава името. Нека не влизаме в целия разговор „Кимбол срещу Инмон“ и да поддържаме това наистина просто.

Склад за данни е множество различни бази данни в организация, които могат да бъдат свързани с общ ключ. Например, може да свържем записи в множество бази данни, използвайки уникално поле, наречено CUSTOMER_ID. Ето бази данни в различни отдели, където съществуват записи, които може да искаме да свържем с помощта на CUSTOMER_ID:

Използвайки CUSTOMER_ID, след това можете лесно да разпечатате на една страница, списък на всички фактури, които не са платени, както и списък с 10-те най-нови заявки за обслужване, които продавачът може да вземе със себе си на търговска среща. Разбира се, днес просто използваме Salesforce за всичко това, но този прост пример ви дава представа колко полезно може да бъде свързването на различни източници на данни. За това се състоят хранилищата с данни, освен че го правят още крачка и използват свързаните данни, за да вземат решения на много високи нива. Когато изграждате склад за данни, обикновено знаете на кои въпроси може да искате да отговорите, тъй като някой човек на ниво С изисква да бъдат измерени определени ключови показатели за ефективност (KPI). Не трябва просто да изграждате хранилища с данни, за да ги изградите, защото това е скъпа задача. Сега, нека поговорим за „големите данни“ и складовете за данни.

Първото нещо, което трябва да дефинираме, е терминът „големи данни“, който в голяма степен определя себе си. Вероятно сте чували често цитираната статистика, че 98% от всички данни са създадени през последните 2 години. Това са големи данни. Всички огромни набори от изчерпване на данни, които сега се генерират, могат да се добиват (помниш ли извличането на данни?), За да извлечем прозрения. В днешния високотехнологичен свят може би ще искаме да генерираме прозрения, за които не знаем, че съществуват. Доналд Ръмсфелд умело ги споменава като „неизвестните неизвестни“ неща, за които не знаем, за които не знаем. В света на психологията това понятие се нарича Йохари Прозорец. Знаеш, че човекът от продажбите, който не е наясно с факта, че самото им съществуване кара всички около тях да искат да дръпнат Питър Пан от най-близката височина? Фактът, че човекът не знае колко са досадни - и фактът, че хората около този човек не могат точно да си сложат пръст защо - е „неизвестна неизвестност“, тъй като никой не знае защо Роб в продажбите е просто голям , мазнини, отвратително убождане. Както и да е, продължаваме напред.

Публикувано на 7wData.be.