Share

Data lakes en datawarehouses kunnen niet zonder elkaar

18 december 2019

Veel organisaties zijn in de veronderstelling dat het hebben van een data lake betekent dat een data warehouse niet meer nodig is. Niets is echter minder waar; het één bestaat niet zonder het ander. Sterker nog, data lakes en datawarehouses versterken elkaar. Maar wat is het verschil en hoe halen organisaties meer uit hun data door een combinatie van beide toepassingen?

Het verschil tussen een data lake en een datawarehouse is vrij eenvoudig uit te leggen. Kort gezegd komt het erop neer dat een datawarehouse voorziet in de behoefte aan gestructureerde en afgebakende dataopslag waarbij vooraf al duidelijkheid is over output en resultaten. In een data lake kunnen behalve gestructureerde data ook ongestructureerde data opgeslagen worden, en op basis daarvan verschillende soorten analytics uitgevoerd worden, bijvoorbeeld op het gebied van visualisaties, big data processing, real-time analytics en machine learning. Met een data lake kan on the fly structuur aangebracht worden en kan flexibeler voorzien worden in een informatiebehoefte. Om optimaal gebruik te kunnen maken van data, is het van belang dat een datawarehouse voortbouwt op het data lake, en andersom. De volgende vier stappen bieden hier handvatten voor.

Stap 1: Analyseer de bestaande situatie

Zodra een organisatie de keuze voor digitale transformatie heeft gemaakt, is de eerste stap het bekijken van de bestaande bedrijfsprocessen. Welke informatie is er al beschikbaar binnen de organisatie en kan dus in een data lake worden opgenomen? En hoe zou deze informatie nog verder verrijkt kunnen worden? Probeer tijdens deze fase de doelstellingen zo helder mogelijk te formuleren, zodat duidelijk wordt welke datasets hiervoor nodig zullen zijn. In deze eerste fase wordt geëxperimenteerd, er wordt onderzocht waar in het proces verbeteringen kunnen worden doorgevoerd en hoe data hierbij toegevoegde waarde bieden.

Stap 2: Ontwikkelen van een proof of concept

In deze tweede fase worden data geïmporteerd en geïnjecteerd. Ofwel, data worden vermengd met andere data. Ook worden hier labels toegevoegd. Het opzetten van een dergelijk proof of concept is een soort ontdekkingsreis. Er wordt gekeken naar bronsystemen, doelgroepen, de voorkeur die het team van datascientists heeft voor bepaalde tools, et cetera. Al die zaken worden vervolgens gedeployed binnen een proof of concept. Hierin gaan datascientists ontdekken wat de verschillende mogelijkheden zijn. Neem hiervoor ruim de tijd. Een proof of concept heeft een gemiddelde looptijd van drie maanden tot een jaar.

Stap 3: Implementeren van het data lake

In de volgende stap wordt het data lake daadwerkelijk geïmplementeerd. Hierbij is het van belang om de implementatie stap voor stap uit te voeren. Nog te vaak wordt de fout gemaakt om van tevoren al rekening te willen houden met elk mogelijk scenario. Maar data lakes zijn zo groot en complex, dat gaat nooit lukken. De crux is om af te bakenen en telkens de scope iets te vergroten. Het vraagt om een agile manier van werken. Iedere keer wordt er bijgeleerd, worden data verrijkt en dus completer. Tijdens de implementatiefase moeten security en compliance centraal staan. Er dient goed nagedacht te worden over wie welke informatie mag inzien en welke data aan het data lake worden toegevoegd. Simpel gesteld geldt hiervoor: hoe anoniemer de data, hoe minder maatregelen getroffen hoeven te worden om veilig en compliant te zijn. Toegangsbeheer en encryptiemogelijkheden helpen daarbij. Maar ook het uitvoeren van pentesten en het groeperen van data.

Stap 4: Creëren van gestructureerde data

Sommige business-behoeften kunnen heel goed ingevuld worden behulp van ongestructureerde data uit het data lake. Maar voor het uitvoeren van bijvoorbeeld trendanalyses zijn gestructureerde data nodig. In dat geval wordt data uit het data lake gehaald en met behulp van een tool als Apache Hadoop vertaald naar informatie die gebruikt kan worden in een datawarehouse. In feite wordt dan een subset van informatie uit de enorme berg aan data in het data lake gehaald, die vervolgens wordt opgeslagen een geoptimaliseerde en efficiënte database: het datawarehouse.

Data lakes en datawarehouses voorzien allebei in een behoefte, die bovendien in elkaars verlengde liggen. Er zal binnen organisaties altijd behoefte zijn aan zowel gestructureerde als ongestructureerde data, waarbij de gestructureerde data uit een selectie en bewerking van ongestructureerde data bestaan. Met alleen de keuze voor een data lake haalt een organisatie niet het maximale uit de data, terwijl met alleen een datawarehouse er te weinig flexibiliteit is om in te kunnen spelen op veranderende behoeftes uit de business. Door deze twee te combineren, halen organisaties meer uit hun data.

Andrei Petrov

GESCHREVEN DOOR

Andrei Petrov

Continuity Engineer and IT Consultant at Sentia. He cofounded the Kubernetes Community in Milan, Italy. He is interested in Cloud technologies and Software Engineering

Contacteer onze expert!

Meer over dit onderwerp? Stel nu jouw vragen en krijg een helder antwoord!

Ja, ik wil een gesprek ››
×