Data science, daar moeten wij ook iets mee…

Max Wiertz
01-04-2021

Een opmerking die ik, naar verwachting, vaak zou horen als ik mocht meeluisteren bij overleggen in veel organisaties. Helemaal niet vreemd natuurlijk. Vrijwel iedereen heeft gehoord van ‘data science’. Vaak in een artikel over een nieuw fantastisch project van een nieuwe startup of grote techbedrijven als Google, Amazon, Spotify of Facebook, waarbij je het gevoel krijgt dat je gek bent als je niet ook aan een dergelijk project begint. Dit soort artikel staan bol van buzzwords als data science, AI, machine learning, deep learning, natural language processing, computer vision, neural networks enzovoorts. Helaas vaak wel zonder uit te leggen wat ze eigenlijk betekenen. Tijd om daar verandering in te brengen!

In een reeks artikelen in onze rubriek #techtalk wil ik je graag op een niet-technische, conceptuele manier kennis laten maken met data science. De insteek van deze artikelen is het geven van een helikopterview, waarmee ik je wil helpen om data professionals beter te begrijpen en constructieve discussies met hen te voeren. Ik ben ervan overtuigd dat dat de basis legt voor succesvolle data science projecten. Hopelijk weet ik je ook te inspireren om na te denken over de mogelijkheden van data science binnen je eigen organisatie. Er liggen echt een hoop kansen!

In dit eerste artikel wil ik starten met de vraag: wat is data science eigenlijk precies? Daarmee leg ik de basis om op verder te bouwen. Zo ga ik je in het volgende artikel meer vertellen over de verschillen en overeenkomsten tussen data science en BI (business intelligence).

Historie

Het was in 2008 dat twee analisten van het zakelijke online platform LinkedIn zich voor het eerst ‘data scientist’ noemden. Zij vonden dat een term die goed past bij het werk dat zij deden. Zij haalden waardevolle, bruikbare inzichten en kennis uit de gigantische hoeveelheid data die via LinkedIn werd verzameld en opgeslagen.

Intussen is data science verworden tot een min of meer erkend vakgebied, compleet met een eigen jargon. En wel een heel breed vakgebied; de hoeveelheid kennis en vaardigheden waarover data scientists moeten beschikken is indrukwekkend. Omdat het zo breed is, is het goed om data science als vakgebied zo goed mogelijk te definiëren.

Laat ik beginnen met de opmerking dat dat wat we nu data science noemen niet allemaal nieuw is. Veel van de dingen die data scientists doen, doen we al jaren. Veel van de technieken voor data-analyse (zie Analytics, de basis voor data science) worden al tientallen jaren gebruikt. En zelfs de meeste concepten die nu pas grote(re) bekendheid krijgen, bestaan al heel lang.


Zo heeft de Britse wiskundige Alan Turing zijn beroemde Turingtest - een methode om de intelligentie van een machine te meten (zie De Turingtest, een klassieker) - bijvoorbeeld al in 1950 gepubliceerd. Toch krijgt data de laatste jaren bovengemiddeld veel aandacht gekregen. Denk maar eens aan alle aandacht voor bijvoorbeeld big data, AI en machine learning.

Aandacht

Het zijn met name twee dingen die ervoor zorgen dat data de laatste jaren veel aandacht krijgt:

  • rekenkracht;
  • een immense hoeveelheid data.

Om te beginnen hebben we sinds het afgelopen decennium ongeveer de beschikking over voldoende rekenkracht (computers die snel genoeg zijn om de complexe berekeningen te doen om algoritmes te laten werken). 

Daarnaast verzamelen we, nu ons leven zich meer en meer online afspeelt, over immense hoeveelheden data. Genoeg zelfs om computersystemen zelf te laten leren, daarover in een volgend artikel meer.

Daarmee ontstond ineens de situatie dat alle ingrediënten voorhanden waren om de briljante ideeën van verschillende wetenschappers, wiskundigen, programmeurs en visionairs van de afgelopen 75 jaar echt leven in te blazen. Zo ontstond langzaam maar zeker een ‘nieuw’ vakgebied. Dat zijn we data science gaan noemen.

Definitie

We hebben al gezien dat data science gaat over het verkrijgen van inzichten en kennis uit grote hoeveelheden (gestructureerde en ongestructureerde) data. Om deze kennis en inzichten te verkrijgen maken data scientists gebruik van technieken uit de computerwetenschappen (software engineering), statistiek en wiskunde. De verworven kennis en inzichten wordt vervolgens gebruikt om vragen van organisaties te beantwoorden en/of organisaties te helpen om de bedrijfsvoering te verbeteren.

Wat er op het snijvlak ligt van de genoemde vakgebieden is wat we nu onder data science verstaan. Bovenstaande afbeelding geeft dit visueel weer. Zoals gezegd is het een breed vakgebied en dus zijn er ook sub vakgebieden of expertisegebieden ontstaan. De algemene consensus lijkt dat er grofweg drie expertisegebieden te onderkennen zijn: data engineering, data-analyse en data science. Waarbij dat laatste expertisegebied in mijn ogen beter onder de noemer artificial intelligence of machine learning gevangen kan worden. Het overkoepelende vakgebied wordt immers meestal ook aangeduid met data science en dat is verwarrend.

De term data science suggereert overigens dat het een vorm van wetenschap is. Tegelijkertijd zie ik het  ook als een soort van kunst. Een goede data scientist heeft niet alleen kennis van algoritmes, statistiek, programmeren, datamanagement en analysetechnieken, maar zeker ook van visualisatietechnieken, storytelling en interaction design. Deze laatste aspecten zijn in zekere zin meer kunst dan wetenschap. Een data scientist beschikt bovendien over de creativiteit om al deze vaardigheden en technieken steeds op verschillende manier te combineren en in te zetten voor iedere unieke vraag of uitdaging.

Tot slot is het om van informatie tot bruikbare kennis en inzichten te komen voor een data scientist van belang om een affiniteit met de business te ontwikkelen. Dat helpt om de vragen van de business te begrijpen, aan te scherpen en wellicht zelfs te helpen stellen.

De beste definitie van data science is volgens mij dan ook wellicht:

‘Data science is de kunst om bruikbare kennis en inzichten uit (ruwe) data te halen.’