- #TechTalk
- Wat doet een data scientist?
Wat doet een data scientist?
Max Wiertz
Als we data science definiëren als ‘de kunst om bruikbare kennis en inzichten uit (ruwe) data te halen’, dan is dat een prima definitie. De definitie zegt echter weinig over wat een data scientist nu daadwerkelijk allemaal doet om deze kennis en inzichten uit data te halen. En ook niet over de indrukwekkende hoeveelheid vaardigheden die een data scientist in huis moet hebben. Tijd om dat eens op een rijtje te zetten.
In een reeks artikelen in onze rubriek #techtalk wil ik je graag op een niet-technische, conceptuele manier kennis laten maken met data science. De insteek van deze artikelen is het geven van een helikopterview, waarmee ik je wil helpen om data-professionals beter te begrijpen en constructieve discussies met hen te voeren. Ik ben ervan overtuigd dat dat de basis legt voor succesvolle data science projecten. Hopelijk weet ik je ook te inspireren om na te denken over de mogelijkheden van data science binnen je eigen organisatie. Er liggen veel kansen; zonde om die te laten liggen!
Data science gaat in de basis altijd over het (kwantitatief, cijfermatig) analyseren van data om er bruikbare kennis en inzichten uit te halen die leiden tot beter gefundeerde beslissingen. Dat doet een data scientist door gebruik te maken van technieken uit de computerwetenschappen (software engineering), statistiek en wiskunde. Wat er op het snijvlak ligt van de genoemde vakgebieden is wat data science wordt genoemd.
Om te kunnen werken als data scientist moet je zodoende onder meer speciale tools en software kunnen gebruiken en zogenaamde algoritmes kunnen schrijven om data te ontsluiten, integreren, verrijken, structureren, analyseren en interpreteren. Een data scientist is enerzijds een programmeur die meer verstand heeft van statistiek en algoritmes dan andere programmeurs. Anderzijds een statisticus die meer verstand heeft van programmeren dan andere statistici.
Veelal is een data scientist ook betrokken bij het analyseren van de bedrijfsvoering om de behoeftes van het bedrijf in kaart te brengen. Dat betekent dat affiniteit met bedrijfskunde en goede communicatieve vaardigheden eveneens belangrijk zijn. Daarnaast is het een must dat een data scientist beschikt over presentatie- en visualisatie-vaardigheden zodat hij of zij op basis van analyses en bevindingen tot aanbevelingen komt en mensen weet te overtuigen om op basis daarvan bepaalde besluiten te nemen.
De bezigheden van een data scientist kunnen onder meer het volgende omvatten:
-
Identificeren van vragen vanuit de bedrijfsvoering.
-
Zoeken naar kansen en mogelijkheden in data.
-
Opschonen en verwerken van ruwe data tot bruikbare data.
-
Detecteren van onregelmatigheden in data.
-
Correleren van verschillende soorten data.
-
Herkennen van patronen in data.
-
Selecteren van de beste statistische methode voor beantwoording/besluitvorming.
-
Selecteren en inzetten van de beste voorspellende algoritmes voor beantwoording/besluitvorming.
-
Beschrijven en visualiseren van ontdekte inzichten en voorspellingen.
-
Rapporteren en delen van gegenereerde inzichten en kennis met het management en andere betrokkenen.
-
Onderzoeken en ontwikkelen van mogelijkheden om nog meer uit bestaande data te halen.
-
Beheren en optimaliseren van datastromen en data-analyses.
Data scientist is, net als data science overigens, een veelomvattend containerbegrip. Zo zien we naast data scientist regelmatig ook de functies data engineer en data-analist langskomen als functietitel. Wij zien al deze verschillende functies meer als verschillende rollen of expertisegebieden binnen het vak van de dataprofessional. Zo rijst al snel de vraag: data scientist, data engineer of data-analist? In het volgende artikel in deze reeks ga ik daar verder op in.