- #TechTalk
- Datascience vs. Statistiek
Datascience vs. Statistiek
Max Wiertz
Data science en statistiek zijn nauw verbonden met elkaar. Sommigen beweren zelfs dat er geen verschil is. Niet zo vreemd overigens, als je bedenkt dat het verschil tussen data science en statistiek op het eerste oog lastig te herkennen is en de waarheid eigenlijk misschien wel in het midden ligt. Goed dus om de situatie te duiden.
In een reeks artikelen in onze rubriek #techtalk wil ik je graag op een niet-technische, conceptuele manier kennis laten maken met data science. De insteek van deze artikelen is het geven van een helikopterview, waarmee ik je wil helpen om data-professionals beter te begrijpen en constructieve discussies met hen te voeren. Ik ben ervan overtuigd dat dat de basis legt voor succesvolle data science projecten. Hopelijk weet ik je ook te inspireren om na te denken over de mogelijkheden van data science binnen je eigen organisatie. Er liggen echt een hoop kansen!
Data science en statistiek worden, net als data science en BI (zie Data science vs BI, het vorige artikel in deze reeks) vaak in één adem genoemd. Je hoort zoals gezegd zelfs soms dat mensen geen verschil zien tussen statistiek en data science. In zekere zin ook niet vreemd om dat te denken. Het is in ieder geval een vraag die data scientist, statistici en een hoop anderen bezighoudt, en op dit moment is er nog geen sprake van een eenduidig en algemeen geaccepteerd antwoord. Er zijn vooral mensen met meningen. En ook ik heb een mening. ;)
Wetenschap
Voordat ik die mening deel, wil ik echter even kort ingaan op de wetenschappelijke kant van data science. In mijn eerste artikel in deze reeks (‘Data science, daar moeten wij ook iets mee…’) ben ik al even kort ingegaan op het fenomeen dat data science - of data-wetenschap - een wetenschappelijk kant en een meer creatieve (kunst-) kant heeft. Die wetenschappelijke kant zit hem in de exacte wetenschappen, waaronder wiskunde, statistiek en informatica. Daaruit worden veel elementen toegepast bij de kunst om bruikbare kennis en inzichten uit data te halen. In die zin is het dan ook een echte wetenschap; data science verklaart dingen aan de hand van feiten en kenmerken die tot dan toe onbekend waren, data science maakt gebruik van een systematische aanpak en de resultaten zijn reproduceerbaar.
Toch verschilt de wetenschappelijke benadering van data science van die van andere sciences. In tegenstelling tot andere wetenschappen, zoals natuurkunde, verklaart data science de dingen niet direct, maar vanuit de data die die dingen produceren. Dat is wat data science zo speciaal maakt. Data science kan allerhande verschillende dingen verklaren op basis van dezelfde aanpak, zolang die dingen maar data produceren. Die te verklaren dingen kunnen werkelijk vanalles zijn. Het maakt niet uit of ze op het vlak van de sociale wetenschappen of de kernfysica liggen.
En hoewel dat misschien een soort magie lijkt, is het dat zeker niet. Bij data science wordt gebruik gemaakt van een unieke aanpak waarbij de wetenschap zichzelf abstraheert van het daadwerkelijke fenomeen en enkel naar de data kijkt die het betreffende fenomeen produceert. Dat klinkt abstract, laat ik het verduidelijken met een voorbeeld: het voorspellen van het resultaat (het aantal ogen) van het gooien van een dobbelsteen. Als we er data science op loslaten dan maakt het ons helemaal niet uit wat de exacte vorm van de dobbelsteen is, wat het gewicht van de dobbelsteen is, met welke kracht en snelheid we gooien, met welke zwaartekracht we te maken hebben, op welke ondergrond we gooien, enzovoort. In plaats daarvan gooien we eenvoudigweg heel vaak met de dobbelsteen en registreren elke keer het resultaat. Zo gaan we de uitkomst voorspellen aan de hand van de data die het gooien met een dobbelsteen ‘produceert’. Kortom, het is de manier waarop data science dingen verklaart die verschilt van andere wetenschappen.
Verschillen
Data science is ontstaan als antwoord op de nieuwe data-uitdagingen van de huidige tijd. Op dit moment beschikken we over veel meer data dan waar statistici in het verleden over konden beschikken. Daarnaast is de vraag naar praktisch data-onderzoek in de afgelopen jaren exponentieel toegenomen. Al de petabytes aan data die de mensheid dagelijks genereert ligt namelijk niet kant-en-klaar te wachten tot ze wordt opgepakt om er vervolgens data analytics (zie Analytics, de basis voor data science) op los te laten. Helaas zit het overgrote deel van deze in allerhande verschillende databases, applicaties en systemen met ieder een eigen manier om de data te benaderen. Bovendien zijn de verwachtingen van data driven projecten vandaag de dag, ingegeven door spectaculaire voorbeelden en succesverhalen, hooggespannen. Mensen verwachten vaak niet alleen conclusies en bevindingen als resultaat van data-analyse, ze verwachten een data-product - een toepassing die onderscheidende voordelen en inzichten biedt. Bijvoorbeeld in de vorm van een dashboard of een applicatie. Invulling geven aan de uitdagingen die bij het verwezenlijken hiervan horen, vraagt om andere en bredere (technische) vaardigheden dan waarover typische statistische (wiskundigen) beschikken.
Aan de andere kant, gezien de gigantische hoeveelheden beschikbare data worden data scientists normaliter niet geconfronteerd met de grote uitdaging van statistici: het vellen van oordelen over grote dingen aan de hand van kleine steekproeven. Deze typische uitdaging vergt juist heel veel wiskundige en statistische kennis en vaardigheden. Met gigantische datasets is het vele malen makkelijker om een gegenereerd AI-model (zie Machine Learning zo eenvoudig mogelijk uitgelegd) te valideren aan de hand van data uit de echte wereld, dan om tijd te steken in het ontwikkelen van het perfecte theoretische model. Als gevolg daarvan durf ik te stellen dat data science zeker vraagt om goede kennis en vaardigheden in de statistiek, maar dat een data scientist geen top-statisticus hoeft te zijn.
Dat geschreven hebbende, terug naar mijn mening over het verschil tussen data science en statistiek. Ik denk dat data science niet hetzelfde is als statistiek, of dat het de nieuwe, fancy naam voor statistiek is. Het is volgens mij een compleet eigen vakgebied - waar statistiek een belangrijke en onmisbare component van is - dat een eigen naam verdient; data science!
Met dit artikeltje over data science vs statistiek heb ik samen met de vorige twee artikelen het vakgebied data science, denk ik, aardig in kaart gebracht. Daarmee rijst de vraag wat een data scientist dan zoal doet tijdens het uitoefenen van zijn vak. Daar zal ik de volgende keer nader op ingaan.