Data Science vs BI

Max Wiertz
09-04-2021

Data science en BI (Business Intelligence) hebben veel gemeen. Toch zijn er fundamentele verschillen. Dat schept verwarring, onzekerheid en onduidelijkheid. Als je dan ook nog regelmatig hoort dat data science vergeleken wordt met statistiek, dan is de verwarring compleet. Tijd dus om een en ander te duiden!

In een reeks artikelen in onze rubriek #techtalk wil ik je graag op een niet-technische, conceptuele manier kennis laten maken met data science. De insteek van deze artikelen is het geven van een helikopterview, waarmee ik je wil helpen om data professionals beter te begrijpen en constructieve discussies met hen te voeren. Ik ben ervan overtuigd dat dat de basis legt voor succesvolle data science projecten. Hopelijk weet ik je ook te inspireren om na te denken over de mogelijkheden van data science binnen je eigen organisatie. Er liggen echt een hoop kansen!

In mijn vorige artikel in deze reeks - ‘Data science, daar moeten wij ook iets mee…’ - heb ik mijn best gedaan om op een begrijpelijke manier uit te leggen wat data science is. Dat is een goed begin, maar er is nog veel meer te vertellen en uit te leggen. Kortom, tijd voor een vervolg. In dit artikel wil ik je graag meer vertellen over de verschillen en overeenkomst tussen data science en BI. De volgende keer duik ik in de verschillen en overeenkomsten tussen statistiek en data science.

Overeenkomsten en verschillen

Vanuit een business-perspectief zit er niet veel verschil tussen data science en business intelligence. Beide disciplines ondersteunen het nemen van (gefundeerde) beslissingen op basis van kennis en inzichten verkregen uit het analyseren van data. Dat is waarom vaak de aanname wordt gedaan dat data science een soort slimmere vorm van BI is. Vanuit deze aanname volgt de volgende aanname; dan kan data science met dezelfde, bestaande/bekende (infra)structuur, processen en mensen gedaan worden als waar we BI-projecten mee doen.

En dat is waar een probleem begint te ontstaan. Als we naar data science kijken als in AI (zie Artificial Intelligence zo eenvoudig mogelijk uitgelegd) of ML (zie Machine Learning zo eenvoudig mogelijk uitgelegd), dan is het verschil tussen BI en data science echter zo fundamenteel dat een hoop dingen anders zijn; verwachtingen, aanpak, betrokken mensen en technologie, enzovoorts. Het punt is vooral dat je om dit te zien vanuit een ander perspectief moet kijken.

 

Het grote verschil ligt in de soort vragen die je met BI en data science kunt beantwoorden. Waar BI gaat over het beantwoorden van vragen (op basis van data) aan de hand van een bekende aanpak, gaat data science over het beantwoorden van vragen die nog nooit eerder gesteld zijn en waarbij de aanpak nog onbekend is.

Mensen uit de business stappen naar een BI-team met methodes, formules of algoritmes die zij kennen en vertrouwen. Aan de hand daarvan gaan BI-professionals aan de slag om antwoorden te geven op vragen.

Een data science-team (of, eigenlijk beter, in mijn ogen, AI-team) krijgt daarentegen juist de vraag om aan de hand van de beschikbare data antwoorden te vinden op vragen die nooit eerder gesteld zijn en waarbij de weg naar het antwoord nog onbekend is. Het is dan aan de data scientists (of, beter, AI-professionals) om verschillende benaderingen uit te proberen en de beste te selecteren. Waarbij het vervolgens de kunst is om de balans te vinden tussen nauwkeurigheid, begrijpbaarheid en bruikbaarheid en tegelijkertijd rekening te houden met de capaciteit van de productieomgeving. Is het juiste model of algoritme geselecteerd, beproefd en geaccepteerd, dan wordt het weer meer een BI-aangelegenheid, dan een data science of AI-aangelegenheid.

 

Uiteraard is het bovenstaande uiterst arbitrair. De wereld is niet zo zwart-wit en de werkelijkheid is veel genuanceerder. Ondanks de grote verschillen zijn er ook grote overeenkomsten. Om te beginnen al zijn de databronnen vaak dezelfde en worden ze op een vergelijkbare manier ontsloten. Ook een deel van de gebruikte infrastructuur en hulpmiddelen komen overeen. Let wel; een deel! Data science- of AI-teams maken vaak voor een deel van hun werk juist gebruik van hulpmiddelen en systemen die in de, meer gevestigde, BI-omgeving onbekend zijn. Een kwestie die overigens niet te onderschatten is en vaak al een eerste horde bij een AI-project is. Kan een AI-specialist bijvoorbeeld omwille van een corporate policy niet de juiste hulpmiddelen gebruiken, omdat deze niet bekend zijn en/of niet ondersteund worden door de IT-afdeling, dan kan hij/zij zijn werk niet doen. En dat kan zomaar tot een substantiële vertraging in een project leiden of het zelfs laten mislukken!

Maar dat terzijde. Samengevat kunnen we, als we het heel strikt bekijken, stellen dat BI gaat over de known unknowns en data science (of AI) gaat over de unknown unknowns. Dat is het fundamentele verschil en hoewel dat op het eerste oog slechts een formeel verschil lijkt, misschien niet eens significant, heeft het verregaande consequenties.

Consequenties

Het feit dat je in een data science- of AI-project te maken hebt met unknown unknowns betekent om te beginnen al dat je de kans op een succesvolle afronding van een dergelijk project nauwelijks kunt voorspellen. Ook kun je niet voorspellen hoe de oplossing er uit gaat zien en hoe moeilijk deze oplossing te implementeren is. Een business case opstellen en een planning maken voor een AI-project is zodoende een enorme uitdaging, misschien zelfs onmogelijk.

Een AI-project vergt bovendien, omwille van deze unknown unknowns, vaak een trial-and-error-aanpak. In die omstandigheden is het noodzakelijk om over hulpmiddelen te beschikken die dit ondersteunen en de last van het vaak opnieuw beginnen zo beperkt mogelijk maken. Dat betekent vaak dat nieuwe software, libraries, frameworks, maar zeker ook datasets makkelijk beschikbaar moeten zijn. Typische corporate omgevingen zijn hier meestal niet op ingericht. Omwille van de stabiliteit en voorspelbaarheid zijn de IT-omgevingen daar ingericht op betrouwbaarheid en controle. Aanpassingen vragen het volgen van strikte protocollen en procedures, en beslissingen van meerdere mensen van verschillende afdelingen. Daarom zullen ze vaak relatief lang duren. Het zal je niet ontgaan dat dit elkaar behoorlijk in de weg kan zitten.

Tot slot, een ander, niet onbelangrijk, fenomeen. Waar BI intussen een gevestigd en bekend gegeven is binnen organisaties, is data science (AI) dat meestal nog niet. Met uitzondering van de grote tech-bedrijven als bijvoorbeeld Google, Amazon of Spotify, is AI voor de meeste organisaties nog nieuw en onbekend. Het gezegde luidt niet voor niets ‘onbekend maakt onbemind’. Het is daarom sterk aan te bevelen dat de initiators en uitvoerders van een dergelijk project blijven uitdragen waarom dit AI-project belangrijk is voor de organisatie. En om mensen voortdurend ervan te blijven verzekeren dat het geen gevolgen heeft voor hun baanzekerheid.

Early adopters

Het gegeven dat data science voor veel organisaties nog nieuw is, betekent dat de organisaties die er nu mee aan de slag gaan de zogenaamde early adopters zijn. Die hebben het vaak niet makkelijk helaas. Veel data science-projecten stranden dan ook al vroeg en komen nooit voorbij de Proof of Concept-fase. Dat wordt vaak gezien als falen. Hoewel ik er geen gepubliceerde cijfers over heb kunnen vinden, denk ik dat het percentage gefaalde AI-projecten zomaar eens op een tegenvallende 80% zou kunnen liggen. Daar lees je vrijwel nooit over in de succesverhalen en marketing pitches die organisaties overtuigen om aan de slag te gaan met data science of AI.

Met dit artikel (en de andere artikelen uit deze reeks) hoop ik meer duidelijkheid en begrip te creëren rondom data science en alle buzzwords die daarbij horen. Bovenal hoop ik echter bij te dragen aan het succes van data science-projecten. Omdat ik ervan overtuigd ben dat duidelijkheid en begrip bijdragen aan constructieve discussies tussen business en data-professionals die de basis vormen voor succesvolle projecten. Juist voor de moedige early adopters!