Stap 2 Data (pre)processing
Waarom is deze stap belangrijk:
Je wil de data filteren, bijwerken of berekenen. Soms kan het ook belangrijk zijn om ervoor te zorgen dat er geen "lege" data aanwezig is. Op die manier ontstaat er nieuwe en of bruikbare informatie.
Onderwerpen voor deze stap: Tools, Operations, Cleaning en Combinations.
Mooie uitspraak: rijen zijn data points kolommen zijn variabelen
Er zijn verschillende Tools om te gebruiken, zoals Excel, PowerBi, Tableau, Python, R..... Welke keuze je hierin maakt is aan je zelf. Er zit een groot verschil in de gebruikersvriendelijkheid vs de reproduceerbaarheid.
## Combinations zijn zeer krachtig
Left or Right Join. Inner Join of Full Outer Join. De Full Outer Join is hetgene wat ik huidig het meeste gebruik. In sommige situatie is Left, Right of Inner veel krachtiger. Daar wordt data gegooid.
In pandas combineren we de data door middel van merge.
Dataset kan je koppelen met concat. Dit is handig om meerdere gelijke dataframe aan elkaar te koppelen, zodat je meer data hebt in je frame. Met drop duplicate kan je dubbele vermeldingen direct verwijderen.