Stap 3 Data Analyse
Wanneer er een schone dataset is kunnen we statistieken gaan toepassen om de data verder te analyseren. De data is correct en er zijn geen gaten in de data. Dit geeft inzicht in de data. Vanuit hier kunnen basis visualisaties gemaakt worden. De kans is groot dat je tijdens deze fase nog enkele keren terug gaat om de data verder op te schonen, omdat je tegenongewenste data aanloopt.
Er zijn verschillende soorten waarden: kwamtitief en kwalittief Categories of Nummeriek
Verschillende inzichten kan je zoeken in de uitglijders, correlations.
We gaan eerst de statistieken begrijpen. Een serie kan je samenvatten met: Mean (avg), Median (middle/50%) en Mode (most)
Mean --> som gedeeld door aantal
Middle -> inclusief de dubbelen.
Mode --> welke waarde het meest voorkomt
Hiermee kan je snel een samenvatting ontvangen van je serie.
In python kan dit eenvoudig met: variable.mean()
De range geeft ook een mooi inzicht:
variable.min() variable.max()
IQR geeft een soort gemiddeld. De lijnen van het consultatie bureau.
Standard Deviation of the mean --> variable.std() Geeft de gemiddeld afstand van alle point tot de mean. Cirkel voorbeeld.
Met variable.describe() krijg je van alle variabele de statistische informatie.
Een boxplot geeft de statistieken visueel zichtbaar.
Sankey diagram gefet een visuele weergave van een proces.
Een Scatterplot gebruik je om correlaties te vinden. De assen bevatten alleen numerieke reeksen.