ArthurSchrijver.nl


×
Arthur | 2018-08-15 10:22:26 | Data Science | R | Tutorial

Data Science met R - Klimaat - Deel 1

Het eerste experiment wat we gaan doen met R is onderzoeken of het de afgelopen 100 jaar warmer aan het worden is in Nederland. Het antwoord weten we natuurlijk al, maar het toont in een aantal simpele stappen aan hoe krachting R kan zijn.

Als databron gebruiken we een csv bestand van het KNMI met daarin de gemiddelde maximum jaartemperatuur in De Bilt sinds het jaar 1901. Ik heb het bestand al bewerkt zodat we dit makkelijk kunnen gebruiken in R.

Download bronbestand

Download het bestand hier:

Gemiddelde maximum jaartemperatuur De Bilt sinds 1901

Zet het bestand neer op een locatie die makkelijk toegankelijk is voor R. Ik heb op mijn G: schijf (waar ook R staat) een map 'src' aangemaakt en het bestand daarin geplaatst. In mijn geval is het volledige pad naar het bestand dus 'G:\src\knmi.csv'.

Start nu R op via het startmenu. Wanneer onderstaand scherm zichtbaar is kunnen we beginnen:

Stap 1 is het inladen van het KNMI bestand wat we zojuist gedownload hebben. Gebruik hiervoor onderstaande code (in een later deel gaan we verder in op de syntax):

knmi <- read.csv("G:\\src\\knmi.csv", header=TRUE)

Denk er aan om de locatie van het bestand aan te passen wanneer deze afwijkt! Als alles klopt druk je op Enter en verschijnt er (als het goed is) geen foutmelding, maar ook geen boodschap dat er iets is gebeurd.

Controleren bronbestand in R

Laten we even controleren of de data uit het bestand ook daadwerkelijk beschikbaar is in R. Dit kunnen we doen met onderstaande code:

head(knmi)

Met dit commando laten we de eerste paar regels uit het bestand zien zoals hieronder:

Je kunt ook het volledige bestand laten zien op je scherm door simpelweg knmi te typen, maar omdat we in de toekomst met veel grotere bestanden gaan werken is het slim om alvast te wennen aan het gebruik van head.

De helpfunctie van R

Mocht je trouwens meer willen weten over bepaalde functies of syntax die we gebruiken dan kun je altijd gebruik maken van help(functie). Bijvoorbeeld:

help(head) of help(read.csv)

Je zult zien dat er een website verschijnt met zeer gedetailleerde uitleg over de desbetreffende functie.

Aan de slag met Data Science in R

Goed, het bestand is dus ingelezen en beschikbaar binnen R. Laten we er nu eens een grafiek van proberen te maken. De simpelste grafiek die we van deze data kunnen maken is een 'scatterplot' of 'spreidingsdiagram' in goed Nederlands.

Voer onderstaande code in in R en druk op Enter:

plot(knmi$JAAR,knmi$TEMP)

Je zult zien dat er zeer snel een grafiek verschijnt met op de horizontale as de jaren en op de verticale as de temperatuur (in tiende graden) zoals hieronder:

Als we zo naar de grafiek kijken lijkt het alsof de gemiddelde maximum jaartemperatuur langzaam aan het oplopen is. Laten we dit bevestigen door een simpele lijn door de data te trekken op basis van een lineair model. Gebruik hiervoor onderstaande code:

abline(lm(knmi$TEMP~knmi$JAAR))

Je zult zien dat er een mooie stijgende lijn door al onze datapunten is getrokken. Ons vermoeden lijkt dus bevestigd: de afgelopen honderd jaar is het steeds warmer geworden in De Bilt.

Extra opdrachten

  • Lees de help-pagina voor het 'lm' commando wat we hebben gebruikt. help(lm)
  • Doe dit ook voor 'abline' help(abline)
  • Geavanceerd: Download een nieuwe data set van het KNMI, bewerk deze zodat R er mee om kan gaan (kijk de opmaak af van het 'knmi.csv'-bestand wat we net gebruikt hebben) en probeer er ook een spreidingsdiagram van te maken.


Arthur Schrijver

  • Business Intelligence Consultant
  • Data Science Enthousiasteling
  • Webdeveloper
  • Gamer
  • Technofiel
  • Hobbykok
  • Echtgenoot
  • Vader