/ Data Sciences

R et données

Lorsque nous souhaitons réaliser une étude statistique ou autre, une étape essentielle est l’obtention et le traitement des données.

Nous parlerons ici de l’obtention de jeux de données.

Pour cela beaucoup de possibilités sont disponibles. Mais Quandl offre une grosse collection de jeux de données de sources diverses. Il propose aussi des « Collections » qui sont des jeux de données agrégées thématiques.

Un API et des interfaces pour Excel, Python, Ruby et R sont disponibles.

Le package R est facilement installable et chargeable par le code suivant :

install.packages("Quandl")
library(Quandl)

Il est ensuite possible de récupérer n’importe quel jeu de données de la manière suivante :

mydata = Quandl("source/dataset")

Par exemple pour récupérer les taux EONIA publiés par la Banque de France, il suffit de faire :

eonia = Quandl("BOF/QS_D_IEUEONIA")
str(eonia)
'data.frame': 4255 obs. of 2 variables:
$ Month: Date, format: "2015-08-19" "2015-08-18" "2015-08-17" "2015-08-14" ...
$ Date : num -0.119 -0.126 -0.122 -0.13 -0.129 -0.124 -0.117 -0.129 -0.119 -0.116 ...
- attr(*, "freq")= chr "daily"

Les données récupérées contiennent 4255 observations de deux variables : Month et Date. Les noms des variables sont erronés. Ils devraient plutôt être Date et Rate. Nous pouvons facilement les renommer de la façon suivante :

colnames(eonia)<-c("Date","Rate")

Nous pouvons alors tracer le graphique en utilisant ggplot2 :

library(ggplot2)
qplot(Date, Rate, data=eonia)

Résultats