Langage R
Prendre en main les statistiques
Ce livre de la collection vBook se compose d'un livre de référence sur le langage R pour lever la complexité apparente de ce puissant langage et permettre une prise en main aisée des statistiques de premier cycle et d'un approfondissement sous forme de vidéo pour apprendre à récupérer des données [...]
[lire le résumé du livre]
Auteur : Aline DESCHAMPS , Vincent ISOZ , Daname KOLANI
Editeur : Eni
Collection : vBook
Date parution : 11/2019CB Google/Apple Pay, Chèque, Virement
Quel est le sujet du livre "Langage R"
Ce livre de la collection vBook se compose d'un livre de référence sur le langage R pour lever la complexité apparente de ce puissant langage et permettre une prise en main aisée des statistiques de premier cycle et d'un approfondissement sous forme de vidéo pour apprendre à récupérer des données issues de diverses sources avec ce langage dédié à la Data Science.
Livre Langage R - Prendre en main les statistiques
R est un langage statistique très riche en fonctionnalités de traitement des données. Il permet l'extraction de données de sources variées, leur traitement et leur organisation. Plus encore, la multiplicité des systèmes de visualisation graphique et les nombreuses fonctions de modélisation statistique font de ce langage un outil statistique redoutable.
Avec ce livre, les auteurs proposent une présentation de R ayant pour objectif delever la complexité apparente de ce puissant langage et de permettre une prise en main aisée des statistiques de premier cycle.
Dans la première partie du livre, le lecteur découvre de manière détaillée les fondamentaux du langage R : les variables et la syntaxe des opérations de base, les structures de données, les outils du langage pour programmer notamment les structures de contrôles, les fonctions et même la conception de packages.
Dans la seconde partie, les auteurs traitent des problématiques métiers liées aux outils d'importation et d'exportation de données, d'analyse basique et de visualisation des données, aux outils de simulation etd'inférences statistiques et aux modèles statistiques classiques (ANOVA, régression linéaire, etc.).
Chaque concept abordé est accompagné d'exemples pratiques commentés pour guider le lecteur dans son apprentissage du langage pour le traitement des statistiques de base.
Des éléments complémentaires sont disponibles en téléchargement sur le site www.editions-eni.fr.
Vidéo Langage R - Accéder à tous types de données
Cette vidéo de formation s'adresse à toute personne souhaitant récupérer des données issues de diverses sources avec le langage R, langage open source dédié à la Data Science.
Après quelques rappels sur R et son environnement R Studio, vous découvrirez, à travers différents exemples de jeux de données, qu'il est très facile d'y accéder et ce quel que soit le format initial (CSV, Excel, base de données relationnelle SQL, API et base de données NoSQL MongoDB).
Pour chaque jeu de données, vous verrez ainsi comment les importer dans R et comment réaliser un exemple de visualisation graphique (nuage de points, graphique en bâtons, nuage de mots ou encore graphiques dynamiques pour le web).Téléchargements
Consultant scientifique chez Scientific Evolution Sarl, Vincent ISOZ exerce depuis plusieurs années dans le conseil et la formation sur les techniques quantitatives pour les hauts potentiels. Consultant scientifique chez EphiQUANT Sarl, Daname KOLANI dispense des formations en statistique, en finance, économétrie et bien des domaines connexes aux sciences des données. Leur activité de conseil et de formation leur permet de proposer aux lecteurs un livre complètement opérationnel sur la découverte des statistiques avec le langage R. Issue d'une formation en mathématiques appliquées à la statistique, Aline DESCHAMPS est Data Scientist et spécialiste du langage R depuis presque 10 ans. Fondatrice de la société DACTA, dont la mission principale est d'accompagner les entreprises dans la valorisation de leurs données, Aline est également évangéliste du langage R via de nombreux vecteurs : formations, tutoriels, vidéos et organisations de rencontres Meetup.
En suivant ce lien, retrouvez tous les livres dans la spécialité Langages.Sommaire et contenu du livre "Langage R - Prendre en main les statistiques"
Introduction à R
- 1. Introduction
- 2. R, un langage statistique
- 2.1 Histoire de R
- 2.2 Les caractéristiques de R
- 2.3 Installer une distribution R
- 2.3.1 R-Project de CRAN
- 2.3.2 Autres distributions R
- 3.1 RStudio
- 3.1.1 Téléchargement et installation
- 3.1.2 Exploration de RStudio Desktop
- 3.1.3 Créer un projet avec RStudio
- 3.2.1 Installation de RTVS avec VS 2017
- 3.2.2 Découverte de RTVS
Types de variables et opérations R
- 1. Introduction
- 2. Session interactive R
- 2.1 La console R
- 2.1.1 Exécution d'une instruction
- 2.1.2 Commentaire R
- 2.1.3 Configuration des sorties ou affichage des résultats
- 2.1.4 Quitter la console
- 2.1 La console R
- 2.2 L'aide interactive R
- 2.2.1 L'aide de base
- 2.2.2 Les vignettes et démonstrations
- 3.1 Création de variables
- 3.2 Variables et espace de travail
- 3.2.1 Le cycle de vie des variables
- 3.2.2 Gestion de l'espace de travail
- 3.3.1 Les noms de variables
- 3.3.2 Les mots réservés
- 4.1 Les nombres
- 4.1.1 Créer des objets numériques
- 4.1.2 Créer des nombres complexes
- 4.1.3 Opérateurs et opérations arithmétiques
- 5.1 La classe Date
- 5.1.1 Création des dates
- 5.1.2 Les opérations sur les dates
- 5.2.1 Création d'objet POSIXct et POSIXcl
- 5.2.2 Opération sur les objets POSIXt
- 6.1 Les valeurs manquantes ou Missing data
- 6.2 Inf ou infini
- 6.3 NaN ou « Not a Number »
- 6.4 NULL
- 7.1 Gestion des packages
- 7.1.1 Télécharger et installer un package
- 7.1.2 La mise à jour et la suppression des packages
- 7.2.1 Charger le package dans l'environnement
- 7.2.2 Solliciter le package sans le charger
- 7.2.3 Décharger un package
Structure des données avec R
- 1. Introduction
- 2. Les vecteurs
- 2.1 Création de vecteur
- 2.2 Manipulations d’un vecteur
- 2.2.1 Indexation numérique d’un vecteur
- 2.2.2 Indexation booléenne d’un vecteur
- 2.2.3 Indexation nommée d’un vecteur
- 2.2.4 Quelques fonctions d'extraction ou d'indexation
- 2.3 Travailler avec des vecteurs numériques
- 2.3.1 Générer des vecteurs séquentiels
- 2.3.2 Les opérations sur les vecteurs numériques
- 2.4 Créer des séries de dates
- 2.5 Les fonctions de vecteur de chaînes de caractères
- 2.5.1 La fonction paste()
- 2.5.2 La fonction cat()
- 2.5.3 La fonction sprintf()
- 2.5.4 La fonction nchar()
- 2.5.5 Les fonctions substr() et substring()
- 2.5.6 Les fonctions toupper() et tolower()
- 2.5.7 Les fonctions chartr() et replace()
- 2.5.8 La fonction strsplit()
- 2.5.9 Les fonctions grep() et grepl()
- 2.5.10 Les fonctions regexpr() et gregexpr()
- 2.5.11 La fonction gsub()
- 2.6 Cas des vecteurs booléens
- 2.7 Autres opérations génériques sur les vecteurs
- 2.7.1 Suppression de doublons
- 2.7.2 Les opérations ensemblistes
- 2.7.3 La gestion de valeurs manquantes
- 3.1 Construction d'une matrice
- 3.1.1 Le constructeur matrix()
- 3.1.2 Combiner des vecteurs en matrice
- 3.1.3 Convertir un objet en matrice
- 3.4.1 Indexation numérique des matrices
- 3.4.2 Indexation booléenne des matrices
- 3.4.3 Indexation par les noms des colonnes et des lignes
- 3.5.1 Opérations arithmétiques
- 3.5.2 Les multiplications matricielles
- 3.5.3 Les matrices spéciales
- 3.5.4 La transposée, le déterminant et l'inverse d'une matrice
- 3.5.5 Valeurs et vecteurs propres d'une matrice
- 3.5.6 Décomposition d'une matrice
- 4.1 Création d'un tableau multidimensionnel
- 4.2 Nommer un tableau multidimensionnel
- 4.3 Extraction d'éléments d'un tableau multidimensionnel
- 5.1 Création d’un facteur
- 5.2 Modification des modalités d’un facteur
- 5.3 Cas des variables ordinales
- 5.4 Cas des variables continues
- 5.5 Les variables catégorielles et la fonction table()
- 5.6 Les dates et la fonction factor()
- 6.1 Description d’un data frame
- 6.2 Construction d’un data frame
- 6.3 Dimension d’un data frame
- 6.4 Nommer les colonnes et lignes d’un data frame
- 6.5 Manipulation d’un data frame
- 6.5.1 Extraction de colonnes ou variables
- 6.5.2 Extraction des lignes ou des individus
- 6.5.3 Extraire un élément ou une valeur quelconque
- 6.5.4 Ajout de colonnes ou de lignes dans un data frame
- 6.5.5 Suppression des colonnes ou de lignes
- 6.5.6 Empiler et désempiler un data frame
- 6.5.7 La transposition de data frame avec reshape()
- 6.5.8 Le tri d’un data frame
- 6.5.9 La fonction aggregate()
- 6.5.10 La fonction summary()
- 6.5.11 La fonction by()
- 6.5.12 La famille des fonctions apply()
- 7.1 Construction d’une liste
- 7.2 Indexation des objets d’une liste
- 7.2.1 Extraction à l'intérieur des crochets ou doubles crochets
- 7.2.2 Extraction avec l'opérateur dollar $
- 7.2.3 Extraction avec la structure attach() ... detach()
La programmation avec R
- 1. Introduction
- 2. Les structures de contrôle
- 2.1 Les structures de groupage d'instructions
- 2.1.1 Le point-virgule
- 2.1.2 Les accolades
- 2.1 Les structures de groupage d'instructions
- 2.2 Les structures conditionnelles
- 2.2.1 La structure if...else
- 2.2.2 La structure switch()
- 2.3 Les structures de répétition ou boucles
- 2.3.1 La boucle for et les commandes break, next
- 2.3.2 La boucle while
- 2.3.3 La boucle repeat ... break
- 3.1 Création d'une fonction
- 3.2 Les arguments par défaut
- 3.3 La commande return()
- 3.4 Les fonctions avec des arguments ... (indéfinis)
- 3.5 Les fonctions avec do.call()
- 3.6 Les fonctions anonymes
- 3.7 Les fonctions replacement
- 3.8 Les fonctions infixes
- 3.9 Les fonctions récursives
- 5.1 La vectorisation
- 5.1.1 La fonction apply()
- 5.1.2 La fonction sapply() ou lapply() et mapply()
- 5.1.3 La fonction rapply()
- 5.1.4 La fonction tapply()
- 5.1.5 La fonction eapply()
- 5.1.6 La fonction replicate()
- 5.3.1 Alerter sur une erreur
- 5.3.2 Gérer les exceptions avec try()
- 5.3.3 Gérer les exceptions avec tryCatch()
- 6.1 Classe S3
- 6.1.1 Définition d'une classe
- 6.1.2 Définir un constructeur
- 6.1.3 Définir des méthodes membres d'une classe
- 6.1.4 Modèle UML de la classe stock()
- 6.2.1 Définition de la classe et ses attributs
- 6.2.2 Constructeur new()
- 6.2.3 Définir les méthodes membres de classes
- 6.3.1 Créer une classe R5 ou RC
- 6.3.2 Les méthodes membres de la classe
- 7.1 Structure d'un package
- 7.1.1 Installer les outils
- 7.1.2 Générer l'architecture du package
- 7.3.1 Créer le dossier data
- 7.3.2 Documenter les jeux de données
Importer et exporter des données avec R
- 1. Introduction
- 2. Saisir/éditer les données depuis le clavier
- 2.1 Les fonctions readline(), scan() et readClipboard()
- 2.1.1 La fonction readline()
- 2.1.2 La fonction scan()
- 2.1.3 La fonction readClipboard()
- 2.1 Les fonctions readline(), scan() et readClipboard()
- 2.2 La fonction textConnection()
- 2.3 Les fonctions edit()/fix() et la fonction data.entry()
- 2.3.1 La fonction edit()
- 2.3.2 La fonction fix()
- 2.3.3 La fonction data.entry()
- 3.1 Fichier texte délimité
- 3.1.1 La fonction read.table()
- 3.3.1 Package xlsx
- 3.3.2 Package XLConnect
- 3.3.3 Package readxl
- 3.4.1 Analyse de la structure d'un fichier XML
- 3.4.2 La conversion en data frame
- 4.1 Logiciel IBM SPSS : *.sav
- 4.1.1 Le package foreign
- 4.1.2 Le package haven
- 4.2.1 Le package sas7bdat
- 4.2.2 Le package haven
- 5.1 Télécharger un fichier de données grâce à l'URL
- 5.2 Extraire les données d'un tableau HTML
- 5.3 Importer spécialement des données financières
- 6.1 Base de données MySQL
- 6.1.1 Le package RMySQL
- 6.1.2 Le package RODBC
- 6.3.1 Le package data.table
- 6.3.2 Le package readr
- 6.3.3 Le package sqldf
- 7.1 Fichier texte délimité
- 7.2 Fichier CSV
- 7.3 Fichier Microsoft Excel
- 7.4 Exporter les données sous les formats de données R
- 7.4.1 Les fonctions save() et save.image()
- 7.4.2 Les fonctions dput() et dump()
- 7.5.1 Le package haven
- 7.5.2 Le package foreign
Introduction à l'analyse de données
- 1. Introduction
- 2. Préparation des jeux de données
- 2.1 Charger et comprendre les données
- 2.2 La gestion des données manquantes
- 2.2.1 Inspecter l'existence des données manquantes
- 2.2.2 Le traitement des données manquantes
- 3.1 Cas univarié
- 3.1.1 Mesures de tendance centrale
- 3.1.2 Mesures de dispersion
- 3.1.3 Mesures de forme
- 3.1.4 Indice de Gini et Courbe de Lorenz
- 3.1.5 Les fonctions sommaires des indicateurs
- 3.2.1 La covariance
- 3.2.2 Le coefficient de corrélation
- 4.1 Tableaux statistiques pour les variables catégorielles
- 4.1.1 Les tableaux de fréquences
- 4.1.2 Les tableaux de contingence
- 4.2.1 Les tableaux de fréquences et les statistiques marginales
- 4.2.2 Le package prettyR
- 4.2.3 Sommaire statistique avec les variables catégorielles
- 5.1 Explorer le package ggplot2
- 5.1.1 Aperçu graphique rapide avec qplot()
- 5.1.2 Graphique avancé avec ggplot()
- 5.2.1 Diagramme en barres
- 5.2.2 Diagramme en secteurs
- 5.2.3 Histogramme
- 5.2.4 Boxplot ou diagramme en boîte à moustache
- 5.2.5 Graphique à lignes
- 5.2.6 Graphique à nuage de points
- 5.2.7 Matrice de corrélation avec GGally
- 5.2.8 Autres fonctions statistiques
Probabilité et inférence paramétrique
- 1. Introduction
- 2. Simulation
- 2.1 Probabilité et dénombrement
- 2.1.1 Arrangement
- 2.1.2 Permutation
- 2.1.3 Combinaison
- 2.1 Probabilité et dénombrement
- 2.2 Tirage aléatoire d'échantillon
- 2.2.1 La fonction sample()
- 2.2.2 La reproductibilité des valeurs aléatoires
- 2.2.3 Répétition d'une expérience avec replicate()
- 2.3 Notion de variable aléatoire
- 2.3.1 Cas d'une variable aléatoire discrète
- 2.3.2 Cas d'une variable aléatoire continue
- 2.4 Les fonctions R des distributions de probabilité
- 2.4.1 Vocabulaire des fonctions de distribution R
- 2.4.2 Tables des lois et leur équivalent R
- 2.5 Quelques lois de densité univariées
- 2.5.1 La loi Normale
- 2.5.2 La loi de Student ou T- distribution
- 2.5.3 La loi de Khi-deux
- 2.5.4 La loi de Fisher
- 2.6 Le théorème central limite
- 3.1 Intervalle de confiance d'une moyenne
- 3.1.1 Formulation
- 3.1.2 Application avec R
- 3.2.1 Formulation
- 3.2.2 Application avec R
- 3.3.1 Formulation
- 3.3.2 Application avec R
- 3.4.1 Formulation
- 3.4.2 Application avec R
- 4.1 Terminologie
- 4.1.1 Formulation d'un test
- 4.1.2 Les types d'erreurs et puissance d'un test
- 4.1.3 La statistique du test et la p-value
- 4.2.1 Test de Khi-deux
- 4.2.2 Test de Khi-deux avec correction de Yates
- 4.2.3 Simulation de Monte-Carlo
- 4.2.4 Test de Fisher exact
- 4.3.1 Test de conformité
- 4.3.2 Test de comparaison de deux échantillons indépendants
- 4.3.3 Test de comparaison de deux échantillons appariés
- 4.3.4 ANOVA
- 4.4.1 Test de conformité
- 4.4.2 Test de comparaison à échantillons indépendants
- 4.5.1 Test de conformité
- 4.5.2 Test de comparaison pour deux échantillons
- 4.6.1 Test de conformité
- 4.6.2 Test de comparaison
- 4.7.1 Les fonctions R
- 4.7.2 Les fonctions du package pwr
- 4.8.1 Test de normalité Shapiro-Wilk
- 4.8.2 Test de distribution de Kolmogorov-Siminorov
- 4.8.3 Test d'ajustement de X 2
- 4.8.4 Test de corrélation de Kendall et de Spearman
- 4.8.5 Test d'égalité de variance de Bartlett
- 4.8.6 Le test U de Mann-Whitney ou test de somme de rangs de Wilcoxon
- 4.8.7 Test de Kruskall-Wallis
- 5.1 Boostrap
- 5.1.1 Démarche
- 5.1.2 Illustration avec le package boot
- 5.2.1 Démarche
- 5.2.2 Illustration avec le package boostrap
Modèles statistiques classiques
- 1. Introduction
- 2. Analyse de la variance (ANOVA)
- 2.1 Expression de modèles avec les objets formula
- 2.1.1 Formulation d'un modèle
- 2.1.2 Les opérateurs R pour l'expression de relations
- 2.1.3 Quelques opérations et fonctions utiles aux objets formula
- 2.1 Expression de modèles avec les objets formula
- 2.2 ANOVA à un facteur ou simple entrée
- 2.2.1 Modèle et hypothèses
- 2.2.2 ANOVA à un facteur avec R
- 2.2.3 Tests « post-hoc »
- 2.3 ANOVA à double facteur ou entrée
- 2.3.1 ANOVA à deux facteurs avec R
- 2.3.2 Tests « post-hoc »
- 3.1 Régression linéaire simple
- 3.1.1 Formalisation et estimation
- 3.1.2 Modèle de régression linéaire simple avec R
- 3.1.3 Sommaire du résultat de lm()
- 3.1.4 Diagnostic de la régression
- 3.1.5 Détection des points ou observations atypiques
- 3.1.6 Prédiction
- 3.2.1 Formalisation et estimation
- 3.2.2 Régression linéaire multiple avec R
- 3.3.1 Les indicateurs ou critères de sélection
- 3.3.2 Algorithmes de sélection
- 3.3.3 Application avec R
- 3.4.1 Définition et détection de la colinéarité
- 3.4.2 Les régressions régularisées
- 3.4.3 Les régressions régularisées en pratique
- 3.4.4 La régression sur composantes principales
Conclusion
- Index