Analyser le Big Data avec Microsoft R

  • Mode de formation

1 316,25 1316.25 USD

750 000 FCFA

Option not available

Cette combinaison n'existe pas.

Ajouter au panier

Satisfait ou remboursé pendant 30j
Livraison gratuite en France
Achetez-le maintenant, soyez livré dans 2 jours

    Programme de formation

    Lire et explorer le Big Data
    • Lire les données avec R Server
      • Lire les formats de fichiers de données supportés tels que les fichiers texte, SAS et SPSS ; convertir les données au format XDF ; identifier les compromis entre les fichiers XDF et les fichiers textes plats ; lire les données grâce aux sources de données Open Database Connectivity (ODBC) ; lire les fichiers d'autres systèmes de fichiers ; utiliser un cadre de données interne comme source de données ; traiter les données de source qui ne peuvent être lues originairement par le serveur R Server
    • Résumer les données
      • Calculer les tableaux croisés et les statistiques univariées, choisir quand utiliser les rxCrossTabs par rapport au rxCube, intégrer les technologies open source en utilisant des paquets tels que dplyrXdf, utiliser le groupe par fonctionnalité, créer des formules complexes pour réaliser plusieurs tâches en un passage des données, extraire les quantités en utilisant rxQuantile
    • Visualiser les données
      • Visualiser les données en mémoire avec les fonctions de traçage des bases et ggplot2 ; créer des visualisations personnelles avec rxSummary et rxCube ; visualiser les données avec rxHistogram et rxLinePlot, y compris les graphiques à facettes
    Traiter le Big Data
      • Traiter les données avec rxDataStep
        • Définir des sous-ensembles de lignes de données, modifier et créer des colonnes en utilisant l'argument Transforms , choisir quand utiliser les transformations à la volée plutôt que les compromis de transformation de données, gérer les valeurs manquantes grâce au filtrage ou au remplacement, générer un cadre de données ou un fichier XDF, traiter les dates (POSIXctPOSIXlt)
      • Procéder à des transformations complexes qui utilisent des fonctions de transformation
        • Définir une fonction de transformation ; réorganiser les données en utilisant une fonction de transformation ; utiliser des paquets open source, tels que Lubridate ; transmettre les valeurs en utilisant transformVars et transformEnvir ; utiliser les variables et fonctions .rx internes pour les tâches, y compris la communication inter-tâche.
      • Gérer les ensembles de données
        • Trier les données dans différents ordres, tels que ascendant et descendant ; utiliser la déduplication rxSort pour supprimer tous les doublons ; fusionner les sources de données en utilisant rxMerge() ;fusionner les options et les types ; identifier quand des solutions de substitution à rxSort et rxMerge devraient être utilisées
      • Traiter le texte en utilisant les paquets RML
        • Créer des paramètres en utilisant les fonctions RML telles que featurizeText() ; créer des variables et des matrices d'indicateur en utilisant les fonctions RML telles que categorical() et categoricalHash() ; procéder à la sélection des paramètres en utilisant les fonctions RML
    Manipulation des données
  • Sélectionner les données.
    • Utiliser les requêtes SELECT pour extraire les données d’un tableau, extraire les données à l'aide de jointures, combiner les ensembles de résultats à l’aide de UNION et de INTERSECT.
  • Insérer des données.
    • Comprendre comment les données sont insérées dans les bases de données, comment utiliser les instructions INSERT.
  • Mettre à jour les données.
    • Comprendre comment les données sont mises à jour dans une base de données et comment écrire les données mises à jour dans la base de données à l’aide des instructions UPDATE appropriées, mettre à jour à l’aide d’un tableau.
  • Supprimer les données.
    • Supprimer les données des tableaux simples ou multiples, s'assurer de l’intégrité des données et des références à l'aide des transactions.
  • Construire des modèles prédictifs avec ScaleR
  • Estimer les modèles linéaires
    • Utiliser rxLinModrxGlm et rxLogit pour estimer les modèles linéaires ; définir la famille pour un modèle linéaire généralisé en utilisant des fonctions telles que rxTweedie ; traiter des données à la volée en utilisant les arguments et les fonctions appropriés, tels que la fonction F et l'argument Transforms ; peser les observations grâce à la fréquence ou aux poids probables ; choisir entre différents types de sélections de variables automatiques, tels que la recherche gourmande, la notation répétée et le sous-produit de la formation ; identifier l'impact des valeurs manquantes pendant la sélection automatique de la variable
  • Construire et utiliser des modèles de partitionnement
    • Utiliser rxDTreerxDForest, et rxBTrees pour construire des modèles de partitionnement ; ajuster le poids des faux positifs et des pertes en utilisant la perte ; sélectionner les paramètres qui affectent les biais et la variance, tels que le raccourcissement, le taux d'apprentissage et la profondeur de l'arbre ; utiliser as.rpartpour interagir avec les écosystèmes open source
  • Générer des prédictions et des résidus
    • Utiliser rxPredict pour générer des prédictions ; procéder à la notation parallèle en utilisant rxExec ; générer différents types de prédictions, telles que des notes de lien et de réponse pour GLM, réponse, prob et vote pour rxDForest ; générer différents types de résidus tels que Usual, Pearson et DBM
  • Évaluer des modèles et des paramètres de configuration
    • Résumer les modèles estimés ; exécuter le code arbitraire du processus, comme un paramètre parallèle configuré en utilisant rxExec ; évaluer les modèles arborescents en utilisant RevoTreeView et rxVarImpPlot ; calculer les mesures d'évaluation du modèle en utilisant des fonctions intégrées ; calculer les mesures d'évaluation du modèle et les visualisations en utilisant le code personnalisé, comme une erreur de pourcentage moyenne absolue et les courbes de rappel de précision
  • Créer des modèles supplémentaires en utilisant les paquets RML
    • Construire et utiliser une machine à vecteur de support à une classe, construire et utiliser des régression linéaires et logistiques qui utilisent la régularisation L1 et L2, construire et utiliser un arbre décisionnel en utilisant FastTree, utiliser FastTree en tant que recommandeur avec perte de rang (NDCG), construire et utiliser un réseau neuronal simple à trois couches avec réglage en aval
  • Utiliser le R Server dans différents environnements
    • Utiliser des contextes de calculs différents pour exploiter le R Server efficacement
      • Changer le contexte de calcul (rxHadoopMRrxSparkrxLocalseq, et rxLocalParallel) ; identifier quel contexte de calcul utiliser pour différentes tâches ; utiliser différents objets sources de données en fonction du contexte (RxOdbcData et RxTextData) ; identifier et utiliser les sources de données appropriées pour différentes sources de données et contextes de calcul (HDFS et SQL Server) ; déboguer les processus dans les différents contextes de calcul ; identifier les cas d'utilisation de RevoPemaR
    • Optimiser les tâches en utilisant les contextes de calcul locaux
      • Identifier et exécuter les tâches qui ne peuvent être exécutées que dans le contexte de calcul local, identifier les tâches qu'il est plus efficace d'exécuter dans le contexte de calcul local, choisir entre rxLocalseq et rxLocalParallel, profiler dans différents contextes de calcul
    • Procéder à une analyse dans la base de données en utilisant SQL Server
      • Choisir quand procéder aux calculs dans la base de données par rapport à quand procéder aux calculs hors de la base de données, identifier les limites des calculs dans la base de données, utiliser les contextes de calcul dans la base de données par rapport aux contextes de calcul hors de la base de données de manière appropriée, utiliser les procédures stockées pour les étapes de traitement des données, sérialiser les objets et reprendre vers les champs binaires dans un tableau, dresser des tableaux, configurer R pour optimiser SQL Server (chunksizenumtasks, et computecontext), communiquer de façon efficace les propriétés de performance aux administrateurs et architectes SQL (SQL Server Profiler)
    • Mettre en place des flux de travail d'analyse dans l'écosystème Hadoop et dans Spark
      • Utiliser les fonctions appropriées de R Server dans Spark ; intégrer à Hive, Pige et Hadoop MapReduce ; intégrer à l'écosystème d'outils Spark, comme SparklyR et SparkR ; profiler et cibler dans les différents contextes de calcul ; utiliser doRSR pour mettre en parallèle le code écrit lors de l'utilisation de l'open source foreach
    • Déployer des modèles prédictifs destinés à SQL Server et Azure Machine Learning
      • Déployer des modèles prédictifs destinés à SQL Server en tant que procédure stockée, déployer une fonction arbitraire destinée à Azure Machine Learning en utilisant le paquet AzureML R, identifier quand utiliser DeployR
  • Caractéristiques de Analyser le Big Data avec Microsoft R

    Mode de formation Présentiel ou E-learning ou Blended learning ou Classe virtuelle