Les entreprises disposent de très nombreuses données qui doivent être encodées, stockées, accédées, analysées, etc. par différents acteurs. A cette fin, il est essentiel que les informations soient facilement accessibles après leur encodage. Il convient donc de les enregistrer sous la meilleure forme en tenant compte des contraintes d’encodage et d’exploitation. Selon leur source ou leur finalité, différentes types de modélisation des données peuvent être utilisées : la modélisation traditionnelle dite relationnelle, la modélisation dimensionnelle et la modélisation spécifique au big data, basée sur une structure NoSQL.
Pour cette formation il est nécéssaire de connaître les notions de fichiers et de tableaux de données
-
Entité
-
Association: binaire, ternaire, récursive
-
Attribut: simple, composé, monovalué, multivalué, stocké, dérivé, identifiant
-
Généralisation: total, partiel, exclusive, non-exclusive, avec prédicat
-
Contrainte d'intégrité: domaine, cycle, temporelle, ...
-
Une série d’exercices de complexité croissante vont permettre aux étudiants de maîtriser le processus de conception de bases de données en utilisant le modèle Entité Association
-
Schéma relationnel: relation, attribut, domaine
-
Valeur relationnel: tuple, ensemble
-
Clef: superclef, candidate, primaire
-
Contrainte relationnelle, contrainte d'intégrité
-
Types de données
-
Relation dérivée, vue et instantané
-
Opération relationnelle: insertion, suppression, modification
-
Les règles de construction d’un modèle en étoile
-
Etoiles et flocons
-
De l’étoile au cube OLAP
-
Calculer des volumétries
-
Anticiper les évolutions fonctionnelles
-
Définir des indicateurs selon le métier
-
Agrégation des indicateurs
-
Pré-calcul et tables d’agrégats en relationnel
-
La dimension Indicateurs d’un hypercube
-
Hiérarchiser les agrégations et préparer la navigation agrégée
-
Des qualités ACID aux qualités BASE
-
Resource Description Framework (RDF)
-
Théorème CAP (cohérence, disponibilité, tolérance au partitionnement)
-
Les différents niveaux de cohérence
-
SGBDR: forces et limites
-
Evolution vers le distribué : extensibilité verticale et horizontale
-
Différentes approches de gestion de bases de données
-
Bases hiérarchiques, modèle relationnel, bases objets, bases XML, NoSQL
-
Compromis du NoSQL
-
NoSQL as a Service
-
Structure souple des données : conception du schéma, agrégation, dénormalisation, duplication
-
Architecture distribuée : principes, le shared-nothing
-
Equilibrage de charge
-
Méthodes de distribution et de duplication des données
-
Disponibilité et cohérence différée : gossip, timestamps, vector clock, règle de majorité, arbre de Merkle
-
Méthodes d'amélioration des performances : caches en lecture, en écriture, MVCC
-
L'architecture in-memory. Un exemple : ParStream
-
Introduction à Hadoop et Map Reduce
-
Ecosystème Hadoop : différences avec les SGBDR, relations avec le NoSQL
-
Un cas d'usage d'Hadoop dans l'entreprise
-
Requêtage : une complexité accrue