La Data Virtualization, une technologie incontournable pour exploiter efficacement les données

Data Intelligence

Cet article introduit la technologie de la data virtualization et ses nombreux avantages. Rapidité, retour sur investissement en quelques mois, facilité de mise en place et résultats immédiats : la data virtualization mérite d’être implémentée rapidement dans toutes les organisations. Nous comparons la data virtualization aux autres technologies type ETL et datalakes. La data virtualization est plus efficace, plus rapide, moins chère et vivement recommandée !

La data virtualization permet de dépasser de nombreux obstacles à la valorisation et l’utilisation des données. Aujourd’hui, chaque entreprise ou organisation a accumulé une quantité très importante de données, dans un parc applicatif de plus en plus complexe. Les données internes et les données clients n’obéissent pas aux mêmes cadres juridiques. Les contraintes réglementaires se sont renforcées dans le cadre du règlement général de protection des données (RGPD) et des normes de compliance sectorielles supplémentaires. Les données sont disparates, collectées et stockées de manières différentes dans une galaxie d’outils :

  • Données internes : Outils RH, ERP 
  • Données clients : CRM   
  • Applications métiers spécifiques   
  • Intégration et stockage dynamiques dans les datawarehouses  
  • Archives et datalakes  

Les données sont répliquées et stockées, mises à jour en permanence, avec un gonflement permanent du volume disponible. En plus de leur hétérogénéité et de leur éclatement au sein d’un parc applicatif local et cloud, les données obéissent à des règles de gouvernance et des schémas différents : langages de requêtes différents (SQL, MDX, XQuery…), protocoles de sécurité divers…   

De plus, ce paysage hétérogène est dynamique, ce qui accentue sa complexité. Il y a l’augmentation continuelle du volume de données, les modifications et mises à jour…  Il y a aussi chaque jour la création de nouveaux outils et de nouvelles bases de données, les évolutions du métier, fusions et acquisitions nécessitant la fusion avec d’autres parcs applicatifs… Dans ce contexte, comment assurer un accès efficace à l’ensemble de ces données, afin d’en tirer le meilleur parti ?   

Une connexion directe au parc applicatif, sans migration ou modification  

La data virtualization promet un accès en temps réel à l’ensemble des données, sans modifier l’écosystème applicatif, sans déplacer les données.  Une « machine virtuelle » se connecte à l’ensemble des outils quelles que soit leur hétérogénéité et leur diversité. Cette machine permettra de puiser dans les données, d’extraire et d’exporter des données issues de l’ensemble du parc applicatif.   

C’est une surcouche logicielle virtuelle, qui se connecte aux différentes sources et reconnaît les différents formats de données, pour les combiner, les intégrer et les présenter sans réplication et en temps réel ou quasi-réel.  Cette machine virtuelle va ‘’aller chercher’’ les données éclatées et dispersées et les intégrer de façon dynamique pour un résultat lisible pour l’utilisateur final.   

La data virtualization se connecte à l’ensemble du SI existant

Enfin, la data virtualization permet de « retravailler » les données si nécessaire. Les données peuvent être anonymisées, corrigées, enrichies avant d’être mises à disposition des applications ou des utilisateurs, et sans aucune modification des données sources.  

Cette solution offre des possibilités très intéressantes pour respecter les règles de compliance, pour avoir des données à jour, ou encore pour paramétrer des profils utilisateurs… La data virtualization peut en plus être mise en place très rapidement, car elle ne nécessite aucune migration. 

La Data Virtualization dépasse les autres technologies de fédération de données

Data Virtualization vs Datalakes & ETL

Au vu des nombreux avantages énumérés, la question des différences entre la data virtualization et d’autres technologies de fédération de données mérite d’être posée. La data virtualization est parfois considérée comme un concurrent aux datalakes. Pourtant, la fédération de données par regroupement au sein d’un datalake déplace les données de leurs outils de collectes et de stockages sources. On perd la structuration et la qualification des données, qui a pourtant une grande valeur. On ne peut plus modifier facilement, mettre à jour en temps réel… Les lacs de données semblent plus utiles pour archiver un très grand volume de données de façon indifférenciée plutôt qu’en tant que système plus général de fédération des données. Au vu de la data virtualization, les datalakes sont une source de données comme une autre, que l’on peut connecter en tant que source de données, au sein d’un système applicatif plus large. 

Une autre technologie incontournable est celle des ETL (Extract, Transform, Load). Les ETL se connectent à de multiples sources de données structurées ou non. Les ETL transforment ensuite ces données pour les rendre compatibles avec une datawarehouse (ou autre cible), où elles sont envoyées. À la différence de la data virtualization, il y a dans le cas des ETL une migration et un déplacement de données, et ceux si ne sont nécessaires que dans des cas spécifiques. Dans le cas plus général, on cherche à « consommer » les données (les visualiser, les consulter, les partager). Les migrer et les renvoyer ailleurs n’est souvent pas nécessaire. Ce mouvement des données consomme un temps beaucoup plus long et donne un process beaucoup plus lourd comparé à la data virtualization. La data virtualization est plus rapide à mettre en place, moins coûteuse, offre un ROI plus rapide et des résultats quasi-immédiats.

Data virtualization ou fédérateurs Cloud ?

Les grands éditeurs cloud comme Amazon Web Services ou Google Cloud Platform mettent en place progressivement des fédérateurs de données. Comparée à ces fédérateurs, la data virtualization offre l’avantage d’être neutre quant aux éditeurs et de fédérer les données de toutes sources confondues.

Les fédérateurs des éditeurs quant à eux poussent vers la centralisation des données au sein de leur propre service. Or, certains groupes ou organisations aux SI complexes font appel à plusieurs services Cloud et regrouper leurs données au sein d’un seul service ne les arrange pas. Prenons l’exemple d’un grand groupe qui ferait appel simultanément à Google Cloud Platform et à Microsoft Azure : la data virtualization ne va pas nécessiter de migrer, de changer et modifier l’emplacement de ses données. La machine virtuelle va directement aller chercher les données là où elles sont, sans modifier les choix faits précédemment et sans imposer de se limiter à une seule des deux plateformes.

Enfin, dans le contexte normatif de plus en plus complexe, la data virtualization permet de respecter la RGPD et les règles de compliance en créant des profils utilisateurs aux périmètres d’accès différents. Un tel paramétrage se trouve assez simple à faire puisqu’il ne se fait qu’au niveau de la machine virtuelle, sans toucher au système applicatif lui-même. 

Les grands éditeurs comme Denodo affirment que l’écrasante majorité des projets de mise en place de la data virtualization sont terminés en moins de 6 mois.  Dans des conditions similaires, les délais de mise en place de la data virtualization sont en effet bien plus court que ceux d’un projet ETL ou d’un datalake. Grâce au fait que la data virtualization se superpose au SI existant sans déplacement des données, les délais sont incomparables et donc les coûts sont bien inférieurs. Le ROI se trouve bien plus élevé et les résultats sont visibles beaucoup plus rapidement !

La mise en place d’un datalake dans une grande entreprise est un projet long et peut vite coûter très cher : coûts d’infrastructure, ressources humaines pour la mise en place, puis maintenance… La facture peut devenir très salée et le retour sur investissement tarde beaucoup à se montrer. En comparaison, la data virtualization permet une mise en place en quelques mois, pour un coût jusqu’à dix fois inférieur ! Cela confère un avantage certain à la data virtualization. Des coûts maîtrisés, des délais de quelques mois, et un accès en temps réel à l’intégralité des données éclatées au sein de SI comptant des dizaines d’applications… Les avantages de la data virtualization ne manquent pas. 

La data virtualization ne modifie pas l’architecture SI existante : c’est son avantage et aussi sa limite !

Le plus gros avantage de la data virtualization est aussi sa limite principale. En ne modifiant pas le système applicatif, la data virtualization ne modernise pas et ne résout pas les problèmes d’architecture du SI. Elle se connecte à l’existant, permet de consommer les données, de les visualiser. Les données sont disponibles immédiatement pour le business user… Mais cela ne changera rien aux problèmes de SI vieillissant ou aux processus obsolètes ! La data virtualization ne peut pas remplacer une veille constante sur les bonnes pratiques d’architecture, ni une modernisation des processus et des outils. Si vous avez identifié qu’une migration est nécessaire afin de maintenir un SI performant, adopter la data virtualization n’y changera rien… Et la migration restera nécessaire. La promesse de la data virtualization est de suivre et de rester efficace quelles que soient les modifications apportées au SI. La connexion avec les nouveaux outils sera toujours possible et les données disponibles sans délai supplémentaire.  

En conclusion, la data virtualization est une technologie très prometteuse, à envisager dans l’immédiat. Elle offrirait un gain de temps certain et des nouvelles possibilités d’utilisation des données pour la grande majorité des organisations. C’est aussi une technologie mature, avec plusieurs éditeurs bien en place sur le marché,  capables de délivrer des résultats très rapides. La data virtualization mérite amplement d’être considérée comme une solution efficace pour utiliser et valoriser les données existantes de façon agile, en un temps record et avec des coûts contrôlés.

Publié le 22/12/20

 


Partagez cet article :