mardi 23 décembre 2008

Série d'articles sur les problèmes actuels des solutions de Data Quality

Philip Howard, du cabinet Bloor Research, pousse la grogne contre l'état actuel du marché des solution de Data Quality (gestion de la qualité des données), dans une série de cinq articles (voir plus bas) plutôt pertinents.

Selon lui, les solutions leaders du marché sont basés et construites sur des technologies anciennes et dépassées, et qui ne permettent pas de relever les nouveaux défis liés en particulier à ceux levés par la gestion des données de référence :
  • algorithmes inefficaces de matching (détection de doublons) par comparaison de masques (patterns),
  • algorithmes inadaptés dans un contexte de données internationales,
  • l'incapacité des outils de comprendre le contexte dans lequel s'applique une donnée, et la traitant sans en prendre compte,
  • Le manque d'automatisation avancée tant dans le nettoyage (cleansing) que dans le profilage (profiling) de données.
Il invoque ainsi l'arrivée de nouveaux entrants pureplayers, approchant le marché avec des approches innovantes tels Silver Creek, Exeros (allié à CA), Zoomix (racheté par Microsoft) ou encore Netrics, basées sur la compréhension sémantique, sur la contextualisation des données et l'importance des relations entre elles (même entre applications) - grâce à la résolution d'identités complexes, sur la modélisation mathématique avancée en lieu et place de la comparaison par pattern, et sur des techniques automatisées avancées de profiling de données.

Vous trouverez cette excellente suite de cinq articles ci-dessous :
(ainsi que leur traduction automatique approximative, pour les non-anglophones - merci g00gle)

jeudi 11 décembre 2008

Actualités MDM de cette fin d'année

Peu d'actualités en cette fin 2008 côté éditeurs de solutions, une année qui s'est avérée pourtant assez riche pour le MDM (j'y reviendrai plus tard).

Côté éditeurs, 
  • CA axe son discours sur le MDM en entrant dans le marché du Profiling de donnnées, proposant la suite CA ERwin Data Modeling Suite comprenant un outil de profiling de données et de modélisation des données (il s'agit en fait de la solution X-Profiler de l'éditeur Exeros à priori en OEM). Même si ces outils n'ont de MDM que le nom et le discours (Exeros vend son outil en agitant l'étendard du MDM) - puisqu'il ne s'agit en fait que d'outils de manipulation de bases de données -, on peut malgré saluer l'effort.
  • Oracle sort Site Hub, une solution de référentiel de type Hub dédiée à la gestion des localisations et adresses.


Et dans la série "on attend toujours..." :

Sources :
SAP NetWeaver MDM 7.1 Preview (SAP)

mercredi 26 novembre 2008

Information Difference : DQ Landscape

Information Difference frappe une fois de plus en offrant une nouvelle étude - après le Landscape MDM : le Landscape DQ portant sur le marché des solutions DQM (Data Quality Management, ou solutions de gestion de la qualité des données).

Selon le cabinet spécialisé dans le MDM, le marché DQM regroupe un nombre important d'éditeurs assez disparates (gros, spécialistes et plus modestes), mais représente un marché de 600M$ et une croissance annuelle forte de 18% (licences + services, hors coûts d'intégration).

Les tendances du marché des éditeurs sont plutôt à :
Information Difference estime que le marché est encore immature, même si ce dernier existe pourtant depuis plus des dizaines d'année (Innovative Systems a près de 40 ans!). Après des années de discrétion, le marché du DQM sort de sa torpeur et s'accroît, porté par l'envolée de celui du MDM et l'activation de stratégies de gouvernance des données.

Source :

vendredi 21 novembre 2008

Entretien avec Franck Régnier, à l'occasion de la sortie du livre "MDM : Enjeux et méthodes de la gestion des données"

Franck Régnier-Pécastaing est responsable des offres Data (EIM, MDM, DQM, Semantic) chez Logica Management Consulting depuis 2005.

in Data Veritas : Franck Régnier, vous êtes co-auteur d’un livre intitulé « MDM : Enjeux et méthodes de la gestion des données ». Quelles sont les principales idées soutenues dans cet ouvrage?

Franck Régnier : L’idée principale est que le MDM est avant tout une démarche, que celle-ci doit-être gouvernée et pilotée. Ainsi la solution technologique n’est qu’une des composantes de la réussite d’une telle initiative et elle doit répondre à un besoin et des objectifs mesurables et priorisés. Sans dévoiler tous les secrets de Logica Management Consulting sur le MDM et le DQM, les notions d’enjeux, d’architectures et de gouvernance ont été traitées avec attention.

iDV : Ce livre fait l’objet d’attentes importantes de la communauté des éditeurs de logiciels. Pouvez-vous nous dire pourquoi ?

Franck Régnier : Je ne sais pas si les éditeurs attendent vraiment. Mais ce livre est le premier en français sur le sujet. Il a été écrit pour les non spécialistes afin de vulgariser les thèmes du MDM et de la Gouvernance des données. Nous espérons ainsi permettre un gain en maturité du marché, bénéfique pour l’ensemble des intervenants, les éditeurs, mais aussi nos confrères et compétiteurs.

Le marché du MDM, du DQM, de la gouvernance des données ne deviendra vraiment significatif que si les acteurs et les clients sortent d’une approche technico-technique du sujet et s’emparent d’enjeux métiers majeurs, notamment dans un contexte de crise. Je pense au multi-canal et aux stratégies centrées sur le client, je pense à l’amélioration du Time to Market par une meilleure maitrise de son référencement produit ou de sa logistique, etc… Tout ceci repose sur des référentiels, une donnée de qualité et une approche pilotée des priorités.

iDV : Franck Régnier, vous êtes porteur des offres Data (Master Data Management, Data Quality Management, Semantic) chez Logica Management Consulting. Quel est l’intérêt spécifique pour Logica de contribuer à ce livre ?

Franck Régnier : Tout d’abord ce livre n’est pas qu’un pur produit Logica. Il a été écrit avec les collaborateurs d’un de nos clients, EDF. Les co-auteurs en sont Michel Gabassi et Jacques Finet. Et nous avons travaillé avec un éditeur reconnu pour son sérieux, DUNOD.

Le marché est en pleine phase d’accélération alors que les sources d’information restent peu nombreuses. Les quelques publications françaises en la matière reste l’apanage de quelques éditeurs hexagonaux sous forme de livre blanc ou encore la citation du MDM comme brique constitutive de la SOA au sein d’ouvrages comme ceux de Pierre Bonnet ou de Francois Rivard, Georges Abou Harb et Philippe Meret.

Cette relative pauvreté d’information, notre vision alliant autant l’organisation, la gouvernance et la technologie dans la réussite d’une démarche orientée Donnée, le besoin d’un état des lieux permettant à nos interlocuteurs d’appréhender plus facilement chacune de ces dimensions sont autant de raisons qui ont poussé Logica à vouloir établir une synthèse sur le sujet tout en le rendant accessible.

La deuxième raison, plus mercantile, est que Logica possède de nombreux atouts en matière de MDM et de DQM. Nous sommes en position de leader, mais nous ne sommes pas seuls et de nombreux acteurs interviennent sur le marché avec de sérieuses prétentions. Ce livre est ainsi le vecteur permettant d’afficher une approche que nous jugeons unique sur le marché.

La troisième raison est que le Groupe Logica a fait des offres SOA un de ses vecteurs de croissances majeures dans sa stratégie. Logica est le premier cabinet et intégrateur SOA en France (source PAC). Le MDM, en répondant à la dimension Data de la SOA, entre dans cette stratégie. Le soutien à ce livre par Logica a donc été naturel et j’en remercie ma hiérarchie.

iDV : Le livre s’intitule « MDM » mais vos réponses semblent indiquer que les sujets dont vous traitez sont plus larges ?

Oui et non. Si j’utilise le trigramme MDM, on pense directement à l’outillage des référentiels et dans ce cadre je considère que notre discipline est à l’étroit. Si je prends la définition réelle des mots Master Data Management, c’est bien de gestion de données dont il s’agit et cette gestion invoque de multiples disciplines comme le DQM ou la Gouvernance des données.

Demain ce sont la gestion d’identité complexe et la gestion de la fraude qui reposeront sur ces disciplines. Ce sont aussi l’extension de la démarche aux données non structurées (ECM, …) ainsi que la maitrise des technologies sémantiques (ontologies, …) qui ouvriront la voie vers l’EIM (Enterprise Information Management). Le MDM n’est qu’une étape pour une meilleure gestion de l’information de l’entreprise.

Et votre blog, Olivier, est bien la preuve que nous devons étendre notre champ d’expertise pour répondre aux enjeux de nos clients.

En conclusion
Disponible depuis novembre 2008, le livre "MDM : Enjeux et méthodes de la gestion des données", s'annonce comme un ouvrage de référence du MDM et de la gestion maîtrisée des données.

Propos recueillis par Olivier Mathurin, pour le blog In Data Veritas.

mardi 18 novembre 2008

Sortie du 1er ouvrage francophone sur le MDM

La bonne parole du MDM a enfin une Bible, et qui plus est en français (cocoricco !) : ce mois-ci sort le 1er ouvrage francophone entièrement dédié au MDM, dans la fameuse collection "Management des Systèmes d'Information" aux éditions Dunod.

MDM : Enjeux et méthodes de la gestion des données
Par Franck Régnier-Pécastaing, Michel Gabassi, Jacques Finet, aux éditions Dunod, nov.2008

L'ouvrage se révèle plutôt exhaustif (MDM, DQM, Gouvernance), et couvre les dimensions que sont les concepts, enjeux, besoins, les bonnes pratiques, solutions, architectures, méthodologie, organisation, gouvernance des données.
A noter la modeste contribution de votre serviteur dans les remerciements ;)

Retrouvez cet ouvrage dans la librairie du MDM.

(tiré du communiqué de presse)
"La gestion de données au sens large
Né d’une initiative conjointe entre Logica Management Consulting et son client EDF à la suite d’une mission menée en 2006, cet ouvrage reflète la volonté de répondre aux principales questions des dirigeants (marketing, ventes, achats, administratifs), urbanistes et chefs de projets dans le cadre du démarrage de projets de Master Data Management. « La méthode du MDM a pour vocation de gérer la qualité et la cohérence des données contenues dans les bases et les systèmes informatiques de l’entreprise. En général, les entreprises disposent de plusieurs bases de données, chacune placées au sein d'un système d'information ou derrière une application métier particulière, entrainant ainsi des risques d’incohérence entre les directions métiers. Ainsi, au-delà d’une simple gestion de base de données, le MDM apporte une vision globale et transverse à l’ensemble des métiers de l’entreprise, permettant ainsi de gagner en efficacité », explique Franck Régnier-Pécastaing, Responsable de l’offre de services MDM chez Logica Management Consulting.

Offrir un cadre aux initiatives de gestion des données de référence
Dans cet ouvrage, le lecteur y trouvera des témoignages et des retours d’expériences concrets issus des missions menées par les auteurs dans leur entreprise ou chez les clients de Logica France. Ces retours portent sur tous types de secteurs tels que l’industrie, la grande distribution, la finance ou les utilities. « Si le champ du MDM chez EDF est immense, son implémentation est cependant encore embryonnaire, respectant ainsi l’adage « Voir grand et commencer petit ». Mais la plupart des directions métiers ont pris conscience de la criticité de la gestion des données, et particulièrement des données de référence. Et des solutions MDM sont envisagées dans quelques domaines : finances, ressources humaines, optimisation de la production », explique Jacques Finet, Ingénieur urbaniste à la Direction Informatique et Télécommunications d’EDF.

L’ouvrage, en trois parties, expose dans un premier temps les concepts, besoins et enjeux de la gestion de données. Dans une seconde partie, les auteurs exposent les bonnes pratiques et les solutions pour améliorer cette gestion. Le MDM y est particulièrement traité.
Enfin, la dernière partie propose des méthodes et des organisations s’appuyant sur le socle théorique de la gouvernance des données. Loin du kit standardisé, cette partie donne des clés afin que chaque entreprise puisse s’approprier les règles essentielles en fonction de ses problématiques et de ses enjeux."

J'en reparlerai très prochainement.

Source :

jeudi 13 novembre 2008

Sortie de SAP MDM 7.1 ce mois-ci

L'éditeur allemand était attendu au tournant puisque sa solution avait pris un certain retard technologique face à la concurrence, aussi cette nouvelle version annonce un changement décisif pour la survie de la solution sur le marché du MDM.
Aussi la nouvelle version de la solution MDM de SAP qui sort ce mois-ci, passe directement de la version 5.5 à la version 7.1, preuve s'il en est d'un changement radical avec au programme :

Au niveau modèle de données :
  • Possibilité de lier différents types de données présents dans une même base référentielle (c'était là une grosse limitation de l'ancienne version)
  • Le modèle n'est plus limité et permet désormais de modéliser des structures imbriquées - par exemple de relier plusieurs adresses et plusieurs méthodes de contact à un client
Au niveau architecture, on citera notamment :
  • Interface WebServices améliorée, permettant de générer des webservices associés à un modèle de données personnalisé, offrant ainsi l'ouverture SOA qui manquait à la solution.
  • Import de données amélioré
  • Accès (pseudo)concurrents en lecture/écriture dans le référentiel


Source : 

mercredi 22 octobre 2008

et Yphise inventa le MDQ...

Yphise vient de sacrer la solution SAS-Dataflux qMDM comme étant la "meilleure solution de MDQ" en lui délivrant le Yphise Award idoine.

Ce cabinet d'analyse définit les solutions MDQ (Master Data Quality, ou qualité des données maîtres) non pas comme étant des solutions de DQM (Data Quality Management) mais comme étant ... le nouveau nom des solutions CDI (Customer Data Integration, ou solution d'intégration des données Client) ! (véridique!).

Pas d'autres explications ni sur les critères précis de l'évaluation, ni sur les autres solutions évaluées et leurs notes, mais le diagramme d'analyse en radar - dont l'exhaustivité s'établit sur seulement 4 axes - démontre également à quel point la solution de SAS-Dataflux est particulièrement en adéquation avec ce nouveau segment de marché du MDM, dont personne ou presque (analystes, intégrateurs, éditeurs, etc.) n'avait entendu parlé auparavant (du moins en tant que CDI).

Plus que jamais, il convient d'être vigilant face aux discours des adeptes du néologisme et autres inventeurs de "nouveaux concepts" qui, pour masquer leur propre manque de clarté, entretiennent la confusion et le trouble dans un domaine en maturation, au moment où les fondations du MDM sont à peine posées et les concepts assimilés par leurs bénéficiaires.

Update 24/10/08 : une autre définition du MDQ trouvée au fin fond du site d'Yphise. Selon Yphise, le MDQ regroupe plus simplement les solutions dont l'objectif est d'améliorer la qualité des données de référence, en fait une catégorie de solutions DQM dont le focus s'établit particulièrement sur celle des Master Data. Cette définition est plus élégante que celle trouvée sur la page de l'Award (qui rappelons-le compare ces solutions à des solutions CDI) et correspond mieux à la solution qMDM de SAS-DataFlux.

Liens :

lundi 13 octobre 2008

EBX.Platform version 4.5.4

Côté Orchestra Networks, sortie aujourd'hui d'un fix de la solution EBX.Platform version 4.5.4 - déjà sortie le 30 septembre dernier. La maturité est au programme, avec entre autres l'amélioration de la gestion des hiérarchies, et un pas de plus vers la gestion de l'internationalisation (gestion de labels internationalisés).

Annoncées lors du Webinar sur la gouvernance des données dans la banque et assurance, le 24 septembre dernier), 2 fonctionnalités attendues devraient faire leur apparition avant la fin de l'année :
  • La gestion de workflow (pourtant déjà présente dans la solution en avril 2008 mais non documentée)
  • Le Data Model Assistant (ci contre) un assistant graphique qui va enfin permettre de créer et gérer le modèle de données sans avoir à connaitre les technologies XML Schema (.xsd).
Liens :

dimanche 12 octobre 2008

DataFlux et SaS se lancent ensemble dans le MDM : Projet Unity

Un nouvel entrant sur le marché des solutions MDM, ou plutôt deux, et pas des moindres :
DataFlux - spécialiste des solutions DQM (Data Quality Management) et d'intégration de données - et sa maison mère SaS - spécialiste des solutions décisionnelles - viennent d'annoncer, lors du 1er jour de la grande messe annuelle des utilisateurs Dataflux, le lancement en commun du  projet "Unity", plateforme de gestion du cycle de vie des données bénéficiant du meilleur des technologies des 2 éditeurs/mondes. Pas de date annoncée, mais gageons que cette plateforme MDM, gérant les problématiques

Alors que les 2 éditeurs se cantonnaient plutôt à outiller les solutions MDM de manière périphérique (en particulier DataFlux), ils mettent désormais les pieds en plein dedans. Pas de date annoncée, et sur le papier tout semble clair et cohérent. Attendons de voir comment DataFlux et SaS vont s'organiser pour sortir le meilleur des 2 éditeur. DQM + Intégration + Décisionnel/Analytique, et MDM : une évolution naturelle de ces 2 éditeurs pour certains, mais surtout un nouvel acteur de poids sur le marché des solutions MDM.

Merci à Christophe pour l'info.

Plus de liens :

mercredi 8 octobre 2008

Adoption de la gouvernance des données et "MDM Landscape"

Enquête sur l'adoption de la gouvernance des données
The Information Difference publie aujourd'hui un rapport sur l'adoption de la gouvernance des données, une enquête menée sur plus de 230 sociétés (dont 60% avec un budget de plus de 1Md$) qui met en avant différentes tendances :
  • L'intérêt significatif concernant la gouvernance des données (36% des entreprises sondées ont déjà implémenté une politique de gouvernance, 30% étant en phase de projets pilotes)
  • La prise de conscience du fait que la gouvernance sort du simple cadre des données Client et Produit (67% des sondés)
  • La prise de conscience de la nécessité d'une organisation adaptée (31% des sondés possèdent un comité dédié à la gouvernance, incluant les responsables métiers, IT, architectes de données, et analystes métiers)
  • La méconnaissance des conséquences - fautes de chiffres - de la mauvaise qualité de données dans l'activité de leur entreprise,
  • La méconnaissance des enjeux de la mise en oeuvre d'une gestion de la qualité des données (désintérêt pour le pilotage et la mesure de la qualité des données, pourtant un pilier de la gouvernance des données)
  • La méconnaissance de l'importance et des enjeux de la gouvernance des données : 41% des entreprises sondées n'ont pas les idées claires sur qui, du métier ou de l'IT, doit assumer le leadership des initiatives de gouvernance des données.
  • Le succès relatif des initiatives mises en place... : 43% des organisations interrogées s'estiment "raisonnablement satisfaites" de leurs programmes de gouvernance des données, 38% restent "neutres" sur le sujet et seules 5% s'estiment "très satisfaites".
  • le taux encore faible des projets de MDM mis en place : 21% des entreprises sondées ont lancé des initiatives de MDM ou de DQM (ou les deux), et 44% l'envisagent prochainement.
Le cabinet conseille néanmoins aux entreprises désireuses d'activer leurs initiatives de gouvernance de données d'aller chercher l'aide des intégrateurs de systèmes, des éditeurs et de consultants.
Selon le rapport, le sujet de la gouvernance des données reste un sujet plus en avance en Europe qu'en Amérique du Nord, où du coup les vendeurs de solutions y voient une opportunité.

MDM Landscape
Plutôt actif sur la Toile, le cabinet d'analyse The Information Difference (dirigé Andy Hayle, fondateur de l'éditeur Kalido) en profite pour publier un quadrant magique, une vague, un paysage des solutions MDM (MDM Lanscape).

Cocorico!, les solutions des éditeurs français Orchestra Networks et Amalto apparaissent sur ce paysage de solutions (bien que cités dans tous les rapports pour le caractère innovant des solutions qu'ils proposent, les éditeurs hexagonaux étaient souvent pénalisés du fait de leur manque de visibilité à l'international, et en particulier sur le marché... US; mais les choses tendent à changer).


Liens :

lundi 6 octobre 2008

MDM : Lectures d'automne

L'automne arrive, avec une première fournée de livres anglophones traitant du MDM.

Master Data Management,  
ouvrage en anglais 
par David Loshin aux éditions Morgan Kaufmann, sept.2008
Ce livre propose un aperçu des leviers métiers, la gouvernance des données, les paradigmes architecturaux et les bonnes pratiques métiers pour la mise en oeuvre d'un programme MDM.

Data Driven: Profiting from Your Most Important Business Asset,
ouvrage en anglais 
par Thomas C. Redman, aux éditions Harvard Business School Press, sept.  2008
Un livre traitant de l'importance des assets informationnels pour la compétitivité de l'entreprise, par un gourou de la gestion des données - parmi les premiers à appliquer les principes de la qualité dans ce domaine.

Lire un avis sur ce livre (Richard Hackathorn)

samedi 20 septembre 2008

Matching Déterministe versus Matching Probabiliste

Détection de doublons, appariement, comparaison, mise en correspondance, rapprochement ou encore calcul de similarité... Autant de termes en usage dans le monde francophone pour nommer ce processus clef au cœur des mécanismes de dédoublonnage de données (ou de déduplication, de factorisation ou encore de stockage d'instance unique). Faisons simple : j'utiliserai ici le terme anglophone plus générique de matching.

Le principe du matching est simple : déterminer si 2 représentations (ou avatars) correspondent ou non à une même réalité. Et lorsque la comparaison de représentations n'est pas aussi évidente, on a recourt à des procédés plus ou moins élaborés de matching, dont 2 approches sont abordées dans cet article. Le problème ne date pas d'hier, mais la problématique de doublons dans les solutions MDM - c'est à dire de doublons dans des référentiels de données d'entreprise, devant mettre à disposition des données de qualité et rapidement accessibles à l'ensemble des applications de l'entreprise - amène des contraintes de rapidité de traitement (parceque accès temps-réel - SOA) et de volumétrie qu'il est nécessaire de prendre en compte pour le choix de la méthode la plus efficace.

Matching Déterministe vs Matching Probabiliste
L'univers du matching est régi par 2 grandes écoles : les fervants adeptes du déterminisme, et les aficionados du probabilisme. Le choix d'une méthode de matching a des répercussions bien plus pragmatiques sur la qualité des données de l'entreprise.

Tentons déjà de dégrossir un peu ce que sont ces 2 approches :
Pour commencer, les deux approches partagent le même objectif : déterminer si 2 avatars représentent ou non la même réalité physique - autrement dit à identifier des doublons dans un ensemble de données.

Ensuite, les 2 approches - matching Déterministe et matching Probabiliste - utilisent toutes deux des processus déterministes (avec un petit 'd') pour évaluer la similarité de deux avatars : et par déterministe on entend le procédé qui, à partir d'un même ensemble de paramètres, produit toujours le même résultat - de l'ordre de la prédiction, donc.

Enfin, les deux approches manipulent plusieurs algorithmes pour évaluer la similarité de 2 données élémentaires : on distinguera alors la comparaison stricte de valeur, qui évalue l'égalité de valeur, des logiques floues (fuzzy logic), outillées par des algorithmes complexes de calculs de "distances" entre expressions, permettent de détecter des données "proches", comme les inversions de lettres, etc.

Alors vient LA question : Puisque tout semble les rapprocher, pourquoi avoir attribué des noms distincts à ces 2 approches ?

Pour résumer cette différence, disons que les démarches de matching Probabilistes non seulement en compte les données à comparer, mais également des informations plus générale sur le contexte dans lequel s'effectue cette comparaison, comme l'état actuel de l'espace de recherche. Ces informations de contexte sont généralement des mesures statistiques - par exemple l'ensemble des valeurs de noms de famille actuellement présent dans la base référentielle de personnes - desquelles sont déduites des probabilités qui vont influencer les résultats de la comparaison déterministe

En comparant 2 enregistrements champ par champ, les 2 démarches sont capables de déterminer une probabilité de doublonnage de 2 enregistrements, c'est à dire leur similarité (à ne pas confondre avec la notion de "matching probabiliste"). Le matching probabiliste ne s'arrête pas à cette simple comparaison, et prend en compte les statistiques de l'ensemble de valeurs existentes pour pondérer l'importance données à certains champs pour différencier 2 enregistrements. 

Matching déterministe
Au delà de la simplicité de conception des algorithmes de matching déterministes, ce type de méthode souffre (selon Scott Schumacher) de plusieurs défauts qu'il décrit ainsi :
  • Moins efficaces et moins fidèles que les méthodes probabilistes, puisque non prise en compte des données existantes,
  • Applicable uniquement sur de faibles volumétries (moins de 2M d'enregistrements) , avec peu d'attributs à comparer, et là où la non détection de doublons a peu de conséquences,
  • Lourds à implémenter à mesure que les règles de matching se complexifient, et que le nombre d'attributs pris en compte augmente. La prise en compte d'un nouvel attribut nécessite la révision de l'ensemble des règles déjà existantes, en plus des nouvelles règles à implémenter, avec des impacts sur les développements et sur les performances;
  • Les méthodes déterministes n'ont plus l'avantage de la rapidité d'exécution vis-à-vis des méthodes probabilistes.
Matching probabiliste
Les avantages du matching probabiliste face au matching déterministe semblent évidents, puisque l'efficacité de la méthode probabiliste réside dans la prise en compte de données statistiques sur l'espace de recherche au moment de la comparaison. La fraîcheur de ces statistiques est donc un caractère important de cette efficacité, afin que ces informations représentent au mieux l'état du contenu du référentiel. Dans le cas du temps réel, il n'est pas pensable de régénérer ces statistiques à chaque nouvelle entrée dans le référentiel : un compromis pourra être trouvé en ne les régénérant que périodiquement - en fonction des volumes et des fréquences de mise à jour considérés.

Les détracteurs du probabiliste lui reproche son côté .. non déterministe : les limites du matching probabiliste semblent atteintes en cas de mécontentement de la manière dont 2 enregistrements sont rapproché, ou bien lorsqu'il faudra justifier les raisons qui ont menées à ce rapprochement, par exemple dans le cadre d'un audit.
Le matching déterministe permet en ce sens plus de transparence; et lorsque 2 enregistrements ne sont pas rapprochés, il suffit d'écrire la règle adéquate.
Plus évasif, le matching probabiliste peine à justifier ses raisons, de par la difficulté de conserver la trace des statistiques utilisées par le matching. C'est ici que les fonctionnalités d'audit et d'historisation des outils MDM ont leur importance : l'audit permet de conserver la trace des fusions opérées pour procéder à un éventuel retour arrière, l'historisation permet quant à elle de reconstituer - non sans effort d'investigation - l'état de l'espace de recherche (les données) et donc des statistiques considérées à un instant précis.

Quel vainqueur ?
La solution réside en un usage intelligent des 2 méthodes. Par exemple, pour des raisons de performances, un matching déterministe est essentiel pour réduire l'espace de recherche sur lequel se basera un matching probabiliste pour affiner les résultats.

Et comme le confirme David Loshin, que ce soit matching déterministe ou matching probabiliste, le plus important réside dans la maîtrise de la compréhension de la démarche, et dans la capacité des utilisateurs à faire évoluer et vivre l'algorithme, pour le rendre plus efficace dans le temps et apporter la valeur ajoutée escomptée.

Dans un prochain article, j'aborderai les limites auxquelles ces approches font face, et les méthodes pour y remédier dans le contexte du MDM.


Liens :

mercredi 10 septembre 2008

MDM Alliance Group (MAG) : Modèles de données prêts à l'emploi

Le MDM Alliance Group (ou MAG pour les intimes) vient de publier des modèles de données UML préconstruits et prêts à l'emploi ("afin d'éviter de réinventer la roue") sur les domaines des Tiers (Party), Adresses, Ressources Humaines, Classification et Période (le tout sous licence Creative Commons Attribution-Share Alike 2.0 France).

L'alliance, qui se veut fédératrice des méthodes et initiatives MDM, en profite d'ailleurs pour publier son guide de modélisation dans la langue de Shakespeare.

Liens :

lundi 1 septembre 2008

Dossier 01 Informatique : "Référentiel de donnees - Master Data Management : l'âge de raison"

Cette semaine dans les kiosques, l'hebdomadaire 01 Informatique (N°1959, du 28/08/2008) consacre un dossier pragmatique sur les référentiels de données, en abordant les dimensions liées à l'architecture, l'organisation, l'intégration, les éditeurs de solutions, et les perspectives du marché.

Dans cette dernière thématique, Franck Régnier (responsable de l'offre MDM chez Logica Management Consulting) offre des éléments de réponse quant à la tournure que prend le marché du MDM en France : place prépondérante du MDM dans les projets de refonte du SI, croissance de dimension organisationnelle, convergence des pratiques MDM et de celles de l'EIM, et bouleversements à venir du côté des marchés des éditeurs et des intégrateurs de solutions MDM.

Up : Retrouvez désormais le dossier en ligne sur le site de 01 Informatique

mardi 26 août 2008

Nouvelle fournée 2008 des analyses de solutions MDM

Comme chaque année, l'été fournit ses nouveaux millésimes d'analyses de solutions MDM...

Gartner
Fait marquant cette année, l'apparition d'une seule et même analyse des solutions de Master Data Management, déclinée suivant les 2 problématiques que sont la gestion des données Client, et la gestion des données Produit, en lieu et place des 2 Magic Quadrants distincts des solutions - respectivement - de CDI (Customer Data Integration) et de PIM (Product Information Management).

Certes l'analyse n'a rien de radicalement nouveau tant au niveau des critères de sélection qu'au niveau des éditeurs étalonnés, mais l'approche a tout de même le mérite d'être citée : le MDM résultant de la prise de conscience de pratiques communes dans la gestion de données de référence de différentes natures, les solutions MDM (adressant ces problématiques de manière transverse) se devaient d'avoir leur propre quadrant magique.

A noter également la sortie du quadrant magique de solutions DQM, partenaires indissociables des démarches MDM réussies...

Forrester
Forrester récidive également (pourtant sans édition 2007...) avec son non moins attendu Wave sur les solutions de Hub Client. Le cabinet fait l'éloge des solution Hub Client, saluant leur montée en maturité (alors que le dernier Wave en date dénonçait l'état général de non maturité des solutions) et annonce leur avenir flamboyant là où en vingt ans d'efforts les datawarehouse, les CRM, les ERP et même la BI - prédit Forrester - ont ou vont inexorablement échouer dans la prise en main de la gestion des données Client.
Les habitués sont toujours dans la course : Initiate Systems, Siperian, IBM, Oracle ou encore D&B Purisma. Et parmi les faits marquants, on notera l'entrée remarquée de la solution MDM Suite de Sun dans le palmarès (elle même présente dans l'analyse de Gartner).

Loin de la représentativité du marché français ?
On regrettera néanmoins une fois de plus que les critères de sélection choisis - aussi bien chez Gartner que chez Forrester - écartent de l'analyse des solutions MDM pourtant dignes d'intérêt, voire pleines de potentiel de croissance et qui plus est installées dans l'Hexagone, parce que trop peu implantées dans le reste du monde, et donc quasi inconnues du panel de sociétés retenues...

Liens :

lundi 11 août 2008

Perspectives : MDM et sémantique

IBM Research a annoncé en janvier dernier le lancement du projet Semantic Master Data Management (SMDM) qui vise à utiliser les technologies Web sémantique pour outiller l'interrogation et l'analyse sémantique de données de référence. Cette technologie vise à terme à améliorer l'utilisation des données en référence en se greffant aux solutions MDM existantes.

Quelle opportunités apportent l'emploi de ces technologies récentes en entreprise, alors qu'elles semblent à priori cantonnées au stade d'expérience ? Quels avantages pourrait tirer le MDM, et plus globalement l’entreprise de ces technologies Web sémantique ?

Vous avez dit « Web sémantique » ?

Les technologies Web sémantiques regroupent les standards définis par le W3C pour donner du sens aux contenus Web : basés sur XML, URI et Unicode, les spécifications RDF (description de metadonnées), OWL (représentation d'ontologies) et autres SKOS (taxonomies, thésaurus) et SPARQL (requête pour RDF) sont autant de standards qui permettent la représentation des ontologies, la mise en relations de ressources pour construire liens et métadonnées, la définition de taxonomies et de vocabulaires, et la déduction automatique et l’interrogation de ces données et relations. A titre d'exemple, l’une des formes les plus répandues de l’utilisation de ces standards est le flux RSS, basé sur RDF.

Le "cake" des technologies Web sémantique

Au-delà de leur vocation première d’application aux ressources distribués sur le Web, ces standards XML s’appliquent à toute ressource identifiable - données, services, systèmes – et par conséquent en entreprise.

Adoption des technologies sémantiques
Les technologies sémantiques s’avèrent pertinentes en entreprise dans des contextes bien spécifiques : complexité des données (structures, sources, volumes), volatilité des données, ou encore volonté forte d’innovation et d’expérimentation.

Alors que les standards Web sémantiques étaient dans l’attente d’acteurs majeurs permettant de démocratiser leur adoption, Yahoo! a lancé en début 2008 la course à la gestion sémantique des contenus Web - prenant de cours Google en adoptant les standards du Web sémantique pour améliorer la pertinence des résultats de son moteur de recherche, espérant ainsi attirer plus d’utilisateurs et accroître les revenus publicitaires associés. Effet d’annonce ou véritable révolution, le domaine des données d’entreprise n’est pas en reste puisque les technologies sémantiques s’y trouvent également en cours d’adoption.

Plusieurs démarches sont en cours dans plusieurs secteurs d’activités : santé, marchés financiers, médias interactifs, aérospatiale et défense, et d’autres secteurs s’y intéressent également de près, comme l’assurance, la chimie/pétrochimie, le tourisme, le transport et l’électronique, etc. (Source : Semantic Web Industry Adoption, Yue Pan). En témoignent les spécifications de normes, de taxonomies et de vocabulaires spécifiques communs : UMLS Semantic Network et HL7 CTS pour le secteur de la santé, XBRL Taxonomy & Linkbase pour la finance, Dublin Core et autres RSS pour les médias.

Pourquoi utiliser des ontologies ?
Le projet SMDM a fait le choix de gérer des ontologies enrichies à partir du modèle de données logique d’une solution MDM.

Architecture de la solution SMDM, basée sur une solution MDM Hub (source : IBM)

Pour mémoire, l’ontologie est concept fondamental du Web sémantique, pouvant être définie comme la spécification explicite d’une conceptualisation partagée. Il s’agit donc d’une structure clé pour la représentation des connaissances.

Les données maîtres sont représentées sous formes d’instances d’ontologies de la forme <sujet, prédicat, objet>, similaire au langage naturel et aisément interprétable.

Après la mise en place de l’entrepôt d’ontologies, celle des moteurs de recherche associés : le langage de requête SPARQL permet l’interrogation de ces données, les requêtes étant intuitivement construites sans qu’il ne soit nécessaire d’avoir connaissance du modèle de données sous-jacent.

L’utilisation d’ontologies permet également la découverte d’informations implicites par le biais du raisonnement ontologique : découvertes de nouvelles relations, classification automatique, mise en relations automatiques, catégorisation à la volée (voir encadré).


Avantages des ontologies OWL pour les informations Produit
(source : IBM)
  • Identification des ressources
    Basé sur RDF, OWL utilise le concept d’identification universelle de ressources (URIs, Universal Resources Identifiers) comme schéma d’identification basé sur le Web. Ceci permet tout d’abord de faire référence aux ontologies spécifiques d’entreprise ou bien externes. Ensuite, cela permet la synchronisation des outils de gestion de données produit avec les autres entités métiers, comme ceux de la gestion des données Client (CDI, pour Customer Data Integration).
  • Propriétés et relations plus riches
    OWL permet la définition de propriétés et de relations plus riches. Les propriétés d’objets peuvent être définis comme symétriques, fonctionnelles, fonctionnelles inverses ou transitives. Les propriétés d’objet sont ensuite adaptées à la description de relations complexes parmi les produits, entre produits et toute autre entité dans les informations produit.
  • Classification automatique
    L’expressivité d’OWL permet la définition de classes logiques (intersection, union et opérateurs complémentaires), qui permet la classification automatique d’instances de produits. En effet, de nouvelles catégories de produits peuvent être définies comme l’intersection de deux autres : les smartphones, qui héritent à la fois des caractéristiques des PDA et des téléphones, sont un bon exemple. Tout produit étant simultanément un PDA et un téléphone est alors un smartphone.
  • Déduction automatique et catégorisation à la volée
    Les restrictions d’OWL peuvent définir des catégories dynamiques qui n’existaient pas dans la hiérarchie prédéfinie des catégories, et qui peuvent être spécifiée par les utilisateurs lors de la requête. Celles-ci permettent de représenter des catégories complexes et potentiellement évolutives. Par exemple, utiliser la restriction des cardinalités minimales, il est possible de définir une catégorie « produits obsolètes » qui rassemble l’ensemble des produits remplacés par au moins un autre. Les éléments de catégories dynamiques peuvent être extraits en utilisant le raisonnement d’ontologie OWL.

Nouvelles fonctionnalités pour la gestion des données produit (source : IBM)

Vers une maîtrise globale du capital informationnel de l’entreprise
Les solutions MDM et de gestion de contenu actuelles maintiennent elles-mêmes leurs propres métadonnées, et de ce fait l’entreprise reste tributaire des choix (trop souvent propriétaires) effectués par chaque éditeur. Ces silos de métadonnées sont un obstacle pour l’entreprise à l'accès à une compréhension globale et transverse de ses données stratégiques, structurées ou non structurées.

Par la construction d’un socle sémantique utilisant les standards W3C au dessus de ses entrepôts de données, l’entreprise se dote des moyens lui offrant de nouveaux usages pour l’exploitation des contenus métiers, par la capacité à valoriser l’ensemble de ses données stratégiques en véritables informations.
Alors que la sémantique permet la compréhension, la déduction automatique et l'interrogation intelligente des données, les standards sémantiques ajoutent l’interopérabilité inter-applicative : les outils d’analyse ont accès à toujours plus de contenu intelligible; les règles métiers peuvent s’affiner et perfectionner la gouvernance des données, la déduction automatique permet la mise en relation de données toujours plus hétérogènes, et l’interrogation sur ces données devient plus pertinente, offrant ainsi une meilleure maîtrise des actifs informationnels de l’entreprise.

Même s'il s'agit encore d'un sujet naissant, difficile d'appréhension et peu répendu - les éditeurs OWL à l'instar de Protégé sont encore peu connus - , l’émergence du courant d’adoption de ces standards sémantiques en entreprise est bien la preuve que l’EIM (Enterprise Information Management) est loin d’avoir dit son dernier mot…

Liens :

jeudi 7 août 2008

MDM et Open Source

Le site ebizQ vient de publier un article de Dennis Byron recensant les initiatives MDM dans le monde Open Source (communauté Mural dirigée par Sun, et MetaMatrix par RedHat), posant la question de la place de l'Open Source dans le paysage des solutions MDM.

Liens :

vendredi 18 juillet 2008

Microsoft rachète Zoomix, startup de Data Quality

Après le rachat de Stratature (avec EDM+, solution MDM), Microsoft continue d'étoffer son offre data management par l'intermédiaire du rachat de Zoomix (transaction estimée à 20 ou 30M$), en s'offrant la solution DQM qu'il lui manquait.

D'après le site de Zoomix, la société basée à Jérusalem propose - via Zoomix Accelerator - une solution novatrice d'analyse sémantique et linguistique par apprentissage automatique, offrant profiling, parsing, matching, classification et nettoyage, orientée SOA et spécialisée dans les bases SQL Server. La solution pourrait être intégrée à l'offre SQL Server 2008 de l'éditeur de Redmond.

Sources :

mercredi 2 juillet 2008

Vacances, plage et MDM : les livres du mois

Cet été, bronzez MDM sur les plages. Les livres sur le thème du MDM ne sont pas encore légion, mais ce mois-ci ce ne sont pas moins de deux ouvrages qui sont sortis des presses pour aborder ce sujet.



Le système d'information transverse
Par François Rivard, Georges Abou-Harb, et Philipe Méret - Editions Lavoisier

Cet ouvrage francophone destiné aux Directeurs des Systèmes d’Information (DSI), aux architectes d’entreprises et aux architectes métiers révèle comment le MDM, le SOA ou le BPM permettent à l’entreprise d’exploiter de nouveaux gisements de performance. Il montre également comment l’entreprise peut moderniser son système d’information et les actifs métiers qui le constituent.


Enterprise Master Data Management: An SOA Approach to Managing Core Information
Par Allen Dreibelbis, Eberhard Hechler, Ivan Milman, Martin Oberhofer, Paul Van Run, et Dan Wolfson - IBM Press

Radicalement plus technique et à destination des architectes applicatifs, décideurs IT et autres intégrateurs ou consultants, cet ouvrage anglophone très bleu (édité par IBM) introduit les concepts clefs du MDM en abordant les problématiques techniques associées, et en exhibant les apports du MDM pour la faciliter la mise en oeuvre d'une architecture SOA.



En complément de ces 2 livres récents, voici également une liste d'ouvrage déjà parus traitants de gestion des données à poser également sur un coin de serviette de plage :


Data Management : Qualité des données et compétivité
Par Christophe Brasseur - Editions Lavoisier

Ce livre synthétique, à destination des DSI et managers IT, analyse les enjeux de la qualité des données et les bonnes pratiques de la gestion des données.

Master Data Management and Customer Date Integration for a Global Enterprise
Par Alex Berson et Larry Dubov - Editions McGraw-Hill

Ce livre anglophone aborde les différents enjeux et facettes du MDM appliqués au domaine du CDI (Customer Data Integration).


Enfin, à paraitre d'ici la rentrée, l'ouvrage MDM : Enjeux et Methodes chez Dunod (merci à christophe pour l'info).

Et... n'oubliez pas la crème solaire.

mardi 10 juin 2008

Sun MDM Suite : Sun révèle sa solution MDM


Comme annoncé précédemment, Sun révèle aujourd'hui officiellement la sortie de sa solution MDM - baptisée Sun MDM Suite et basée sur le projet open source Mural - et se révèle donc comme un nouvel entrant sur le marché du MDM.

Avec la même architecture et les mêmes composants que Mural, la plateforme se place en Hub permettant l'aggrégation, le nettoyage, la maintenance, l'acquisition et la distribution de données de référence - et plus particulièrement de données Client, aux vues de la communication de Sun.

A noter que cette sortie s'accompagne également de celle de Java CAPS 6 - plateforme applicative SOA / ESB / BPM - dont MDM Suite est l'une composante. Sun MDM Suite sera néanmoins disponible séparément, et selon certaines sources à partir du 24 juin à un prix de l'ordre de 80 à 100$ par utilisateur.



Liens :
Voir l'annonce
Sun MDM Suite
SOA : Sun met du MDM et du CEP dans sa suite Java Caps (Le monde informatique)

samedi 31 mai 2008

Création du MDM Alliance Group (MAG)


Partant du constat que les entreprises font face à autant d'approches-méthodes différentes que de cabinets de conseil ou d'intégrateurs qui viennent délivrer progressivement des solutions de MDM, l'alliance MDM Alliance Group (MAG) vient de voir le jour sous l'impulsion de Pierre Bonnet et de son guide méthodologique.

L'objectif de cette alliance est de permettre aux entreprises de disposer d'un socle méthode de départ qui soit partagé entre les acteurs du marché du MDM.
Proposant une méthode ouverte et communautaire, la compatibilité un projet avec les procédures MAG permet à l'entreprise de bénéficier des bonnes pratiques de modélisation - partagées, ouvertes et à jour - et donc de sortir du carcan d'une méthodologie propriétaire. Les intégrateurs et consultants sont alors capables de concentrer leurs efforts sur la réelle valeur ajoutée du métier.

Parmi les premiers membres de cette alliance, on compte Logica Management Consulting (ex Unilog Management), Axiad Conseil et Micropole Univers et l'éditeur Orchestra Networks, auxquels se sont joints Awa Conseil, Atos Origin, Softeam et sa filiale édition Objecteering Software. D'autres partenaires sont invités par Pierre Bonnet - via une interview vidéo - à se joindre à cette alliance - qu'ils soient français ou internationaux - et de contribuer à l'effort commun.

Liens :
Site du MDM Alliance Group
Interview de Pierre Bonnet (TV4IT), et annonce de lancement.

vendredi 30 mai 2008

Siperian sur SalesForce.com : MDM et Cloud computing

Siperian s'est lancé dans l'aventure SaaS (Software-As-A-Service, un modèle qui encourage les entreprises à consommer les logiciels comme un service - Gartner parle aussi de Cloud, ou cloud computing) en décembre 2007, en mettant à disposition sa solution Siperian MDM Hub sur la plateforme Salesforce.com.

SalesForce.com
Salesforce s’est lancé en annonçant la mort du logiciel. Puis il a généralisé le terme Saas, avant de lancer le Paas (Platform as a Service). Cette société créée en 1999 par des anciens d'Oracle et de Siebel propose en fait une application CRM en mode SaaS - parmi les leaders des solutions CRM, d'après Gartner.

Avec un résultat net multiplié par 38 en 2007 et la venue d'éditeurs tels IBM et Informatica (qui se sont lancé dans l'aventure en proposant leurs solutions respectives d'intégration et qualité de données), le lancement de la plateforme PaaS Force.et le soutien de Google dans la promotion du Cloud Computing, SalesForce.com s'impose comme l'acteur incontournable du monde SaaS.

Opportunités des solutions en mode SaaS
La plupart des avantages du SaaS ne sont pas nouveaux :

  • Ce mode permet de se décharger de la maintenance, de l'exploitation et de l'hébergement des applications, comme dans le mode ASP.
  • Les déploiement sont également plus rapides, et l'entreprise ne paie qu'aux (web)services consommés (volumes d'écritures ou consommations de ressources machines).
  • Enfin, l'ouverture de plateformes telles que Forces.com ouvrent les portes d'un marché plus concurrentiel, où tout éditeur pourra y proposer sa propre solution mais où cette liberté de choix permanent des clients pousserait les éditeurs à se différencier en améliorant constamment leurs solutions.
Siperian sur SalesForce.com
Siperian met en avant 2 usages principaux pour sa solution SaaS :

  • Aggrégation, réconciliation et synchronisation des données de référence déjà existantes dans Force.com et également dans Salesforce CRM.
  • La solution MDM constitue également une plateforme de chargement initial des données de l'organisation vers l'environnement Salesforce.

La solution se positionne donc en tant qu'accélérateur de l'intégration et du déploiement du SaaS dans l'entreprise.

Quelles opportunités du MDM en mode SaaS ?
Héberger la solution MDM
Pour Ravi Shankar (pas le musicien, mais celui de Siperian), le SaaS n'est pas la place du MDM dans le modèle Salesforce (n'empêchant pas Siperian de mettre néanmoins à disposition sa solution sur cette plateforme) : le choix d'une solution hébergée MDM dépend principalement de :
- la capacité à maîtriser et maintenir une solution MDM en interne,
- la complexité des sources de données.

Ainsi, le contexte d’une organisation possédant peu de ressources IT internes avec peu de sources de données (ou bien des données peu complexes) pourrait justifier le choix de l’utilisation d’une solution MDM en mode SaaS.

SaaS pourrait également constituer une réponse à des problématiques ponctuelles plus ciblées :

  • Pallier aux risques d’un environnement ou d’un logiciel trop récent ou dont la stabilité est trop incertaine pour justifier l’achat et le déploiement en interne d’une solution.
  • Nettoyage d’un volume de données en trop faible quantité pour justifier l’achat d’une solution et sa mis en œuvre complète (ex : nettoyage de 5000 données client en Allemagne pour une multinationale comptant 1M de clients).

Externaliser l’hébergement de données stratégiques ?
L’externalisation de données opérationnelles - données pouvant vêtir un caractère tactique voire stratégique pour l’entreprise - pose cependant la question de la sécurité, contre-argument majeur avancé par les détracteurs du SaaS, et contre lequel se bat SalesForce.com par l’intermédiaire d’initiatives de transparence.

MàJ : Parmi les 7 risques du Cloud Computing identifiés par Gartner, tous sont liés aux données hébergées :

  • Conformité légale et propriété de la donnée
  • Site de stockage et régime juridique local associé
  • Collaboration avec la justice
  • Confiance et qualité de l'hébergeur
  • Partage de ressources, donc confidentialité et cryptage adéquat
  • Sauvegarde et restauration en cas d'aléas techniques,
  • Viabilité sur le long terme, restitution en cas d'aléas du fournisseur
Cette question reste néanmoins à relativiser et il faudra désormais établir de nouvelles règles pour déterminer quelles données peuvent être externalisées « on the Cloud » (selon l’expression consacrée).

Valeur ajoutée du MDM et SaaS : Faciliter la mise en oeuvre d’applications SaaS dans le SI
La souffrance engendré par les mises en conformité réglementaire, couplé à l'intérêt croissant envers les architectures SOA ont pour conséquence le développement du mode SaaS hors du seul cadre des PME . Le SaaS apparaît comme une motivation supplémentaire pour la mise en place d’une démarche MDM, qui permet de facilitater l'intégration des données vers les environnements hébergées.

Vers d’autres usages ?
Le mode SaaS pourrait également ouvrir la voie à de nouveaux usages, facilitant par exemple l'échange de données standardisées entre organisations - les entreprises déployant des efforts colossaux pour redresser ses données - , voire l’apparition de nouveaux acteurs fournisseurs de données de qualité. Les nouvelles opportunités offertes par le cloud computing sont encore à découvrir, et donc à suivre…

Source :
Interview de Ravi Shankar (Siperian)
SaaS, How it Fits (Franck Dravis, on EIM)
SaaS, pour Software as a Service (JDN)
“On the cloud” ? “On the Laptop” ? Quelle sécurité pour les données ?(Louis Naugès)
Le Gartner identifie sept risques dans le 'cloud computing' (LMI)

PS : Cet article a été mis à jour le Lundi 8 septembre 2008.

vendredi 9 mai 2008

Casser des idées reçues sur le MDM

Alors que le MDM est l'un des buzzword du moment, il devient difficile de s'y retrouver parmi les chants des sirènes des différents acteurs - analystes, éditeurs, intégrateurs et autres - se clamant de cette approche.

Sur le terrain, une mauvaise compréhension ou un sous-estimation des enjeux du MDM peuvent jusqu'à faire capoter un projet et décourager l'entreprise dans la mise en place d'une démarche MDM. Aussi me parait-il nécessaire de rappeler quelques principes généraux afin de recadrer la prise de conscience et favoriser ainsi la réussite de la mise en place d'une démarche MDM (attention, autre buzzword : ) durable.

Le Master Data Management N'EST PAS :
  • Un projet limité dans le temps,
  • Un problème qui relève uniquement du système d'information,
  • La mise en place d'une application qui solutionne tout.

Le Master Data Management EST :
  • Une initiative IT transverse qui englobe la totalité des processus liés à la création et à la synchronisation des données de référence,
  • Une approche traitant de la qualité des données,
  • Une réalisation nécessitant l'implication des acteurs métier (avant, pendant et après),
  • Une architecture composé d'une multitude de couches, orientées vers des aspects aussi bien fonctionnels que technologiques.

mercredi 7 mai 2008

Mural : MDM sauce Open Source

Les initiatives Open Source font enfin leur apparition dans le marché des solutions MDM : le projet communautaire Mural, initié par Sun, a pour ambition d'apporter des solutions du monde "Open" aux problématiques de gestion des données de référence.

Au programme : CDI, PIM, DQM (profiling, standardisation, matching, deduplication, cleansing), intégration de données, ETL, et autres outils de migration, compatibilité SOA, Web 2.0 etc. En bref des sujets donnant lieu à autant de projets (Master Index Studio, Data Integrator, Data Quality, Data Mashup et Data Migrator) qui forment un écosystème de solutions libres de gestion des données, et qui associé aux communautés GlassFish (serveur d'application développé initialement par Sun), OpenESB (ESB libre sur des bases de SeeBeyond) et NetBeans (IDE Java libre) se veut être une alternative aux solutions propriétaires du marché.

Cette communauté est récente, les outils sont encore à un stade trop peu avancé, et les fonctionnalités seront probablement moins étoffées que celles proposées par les solutions des éditeurs du marché. Mais comme le souligne Andy Hayler, ce type de solutions pourra satisfaire les problématiques moins exigeantes : la popularité d'outils tels que MySQL ou JBoss ont montré a quel point les produits Open Source peuvent trouver leur place dans les circonstances adéquates.

Présenté lors du dernier FOSS.IN en en décembre 2007, les réalisations auraient réellement débuté en février 2008, selon Sun. Outre la participation du centre d'ingénierie de Sun (SUN IEC) à Bengalore, la communauté s'est déjà enrichie d'étudiants de l'université de San José, et dont les premiers travaux sont attendus pour l'été 2008.

Selon TheServerSide.com, Sun s'apprèterait même à packager le projet Mural dans une suite commerciale - Sun MDM Suite - qui sera intégrée à la plateforme d'applications composites Java CAPS R6, et prévue pour l'horizon juin 2008. Jeune acquéreur de l'éditeur de MySQL en janvier dernier pour 1M$, Sun continue sa lancée vers l'Open Source et serait donc également un nouvel entrant dans le marché du MDM.

Un projet à suivre, donc.

Top Ten Things You Should Know About Mural

1. Enhanced customer experience. Helps customer retention, aids cross selling, delivers the right customer experience and manages the risk associated with them
2. Reduced cost and complexity. Maintain master data at a single location and execute transactions locally
3. Reduced errors. Master data represents accurate and consistent information
4. Increased visibility. Accurate report generation using master data as a source
5. Enhanced auditing and compliance. Data changes are accurately registered and available for reference
6. Open source. Mural is an open source community and is built to support Sun's complete open source stack - "Metal to Mural"
7. Reduced time to market. Encourages data level collaboration between organizational hierarchies
8. Single integrated toolset. Integrated toolset to extract data from source systems, clean, profile, match, and load master indexes
9. Size-to-fit integration solution. Since Open ESB leverages the JBI framework customers can easily assemble an integration solution to fit their specific requirements and integration environment.
10. Leverage GlassFish and NetBeans. Mural's components are built on and fully support GlassFish and all of the design time tooling is built on NetBeans

Liens :
- Mural, Open Data Management Community
- Sun Microsystems Announces Mural: Open Master Data Management
- Students and the Mural Community

mardi 6 mai 2008

Orchestra Networks s'allie à Informatica

Nouvel épisode de la saga d'Informatica au pays du MDM : alors que dans l'épisode précédent Informatica rachetait Identity Systems, laissant présager l'orientation de l'éditeur américain vers le marché du MDM, voici que l'éditeur français Orchestra Networks annonce un partenariat avec Informatica, permettant ainsi à l'éditeur français de proposer une offre d'intégration, profiling et de qualité des données en complément de sa solution MDM, et à l'éditeur américain de se rapprocher d'un éditeur de solution MDM qui monte.

mercredi 23 avril 2008

Gouvernance de données et Secteur public

L'innovation est au coeur du secteur public, à tel point que le privé a même tendance à s'inspirer de ce qu'il s'y fait. Mais à l'heure où les administrations publiques doivent rendre des comptes sur leurs résultats et leurs performances, et améliorer leurs processus, les remaniements ministériels et la multiplication des acteurs spécialisée les poussent à repenser leurs pratiques.

Dans cette vidéo, Franck Régnier et Thomas Laborey (Logica Management Consulting) nous expliquent que les administrations sont à la recherche d'un langage commun, leur permettant de fluidifier leurs échanges, au sein de l'administration mais également entre les différentes administrations. L'objectif d'un langage commun est également de faciliter l'interopérabilité des systèmes.



Petite piqure de rappel pour ceux qui n'auraient toujours pas bien saisi ce qu'était le Master Data Management :

Le MDM, ou gestion des données de référence, regroupe les activités liées aux dimensions que sont l'organisation, la méthodologie et l'outillage en vue d'établir une bonne gestion des données, et en priorité des données de référence. L'objectif est d'améliorer la qualité des données, et de rendre disponibles ces données le plus facilement possibles aux processus, de manière à améliorer la performance de l'organisation. En ce sens, le MDM participe à la rationalisation des actifs métiers de l'entreprise, en ouvrant la voie vers une gestion optimisée de l'information.


La mise en place d'un langage commun est cependant un travail de longue haleine.
Les intervenants nous rappellent que l'un des facteurs importants de la construction de ce langage commun est représenté par les individus de l'organisation, qui possèdent une partie du savoir métier dans leur tête (pratiques, historique, règles métier), représentant un risque pour l'organisation lors de départs en retraite.

Pour construire ce langage commun, il faut donc tout d'abord formaliser ces savoirs métiers informels, ce qui implique de :
- Piloter et gouverner
- Formaliser les processus métiers,
- Identifier les acteurs clés de ces processus métiers, et documenter leur rôle et leur savoir, et communiquer ces résultats,
- Architecturer les données de manière formelle,
- Structurer les relations avec utilisateurs de ces données (partenaires externes),
- Communiquer aux utilisateurs le plan d'action et l'avancement.

L'adoption d'une gouvernance des données, sur la base des 3 dimensions du Master Data Management, devient alors nécessaire :

Dimension Organisation
L'organisation doit se doter d'une véritable Fonction de gestion des données, par la mise en place d'une structure de décision transverse et dédiée, au même titre que le sont les fonctions RH ou compatibilité/trésorerie.

Dimension Méthode
La structure de décision doit adopter un management par la mesure :
- Fixer des objectifs et les paliers pour les atteindre, et cadencer l'avancement
- Mesurer l'atteinte de ces objectifs par la dotation d'outils de pilotage, permettant une maîtrise de la performance.

Dimension Outils
Les outils permettent d'éviter tout glissement sur la signification d'un objet, car celui-ci peut être vu différemment selon le métier ou la personne qui le regarde.

Pour celà, il faut consolider la norme d'expression du langage commun, ce qui se traduit par :
- la formalisation sémantique des objets,
- la formalisation dans un format technique pour les insérer dans une solution MDM.

Ces solutions doivent être nécessairement orientées métier, puisque comme le souligne F.Régnier, les "objets manipulés ont pour seul objectif la mise à disposition une information fiable à destination des processus métiers".

Voir la vidéo sur YourPotential.tv.