"ExploFun", Explorer et résumer des données fonctionnelles à grande échelle à des fins de prédiction avec des outils d'apprentissage statistique

Le projet de recherche EXPLOFUN consiste à développer des méthodes permettant d’optimiser la gestion et le stockage de données de masse (big data) en utilisant des données fournies par EDF via ses compteurs « Linky ». L'objectif final est d’aboutir à des méthodologies qui pourraient devenir des outils opérationnels à partager avec l’ensemble de la communauté scientifique mais aussi pour mieux connaitre les besoins des utilisateurs.


Les compteurs Linky, un défi pour traiter les big data

Depuis janvier 2017, les foyers français sont équipés d’une nouvelle génération de compteurs électriques appelée « Linky ».Le déploiement des compteurs intelligents « Linky » chez les particuliers français, représente une nouvelle technologie qui permet de récolter et exploiter des données sur la consommation d’électricité.

Même si ce compteur de dernière génération ne fait pas l’unanimité chez tous les utilisateurs en raison du recueil et du traitement des informations privées transmises aux distributeurs, il  offre cependant un réel avantage pour le consommateur. Chaque ménage équipé d’un compteur "Linky" peut désormais être facturé sur sa consommation réelle toute l’année, contrairement à un système d’estimation beaucoup moins précis.

Développés par Enedis une filiale d’EDF, ces compteurs intelligents transmettent ainsi aux opérateurs d'électricité des millions de données sur la consommation des clients. Cette avalanche d’informations constitue un véritable défi : comment stocker et étudier ces data ?

Avec le projet ExploFun, mathématiciens et informaticiens se penchent sur un des moyens d'y parvenir. Pour l’équipe, tout l’enjeu consiste à optimiser un algorithme déjà existant qui a prouvé son efficacité dans l’analyse des bases de données « Linky » de quelques milliers de client.


Améliorer les techniques d’exploration des données

Linky est le nom attribué à un nouveau type de compteur électrique dit “communiquant” capable de mesurer en détail la quantité d’énergie consommée par un logement. Lancé en 2007 par Enedis (gestionnaire national du réseau d’électricité en France), le projet Linky répond à des directives européennes.

Ce compteur intelligent a été conçu pour répondre à l’impératif de la transition énergétique. Le principal intérêt de cette technologie est d’offrir un contrôle général de manière optimal sur la consommation énergétique via l’exploitation des données fournies par le compteur.

Le projet « Linky » illustre tout l’enjeu du Big Data : comment résumer et valoriser des données de masses ?

Dans cette optique, un consortium impliquant des mathématiciens et des informaticiens s’est constitué pour se pencher sur un moyen de parvenir à récolter, traiter et valoriser les données de consommation fournies par le compteur.


Pour l’équipe d’ExploFun, tout l’enjeu consiste à optimiser un algorithme déjà existant qui a prouvé son efficacité dans l’analyse des bases de données « Linky » de quelques milliers de client.

L’objectif est donc d’améliorer l’algorithme existant pour qu’il soit apte à explorer, traiter et mettre en valeur des informations de 27 millions de clients dont la consommation électrique est mesurée toutes les 30 minutes sur plusieurs années. Pour ce faire, il est prévu d’introduire une technique de classification des données nommée co-clustering à l’algorithme.

Cette méthode de classification croisée fournie, d’une part, des zones plus réduites et intéressantes à explorer puis des analyses statistiques des données individuelles.Doté de cette méthode, l’algorithme d’ExploFun sera ainsi en capacité de visualiser des averses de données de nature différente et de les trier quasi-automatiquement par un petit nombre de clusters ou de caractéristiques.

Les données réorganisées dans une matrice (un tableau) seront ainsi synthétisées de manière ultra-rapide pour décrire la consommation des clients et leurs différentes variables (température du logement, etc.).

Les compteurs « Linky » illustrent parfaitement le challenge du Big Data. Avec la disponibilité massive de données, la valorisation des données devient une priorité cruciale.

Ce travail mené dans le domaine de la science des données assure une visibilité notable à Université Côte d’Azur (UCA) en raison des universités françaises impliquées (Lyon 1, Paris Sorbonne) et des chercheurs très actifs dans ce domaine, tels que C. Bouveyron (PR-UCA), J. Jacques (PR- Université Lyon 2), et P. Latouche (MCF- Université Paris 1).

De plus, les méthodes statistiques proposées au cours de ce projet, pourront directement être utilisée par d’autres secteurs que celui industriel, comme la médecine ou les neurosciences.


De nombreuses applications possibles

Jusqu’à présent, les données des clients n'étaient enregistrées que tous les six mois. Avec le compteur intelligent, les données pourraient être prises toutes les secondes. En pratique, EDF prévoit d'accéder aux données toutes les demi-heures, soit 17 472 mesures par an pour chacun des 27 millions de clients ! D’où l’importance de bien gérer et stocker ce flot de données. La méthode préconisée sera de construire des « résumés » de ces données.

Le travail de recherche mené à travers ExploFun permettra de réaliser une preuve de concept pour l'industrie et devrait aboutir à la réalisation de contrats de valorisation avec la SATT SudEst.

Les applications opérationnelles des méthodes de co-clustering ne s’arrêtent pas chez EDF. On peut les retrouver dans bien d’autres domaines, par exemple, dans la conception de nouvelles offres ou services marketing, dans les programmes de réponse à la demande ou bien encore dans de nouveaux services tels la détection des valeurs aberrantes (avertir le client si sa consommation augmente de façon inhabituelle) ou la comparaison à une norme sociale (comparaison avec des ménages similaires).


Un consortium d’experts

Le projet ExploFun s’inscrit dans le cadre d’une collaboration avec EDF et implique un consortium de trois équipes académiques (Université Lyon 2 et Paris 1 en sus d’Université Côte d’Azur). Chacun des membres du projet apporte son expertise spécifique, permettant au projet d'aller au-delà d'un travail académique classique.

L'objectif final du projet est d’aboutir à la fois à des méthodologies qui pourraient devenir des outils opérationnels à partager avec l’ensemble de la communauté scientifique mais aussi de rapprocher ces méthodes au plus près des utilisateurs finaux de l'industrie.

En effet, grâce au développement des méthodes de co-clustering (technique d’exploration des données) la gestion et l’analyse des données de masse pourra être réalisée de façon optimale. Aussi, au-delà de permettre aux opérateurs d'électricité d'enregistrer la consommation d'électricité de leurs clients, les données traitées par ces méthodes répondront à un double objectif :
  • Analyser et prédire la consommation d'énergie électrique des ménages français ;
  • Trouver des relations de cause à effet entre les données de surveillance de santé enregistrées, métadonnées telles que les données environnementales (température, humidité...) et autres données telles que les changements d'état (données médicales, environnementales et financières notamment).
Deux types de données seront considérés dans le contexte de ce projet. D’une part, les données accessibles au public utilisées pour tester les méthodologies développées ; d’autre part, EDF appliquera les méthodologies développées sur ses propres données pour valider l'utilisation des techniques de co-clustering (en testant la capacité des algorithmes développés à gérer de grandes données opérationnelles).
 
L’Académie Systèmes Complexes soutient ce projet innovant bénéficiant d’un partenariat public/privé en finançant des dépenses d’équipement et de fonctionnement (conférences) liées au projet pour un montant de 10k€.