Le projet « Explorer et résumer des données fonctionnelles à grande échelle à des fins de prédiction avec des outils d'apprentissage statistique » (EXPLOFUN) consiste à développer des méthodes permettant d’optimiser la gestion et le stockage de données de masse. Pour cela l'équipe va s'appuyer sur les données récoltées par les compteurs intelligents « Linky » d'EDF. L'objectif final est d’aboutir à des méthodologies qui visent à devenir des outils opérationnels. Ces avancées utiles pour rapprocher au plus près l'industrie de ses utilisateurs. De lus, les méthodes développées seront seront partagées avec l’ensemble de la communauté scientifique.
Améliorer les techniques d’exploration des données
Ce projet aspire à développer des méthodes de co-clustering (technique d’exploration des données) afin d’optimiser la gestion des données de masse. En effet, il s’agit de gérer le stockage et la gestion des données qui seront générées à partir des compteurs « Linky » (données fournies par EDF) installés progressivement sur l’ensemble du territoire français pour atteindre 35 millions d'ici 2021. Ces compteurs intelligents vont permettre aux opérateurs d'électricité d'enregistrer la consommation d'électricité et auront un double objectif :
- analyser et prédire la consommation d'énergie électrique des ménages français ;
- trouver des relations de cause à effet entre les données de surveillance de santé enregistrées, métadonnées telles que les données environnementales (température, humidité...) et autres données telles que les changements d'état (données médicales, environnementales et financières notamment).
Deux types de données seront considérés dans le contexte de ce projet. D’une part, les données accessibles au public utilisées pour tester les méthodologies développées ; d’autre part, EDF appliquera les méthodologies développées sur ses propres données pour valider l'utilisation des techniques de co-clustering (en testant la capacité des algorithmes développés à gérer de grandes données opérationnelles).
De nombreuses applications possibles
Jusqu’à présent, les données des clients n'étaient enregistrées que tous les six mois. Avec le compteur intelligent, les données pourraient être prises toutes les secondes. En pratique, EDF prévoit d'accéder aux données toutes les demi-heures, soit 17 472 mesures par an pour chacun des 27 millions de clients ! D’où l’importance de bien gérer et stocker ce flot de données. La méthode préconisée sera de construire des « résumés » de ces données, l'un des moyens d'y parvenir étant de regrouper les données.
Et les applications opérationnelles des méthodes de co-clustering ne s’arrêtent pas là chez EDF. On peut les retrouver dans bien d’autres domaines, par exemple dans la conception de nouvelles offres ou services marketing, dans les programmes de réponse à la demande ou bien encore dans de nouveaux services tels la détection des valeurs aberrantes (avertir le client si sa consommation augmente de façon inhabituelle) ou la comparaison à une norme sociale (comparaison avec des ménages similaires).
Un consortium d’experts
Ce projet qui s’inscrit dans le cadre d’une collaboration avec EDF implique un consortium de trois équipes académiques (Université Lyon 2 et Paris 1 en sus d’Université Côte d’Azur) qui apporte chacune une expertise spécifique, permettant au projet d'aller au-delà d'un travail académique classique. L'objectif final de ce projet étant d’aboutir à la fois à des méthodologies qui pourraient devenir des outils opérationnels à partager avec l’ensemble de la communauté scientifique mais aussi de rapprocher ces méthodes au plus près des utilisateurs finaux de l'industrie.
L’Académie d’Excellence des Systèmes Complexes soutient ce projet innovant et bénéficiant d’un partenariat public/privé en finançant des dépenses d’équipement et de fonctionnement liées au projet. |
Légende photo : Functional means of the estimated blocks obtained by co-clustering with FunLBM