Sépia

Séminaire du 03/12/2013

Big data : quels outils méthodologiques pour les actuaires ?

Les données massives (big data) entrent petit à petit dans l’univers de l’assurance, d’abord via le marketing puis la détection des fraudes et enfin, de plus en plus, dans la conception et la tarification des produits. Dès lors, les actuaires doivent enrichir leur « boite à outils » technique avec les outils statistiques adaptés pour, sans prétendre devenir des data scientists, être capables d’intégrer ces démarches dans leurs techniques de gestion et de quantification des risques.

Objectifs de la journée

- Comprendre les techniques statistiques adaptées aux données massives
- Identifier les domaines d’application en assurance
- Appréhender les limites juridiques et éthiques de leur utilisation

Programme

8h45 Accueil et café

Matin

1 – Les outils de modélisation des Big Data (Michel Béra – CNAM)

- l'inégalité de Vladimir Vapnik et les fondements d'une nouvelle théorie de la robustesse (1971 : premier théorème russe, 1995 : conférence clef aux Bell Labs) ;
- conséquences pour la modélisation : éclairage sur les approches classiques (réseaux de neurones, arbres de décision, analyse factorielle), nouvelles approches : régularisation, Suppport Vector Machines ;
- la notion de géométrie des données et d'espace étendu. Exemple du Kernel Trick. La fin du dialogue de sourds quali/quanti.
- Big Data et monde vapnikien, utopies et réalités. Notions élémentaires de complexité informatique.
- Modélisation moderne : un enchaînement d'approches, du Machine Learning aveugle aux finesses de l'Evidence Based Policy (ce dernier venu de l'épidémiologie).

2 – Apprentissage statistique en grande dimension (Charles Bouveyron – Université Paris Descartes, laboratoire MAP5)

Cet exposé introduira les problématiques de l'apprentissage statistique en grande dimension et présentera quelques-unes des avancées récentes dans ce domaine. Après une introduction au problème, nous aborderons en particulier les points suivants :

- le fléau de la dimension en apprentissage statistique,
- les approches classiques et leurs limites,
- les méthodes de sous-espaces,
- les méthodes de sélection de variables,
- les approches par pénalisation,
- traitement "online" des données de grande dimension.

Après-midi

3 – Des modèles globaux à la détection de profils (Christophe Geissler, Quinten)

Cette intervention présentera une alternative aux modèles globaux classiques dans des situations où le nombre de variables explicatives est important au regard de la taille de l’échantillon, et où le risque de sur-apprentissage est de ce fait élevé.

- Détection de profils concentrant un phénomène : les principes.
- Significativité statistique des profils : l’intérêt des inégalités de concentration.
- Calibrage d’un modèle par profils : jusqu’où augmenter la précision ?
- Comparaison avec des approches actuelles : SVM, arbres de décision,…
- Exemples d’applications réelles en épidémiologie et en économétrie.

4 – Du bon usage du big data : répondre à ses enjeux éthiques et de conformité (Paul-Olivier Gibert – Digital Ethics)

- Ce que change le big data : voir ce que l’on ne voyait pas avant
- Le cadre légal et réglementaire : toutes les données sont-elles des données personnelles ?
- Les enjeux éthiques : intimité et libre arbitre dans la société de la donnée
- Les réponses possibles

17h30 Fin de la session

> Télécharger le programme complet et le bulletin d'inscription