Cadre éthique de l'utilisation des techniiques de data sciences en actuariat
Page précédente
Faire suivre
ce document
Domaine
(s)
Mémoire
formation(s)
IRM () / resp.: / intervenant:
Informations sur les documents
Informations sur les documents
Type de document
Mémoires
société
Malakoff Humanis
Auteur(s)
LHENRI F.; MAISNIER N.
Numéro
Date de référence
06/28/2021
Résumé
L’essor de la data science fait émerger de nouvelles données et techniques de traitement. De par leur métier de gestionnaire du risque, les assureurs et les actuaires peuvent fortement bénéficier de ces innovations notamment pour affiner leurs modèles de prédiction du risque. Néanmoins, les gains attendus ne doivent pas occulter les risques inhérents portés par ces nouvelles technologies, que ceux-ci découlent de sources externes (concurrence des géants du numérique, cyber-attaques), de la donnée (contraintes liées au RGPD), de la conception des algorithmes (effet boîte noire, biais induits) ou encore de leurs utilisations (individualisation du risque conduisant à une démutualisation). Tous ces risques – et tout particulièrement le dernier – doivent être pris en compte et nécessitent la mise en place d’un cadre éthique de l’utilisation de l’intelligence artificielle et du big data en assurance. Afin de vérifier si les technologies de data science peuvent être en pratique utilisées de façon éthique, sans que cela n’affecte les bénéfices attendus, un cas d’usage a été étudié : apparier les données de l’open data de santé avec celles de l’assureur en conformité avec les principes réglementaires et éthiques, afin de prédire le risque de décès et ainsi d’améliorer le provisionnement en assurance prévoyance. Pour ce cas d’usage, la base Open DAMIR a été choisie car elle propose des données anonymisées de remboursements de l’assurance maladie obligatoire. Cependant des retraitements conséquents ont été nécessaires du fait de l’existence de nombreuses valeurs manquantes. Un modèle d’imputation a donc été élaboré en testant différents algorithmes de façon à identifier celui qui permettrait de prédire au mieux les valeurs probables de ces données manquantes. En l’occurrence, l’algorithme des forêts aléatoires a permis, au sein du jeu de test, de retrouver plus de 90% des valeurs manquantes. Suite à ces retraitements, les données issues de l’open data de santé ont pu être appariées avec celles de l’assureur. Pour cela, il a fallu notamment sélectionner les données pertinentes côté assureur, anonymiser ces données de façon à éviter tout risque de réidentification et assurer la correspondance entre la codification des deux bases. Par ailleurs, le modèle ayant pour cible la prédiction d’événements rares, il a été nécessaire de retravailler les données en effectuant un rééchantillonnage en amont de l’application de l’algorithme prédictif. Là encore, différents algorithmes ont été testés et la méthode des forêts aléatoires s’est de nouveau révélée être la plus adaptée pour prédire les décès. Au final, la comparaison entre la prédiction et les sinistres réels démontre que l’utilisation des données d’open data couplée aux techniques de machine learning permet d’aboutir à un provisionnement bien meilleur que celui obtenu par les tables réglementaires, et ce, même en respectant un cadre éthique et réglementaire contraignant.
Abstract
Keywords: data science, big data, open data, artificial intelligence, machine learning, GDPR, provisioning for death risk, death prediction, imputing missing values, resampling, k Nearest Neighbors, Random Forest, neural networks, logistic regression, support-vector machines, discriminant analysis, boosting. The rise of data science brings out new data and processing techniques. Because of their risk management profession, insurers and actuaries can greatly benefit from these innovations, specifically to refine their risk prediction models. Nevertheless, the expected gains must not obscure the inherent risks induced by these new technologies, whether such risks arise from external sources (competition from Tech Giants, cyber-attacks) or from the data (constraints linked to the GDPR) or from the algorithms design (black box effect, induced bias) or from their use (individualization of risk leading to demutualization). All of these risks – and most importantly the latter – must be addressed and require the implementation of an ethical framework for the use of artificial intelligence and big data in the insurance sector. In order to check whether data science technologies can actually be used in an ethical manner, without this affecting the expected benefits, a use case has been studied: matching data from open health data sources with insurer data, in compliance with the ethical and regulatory principles, in order to predict the risk of death. For the purposes of this use case, the Open DAMIR database has been chosen, since it provides anonymized data relating to compulsory health insurance reimbursements. However, this database has required substantial reprocessing, due to many missing values. An imputation model has thus been developed, by testing various algorithms, in order to determine the one that would allow to best predict likely values for these missing data. In this case, the Random Forest algorithm has made it possible to find, within the test dataset, more than 90% of the missing values. Further to such reprocessing, it was possible to match the data from open health data with the insurer’s data. For this, it has been necessary to select relevant insurer’s data, to anonymize such data so as to avoid any reidentification risk and to ensure correspondence between the codification of the two databases. Furthermore, since the model aims at predicting rare events, it has been necessary to rework the dataset, by resampling data prior to applying the predictive algorithm. Here again, various algorithms were tested in order to identify the most efficient one. The Random Forest method proved again to be the most relevant for predicting deaths. At the end of this work, the comparison between the prediction of the model and the claims actually recorded shows that the use of open data along with machine learning techniques, makes it possible to obtain a much better provisioning than the one obtained by using regulatory mortality tables, even when maintaining strict compliance with a heavy ethical and regulatory framework.
Mémoire complet
>
Memoire.pdf
Lien permament :
https://www.ressources-actuarielles.net/C12574E200674F5B/0/6D517D0D0263E974C12588030059021B