Méthodes d’apprentissage appliquées à la tarification non-vie

Page précédente
Faire suivre ce document

Domaine(s)Mémoire
formation(s)ISFA () / resp.: / intervenant:
Show details for Informations sur les documentsInformations sur les documents
Hide details for Informations sur les documentsInformations sur les documents

Type de document Mémoires
sociétéMILLIMAN
Auteur(s) BELLINA R.
Numéro
Date de référence 01/07/2014


Résumé

La tarification constitue l’un des coeurs de métier de l’actuariat. Ce mémoire aborde les méthodes utilisées en tarification non-vie, et plus spécifiquement en tarification automobile. Tout l’enjeu est de comprendre les apports de l’apprentissage statistique par rapport aux méthodes plus classiques utilisées, dont les modèles linéaires généralisés (ou GLM) font figure de proue. Il est pour cela indispensable de se pencher sur les grands principes de la tarification afin de mettre en exergue un cadre général commun à toutes les méthodes, permettant de les comparer, et c’est là tout l’objet de l’introduction. Dans la première partie, nous présentons les données et les retraitements appliqués sur la base automobile à disposition comprenant plus de 500 000 individus. La deuxième partie met en avant les algorithmes dits linéaires, et principalement le GLM. Les troisième et quatrième parties abordent dans le détail certaines méthodes d’apprentissage statistique : les arbres de classification et de régression CART, ainsi que leurs algorithmes d’agrégation comme le bagging, les forêts aléatoires et le boosting. Enfin la dernière section propose une comparaison entre ces différentes procédures. On conclut que ces nouvelles approches non paramétriques fondées sur les arbres présentent de nombreux avantages, dont celui d’être facile à implémenter et de fournir une vision synthétique du portefeuille assuré. Nous tenons toutefois à nuancer, car leur qualité et leur performance ne sont pas qu’intrinsèques mais en partie liées à la base de données. Si celle-ci traduit l’exacte réalisation d’une loi paramétrique, alors une régression bien choisie sera sans doute plus adaptée. On retiendra néanmoins que les méthodes d’apprentissage offrent un cadre nouveau permettant d’avoir une compréhension plus poussée des risques sous-jacents au sein du portefeuille.

Abstract

Insurance pricing is a core business for insurance companies. Our aim here is to tackle the main methods used in non-life pricing and in particular within automobile insurance. The issue at stake is to have a better understanding of the ins and outs of machine learning systems applied to pricing. We compare them to more classical methods, like the very widespread generalized linear model (GLM). To begin with, we highlight a general mathematical framework for estimators in statistics. This enables us to compare the different methods. In the first part we present the automobile database used, which gathers half a million of insured. We also underline how to deal with outliers in the data. The second part focuses on the GLM. The aim of the third and fourth parts is to lay down the principles and the full computation of machine learning methods. We specifically go on about the classification and regression trees (CART) and the ensemble methods like bagging, random forests, and boosting. In the last part we eventually draw an analysis between all the results. We conclude with the advantages of the new non-parametric approaches based on trees. They are indeed easy to implement and they offer a synthetic vision of the insurance portfolio. Yet one needs to be cautious with these results. The high performance of the machine learning methods is linked to the database. If the data are the exact realization of a given parametric distribution then a regression model will fit almost perfectly. However, machine learning procedures give an opportunity to better understand the underlying risks of the portfolio, offering a new framework.

Mémoire complet

>BELLINA.pdfBELLINA.pdf


Lien permament : https://www.ressources-actuarielles.net/C12574E200674F5B/0/72CE8393E53CE218C1257C39006711AE