Main Article Content

Facteurs de risque et prediction du diabète de type 2 en Algérie : une nouvelle approche utilisant le data mining


Nora Lounici Mosbah
Khadidja Sadi

Abstract

RÉSUMÉ
Dans cet article, nous utilisons des outils de data mining pour ex-traire les facteurs de risque du diabète Type 2 (DT2) et prédire la sur-venue de la maladie par l’élaboration de règles prédictives. L'étude compare l'efficacité de deux modèles d’apprentissage supervisé : les arbres de décision et le bayésien naïf. En analyse uni-variée, sept variables étaient pertinentes : le sexe, l’âge, l’IMC, le taux de cholestérol, l’HTA, l’activité physique et les ATCF. L’analyse multivariée a montré que la masse corporelle et l’activité physique sont les principaux facteurs de risque du DT2 et à un degré moindre l’âge et le taux de cholestérol. La classification par les deux modèles a donné une précision de 94. 5% pour les arbres de décision et de 96,47% pour le bayésien. Le plus pré-dictif des deux modèles étant les arbre de décision, avec une aire sous la courbe ROC de 0,964, un taux d’erreur estimé à 10 ,44% et une capa-cité à détecter les vrais diabétiques de 90,5%.


ABSTRACT
In this article, we use data mining tools to extract risk factors for Type 2 Diabetes (DT2) and predict the occurrence of the disease by de-veloping predictive rules. The study compares the effectiveness of two supervised learning models: decision trees and Naïf Bayesian. In uni-variate analysis, seven variables were pertinent: gender, age, BMI, cho-lesterol, hypertension, physical activity and ATCF. The multivariate analysis showed that body mass and physical activity, are the main risk factors for DT2 and to a lesser degree age and cholesterol rate. Classifi-cation by both models yielded an accuracy of 94.5% for the decision trees and 96.47% for the Bayesian. The most predictive of the two mod-els was the decision tree, with an area under the ROC curve of 0.964, an estimated error rate of 10.44% and an ability to detect true diabetics of 90.5%


ملخص


(Data Mining) لاكتشاف عوامل ظهور مرض السكري من النوع 2 ( DT2 ) و التنبؤ بظهور المرض من خلال وضع قواعد تنبؤي . تقارن الدراسة فعالية نموذجي Decision tree و . Naïve Bayes classifier في تحليل متغير واحد ، تم التوصل إلى سبعة متغيرات ذات صلة: الجنس، العمر ، مؤشر كتلة الجسم ، مستوى الكوليسترول ، ارتفاع ضغط الدم ، النشاط البدني وتاريخ العائلة . (ATCF) أظهر تحليل متعدد المتغيرات أن كتلة الجسم والنشاط البدني هما عاملان رئيسيين من عوامل الخطر ل DT2 ، يتبعان بمستويات العمروالكوليسترول . أعطى تصنيف النموذجين دقة 94.9 ٪ بتقنية Decision tree و 96,47% بتقنية . Naïve Bayes classifier و قد تبين أن تقنية Decision tree أكثر تنبؤ ا ، بمساحة
تحت منحنى (0.964) ROC ، معدل الخطأ يقدر ب 10.44 ٪ والقدرة على اكتشاف
٪ مرضى السكري بنسبة 90.9 .


 


Journal Identifiers


eISSN: 1012-0009
print ISSN: 2437-0568