استخدام تقنيات التنقيب عن البيانات في الحقل الطبي دراسة حالة مرض السل(ولاية الجزيرة)
Files
Date
2017
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
المستخلـــــــص
يقدم هذا البحث دراسة تطبيقية في مجال التنقيب عن البيانات (Data Mining) واكتشاف المعرفة في قواعد البيانات ( Knowledge Discovery in Database) ان من اكبر المشاكل التي يعاني منها المجتمع إنتشار أمراض السل بصوره كبيره وانعي ذلك لعدم القدره على معرفة اسباب انتشاره وتحديده بدقه لذا الهدف الرئيسي لهذه الدراسة هو مساعدة الاطباء في تشخيص مرض السل وكذلك معرفة اسباب انتشار المرض وتقليل الوقت اللازم في تحليل بيانات مرض السل واستحراج المعرفة من تلك البيانات .
ترتكز منهجية هذا البحث أولاً على تحضير البيانات التي تم الحصول عليها من الاستمارة الورقية لمقابلة الطبيب من وزارة الصحة ولاية الجزيرة ، ثم تطبيق تقنية التنقيب عن البيانات( Data Mining Techniques ) التي اختيرت و بتسلسل معين بالرجوع لمجموعة من المبررات يمكن إيجازها في محورين هما: مناسبة الطرق لطبيعة البيانات و تلاؤمها مع الهدف من البحث، هذا بالإضافة للكفاءة في اكتشاف الأنماط. هذه الطريقة هي شجرة القرار( Decision Tree )؛ حيث طبقت خوارزمية (J48) في تقنية أشجار القرار. وعند إدخال كل بيانات التدريب تم التنبؤ بصوره صحيحة بنسبة 86.3324 % نسبة لعدد البيانات 878 حالة وتم التنبؤ بصوره خاطئه بنسبة 13.6676% لعدد 139 حالة وكان بالشجرة 16 عقدة والحجم الكلي للشجرة 22 وإستغرق تنفيذ هذه العملية 0.17 ثانية وكان معدل الخطأ في النموذج 0.2134 .
عندما تم إختيار مجموعة من البيانات بنسبة 66% (ثلثي البيانات) وتم التنبؤ والتصنيف كما يلي :
صنفت 289 حالة بصوره صحيحة بنسبة83.526 % من اصل 346 حالة وصنفت 57 حالة بصوره خاطئه بنسبة 16.474 % واستغرق تنفيذ هذه العملية 0.05 ثانية .
ولزيادة كفاءة النتائج المتحصل عليها من هذا البحث أوصى بإضافة بيانات المرضي الذين تعزر الحصول على بياناتهم في السنوات الاخيره . و إستخدام طرق عنقدة أخرى مع مجموعة من البيانات للحصول على مزيد من المعلومات . وتطبيق الدراسة بصورة اوسع حتى تشمل كل او بعض ولايات السودان وبأستخدام خوارزميات متعددة ومقارنة النتائج مع نتائج هذه الدراسة.
Abstract
This research presents an applied study in the field of Data Mining and knowledge discovery in databases. One of the biggest problems that the society suffers from is the spread of TB disease in a large way because of the inability to know the causes of its spread and its precise identification. The study is to help doctors diagnose tuberculosis as well as to know the causes of the spread of the disease and reduce the time required in the analysis of tuberculosis data and the extraction of knowledge from those data.
The methodology of this research is based on the preparation of data obtained from the paper form to meet the doctor from the Ministry of Health and the state of the island, and then apply data mining techniques selected and in a sequence by reference to a set of justifications can be summarized in two axes: Methods for the nature of the data and their compatibility with the objective of the research, in addition to the efficiency in the discovery of patterns. This method is the Decision Tree; the J48 algorithm is applied in decision tree technology. When all the training data were entered correctly, 86.3324% of the data were calculated with 878 cases and 13.6676% were wrongly predicted for 139 cases. The tree had 16 knots and the total size of tree 22 and the operation took 0.17 seconds and the error rate was 0.2134.
When a set of data was selected at 66% (two-thirds of the data), the prediction and classification were as follows:
289 cases were correctly classified at 83.526% out of 346 cases and 57 cases were misdiagnosed by 16.474% and the procedure was performed 0.05 seconds .In order to increase the efficiency of the results obtained from this research, it is recommended to add the data of patients whose data has been obtained in recent years. And use other cross-roads with a set of data for more information. And to apply the study more broadly to include all or some of the states of Sudan and using multiple algorithms and compare the results with the results of this study.
Description
بحث تكميلي لنيل درجة الماجستير في علوم الحاسوب
Keywords
علوم الحاسوب