Mammogram Image Classification using K-Nearest Neighbor (KNN) Algorithm and Mutual Information (MI) Feature Selection
Files
Date
2018
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Neelain University
Abstract
Abstract
The Breast Cancer is one of the most important causes of death to women all over the world. . With the early diagnosis and accurate of breast cancer survival will increase from 56% to more than 86%. The accuracy of most of the classification methods depend on important features extracted from the mammogram images and the classifier itself. This study propose classification method based on K-Nearest Neighbor (KNN) and the most important features selected from a set of features extracted from the mammogram images ,the features selected based on mutual information (MI) feature selection method. The objective of this study is to enhance the classification accuracy of KNN algorithm based on feature selection method to detect if the input image is normal or affected by the diseases. In this study the classification process includes five basic steps beginning with mammogram Image collection, image processing, features extraction; classification firstly by using all features, secondly by using more important features based on mutual information (MI) feature selection method, the last step is testing and evaluation. This study used set of thirteen features, extracted from mammogram images that taken from MAIS database, then it applies K-nearest neighbors (KNN) based classification method.In this study, the dataset splited into two parts, namely: training and testing. After the construction of the classifier based on training data, the proposed model using the test data to measure the accuracy. The best accuracy obtained was 76% when using percentage of 85% and 15% for training and testing by using the most important features for top5 best features. This study recommends using other feature selection method that may add more power for the accuracy of the classifier to enhance the results.
مســـــــــــــــتخلص
يعتبر سرطان الثدي أحد أهم أسباب الوفاه لدي النساء في العالم .عند إجراء الكشف المبكر والدقيق لهذا المرض ترتفع نسبة الشفاء من 56% الي 86% . تعتمد دقة التنصيف في معظم المصنفات على الخصائص المهمة المستخلصة من الصورة وعلى خوارزمية التصنيف في حد ذاتها . تفترض هذه الدراسة طريقة تصنيف باستخدام خوارزمية الجار الأقرب و اهم الخصائص المختارة من مجموعة الخصائص المستخلصة من الصورة الشعاعية للثدي يتم اختيار اهم الخصائص بناءً على طريقة الـ mutual information (MI) . تهدف هذه الدراسة الي تحسين دقة تصنيف خوارزمية الجار الأقرب باستخدام اهم الخصائص لتحديد اذا كانت الصورة الشعاعية للثدي طبيعية ام مصابة بالسرطان .في هذه الدراسة عملية التصنيف تتضمن خمسة خطوات اساسية تبدأ بجمع صور الأشعة , تجهيز الصور , أستخلاص خصائص الصور , التصنيف في المرحلة الأولى باستخدام جميع الخصائص المستخلصة,ثم التصنيف في المرحلة الثانية باستخدام افضل الخصائص المحددة باستخدام طريقة (MI) وأخيرا الاختبار والتقيييم .أستخدمت هذه الدراسة مجموعة من الخصائص مستخرجة من صور الأشعة التى أخذت من قاعدة بيانات مجتمع المعلومات ومن ثم أستناداً الي طريقة التصنيف طبقت الدراسة خوازرمية أقرب الجيران (KNN) .هذه الدراسة قسمت قاعدة البيانات الي قسمين هما: التدريب والأختبار. وبعد بناء المصنف علي أساس بيانات التدريب يتم أختبارالنموذج المقترح بإستخدام بيانات الأختبار لقياس الدقة. أفضل دقة تم الحصول عليها 76% عند أستخدام نسبة 85% و15% على التوالى للتدريب والأختبار وذلك عند استخدام افضل خمسة خصائص عند عملية التصنيف. وتوصى الدراسة لتحسين دقة نتيجة المصنف أستخدام طريقة أخرى لاختيار افضل الخصائص.
Description
A Thesis Submitted to the College of Graduate Studies & Scientific Research In Partial Fulfillment of the Requirements for the Degree of M.Sc in Information Technology
Keywords
Image Classification
