دراسة اثر اللغة و الجنـدرة بخوارزمـية النتشـار العكسي ) Back propagation ( للتعرف على الصوت باستخدام الشبكات العصبية الصططناعية ) ANN (

Thumbnail Image

Date

2011

Journal Title

Journal ISSN

Volume Title

Publisher

جامعة النيلين

Abstract

ملخص البحث : في ظل التطور السريع في شتى المجالات الإلكترونية و فى تقنية المعلومات على وجه الخصوص، أصبحت لإنظمة السمات الحيوية أهمية ودور كبير في التعرف على الشخص وتحديد هويته، حيث تعمل تلك الأنظمة بمختلف أنواعها على السمات الحيوية وتميزها عن بعضها البعض، وتهدف هذه الدراسة الى تصميم نظام للتعرف على الصوت بإستخدام الشبكات العصبية الإصطناعية بواسطة خوارزمية الإنتشار الخلفي (PB). و تم تسجيل الأصوات المكونة بواسطة نظام التعرف على الصوت على هيئة WAV.*، والتى يبلغ عددها حوالي 50 عينة صوت مختلفة. حيث تحمل كل عينة إشارة صوتية مختلفة تماما عن الاخرى . وجمعت هذه البيانات الصوتية بإختيار 10 أشخاص( 5 أشخاص ذكور و5 أشخاص إناث) وقد تم نطق صوت 10 كلمة منها 7 كلمات باللغة الانجليزية و 3 كلمات باللغة العربية. وقد استخدمت هذه العينات فى 6 تجارب ، 3 منها باللغة العربية و 3 منها باللغة الانجليزية وذلك بتحديد نوع الناطق في كل من اللغتين (ذكر ،انثى). أي بمعنى أن كل شخص كرر نطق صوت كل كلمة من العينات الماخوذة خمس مرات في أوقات وظروف مختلفة. ثم بعد ذلك قراءة هذه الملفات الصوتية ومعالجتها . وتحويلها إلى شكل رقمي ومن ثم رسم الطيف للموجه الصوتية لكل العينات وهى 50 ملف صوتي (5ذكور + 5 إناث x 5 حالات). وقدتم ايضا أخذ الرسم الطيفي على صورتان، الصورة الأولى لشكل الموجة الصوتية قبل ازالة التشويش والضوضاء منها والثانية بعد معالجتها وتنقيتها من الأخطاء وإزالة الضوضاء والهواء منها بواسطة تحويل فورير السريع FFT. ثم بعد ذلك اخذت نماذج من عينات الصوت بصورة رقمية على هيئة مصفوفة بحجم 20 صف و 2 عمود لكل عينة صوت وذلك لإجراء التجارب عليها بإعتبارها العينة المستخلصة من الصوت. ثم بعد ذلك قمنا ببناء شبكة عصبية إصطناعية لتدريبها على عينات الأصوات الموضحة في التجارب سابقة الذكر. وهى عبارة عن مدخلات للشبكة . و تتكون هذه الشبكة من 7 طبقات للمدخلات وكذلك 10 طبقات خفية ومخرجات أو أهداف مثلت بمصفوفة أحادية حجمها نفس حجم المدخلات . ثم بعد ذلك استخدام خوارزمية الإنتشار العكسي (PB) كخوارزمية لتنفيذ وتدريب واختبار الشبكة العصبية الأصطناعية. وتم إختيار معدل تعلم لهذه الشبكة هو (0.05) ومعدل خطأ (0.0000000001). وبلغت عدد المحاولات لتعليم هذه الشبكة حوالى (552) محاولة. حيث توصلنا بعد ذلك إلى تعلم مستقر. وبما أن هناك 5 عينات لصوت الشخص الواحد، فقد توصلت الشبكة إلى نسب مختلفة للخمس عينات، وتم اختيار اعلى النسب للتعرف على صوت المتحدث. وتم أستخدم دالتى الــ (logsig) و (purelin) لتحسين معدل التعلم في خوارزمية الإنتشار العكسي في الشبكة العصبية. و تم ضبط الأوزان عشوائيا فى الخوارزمية بناءا على معدل التعلم ومحاولة تقليل الخطأ في كل دورة وإعادة ضبط الأوزان. ثم بعد ذلك تم التوصل إلى نسب تعرف مختلفة لكل عينة من عينات الاصوت . ثم بعد ذلك عمل الحسابات الأحصائية على نتائج الدراسة . و حساب المتوسط العام لمعدل التعرف على الصوت لكل من عينات الأصوات المختلفة التي سجلت باللغة العربية أواللغة الانجليزية سواءاً كان ناطق الصوت ذكر ام أنثى وتم أيضاً حساب معدل التعرف لكل كلمة منطوقة بناء على النوع و حساب المتوسط لمعدل التعرف لكل من الذكور والاناث . و يمكن تطبيق استخدام هذا النظام في أجهزة الصراف الآلي وفي الدخول إلى البوابات الآلية في المطارات. والدخول الى أجهزة الحاسب الآلي التي تحتوي على بيانات غاية في الحساسية. وفي أنظمة الدخول إلى المباني. وفي التعرف على المجرمين وأيضاً في منع الأشخاص غير المرغوب فيهم للدخول إلى منطاق محظورة وغيرها من الإستخدامات الأمنية

Description

بحث مقدم لنيل درجة الدكتوراه في تقانة المعلومات

Keywords

تقانة المعلومات

Citation

Endorsement

Review

Supplemented By

Referenced By