(Back propagation)دراسة اثر اللغة و الجنـدرة بخوارزمـية الانتشـار العكسي (ANN)للتعرف على الصوت باستخدام الشبكات العصبية الاصطناعية
Date
2011
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Abstract
ملخص البحث :
في ظل التطور السريع في شتى المجالات الإلكترونية و فى تقنية المعلومات على وجه الخصوص، أصبحت لإنظمة السمات الحيوية أهمية ودور كبير في التعرف على الشخص وتحديد هويته، حيث تعمل تلك الأنظمة بمختلف أنواعها على السمات الحيوية وتميزها عن بعضها البعض، وتهدف هذه الدراسة الى تصميم نظام للتعرف على الصوت بإستخدام الشبكات العصبية الإصطناعية بواسطة خوارزمية الإنتشار الخلفي (PB). و تم تسجيل الأصوات المكونة بواسطة نظام التعرف على الصوت على هيئة WAV.*، والتى يبلغ عددها حوالي 50 عينة صوت مختلفة. حيث تحمل كل عينة إشارة صوتية مختلفة تماما عن الاخرى . وجمعت هذه البيانات الصوتية بإختيار 10 أشخاص( 5 أشخاص ذكور و5 أشخاص إناث) وقد تم نطق صوت 10 كلمة منها 7 كلمات باللغة الانجليزية و 3 كلمات باللغة العربية. وقد استخدمت هذه العينات فى 6 تجارب ، 3 منها باللغة العربية و 3 منها باللغة الانجليزية وذلك بتحديد نوع الناطق في كل من اللغتين (ذكر ،انثى). أي بمعنى أن كل شخص كرر نطق صوت كل كلمة من العينات الماخوذة خمس مرات في أوقات وظروف مختلفة. ثم بعد ذلك قراءة هذه الملفات الصوتية ومعالجتها . وتحويلها إلى شكل رقمي ومن ثم رسم الطيف للموجه الصوتية لكل العينات وهى 50 ملف صوتي (5ذكور + 5 إناث x 5 حالات). وقدتم ايضا أخذ الرسم الطيفي على صورتان، الصورة الأولى لشكل الموجة الصوتية قبل ازالة التشويش والضوضاء منها والثانية بعد معالجتها وتنقيتها من الأخطاء وإزالة الضوضاء والهواء منها بواسطة تحويل فورير السريع FFT. ثم بعد ذلك اخذت نماذج من عينات الصوت بصورة رقمية على هيئة مصفوفة بحجم 20 صف و 2 عمود لكل عينة صوت وذلك لإجراء التجارب عليها بإعتبارها العينة المستخلصة من الصوت. ثم بعد ذلك قمنا ببناء شبكة عصبية إصطناعية لتدريبها على عينات الأصوات الموضحة في التجارب سابقة الذكر. وهى عبارة عن مدخلات للشبكة . و تتكون هذه الشبكة من 7 طبقات للمدخلات وكذلك 10 طبقات خفية ومخرجات أو أهداف مثلت بمصفوفة أحادية حجمها نفس حجم المدخلات . ثم بعد ذلك استخدام خوارزمية الإنتشار العكسي (PB) كخوارزمية لتنفيذ وتدريب واختبار الشبكة العصبية الأصطناعية. وتم إختيار معدل تعلم لهذه الشبكة هو (0.05) ومعدل خطأ (0.0000000001). وبلغت عدد المحاولات لتعليم هذه الشبكة حوالى (552) محاولة. حيث توصلنا بعد ذلك إلى تعلم مستقر. وبما أن هناك 5 عينات لصوت الشخص الواحد، فقد توصلت الشبكة إلى نسب مختلفة للخمس عينات، وتم اختيار اعلى النسب للتعرف على صوت المتحدث. وتم أستخدم دالتى الــ (logsig) و (purelin) لتحسين معدل التعلم في خوارزمية الإنتشار العكسي في الشبكة العصبية. و تم ضبط الأوزان عشوائيا فى الخوارزمية بناءا على معدل التعلم ومحاولة تقليل الخطأ في كل دورة وإعادة ضبط الأوزان. ثم بعد ذلك تم التوصل إلى نسب تعرف مختلفة لكل عينة من عينات الاصوت . ثم بعد ذلك عمل الحسابات الأحصائية على نتائج الدراسة . و حساب المتوسط العام لمعدل التعرف على الصوت لكل من عينات الأصوات المختلفة التي سجلت باللغة العربية أواللغة الانجليزية سواءاً كان ناطق الصوت ذكر ام أنثى وتم أيضاً حساب معدل التعرف لكل كلمة منطوقة بناء على النوع و حساب المتوسط لمعدل التعرف لكل من الذكور والاناث . و يمكن تطبيق استخدام هذا النظام في أجهزة الصراف الآلي وفي الدخول إلى البوابات الآلية في المطارات. والدخول الى أجهزة الحاسب الآلي التي تحتوي على بيانات غاية في الحساسية. وفي أنظمة الدخول إلى المباني. وفي التعرف على المجرمين وأيضاً في منع الأشخاص غير المرغوب فيهم للدخول إلى منطاق محظورة وغيرها من الإستخدامات الأمنية .
Abstract :
In light of the rapid development in various fields of electronic and in information technology in particular, the systems features of vital importance and significant role in the identification of the person and identify the person, where are those systems of various kinds on the attributes vital and distinguish them from each other, and the aim of this study is to design a system for voice recognition using artificial neural networks by back propagation algorithm (PB), and the votes were recorded by a system consisting of voice recognition in the form of *.WAV, which numbers about 50 samples a different sound. Where each sample with various other audio signal completely, and collected the audio data to choose the 10 people (5 males and 5 people people females) was 15 words, pronunciation sound of 7 words in English and 3 words in Arabic. These samples were used in 6 trials, 3 of which are in Arabic and 3 English by selecting the type of speaking in both languages (Male, Female). Any sense that each person repeat the pronunciation of every word sound samples taken five times at atime and in different circumstances. Then read these audio files and processing, and converted to digital form and then draw the spectrum of the prompt voice samples for each audio file of 50 (5 male +5 female x 5 cases), and have led also to take the drawing spectroscopy on two images, the first image of the form of the sound wave before removing the confusion and noise of the second and after treatment and purification of the errors and remove noise and air, including by fast Fourier transform FFT, then took samples of the samples in digital audio matrix in the form of a 20-row and 2 column for each sound sample and to conduct the experiments as a sample drawn from the sound. Then after that we have built an artificial neural network trained on samples of sounds described in the above-mentioned experiments. It is an input to the network. This network consists of 7 layers of the inputs as well as 15 hidden layers and outputs or targets represented a one-size matrix the same size as input. Then use the reverse diffusion algorithm (PB) to implement, train and test artificial neural network, were selected the rate of learning of this network is (0.05) and error rate (0.0000000001). And reached the number of attempts to teach about the network (552) a try, where we have yet to learn stable. Since there are 5 samples to the voice of one person, it has reached the network to the different ratios of the five samples, the highest ratios were selected to identify the speaker's voice. Been using the functions (logsig) and (purelin) to improve the rate of learning algorithm in reverse proliferation in the neural network. Weights were set randomly in the algorithm based on the error and try Tkulaial in each session and re-adjust the weights. has been known to reach different ratios for each sample. Then the work of statistical calculations on the results of the study using Spss and calculating the overall average rate of voice recognition for each of the samples different sounds recorded in Arabic, language English, whether he was speaking voice male or female, was also the expense of all of the recognition rate for each word spoken at the type and average for both males and females. And can be applied to the use of this system in the ATM and get into mechanical gates at airports, access to the computers that contain highly sensitive data. In systems, access to buildings. In the identification of criminals and also to prevent undesirable persons to enter the prohibited areas and other uses in the security.