كلية علوم الحاسوب - تكميلي
Permanent URI for this collectionhttps://repository.neelain.edu.sd/handle/123456789/1959
Browse
Item Solving Big Data ( Volume, Variety ) & Normalization issues in Data warehousing using Hadoop & Neo4j(Neelain University, 2019-12) Hamam Khalid Suliman AbdelgaderData Management is an administrative process to ensure the accessibility, reliability and timeliness of the data. Companies collect vast amounts of information and then analyzing it in order to inform their business decisions. Enterprise Data Warehouse is one of the essential systems used for data analysis and reporting. One of the main purposes of data warehouses is to store large quantities of historical data in a one place, and this is very difficult in traditional data warehouses because of the following: Firstly, Traditional Data warehouses have limitations when it comes to store unstructured data e.g. (audio, video, .etc) and large Data volume e.g. (KB, MB, GB.etc). Secondly, Traditional Data warehouses use Database Normalization for their data modeling which needs an expensive ETL (Extract, Transform and Load) and Data integration processes to achieve Master Data Management (Golden Record). In order to solve these problems, the researcher decide to take advantage of modern data warehouse (Data Lake) to store multi-structured data types (structured data, semi-structured and unstructured data) and store vast amounts of data. In Future researches, I recommend the researchers to focus on ETL and Big Data integration problems. IV المستخلص إدارة البيانات هي عملية إدارية لضمان إمكانية الوصول إلى البيانات وموثوقيتها وتوقيتها. تقوم الشركات بجمع كميات هائلة من المعلومات ثم تحليلها من أجل أتخاذ القرارات في أعمالها. تعد مستودعات البيانات أحد النظم الأساسية المستخدمة في تحليل البيانات وإعداد التقارير. أحد الأغراض الرئيسية لمستودعات البيانات هو تخزين كميات كبيرة من البيانات التاريخية في مكان واحد ، وهذا أمر صعب للغاية في مستودعات البيانات التقليدية بسبب ما يلي: أولاً ، توجد قيود في مستودعات البيانات التقليدية عندما يتعلق الأمر بتخزين البيانات غير المهيكلة ، على سبيل المثال (الصوت والفيديو و. إلخ) وحجم البيانات الكبير ، على سبيل المثال (ميقابايت, قيقا بايت, تيرا بايت ..الخ). ثانياً ، تستخدم مستودعات البيانات التقليدية تطبيع قاعدة البيانات لنمذجة البيانات الخاصة بهم والتي تحتاج إلى عمليات (استخراج وتحويل وتحميل) باهظة الثمن وتكامل البيانات لتحقيق إدارة البيانات الرئيسية (السجل الذهبي). لحل هذه المشكلات ، قرر الباحث الاستفادة من مستودع البيانات الحديث (بحيرة البيانات) لتخزين أنواع البيانات متعددة الهيكلة (البيانات المهيكلة ، البيانات شبه المهيكلة وغير المهيكلة) وتخزين كميات هائلة من البيانات. في أبحاث المستقبل ، أوصي الباحثين بالتركيز على مشاكل تكامل البيانات الضخمة .