نفط القرن الواحد والعشرين علم البيانات Data science
مقدمة في علم البيانات Data science
علم البيانات data science يطلق عليها مصطلح نفط القرن الواحد والعشرين للدلالة على أهميتها في العصر الحالي ولقد ازدادت أهمية البيانات في الآونة الأخير بشكل ملحوظ من قبل الشركات من جهة والافراد الذين يرغبون بتعلم هذا المجال من جهة أخرى
وإن البيانات الخام لا يمكن الاستفادة منها بشكل المطلوب كما هو الحال في النفط لا يمكن الاستفادة منه في حالته الخام الابعد معالجته وكذلك البيانات تحتاج الى تنظيف ومعالجة وتحليلها لعرضها بشكل تفاعلي.
إن علم البيانات ليس جديداً وانما بدء ظهوره بشكل ملحوظ في عام 2010 والى الان يوجد الكثيرون لا يوجد لديهم الكثير من المعرفة حول علم البيانات وتعلم الآلة والذكاء الاصطناعي بما في ذلك بين العاملين في مجال التكنولوجيا
ومن الملاحظ أن الأشخاص المهتمين بتخصص في هذا المجال لا يوجد لديهم معلومات أساسية كافية ولا يعرفون من اين يبدؤون في هذا المجال ومن هنا جاءت كتابة سلسة من المقالات حول علم البيانات
ويعتبر علم البيانات انه علم متعدد المجالات كما انه العلم الذي يستخدم الأساليب العملية والعمليات والخوارزميات لاستخراج المعرفة.
وإن ل أهمية البيانات أهمية كبير في مجالات العمل وخاصة في الشركات حيث الاستفادة من علم البيانات وتحليلها بشكل كبير في الشركات لتنبؤ بأرباح التي سوف تعاد على الشركة وعدد العملاء الجدد في الشركة
وإن لعلم البيانات مهارات مرتبطة ويجب اتقانها او معرفة بشكل متوسط بها لأنك سوف تحتاجها
أولاً: Math الرياضيات بشكل خاص الجبر الخطي (المصفوفات …) والاحصاء
ثانياً: Programming Languages لغات برمجة ومنها واهمها في علم البيانات بايثون Python وSQL وR
ثالثاً: machine learning تعلم الآلة بعد معالجة البيانات وتنظيفها يمكن ان تعلم بها الحاسوب حيث يستطيع التنبؤ والتوقع، وسوف نتحدث في مقال خاص عن تعلم الآلة بشكل موسع.
رابعاً: Algorithms الخوارزميات وهي مجموعات من الخطوات الرياضية والمنطقية اللازمة لحل المشاكل.
تصنف البيانات حسب أنواعها
1 – البيانات الكمية عددية: بيانات يعبر عنها بشكل رقمي (ارقام عددية) عن ظاهرة محددة وتسمى بيانات قياسية (قابلة للقياس).
متصلة (مستمرة) تأخذ اعداد صحيحة وكسرية
منفصلة (متقطعة) تأخذ اعداد صحيح فقط
2 – البيانات النوعية (وصفية) بيانات غير رقمية تصف الظاهرة مثلا استطلاع الآراء والجنس (ذكر, انثى) الحالة الاجتماعية (اعزب, متزوج).
(وهي غير قابلة للقياس).
وهذه التصنيفات الأهم ويوجد تصنيفات أخرى للبيانات كالبيانات الأولية والبيانات الثانوية وحسب مصدر الجمع.
البيانات الأولية: هي بيانات التي يقوم الباحث بجمعها بشكل مباشر
البيانات الثانوية: هي البيانات مجموعة سابقا يقوم الباحث باستخدامها عبر مصادر من جهات مختصة او جهات حكومية او منشورة عبر الانترنت
وإضافة للبيانات المبوبة وغير المبوبة حسب طريقة العرض
البيانات الغير مبوبة: هي البيانات الخام الغير موضوعة في جداول تكرارية
البيانات المبوبة: هي البيانات التي توضع في جداول تكرارية وتنظم غبر فئات تكرارية
ابراهيم العمر – فريق التحرير