كل ما تحتاج تعرفه عن ال ETL


النهاردة هنتكلم عن ETL  واللى تعتبر Skill أساسية ل Data Engineer  or ETL Developer  ، فى البداية خلينا نعرف يعنى ايه ETL ؟ 

الـ ETL هى اختصار لثلاثة عمليات أساسية متتابعة  فى ال Business Intelligent وهما أختصار ل Extract , Transform and Load ، تعال نمسك مرحلة مرحلة ونوضحها

1- استخراج البيانات (Extract): إستخراج البيانات المطلوبة من مصادر البيانات المختلفة سواء كانت من Flat Files (Excel, CSV Files) أو Database أو SAP وهكذا 


2- تحويل أو تعديل البيانات (Transform): تعتبر المرحلة دى من أهم المراحل واللى بيتم فيها تنظيف وتعديل البيانات الناتجة من دمج مصادر البيانات المختلفة وإنشاء علاقات بينهم للتحويلها إلى الشكل المناسب المطلوب ، عمليات التحويل دى زى مثلا :حذف ال null or duplication values أو spaces  ، أو  تغير ال data types أو ال data granularity  ، أو حذف أو إضافة Column جديد أو دمج أكتر من Column  ، أو عمل Join ما بين ال tables من أجل validate or enrich the data  أو تعديل أو إعادة هيكلة شكل الداتا 

3- تحميل البيانات (Load): يتم تحميلها البيانات بعد تحويلها إلى الشكل المناسب إلى Data Warehouse أو Data Mart أو File System وهكذا ، بكده الداتا بتكون جاهزة أنه يتم عليها أى Analysis أو Reporting أو Data Mining

إزاى بنعمل ال ETL ؟

الموضوع سهل جدا ممكن يتعمل عن طريق لغة برمجة زى Python أو  SQL بس ده هيستهلك وقت ومجهود كبير فعلشان كده فى Softwares بتسهل الدنيا علينا زى Talend و SSIS Microsoft  و IBM Data Stage و Informatica 

ده تقرير من Gartner فيه أهم ال Data Integration Tools فى سنة 2019 ، ممكن تشوفه من هنا : https://bit.ly/3lOZ1T0 ، واللى هتلاقى فيه تفوق Informatica و Data Stage 

أنا أشتغلت بكذا Tool وشايف أن أفضل Tool ممكن نتعلمها فى البداية هى Talend وبعدها SSIS ، وكلامى ده مبدئى على شوية معايير واللى هى:

Easy to learn - Easy to Installation - Support Community - Learning Resources

أحسن مكان ممكن تتعلم منه ال Tools هو ال Documentation بتاعتها كمان مش مطلوب منك فى البداية خالص تتعلم كل ال Tools هو تتعلم واحدة بس منهم وخلاص لان كل ال Tools متشابهين جدا فى ال Concept يعنى مجرد ما تتعلم حاجة واحدة منهم هيكون سهل عليك أنك تتعلم الباقيين لان الاختلافات مش كبيرة اوى وكمان كل شركة فى مصر بتستخدم Tool معينة منهم ، فتعالى نمسك كل Tool منهم ونقول ممكن تتعلمها منين؟!  


1.     Talend Data Integration

-  من أهم المميزات بتاعتها أنها Open Source ومكتوبة ب Java وهو أحسن Tool فى ال UX ، ممكن تبدأ تشوف شرح Talendعاملها بحيث تعرف إزاى تسطبها وتأخد Guide كده عنها ، ممكن تشوفه من هنا: https://bit.ly/2XItnvY

-  من أقوى الحاجات فى ال Talend ال Community بتاعتها واللى دائما هترجع ليها فى أى مشاكل هتقابلك ، هتلاقيها برضه Tutorials و Documentation بتاعتها وedHow to get Start ممكن تشوفهم

-  فى كورس على Udemy حلوة جدا الصراحة  أسمه Talend Data Integration Course Beginner to Expert هو ملم بكل حاجة تقريبا المفروض أنك تعرفها فى البداية وزيادة كمان لانه بيأهلك أنك تكون Talend Data Integration v6 Certified Developer  ، عيبه بس الإنجليزى بتاعه مش حلوة أوى لاسف


2.     SQL Server Integration Services (SSIS) 

من أشهر الادوات اللى مستخدمة فى مصروالخليج ، ده فديو علشان تعرف إزاى تسطبها عندك لأنك محتاج تنزل كذا حاجة زى SQL Server, SSMS: https://bit.ly/2AWPyW2

-  دى أحسن Tutorial شوفتها الصراحة بتاعت WiseOwl وفيها كل المواضيع اللى محتاج تعرفها فى البداية وزيادة كمان شوية ، وخش على الموقع بتاعهم ونزل ال Tasks وحاول تعملها هتفرق معاك كتير جدا : https://bit.ly/2YjEzhE 

-  دى Tutorial بالعربى ل م.أيمن الغزالى ممكن تشوف الفديوهات رقم 3 و4 و 5 ، ولو عاوز تشوف ال Tutorial كلها هيكون أحسن بحيث تفهم BI Cycle كلها : https://bit.ly/3dRw8k5

-  دى برضه Tutorial from ITI ممكن تشوف الفديوهات رقم 2 و 3 ، ولو عاوز تشوف ال Tutorial كلها هيكون أحسن بحيث تفهم BI Cycle كلها: https://cutt.ly/dy9pYfa


3.     IBM DataStage

من أكتر الادوات المنتشرة جدا فى مصرخاصة فى شركات الإتصالات ، أحسن مصدر ممكن تتعلمها منه هو ال Documentation  بتاعهم واللى ممكن تنزلوا من تشوفها من هنا

فى برضه Tutorials قديمة شوية بس هى لغاية دلوقيتى فى نظرى أحسن حاجة ممكن تشوفها مع ال Guide book ، ممكن تشوفها من هنا: https://cutt.ly/Ly9onVj



4.   Informatics

تعتبر ال Tool الأقوى طبقا ل Gartner ، واللى موجودة فى مصر كتير جدا وخاصة فى البنوك ، ال Documentation بتاعتهم كويسة أو فى كورسات كويسة جدا ع Udemy ممكن تشوفها. 


5.   Spark

من أهم ال Tools فى ال Big Data واللى بيتم إستخدامه فى حاجات كتير جدا منها أننا ممكن ننفذ ال ETL بيه عن
 طريق ال Programming Languages واللى منها Python أو Spark ، بس ده ممكن نعتبره جزء Advanced شوية ومش محتاج تعرفه فى البداية خالص يعنى ، ومن أحسن مصادر تعلمه هى فديوهات بالعربى من قناة Garage Education بتاعت م.مصطفى علاء كويسة جدا جدا وعامل Telecom Case ممكن تشوفها ، وكمان القناة كلها كويسة جدا جدا وخاصة الجزء الخاص ب DWH ، ده لينك الفديوهات : https://bit.ly/3vXfV6z 


بكده يبقى غطينا معظم الحاجات اللى محتاجين نعرفها عن ال ETL ، الحمد لله 

إرسال تعليق

1 تعليقات

  1. 5 Best Vocalists for music with an upbeat voice
    YouTube Vocalists · 1. Justin Bieber · 2. Lazer · 3. Sean Love best youtube to mp3 converter app · 4. Sean O – The Best of Justin Bieber · 5. The Beach Boys · 6. The Beach Boys · 7.

    ردحذف