المدونة

الصفحة الرئيسية / المدونة / قم بتحويل الباركيه إلى ملف CSV بسهولة Astera Centerprise

جدول المحتويات
الآلي, لا كود مكدس البيانات

تعلم كيف Astera يمكن لـ Data Stack تبسيط وتبسيط إدارة بيانات مؤسستك.

قم بتحويل الباركيه إلى CSV بسهولة باستخدام Astera Centerprise

جافيريا رحيم

مساعد مدير كبار المسئولين الاقتصاديين

9 يونيو، 2023

أدى مشهد البيانات في العصر الحديث إلى تطور تنسيقات الملفات التي تتيح معالجة البيانات بشكل أسرع وتضمن تقليل الوقت اللازم للتسويق. المقدمة الحديثة في عالم تنسيقات الملفات هي Parquet ، والتي يمكنها التعامل مع كميات كبيرة من البيانات المعقدة بشكل أكثر كفاءة. نظرًا لأن Parquet هو تنسيق ملف قائم على عمود ، فإنه يوفر تخزين واسترجاع بيانات أسرع وأكثر كفاءة من Excel و CSV وتنسيقات الملفات الأخرى.

ستلقي هذه المدونة نظرة فاحصة على تنسيق بيانات باركيه ، وما يقدمه ، وكيف يمكنك تحويل باركيه إلى تنسيق CSV وتنسيقات ملفات أخرى دون كتابة أي كود باستخدام Astera Centerprise.

ما هو الباركيه؟

الباركيه هو تنسيق ملف مجاني مفتوح المصدر تستخدمه أنظمة Hadoop مثل Pig و Spark و Hive. تنسيق الملف مستقل عن اللغة ويمكن استخدامه مع أنظمة أساسية متعددة.

يشغل الباركيه مساحة أقل بكثير من تنسيقات الملفات الأخرى ، ويرجع ذلك أساسًا إلى الضغط والتشفير اللذين يعملان جنبًا إلى جنب. يحدد الترميز البيانات المتكررة في الملف ويستبدلها بشيء أصغر مثل الأرقام الثنائية ، 0 و 1. يقوم الضغط بنفس الشيء بشكل مختلف ؛ يأخذ الملف بأكمله ويزيل الأجزاء الزائدة.

يقوم الباركيه أيضًا بتخزين البيانات الوصفية حول الرأس والملف والعمود. تتوفر البيانات الوصفية في تذييل الملف وتحتوي على معلومات تتعلق ببيانات تعريف العمود ، وأزواج القيمة الرئيسية ، ومخطط البيانات ، ومجموعات الصفوف ، وإصدار باركيه.

يؤدي دمج البيانات الوصفية مع المخطط إلى جعل الباركيه مرنًا ، مما يسمح للمخطط بالتطور. عندما يتم إدراج سجل جديد ، يتم تحديث البيانات الوصفية للإشارة إلى أن ملفات معينة فقط تحتوي على السجلات الجديدة ، مما يسمح لك بدمج البيانات بسهولة.

فوائد استخدام الباركيه

بالنظر إلى السمات ، فإن تنسيق بيانات الباركيه له مزايا واضحة. فيما يلي بعض الأسباب التي تجعل الباركيه يكتسب شعبية:

  1. يدعم البيانات الكبيرة.
  2. يمكنه تخزين البيانات شبه المنظمة مع الهياكل المتداخلة.
  3. يمكنه التعامل مع أنواع البيانات المعقدة مثل الطوابع الزمنية و GUID و Float و Byte Array.
  4. إنه يقلل بشكل كبير من تكاليف التخزين السحابي لأنه يستهلك مساحة أقل.
  5. تنسيق الملف مناسب لاستعلامات OLAP. يحتاج المحرك فقط إلى أعمدة محددة بدلاً من صفوف كاملة أثناء تنفيذ استعلام بحث. يسمح الهيكل العمودي أيضًا للمستخدمين باسترداد البيانات ذات الصلة من الأعمدة ذات الصلة دون المرور عبر المستند بأكمله ، مما يؤدي إلى استعلامات أسرع.
  6. المخطط مذكور في تذييل ملف الباركيه. لذلك ، لا تحتاج إلى تحديد المخطط يدويًا ، بخلاف تنسيقات البيانات الأخرى.

تحويل الباركيه إلى CSV مع Astera Centerprise

أثناء عملية ETL ، يجب تحويل Parquet إلى تنسيقات ملفات أخرى لتحليلها أو مطابقة التوافق. Astera Centerprise هي أداة ETL خالية من الأكواد تسمح لك بتحويل Parquet إلى أي تنسيق ملف بسهولة.

Astera Centerprise موصلات أصلية للعديد من تنسيقات الملفات ، بما في ذلك Parquet و CSV و JSON و XML. تسهل إمكانية الاتصال خارج الصندوق عملية تعيين البيانات من Parquet إلى أي تنسيق ملف ببضع نقرات.

لتحويل باركيه إلى CSV ، اسحب وأفلت موصل مصدر الباركيه وموصل وجهة CSV في مصمم تدفق البيانات. بمجرد الانتهاء من ذلك ، يمكنك تعيين البيانات من Parquet إلى CSV على الفور.

                                                                                      تحويل الباركيه إلى CSV بامتداد Astera Centerprise

تحويل CSV إلى باركيه باستخدام Astera Centerprise

هل تقوم بإنشاء بحيرة بيانات لعملك؟ لا تريد أن ينخفض ​​أداء بحيرة البيانات الخاصة بك مع زيادة حجم البيانات الخاصة بك. تشغل ملفات الباركيه مساحة أقل بكثير على القرص وتكون أسرع في المسح الضوئي ، لذلك يعد تنسيق ملف أفضل لتخزين بياناتك.

باستخدام Astera Centerprise، يمكنك تحويل CSV إلى باركيه دون متاعب. ما عليك سوى اختيار موصل CSV كمصدر والباركيه كوجهة. هناك ثلاثة خيارات للضغط: Snappy و Gzip و None.

إذا كانت هناك قيم رقمية في بياناتك ولا تريد أن تمر على أنها خالية ، Astera Centerprise يمنحك خيار تحويلها إلى أصفار. وبالمثل ، يمكنك كتابة قيمة Booleans فارغة على أنها False.

  خيارات الضغط بتنسيق Astera Centerprise

يؤدي تحويل CSV إلى Parquet إلى تقليل حجم الملف بشكل ملحوظ. يوضح جدول المقارنة أدناه الفرق بين أحجام ملفين بعد تحويلهما من خلال Astera Centerprise.

تنسيق ملف باركيه

تنسيق ملف CSV

عندما تم تحويل ملف يحتوي على ملف سجلات 1.5 ميجا بايت مع 8 أعمدة وبيانات متكررة إلى تنسيق باركيه ، كان حجمه 45.201 ميجا بايت (0.045201 جيجا بايت)  عندما تم تحويل ملف بسجلات 1.5 M مع 8 أعمدة وبيانات متكررة إلى تنسيق CSV ، كان حجمه 429.191 ميجابايت (0.429191 جيجابايت).

 

        اختلاف الحجم في ملفات CSV و Parquet

لماذا Astera Centerprise?

Astera Centerprise تم تصميمه لمساعدة مستخدمي الأعمال على تحمل مسؤولية مبادراتهم القائمة على البيانات. تعمل بيئة الكود الصفري والواجهة البديهية على تبسيط وتسريع عملية تحويل الباركيه إلى CSV. فيما يلي بعض الميزات الرئيسية لـ Astera Centerprise:

  1. موصلات مدمجة: Astera Centerprise يدعم موصلات متنوعة لقواعد البيانات الشائعة ومستودعات البيانات والتخزين السحابي وتنسيقات الملفات.
  2. التحولات: يمكنك استخدام تحويلات متطورة مضمنة لمعالجة بياناتك وتعديلها بأي طريقة تريدها دون كتابة تعليمات برمجية.
  3. جودة البيانات: تضمن ميزات تحديد البيانات والتحقق من صحتها أن بياناتك دقيقة وموثوقة دائمًا.
  4. معاينة البيانات الفورية: تسمح لك هذه الميزة بمعرفة كيف تبدو بياناتك في أي مرحلة. لست بحاجة إلى تنفيذ تدفق البيانات بالكامل متى أردت التحقق من بياناتك.
  5. الأتمتة: Astera Centerpriseتسمح لك ميزات الأتمتة وجدولة المهام بأتمتة تدفقات العمل الخاصة بك حتى لا تقضي الوقت في المهام المتكررة.
  6. واجهة خالية من التعليمات البرمجية: تسمح لك الواجهة سهلة الاستخدام بتمكين مستخدمي عملك من تنفيذ مشاريعهم دون الاعتماد على فريق تكنولوجيا المعلومات.

تحميل Astera Centerprise اليوم والعمل مع تنسيق ملف باركيه دون أي متاعب.

ربما يعجبك أيضا
أفضل 7 أدوات لتجميع البيانات في عام 2024
إطار إدارة البيانات: ما هو؟ الأهمية والركائز وأفضل الممارسات
أفضل أدوات استيعاب البيانات في عام 2024
مع مراعاة Astera لتلبية احتياجات إدارة البيانات الخاصة بك؟

أنشئ اتصالاً خاليًا من التعليمات البرمجية مع تطبيقات مؤسستك وقواعد البيانات والتطبيقات السحابية لدمج جميع بياناتك.

دعونا نتواصل الآن!
يتيح الاتصال