บทนำ (การวิเคราะห์จุดบกพร่อง)​

ในฐานะผู้รับผิดชอบแพลตฟอร์มข้อมูลขนาดใหญ่ คุณกำลังเผชิญกับความท้าทายต่อไปนี้หรือไม่?

  • ต้นทุนการจัดเก็บพุ่งสูงขึ้น:​ปริมาณข้อมูลเติบโตขึ้นในอัตรา 50% ต่อปี โซลูชันการจัดเก็บข้อมูลแบบ HDFS แบบดั้งเดิมต้องการการขยายเซิร์ฟเวอร์อย่างต่อเนื่อง ทำให้ต้นทุนการจัดซื้อฮาร์ดแวร์และการบำรุงรักษาศูนย์ข้อมูลกลายเป็นภาระหนัก
  • การสูญเสียทรัพยากรการคำนวณ:เพื่อรับมือกับช่วงเวลาที่มีการคำนวณสูงเป็นบางครั้ง (เช่น การสร้างรายงานสิ้นเดือน การตรวจสอบบัญชีประจำปี) จำเป็นต้องบำรุงรักษาคลัสเตอร์ Hadoop/Spark ขนาดใหญ่ในระยะยาว ส่งผลให้อัตราการใช้ CPU เฉลี่ยต่ำกว่า 20% และทรัพยากรถูกใช้อย่างสิ้นเปลืองอย่างรุนแรง
  • ข้อจำกัดด้านการขยายตัว:การจัดเก็บและการคำนวณมีความเชื่อมโยงอย่างใกล้ชิด เมื่อต้องขยายการจัดเก็บก็จำเป็นต้องขยายโหนดการคำนวณพร้อมกัน การดำเนินการซับซ้อน ไม่สามารถบรรลุการขยายและหดตัวของทรัพยากรอย่างยืดหยุ่นได้อย่างอิสระ
  • การดำเนินการทางเทคนิคและการบำรุงรักษาที่ซับซ้อน:การสร้างคลัสเตอร์ด้วยตนเองต้องอาศัยทีมงานมืออาชีพในการอัปเกรดเวอร์ชันอย่างต่อเนื่อง การแก้ไขปัญหา และการปรับแต่งประสิทธิภาพ ซึ่งมีเกณฑ์ทางเทคนิคสูง และเบี่ยงเบนความสนใจจากนวัตกรรมธุรกิจข้อมูลที่ควรจะมุ่งเน้น

สรุปสั้นๆ:หากคุณกำลังประสบกับปัญหาต้นทุนโครงสร้างพื้นฐานข้อมูลขนาดใหญ่ที่เพิ่มสูงขึ้นอย่างต่อเนื่องและงานบำรุงรักษาที่หนักหน่วง บทความนี้จะนำเสนอโซลูชันที่สมบูรณ์แบบโดยอิงจากสถาปัตยกรรมแยกการจัดเก็บและการคำนวณของ Alibaba Cloud เพื่อช่วยลดต้นทุนและเพิ่มประสิทธิภาพ

แผนภาพสถาปัตยกรรมและภาพรวมของโซลูชัน

แผนภาพสถาปัตยกรรม

โซลูชันจัดเก็บและประมวลผลข้อมูลขนาดใหญ่ต้นทุนต่ำ: สถาปัตยกรรมแยกการจัดเก็บ OSS และการคำนวณ ลดต้นทุน 50% % - LikaCloud

ภาพรวม:​

แกนหลักของโครงการนี้คือ ​"การแยกการจัดเก็บและการประมวลผล"กับ"การทำให้ไร้เซิร์ฟเวอร์"ข้อมูลทั้งหมดถูกจัดเก็บโดยตรงบริการจัดเก็บวัตถุ Alibaba Cloud (OSS)ใช้ความสามารถในการจัดเก็บแบบไม่จำกัดและต้นทุนต่ำ (มาตรฐาน, ความถี่ต่ำ, เก็บถาวร) เป็นฐานการจัดเก็บถาวรของทะเลสาบข้อมูล งานคำนวณดำเนินการโดยอินสแตนซ์คอนเทนเนอร์ยืดหยุ่น (ECI)​ และ ​E-MapReduce Serverless​ ใช้เครื่องยนต์แบบไร้เซิร์ฟเวอร์ เช่น Function Compute เป็นตัวรองรับ โดยจะถูกเรียกใช้งานในระดับวินาทีเฉพาะเมื่อทำงานเท่านั้น จ่ายตามปริมาณทรัพยากรการคำนวณที่ใช้จริง (CPU/หน่วยความจำ/ระยะเวลาการทำงาน) และจะปล่อยทรัพยากรทันทีเมื่องานเสร็จสิ้น กระบวนการทั้งหมดขับเคลื่อนโดยเหตุการณ์ (เช่น การอัปโหลดไฟล์ใหม่ไปยัง OSS) โดยไม่ต้องจัดการเซิร์ฟเวอร์ใด ๆ

ข้อเสนอคุณค่า:​ โซลูชันนี้ตอบโจทย์จุดเจ็บปวดโดยตรง โดยเปลี่ยนต้นทุนคงที่ของคลัสเตอร์ที่สูงเป็นต้นทุนการจัดเก็บที่ต่ำมาก + ต้นทุนการคำนวณตามความต้องการ ซึ่งสามารถลดต้นทุนรวมลงได้มากกว่า 50% และปลดปล่อยแรงกดดันด้านการดำเนินงานและการบำรุงรักษาอย่างสิ้นเชิง

คำอธิบายโดยละเอียดเกี่ยวกับผลิตภัณฑ์หลักและส่วนประกอบ

  • ชื่อคอมโพเนนต์:​​ ​บริการจัดเก็บวัตถุ Alibaba Cloud (OSS)
    • บทบาท:​​ ทั้งหมดของสถาปัตยกรรมเสาหลักการจัดเก็บหลักรองรับข้อมูลทั้งหมด
    • คำแนะนำการกำหนดค่า/การเลือกที่สำคัญ: ​
      • ข้อมูลร้อนที่เข้าถึงบ่อย:​​ ใช้การจัดเก็บมาตรฐานประเภท
      • ข้อมูลอุ่นที่เข้าถึงเป็นครั้งคราว:​​ ใช้การเข้าถึงความถี่ต่ำประเภทการจัดเก็บ (ต้นทุนการเข้าถึงต่ำ ต้นทุนการจัดเก็บต่ำกว่า)
      • ข้อมูลที่เย็นสำหรับการเก็บถาวร/สำรองข้อมูล:​ ใช้การเก็บถาวรเก็บถาวรเย็นประเภทการเก็บข้อมูล (ต้นทุนต่ำสุด)
      • ผ่านการกำหนดค่ากฎวงจรชีวิตเพื่อให้ข้อมูลเปลี่ยนจากมาตรฐาน -> ความถี่ต่ำ -> เก็บถาวรโดยอัตโนมัติ เพื่อประหยัดต้นทุนให้ได้มากที่สุด
    • เหตุใดจึงเลือกใช้:​ให้ความทนทานของข้อมูล 12 9 (99.9999999999%) โดยมีต้นทุนเพียง 1/3 หรือต่ำกว่าการจัดเก็บฮาร์ดดิสก์ที่สร้างเอง เป็นตัวเลือกที่เหมาะสำหรับสถาปัตยกรรมแยกการจัดเก็บและการคำนวณ
  • ชื่อคอมโพเนนต์:​​ ​อินสแตนซ์คอนเทนเนอร์ยืดหยุ่น (ECI)
    • บทบาท:​​ ​แกนการคำนวณแบบยืดหยุ่นที่ทำงานตามต้องการใช้สำหรับรันงานคำนวณที่กำหนดเองในรูปแบบคอนเทนเนอร์ (เช่น สคริปต์ Python, โปรแกรมประมวลผลข้อมูลที่ปรับแต่งเอง)
    • คำแนะนำการกำหนดค่า/การเลือกที่สำคัญ: ​
      • สำหรับระยะสั้น, แบบฉับพลันงานคำนวณ (เช่น ETL ที่ทำงานวันละ 1-2 ชั่วโมง) ควรใช้ ECI เป็นหลัก
      • กำหนดค่าตาม vCPU และหน่วยความจำที่งานต้องการ รองรับอินสแตนซ์ขนาดเล็ก 0.25 คอร์ เพื่อหลีกเลี่ยงการสิ้นเปลืองทรัพยากร
      • ผ่านทริกเกอร์เหตุการณ์(เช่น เหตุการณ์อัปโหลดไฟล์ OSS) ปลุกทรัพยากรการคำนวณโดยอัตโนมัติ เพื่อสร้างไปป์ไลน์อัตโนมัติเต็มรูปแบบ
    • เหตุใดจึงเลือกใช้:​สามารถใช้ทรัพยากรคอมพิวเตอร์แบบ "คิดค่าบริการตามวินาที ปรับขนาดตามความต้องการ" ได้จริง โดยไม่ต้องจองทรัพยากรล่วงหน้า ทำให้การใช้ทรัพยากรมีประสิทธิภาพสูงสุด

สรุปข้อดีของแผน

  • ? ลดต้นทุนโดยรวมลงได้มากถึง 50%+:ใช้การจัดเก็บข้อมูลต้นทุนต่ำ OSS และจ่ายค่าคอมพิวเตอร์ตามความต้องการที่ใช้จริง ไม่ต้องจ่ายสำหรับทรัพยากรที่ไม่ได้ใช้งาน เมื่อเทียบกับการสร้างคลัสเตอร์แบบคงที่เอง ต้นทุนรวมในการเป็นเจ้าของ (TCO) ลดลงอย่างมาก
  • ⚡ ความยืดหยุ่นสูงสุด ขยายขนาดได้ในระดับวินาที:​ ในการเผชิญกับปริมาณข้อมูลมหาศาลหรือความต้องการการวิเคราะห์ที่เกิดขึ้นฉับพลัน ทรัพยากรการคำนวณสามารถขยายได้ทันทีโดยไม่ต้องจัดซื้อและติดตั้งล่วงหน้า ทำให้ความคล่องตัวทางธุรกิจเพิ่มขึ้นอย่างมาก
  • ?️ ความพร้อมใช้งานสูงและการไม่ต้องบำรุงรักษา:​​ บริการพื้นฐานของ Alibaba Cloud ให้ SLA ความพร้อมใช้งานสูง โดยไม่ต้องกังวลเกี่ยวกับความล้มเหลวและการบำรุงรักษาของโครงสร้างพื้นฐานระดับล่าง ทีมงานสามารถมุ่งเน้นไปที่การพัฒนาข้อมูลได้โดยตรง
  • ? เปิดกว้างและเข้ากันได้:​เข้ากันได้อย่างสมบูรณ์กับระบบนิเวศโอเพ่นซอร์ส โปรแกรมประมวลผลข้อมูลที่มีอยู่สามารถย้ายข้อมูลได้อย่างราบรื่น ปกป้องการลงทุนทางเทคนิคที่มีอยู่

สถานการณ์การใช้งานและลูกค้าที่เหมาะสม

  • สถานการณ์การใช้งานทั่วไป:
    • งาน ETL เชิงวัฏจักร:งานล้างข้อมูล แปลงข้อมูล และโหลดข้อมูลที่ดำเนินการทุกวัน/ทุกสัปดาห์
    • การสอบถามเฉพาะหน้าเชิงโต้ตอบ:​งานสอบถามที่ไม่สม่ำเสมอที่นักวิเคราะห์ข้อมูลริเริ่มขึ้น ทรัพยากรการคำนวณจะถูกสร้างขึ้นเมื่อเริ่มการสอบถามและถูกปล่อยออกเมื่อการสอบถามสิ้นสุดลง
    • การประมวลผลแบบขับเคลื่อนด้วยเหตุการณ์:เช่น เมื่อมีไฟล์บันทึกใหม่ถูกอัปโหลดไปยัง OSS จะทริกเกอร์งานตรวจจับความผิดปกติหรือการสร้างรายงานทันที
  • ลักษณะลูกค้าที่เหมาะสม:​
    • ทั้งหมดความไวต่อต้นทุนขององค์กรและทีมงาน
    • ความต้องการในการคำนวณมีความผันผวนชัดเจนระหว่างช่วงสูงและต่ำ(เช่น งานกลางวันมาก งานกลางคืนน้อย)
    • ความหวังการสร้างแพลตฟอร์มข้อมูลขนาดใหญ่ตั้งแต่เริ่มต้นและบริษัทที่ไม่ต้องการสร้างทีมปฏิบัติการขนาดใหญ่
    • กำลังดำเนินการอยู่การเปลี่ยนแปลงทางดิจิทัลธุรกิจดั้งเดิมที่หวังจะนำความสามารถด้านบิ๊กดาต้าเข้ามาใช้ด้วยต้นทุนการลองผิดลองถูกที่ต่ำที่สุด

ลิงก์ที่เกี่ยวข้อง