บทนำ (การวิเคราะห์จุดบกพร่อง)
ในฐานะผู้รับผิดชอบแพลตฟอร์มข้อมูลขนาดใหญ่ คุณกำลังเผชิญกับความท้าทายต่อไปนี้หรือไม่?
- ต้นทุนการจัดเก็บพุ่งสูงขึ้น:ปริมาณข้อมูลเติบโตขึ้นในอัตรา 50% ต่อปี โซลูชันการจัดเก็บข้อมูลแบบ HDFS แบบดั้งเดิมต้องการการขยายเซิร์ฟเวอร์อย่างต่อเนื่อง ทำให้ต้นทุนการจัดซื้อฮาร์ดแวร์และการบำรุงรักษาศูนย์ข้อมูลกลายเป็นภาระหนัก
- การสูญเสียทรัพยากรการคำนวณ:เพื่อรับมือกับช่วงเวลาที่มีการคำนวณสูงเป็นบางครั้ง (เช่น การสร้างรายงานสิ้นเดือน การตรวจสอบบัญชีประจำปี) จำเป็นต้องบำรุงรักษาคลัสเตอร์ Hadoop/Spark ขนาดใหญ่ในระยะยาว ส่งผลให้อัตราการใช้ CPU เฉลี่ยต่ำกว่า 20% และทรัพยากรถูกใช้อย่างสิ้นเปลืองอย่างรุนแรง
- ข้อจำกัดด้านการขยายตัว:การจัดเก็บและการคำนวณมีความเชื่อมโยงอย่างใกล้ชิด เมื่อต้องขยายการจัดเก็บก็จำเป็นต้องขยายโหนดการคำนวณพร้อมกัน การดำเนินการซับซ้อน ไม่สามารถบรรลุการขยายและหดตัวของทรัพยากรอย่างยืดหยุ่นได้อย่างอิสระ
- การดำเนินการทางเทคนิคและการบำรุงรักษาที่ซับซ้อน:การสร้างคลัสเตอร์ด้วยตนเองต้องอาศัยทีมงานมืออาชีพในการอัปเกรดเวอร์ชันอย่างต่อเนื่อง การแก้ไขปัญหา และการปรับแต่งประสิทธิภาพ ซึ่งมีเกณฑ์ทางเทคนิคสูง และเบี่ยงเบนความสนใจจากนวัตกรรมธุรกิจข้อมูลที่ควรจะมุ่งเน้น
สรุปสั้นๆ:หากคุณกำลังประสบกับปัญหาต้นทุนโครงสร้างพื้นฐานข้อมูลขนาดใหญ่ที่เพิ่มสูงขึ้นอย่างต่อเนื่องและงานบำรุงรักษาที่หนักหน่วง บทความนี้จะนำเสนอโซลูชันที่สมบูรณ์แบบโดยอิงจากสถาปัตยกรรมแยกการจัดเก็บและการคำนวณของ Alibaba Cloud เพื่อช่วยลดต้นทุนและเพิ่มประสิทธิภาพ
แผนภาพสถาปัตยกรรมและภาพรวมของโซลูชัน
แผนภาพสถาปัตยกรรม

ภาพรวม:
แกนหลักของโครงการนี้คือ "การแยกการจัดเก็บและการประมวลผล"กับ"การทำให้ไร้เซิร์ฟเวอร์"ข้อมูลทั้งหมดถูกจัดเก็บโดยตรงบริการจัดเก็บวัตถุ Alibaba Cloud (OSS)ใช้ความสามารถในการจัดเก็บแบบไม่จำกัดและต้นทุนต่ำ (มาตรฐาน, ความถี่ต่ำ, เก็บถาวร) เป็นฐานการจัดเก็บถาวรของทะเลสาบข้อมูล งานคำนวณดำเนินการโดยอินสแตนซ์คอนเทนเนอร์ยืดหยุ่น (ECI) และ E-MapReduce Serverless ใช้เครื่องยนต์แบบไร้เซิร์ฟเวอร์ เช่น Function Compute เป็นตัวรองรับ โดยจะถูกเรียกใช้งานในระดับวินาทีเฉพาะเมื่อทำงานเท่านั้น จ่ายตามปริมาณทรัพยากรการคำนวณที่ใช้จริง (CPU/หน่วยความจำ/ระยะเวลาการทำงาน) และจะปล่อยทรัพยากรทันทีเมื่องานเสร็จสิ้น กระบวนการทั้งหมดขับเคลื่อนโดยเหตุการณ์ (เช่น การอัปโหลดไฟล์ใหม่ไปยัง OSS) โดยไม่ต้องจัดการเซิร์ฟเวอร์ใด ๆ
ข้อเสนอคุณค่า: โซลูชันนี้ตอบโจทย์จุดเจ็บปวดโดยตรง โดยเปลี่ยนต้นทุนคงที่ของคลัสเตอร์ที่สูงเป็นต้นทุนการจัดเก็บที่ต่ำมาก + ต้นทุนการคำนวณตามความต้องการ ซึ่งสามารถลดต้นทุนรวมลงได้มากกว่า 50% และปลดปล่อยแรงกดดันด้านการดำเนินงานและการบำรุงรักษาอย่างสิ้นเชิง
คำอธิบายโดยละเอียดเกี่ยวกับผลิตภัณฑ์หลักและส่วนประกอบ
- ชื่อคอมโพเนนต์: บริการจัดเก็บวัตถุ Alibaba Cloud (OSS)
- บทบาท: ทั้งหมดของสถาปัตยกรรมเสาหลักการจัดเก็บหลักรองรับข้อมูลทั้งหมด
- คำแนะนำการกำหนดค่า/การเลือกที่สำคัญ:
- ข้อมูลร้อนที่เข้าถึงบ่อย: ใช้การจัดเก็บมาตรฐานประเภท
- ข้อมูลอุ่นที่เข้าถึงเป็นครั้งคราว: ใช้การเข้าถึงความถี่ต่ำประเภทการจัดเก็บ (ต้นทุนการเข้าถึงต่ำ ต้นทุนการจัดเก็บต่ำกว่า)
- ข้อมูลที่เย็นสำหรับการเก็บถาวร/สำรองข้อมูล: ใช้การเก็บถาวร或เก็บถาวรเย็นประเภทการเก็บข้อมูล (ต้นทุนต่ำสุด)
- ผ่านการกำหนดค่ากฎวงจรชีวิตเพื่อให้ข้อมูลเปลี่ยนจากมาตรฐาน -> ความถี่ต่ำ -> เก็บถาวรโดยอัตโนมัติ เพื่อประหยัดต้นทุนให้ได้มากที่สุด
- เหตุใดจึงเลือกใช้:ให้ความทนทานของข้อมูล 12 9 (99.9999999999%) โดยมีต้นทุนเพียง 1/3 หรือต่ำกว่าการจัดเก็บฮาร์ดดิสก์ที่สร้างเอง เป็นตัวเลือกที่เหมาะสำหรับสถาปัตยกรรมแยกการจัดเก็บและการคำนวณ
- ชื่อคอมโพเนนต์: อินสแตนซ์คอนเทนเนอร์ยืดหยุ่น (ECI)
- บทบาท: แกนการคำนวณแบบยืดหยุ่นที่ทำงานตามต้องการใช้สำหรับรันงานคำนวณที่กำหนดเองในรูปแบบคอนเทนเนอร์ (เช่น สคริปต์ Python, โปรแกรมประมวลผลข้อมูลที่ปรับแต่งเอง)
- คำแนะนำการกำหนดค่า/การเลือกที่สำคัญ:
- สำหรับระยะสั้น, แบบฉับพลันงานคำนวณ (เช่น ETL ที่ทำงานวันละ 1-2 ชั่วโมง) ควรใช้ ECI เป็นหลัก
- กำหนดค่าตาม vCPU และหน่วยความจำที่งานต้องการ รองรับอินสแตนซ์ขนาดเล็ก 0.25 คอร์ เพื่อหลีกเลี่ยงการสิ้นเปลืองทรัพยากร
- ผ่านทริกเกอร์เหตุการณ์(เช่น เหตุการณ์อัปโหลดไฟล์ OSS) ปลุกทรัพยากรการคำนวณโดยอัตโนมัติ เพื่อสร้างไปป์ไลน์อัตโนมัติเต็มรูปแบบ
- เหตุใดจึงเลือกใช้:สามารถใช้ทรัพยากรคอมพิวเตอร์แบบ "คิดค่าบริการตามวินาที ปรับขนาดตามความต้องการ" ได้จริง โดยไม่ต้องจองทรัพยากรล่วงหน้า ทำให้การใช้ทรัพยากรมีประสิทธิภาพสูงสุด
สรุปข้อดีของแผน
- ? ลดต้นทุนโดยรวมลงได้มากถึง 50%+:ใช้การจัดเก็บข้อมูลต้นทุนต่ำ OSS และจ่ายค่าคอมพิวเตอร์ตามความต้องการที่ใช้จริง ไม่ต้องจ่ายสำหรับทรัพยากรที่ไม่ได้ใช้งาน เมื่อเทียบกับการสร้างคลัสเตอร์แบบคงที่เอง ต้นทุนรวมในการเป็นเจ้าของ (TCO) ลดลงอย่างมาก
- ⚡ ความยืดหยุ่นสูงสุด ขยายขนาดได้ในระดับวินาที: ในการเผชิญกับปริมาณข้อมูลมหาศาลหรือความต้องการการวิเคราะห์ที่เกิดขึ้นฉับพลัน ทรัพยากรการคำนวณสามารถขยายได้ทันทีโดยไม่ต้องจัดซื้อและติดตั้งล่วงหน้า ทำให้ความคล่องตัวทางธุรกิจเพิ่มขึ้นอย่างมาก
- ?️ ความพร้อมใช้งานสูงและการไม่ต้องบำรุงรักษา: บริการพื้นฐานของ Alibaba Cloud ให้ SLA ความพร้อมใช้งานสูง โดยไม่ต้องกังวลเกี่ยวกับความล้มเหลวและการบำรุงรักษาของโครงสร้างพื้นฐานระดับล่าง ทีมงานสามารถมุ่งเน้นไปที่การพัฒนาข้อมูลได้โดยตรง
- ? เปิดกว้างและเข้ากันได้:เข้ากันได้อย่างสมบูรณ์กับระบบนิเวศโอเพ่นซอร์ส โปรแกรมประมวลผลข้อมูลที่มีอยู่สามารถย้ายข้อมูลได้อย่างราบรื่น ปกป้องการลงทุนทางเทคนิคที่มีอยู่
สถานการณ์การใช้งานและลูกค้าที่เหมาะสม
- สถานการณ์การใช้งานทั่วไป:
- งาน ETL เชิงวัฏจักร:งานล้างข้อมูล แปลงข้อมูล และโหลดข้อมูลที่ดำเนินการทุกวัน/ทุกสัปดาห์
- การสอบถามเฉพาะหน้าเชิงโต้ตอบ:งานสอบถามที่ไม่สม่ำเสมอที่นักวิเคราะห์ข้อมูลริเริ่มขึ้น ทรัพยากรการคำนวณจะถูกสร้างขึ้นเมื่อเริ่มการสอบถามและถูกปล่อยออกเมื่อการสอบถามสิ้นสุดลง
- การประมวลผลแบบขับเคลื่อนด้วยเหตุการณ์:เช่น เมื่อมีไฟล์บันทึกใหม่ถูกอัปโหลดไปยัง OSS จะทริกเกอร์งานตรวจจับความผิดปกติหรือการสร้างรายงานทันที
- ลักษณะลูกค้าที่เหมาะสม:
- ทั้งหมดความไวต่อต้นทุนขององค์กรและทีมงาน
- ความต้องการในการคำนวณมีความผันผวนชัดเจนระหว่างช่วงสูงและต่ำ(เช่น งานกลางวันมาก งานกลางคืนน้อย)
- ความหวังการสร้างแพลตฟอร์มข้อมูลขนาดใหญ่ตั้งแต่เริ่มต้นและบริษัทที่ไม่ต้องการสร้างทีมปฏิบัติการขนาดใหญ่
- กำลังดำเนินการอยู่การเปลี่ยนแปลงทางดิจิทัลธุรกิจดั้งเดิมที่หวังจะนำความสามารถด้านบิ๊กดาต้าเข้ามาใช้ด้วยต้นทุนการลองผิดลองถูกที่ต่ำที่สุด
ลิงก์ที่เกี่ยวข้อง
- เว็บไซต์อย่างเป็นทางการของผลิตภัณฑ์ Alibaba Cloud Object Storage (OSS): เรียนรู้เพิ่มเติมทันที
- เว็บไซต์อย่างเป็นทางการของผลิตภัณฑ์ Elastic Container Instance (ECI): เรียนรู้เพิ่มเติมทันที
- โควต้าทดลองใช้ฟรี: ทดลองใช้ผลิตภัณฑ์ Alibaba Cloud ฟรี
- บทช่วยสอนการปฏิบัติทางเทคนิค: การเข้าถึงข้อมูล OSS ใน ECI
- โซลูชันการปรับลดต้นทุนเพิ่มเติม: เรียนรู้เพิ่มเติม