Вступ (аналіз проблем)
Як відповідальна особа за платформу великих даних, чи стикаєтеся ви з наступними проблемами?
- Збільшення витрат на зберігання:Обсяг даних зростає зі швидкістю 501 ТБ на рік, і традиційні рішення для зберігання HDFS вимагають постійного розширення серверів, а витрати на придбання обладнання та експлуатацію серверних приміщень стають надто високими.
- Сquandering of computing resources:Щоб впоратися з періодичними піками обчислювальної активності (наприклад, під час формування звітів наприкінці місяця або проведення щорічного аудиту), необхідно постійно підтримувати великий кластер Hadoop/Spark, що призводить до недостатнього середнього використання ЦП (201 ТП4Т) і серйозного нераціонального використання ресурсів.
- Перешкода для розширення:Зберігання та обчислення тісно пов'язані між собою, тому при розширенні сховища необхідно одночасно розширювати обчислювальні вузли. Цей процес є складним, і не дозволяє досягти незалежного еластичного масштабування ресурсів.
- Технічне обслуговування та експлуатація є складними:Для створення власного кластера потрібна професійна команда, яка буде постійно оновлювати версії, усувати неполадки та оптимізувати продуктивність. Це вимагає високого рівня технічної підготовки й відволікає ресурси, які можна було б направити на інновації в сфері обробки даних.
У двох словах:Якщо вас турбують постійно зростаючі витрати на інфраструктуру великих даних і трудомісткі роботи з експлуатації та обслуговування, ця стаття надасть вам повне рішення на основі архітектури роздільного зберігання та обчислення від Alibaba Cloud, що дозволить знизити витрати та підвищити ефективність.
Архітектурна схема рішення та його опис
Архітектурна схема.

Опис:
Основна ідея цього плану — \n"Розділення зберігання та обчислення"і \n"Серверлесність"Всі дані зберігаються безпосередньо.Об'єктне сховище Alibaba Cloud (OSS)Використовуючи його необмежену ємність і можливості низьковитратного ієрархічного зберігання (стандартне, низькочастотне, архівне) в якості бази для перманентного зберігання даних озера, обчислювальні завдання виконуютьсяІнстанс еластичного контейнера (ECI)І E-MapReduce безсервернийВони виконуються за допомогою безсерверних движків, запускаються за лічені секунди під час виконання завдання, оплачуються відповідно до фактично використаних обчислювальних ресурсів (ЦП/пам'ять/тривалість виконання) і негайно звільняються після завершення завдання. Весь процес відбувається під керуванням подій (наприклад, завантаження нових файлів у OSS), без необхідності управління будь-якими серверами.
Ціннісна пропозиція:Цей план націлений на вирішення основних проблем. Завдяки перетворенню високих фіксованих витрат на кластери на надзвичайно низькі витрати на зберігання та витрати на обчислення за потреби, загальні витрати можуть знизитися більш ніж на 501 ТП4Т, а також повністю зняти тиск із адміністративного та експлуатаційного персоналу.
Детальний опис основних продуктів і компонентів.
- Назва компонента: \n Об'єктне сховище Alibaba Cloud (OSS)
- Виконуйте роль:Ця архітектура в ціломуОсновні елементи системи зберігання даних.Він містить усі дані.
- Ключові рекомендації щодо конфігурації/вибору:
- Часто відвідувані гарячі дані:ВикористовуватиСтандартне сховищеТип.
- Температурні дані, доступні час від часу:ВикористовуватиНизькочастотні відвідування.Тип зберігання (низька вартість доступу, нижча вартість зберігання).
- Архівні/резервні копії неактивних даних:ВикористовуватиАрхівувати或Архівування файлівТип зберігання (найнижча вартість).
- За допомогою налаштуваньПравила життєвого циклу.Здійснення автоматичної конвертації даних зі стандартних у низькочастотні та архівні формати дозволяє максимально знизити витрати.
- Чому обрали його:Він забезпечує стійкість даних протягом 12 років, а його вартість становить лише 1/3 або навіть менше від вартості власного сховища на жорсткому диску, що робить його ідеальним вибором для архітектури, в якій зберігання та обробка даних відокремлені один від одного.
- Назва компонента: \n Інстанс еластичного контейнера (ECI)
- Виконуйте роль:\n Еластичні обчислювальні ядра, що працюють за потреби.використовується для запуску власних завдань обчислення в контейнері (наприклад, скриптів Python, спеціалізованих програм обробки даних).
- Ключові рекомендації щодо конфігурації/вибору:
- ДляКороткочасні, раптовіДля обчислювальних завдань (наприклад, ETL, що виконується 1–2 години на день), надайте перевагу ECI.
- Налаштуйте його відповідно до вимог завдання щодо кількості віртуальних процесорів та пам'яті. Підтримуйте малі екземпляри з 0,25 ядрами, щоб уникнути марної витрати ресурсів.
- проходження (законопроект, перевірка тощо)Тригер події(Наприклад, подія завантаження файлу OSS) автоматично активує обчислювальні ресурси, забезпечуючи повністю автоматизований конвеєр.
- Чому обрали його:Це справді дозволило досягти "оплати за секунду та масштабування за потребою" обчислювальних ресурсів, без необхідності резервувати ресурси, що значно підвищило ефективність використання ресурсів.
Зведення переваг плану.
- ? Загальні витрати суттєво знизилися до 501 ТП4Т+: Зберігання даних відбувається за допомогою недорогих OSS-сервісів, а обчислення оплачуються за потребою, без необхідності платити за невикористані ресурси. У порівнянні з власними статичними кластерами, загальні витрати на власність (TCO) значно знижуються.
- ⚡ Максимальна гнучкість, розширення за лічені секунди: У випадку пікових обсягів даних або несподіваних потреб у аналізі, обчислювальні ресурси можуть бути миттєво розширені без необхідності попередньої закупівлі та розгортання, що значно підвищує оперативність бізнесу.
- ?️ Висока доступність та відсутність необхідності у технічному обслуговуванні:Базові послуги Alibaba Cloud забезпечують високу доступність відповідно до угоди про рівень послуг (SLA), тому команді не потрібно турбуватися про збої та обслуговування базової інфраструктури — вона може зосереджуватися на самому розвитку даних.
- ? Відкритість і сумісність:Це повністю сумісно з екосистемою відкритого програмного забезпечення, і існуючі процеси обробки даних можуть бути легко перенесені, що дозволить захистити вже зроблені технологічні інвестиції.
Сценарії застосування та відповідні клієнти
- Типові сценарії застосування:
- Періодичні завдання ETL:Щоденні/щотижневі завдання з очищення, перетворення та завантаження даних.
- Інтерактивні запити на вимогу:Періодичні запити, ініційовані аналітиками даних, призводять до створення обчислювальних ресурсів на початку запиту і їх звільнення після завершення запиту.
- Обробка, орієнтована на події:Наприклад, якщо новий файл журналу завантажено в OSS, це негайно запускає завдання виявлення аномалій або створення звітів.
- Характеристики клієнтів, для яких це актуально:
- ВсіЦіночутливийДля наших підприємств і команд.
- Існують обчислювальні вимоги.Очевидні піки та спади.Сценарій, коли є багато завдань удень, але мало завдань уночі.
- Сподіваюся.Створення платформи великих даних з нуля.І компанії, які не хочуть створювати великі команди з експлуатації та технічного обслуговування.
- Це відбувається зараз.Цифрова трансформаціяТрадиційні компанії, які хочуть запровадити можливості роботи з великими даними з мінімальними витратами на помилки.
Стосовні посилання
- Офіційний сайт продукту Alibaba Cloud Object Storage (OSS): Дізнайтеся про це негайно.
- Офіційний сайт продукту Elastic Container Instances (ECI): Дізнайтеся про це негайно.
- Безкоштовна пробна версія: Безкоштовна пробна версія продуктів Alibaba Cloud.
- Навчальний посібник з технічних практик: Доступ до даних OSS в ECI
- Більше рішень для оптимізації витрат: Дізнайтеся більше.