Введение (анализ болевых точек)

Как инженер или архитектор данных, вы испытываете трудности с решением следующих вопросов?

  • Разрозненность данных и трудности управления.Бизнес-данные разбросаны по десяткам источников данных, таких как MySQL, Kafka, лог-файлы, CSV и т. д., с различными форматами, что затрудняет унификацию управления и гарантирует качество данных.
  • Расходы не поддаются контролю.Чтобы справиться с циклическими пиками деловой активности (например, крупными акциями, событиями), традиционные платформы больших данных (например, самостоятельно построенные Hadoop) должны настраивать аппаратные ресурсы в соответствии с пиковым спросом, что приводит к простаиванию ресурсов большую часть времени и высоким затратам.
  • Узкие места в производительности.Традиционный процесс ETL сложен и длителен, и от ввода данных до вывода отчета часто проходит T+1 день, что не может удовлетворить насущную потребность бизнеса в данных в режиме реального времени, и принятие решений всегда происходит на шаг медленнее.
  • Сложная архитектура и большие затраты на эксплуатацию и обслуживание.Поддержание стабильной работы полного набора кластеров больших данных (HDFS, Hive, Spark, Presto) требует больших инвестиций в специалистов по эксплуатации и обслуживанию, высокого технического порога и сложностей с устранением неполадок.

Если вы столкнулись с вышеперечисленными проблемами, то в этой статье вы найдете комплексное решение на основе Tencent Cloud Native Data Lake Warehouse для эффективного, экономичного и унифицированного анализа петабайтов данных в режиме реального времени.

Диаграмма и обзор архитектуры решения

архитектурная схема

Решение для анализа данных в реальном времени в масштабе PB: архитектурная практика на базе собственного хранилища озера данных Tencent Cloud - LikaCloud

Аннотация.

Основу этой программы составляют“Разделение счетов”ответить пением“Унифицированное управление метаданными”. Все исходные данные единообразно хранятся в высоконадежном и недорогомTencent Cloud Object Storage (COS)Это краеугольный камень озера данных.Вычисления на озерах данных (DLC)Как мозг, он отвечает за унифицированное управление метаданными, контроль разрешений и управление данными, избавляя вас от необходимости создавать собственное метахранилище Hive.Elastic MapReduce (EMR)Являясь мощным вычислительным механизмом, кластеры привлекаются по требованию для непосредственного анализа данных в COS с помощью стандартных вычислительных фреймворков Spark, Presto и других, освобождая ресурсы по завершении задачи. В конечном итоге результаты анализа могут напрямую использоваться BI-инструментами, приложениями для работы с данными или платформами искусственного интеллекта.

Ценностное предложение.Это решение идеально решает болевые точки внедрения, снижает затраты на хранение и вычисления благодаря разделению хранения и вычислений, разрушает разрозненные данные благодаря унифицированным метаданным, обеспечивает быстрый анализ благодаря эластичному механизму вычислений Serverless и снижает сложность эксплуатации до минимума.

Основные продукты и компоненты

  • Название компонента.​ ​Tencent Cloud Object Storage (COS)
    • Играет роль.интегрированная архитектураУровень постоянного хранения данныхВ нем хранятся все исходные данные, обработанные данные и результаты расчетов.
    • Ключевые рекомендации по конфигурации/выбору.Тепловые данные, требующие частого анализа, анализируются с помощьюСтандартное хранениеИспользование холодных данных для архивированияархивное хранениеСтратегия жизненного цикла компании направлена на максимальную экономию средств за счет автоматического перехода от одной стратегии жизненного цикла к другой.
    • Почему стоит выбрать именно его.Обеспечивает неограниченную емкость и надежность данных 99,99999999999%, что делает его идеальной базой для создания озер данных. Бесшовная интеграция с EMR и DLC обеспечивает превосходную оптимизацию производительности.
  • Название компонента.​ ​Вычисления на озерах данных (DLC)
    • Играет роль.структурированный“Интеллектуальный мозг”Он обеспечивает унифицированное управление метаданными, контроль прав и доступа к данным, каталог данных SQL и сервисы интерактивных запросов Serverless.
    • Ключевые рекомендации по конфигурации/выбору.Непосредственное использование режима Serverless без предварительной настройки ресурсов. Удобное взаимодействие с данными на COS и определение структуры таблиц с помощью функции каталога данных.
    • Почему стоит выбрать именно его.Она полностью решает проблему изолированности метаданных. EMR, BI-инструменты и т. д. могут получить доступ к единому представлению метаданных через DLC, чтобы добиться согласованного управления разрешениями и структурой таблиц. Функция Serverless Spark позволяет беспристрастно отправлять задания Spark, значительно упрощая эксплуатацию и обслуживание.
  • Название компонента.​ ​Elastic MapReduce (EMR)
    • Играет роль.ядроЭластичный вычислительный движокОтвечает за выполнение масштабных задач по обработке данных (например, ETL, интерактивные запросы, машинное обучение).
    • Ключевые рекомендации по конфигурации/выбору.опцияобъемная тарификацияиэластичный телескопический (т.е. гибкий)Режим, автоматически увеличивающий и уменьшающий количество узлов задачи в зависимости от нагрузки на процессор/память. Возможность совместного развертывания с COS, DLC для оптимальной производительности.
    • Почему стоит выбрать именно его.Он предоставляет полный набор возможностей экосистемы больших данных с открытым исходным кодом (Hadoop, Spark, Presto, Hbase и т. д.) и глубоко интегрирован с Tencent Cloud из коробки. Его эластичность обеспечивает эффективное использование ресурсов, оплата производится только за фактически использованный объем вычислений.

Краткое описание преимуществ программы

  • ? Экстремальная оптимизация затрат.Разделение систем хранения и вычислений, масштабирование вычислительных ресурсов по требованию по сравнению с традиционными стационарными кластерами, построенными самостоятельно.Комплексная стоимость может быть снижена более чем на 50%
  • ⚡ Эффективная аналитика и гибкие операционные системы.Нет необходимости в миграции данных, EMR может напрямую анализировать данные COS с высокой скоростью; унифицированное управление метаданными DLC, котороеПоминутное создание платформ для работы с большими даннымиПри этом объем работ по эксплуатации и техническому обслуживанию снизился на 90%.
  • ? Разрушение информационных силосов.Копия данных хранится в COS и совместно используется и анализируется несколькими вычислительными системами (EMR, облачные функции и т. д.) через единое представление DLC, что действительно позволяетВключение данных
  • ? ️ Управление безопасностью на уровне предприятия.DLC обеспечивает контроль прав данных на уровне столбцов и бесшовную интеграцию с CAM.Журнал аудитаПолностью соответствует требованиям безопасности корпоративных данных и нормативно-правового соответствия.

Сценарии применения и применимые клиенты

  • Типичные сценарии применения.
    • Интерактивный мгновенный запрос.Аналитики данных используют Presto/Spark SQL для выполнения быстрых запросов к массивным историческим данным непосредственно через DLC и получения мгновенных результатов.
    • Анализ журналов в режиме реального времени.Бизнес-журналы записываются в COS/Kafka в режиме реального времени и анализируются потоковыми системами EMR Streaming или Spark Streaming для обработки в режиме, близком к реальному времени, для мониторинга состояния бизнеса.
    • Машинное обучение и добыча данных.Используйте Spark в EMR на кластере k8s для чтения обучающих данных непосредственно из COS для крупномасштабного обучения моделей.
  • Применимые характеристики клиента.
    • Объем данных достигУровень от ТБ до ПБи продолжающийся рост традиционных и интернет-компаний.
    • в немалой степени получаютДорогостоящее масштабирование и узкие места в производительности традиционных хранилищ данныхПроблемная команда.
    • пожеланиеИнтеграция нескольких источников данныхКлиенты, которые создают единое представление о данных своего предприятия.
    • Команда "НадеждаСосредоточьтесь на разработке бизнес-данных, а не на эксплуатации и обслуживании базовой инфраструктуры

Похожие ссылки