Введение (анализ болевых точек)
Как инженер или архитектор данных, вы испытываете трудности с решением следующих вопросов?
- Разрозненность данных и трудности управления.Бизнес-данные разбросаны по десяткам источников данных, таких как MySQL, Kafka, лог-файлы, CSV и т. д., с различными форматами, что затрудняет унификацию управления и гарантирует качество данных.
- Расходы не поддаются контролю.Чтобы справиться с циклическими пиками деловой активности (например, крупными акциями, событиями), традиционные платформы больших данных (например, самостоятельно построенные Hadoop) должны настраивать аппаратные ресурсы в соответствии с пиковым спросом, что приводит к простаиванию ресурсов большую часть времени и высоким затратам.
- Узкие места в производительности.Традиционный процесс ETL сложен и длителен, и от ввода данных до вывода отчета часто проходит T+1 день, что не может удовлетворить насущную потребность бизнеса в данных в режиме реального времени, и принятие решений всегда происходит на шаг медленнее.
- Сложная архитектура и большие затраты на эксплуатацию и обслуживание.Поддержание стабильной работы полного набора кластеров больших данных (HDFS, Hive, Spark, Presto) требует больших инвестиций в специалистов по эксплуатации и обслуживанию, высокого технического порога и сложностей с устранением неполадок.
Если вы столкнулись с вышеперечисленными проблемами, то в этой статье вы найдете комплексное решение на основе Tencent Cloud Native Data Lake Warehouse для эффективного, экономичного и унифицированного анализа петабайтов данных в режиме реального времени.
Диаграмма и обзор архитектуры решения
архитектурная схема

Аннотация.
Основу этой программы составляют“Разделение счетов”ответить пением“Унифицированное управление метаданными”. Все исходные данные единообразно хранятся в высоконадежном и недорогомTencent Cloud Object Storage (COS)Это краеугольный камень озера данных.Вычисления на озерах данных (DLC)Как мозг, он отвечает за унифицированное управление метаданными, контроль разрешений и управление данными, избавляя вас от необходимости создавать собственное метахранилище Hive.Elastic MapReduce (EMR)Являясь мощным вычислительным механизмом, кластеры привлекаются по требованию для непосредственного анализа данных в COS с помощью стандартных вычислительных фреймворков Spark, Presto и других, освобождая ресурсы по завершении задачи. В конечном итоге результаты анализа могут напрямую использоваться BI-инструментами, приложениями для работы с данными или платформами искусственного интеллекта.
Ценностное предложение.Это решение идеально решает болевые точки внедрения, снижает затраты на хранение и вычисления благодаря разделению хранения и вычислений, разрушает разрозненные данные благодаря унифицированным метаданным, обеспечивает быстрый анализ благодаря эластичному механизму вычислений Serverless и снижает сложность эксплуатации до минимума.
Основные продукты и компоненты
- Название компонента. Tencent Cloud Object Storage (COS)
- Играет роль.интегрированная архитектураУровень постоянного хранения данныхВ нем хранятся все исходные данные, обработанные данные и результаты расчетов.
- Ключевые рекомендации по конфигурации/выбору.Тепловые данные, требующие частого анализа, анализируются с помощьюСтандартное хранениеИспользование холодных данных для архивированияархивное хранениеСтратегия жизненного цикла компании направлена на максимальную экономию средств за счет автоматического перехода от одной стратегии жизненного цикла к другой.
- Почему стоит выбрать именно его.Обеспечивает неограниченную емкость и надежность данных 99,99999999999%, что делает его идеальной базой для создания озер данных. Бесшовная интеграция с EMR и DLC обеспечивает превосходную оптимизацию производительности.
- Название компонента. Вычисления на озерах данных (DLC)
- Играет роль.структурированный“Интеллектуальный мозг”Он обеспечивает унифицированное управление метаданными, контроль прав и доступа к данным, каталог данных SQL и сервисы интерактивных запросов Serverless.
- Ключевые рекомендации по конфигурации/выбору.Непосредственное использование режима Serverless без предварительной настройки ресурсов. Удобное взаимодействие с данными на COS и определение структуры таблиц с помощью функции каталога данных.
- Почему стоит выбрать именно его.Она полностью решает проблему изолированности метаданных. EMR, BI-инструменты и т. д. могут получить доступ к единому представлению метаданных через DLC, чтобы добиться согласованного управления разрешениями и структурой таблиц. Функция Serverless Spark позволяет беспристрастно отправлять задания Spark, значительно упрощая эксплуатацию и обслуживание.
- Название компонента. Elastic MapReduce (EMR)
- Играет роль.ядроЭластичный вычислительный движокОтвечает за выполнение масштабных задач по обработке данных (например, ETL, интерактивные запросы, машинное обучение).
- Ключевые рекомендации по конфигурации/выбору.опцияобъемная тарификацияиэластичный телескопический (т.е. гибкий)Режим, автоматически увеличивающий и уменьшающий количество узлов задачи в зависимости от нагрузки на процессор/память. Возможность совместного развертывания с COS, DLC для оптимальной производительности.
- Почему стоит выбрать именно его.Он предоставляет полный набор возможностей экосистемы больших данных с открытым исходным кодом (Hadoop, Spark, Presto, Hbase и т. д.) и глубоко интегрирован с Tencent Cloud из коробки. Его эластичность обеспечивает эффективное использование ресурсов, оплата производится только за фактически использованный объем вычислений.
Краткое описание преимуществ программы
- ? Экстремальная оптимизация затрат.Разделение систем хранения и вычислений, масштабирование вычислительных ресурсов по требованию по сравнению с традиционными стационарными кластерами, построенными самостоятельно.Комплексная стоимость может быть снижена более чем на 50%。
- ⚡ Эффективная аналитика и гибкие операционные системы.Нет необходимости в миграции данных, EMR может напрямую анализировать данные COS с высокой скоростью; унифицированное управление метаданными DLC, котороеПоминутное создание платформ для работы с большими даннымиПри этом объем работ по эксплуатации и техническому обслуживанию снизился на 90%.
- ? Разрушение информационных силосов.Копия данных хранится в COS и совместно используется и анализируется несколькими вычислительными системами (EMR, облачные функции и т. д.) через единое представление DLC, что действительно позволяетВключение данных。
- ? ️ Управление безопасностью на уровне предприятия.DLC обеспечивает контроль прав данных на уровне столбцов и бесшовную интеграцию с CAM.Журнал аудитаПолностью соответствует требованиям безопасности корпоративных данных и нормативно-правового соответствия.
Сценарии применения и применимые клиенты
- Типичные сценарии применения.
- Интерактивный мгновенный запрос.Аналитики данных используют Presto/Spark SQL для выполнения быстрых запросов к массивным историческим данным непосредственно через DLC и получения мгновенных результатов.
- Анализ журналов в режиме реального времени.Бизнес-журналы записываются в COS/Kafka в режиме реального времени и анализируются потоковыми системами EMR Streaming или Spark Streaming для обработки в режиме, близком к реальному времени, для мониторинга состояния бизнеса.
- Машинное обучение и добыча данных.Используйте Spark в EMR на кластере k8s для чтения обучающих данных непосредственно из COS для крупномасштабного обучения моделей.
- Применимые характеристики клиента.
- Объем данных достигУровень от ТБ до ПБи продолжающийся рост традиционных и интернет-компаний.
- в немалой степени получаютДорогостоящее масштабирование и узкие места в производительности традиционных хранилищ данныхПроблемная команда.
- пожеланиеИнтеграция нескольких источников данныхКлиенты, которые создают единое представление о данных своего предприятия.
- Команда "НадеждаСосредоточьтесь на разработке бизнес-данных, а не на эксплуатации и обслуживании базовой инфраструктуры。
Похожие ссылки
- Веб-сайт продукта Tencent Cloud Data Lake Computing (DLC). Узнайте прямо сейчас
- Веб-сайт продукта Tencent Cloud Elastic MapReduce (EMR). Узнайте прямо сейчас
- Бесплатные пробные кредиты. Получите бесплатный пробный пакет Tencent Cloud
- Практические занятия по технологиям. Начало работы с DLC Data Analytics за одну минуту、EMR на CVM Быстрый старт
- Больше решений для работы с большими данными: Узнать больше