Řešení pro analýzu dat na úrovni PB v reálném čase: praktické využití nativního datového jezera Tencent Cloud

Úvod (analýza bolestivých míst)

Jako datový inženýr nebo architekt vás trápí následující problémy?

Izolovanost dat a potíže s řízením:Obchodní data jsou rozptýlena mezi desítkami různých zdrojů dat, jako jsou MySQL, Kafka, logovací soubory a CSV, a mají různé formáty, což ztěžuje jejich jednotnou správu a zajištění kvality dat.
Náklady se vymkly kontrole:Aby bylo možné reagovat na cyklické období vysoké aktivity (například velké prodeje nebo akce), tradiční platformy pro velká data (jako například vlastní Hadoop) vyžadují nastavení hardwarových zdrojů podle špičkové poptávky, což vede k tomu, že většina zdrojů je většinu času nevyužita, což je nákladné.
Výkonnostní překážky:Tradiční proces ETL je komplexní a zdlouhavý. Od uložení dat do databáze až po vytvoření reportu to často trvá T + 1 den, což není schopné uspokojit naléhavou potřebu podniků získat přehled o datech v reálném čase, a rozhodnutí jsou tak vždy přijímána se zpožděním.
Architektura je komplexní a provoz a údržba jsou náročné:Pro udržování stabilního provozu celé sady velkých datových clusterů (HDFS, Hive, Spark, Presto) je zapotřebí velkého množství odborníků na provoz a údržbu, technické požadavky jsou vysoké a odstraňování poruch je obtížné.

Pokud vás trápí výše uvedené problémy, tento článek vám poskytne kompletní řešení založené na nativním datovém jezeře Tencent Cloud, které umožní efektivní, ekonomickou a jednotnou analýzu dat v reálném čase na úrovni petabytů.

Schéma a přehled architektury řešení

Archičtvrť

Řešení pro analýzu dat na úrovni PB v reálném čase: praktické využití nativního datového jezera Tencent Cloud – LikaCloud

Přehled:

Jádrem tohoto řešení je “Rozdělení úložiště a výpočetní kapacity”A také“Jednotné řízení metadat”Všechna původní data jsou centralizována do vysoce spolehlivého a nízkonákladového systému.Tencent Cloud Object Storage (COS)Tvoří základní kámen datového jezera.Výpočty v datovém jezeře (DLC)Jako mozek je zodpovědný za centralizovanou správu metadat, kontrolu oprávnění a správu dat, aniž by bylo nutné vytvářet vlastní Hive Metastore.Elastická MapReduce (EMR)Jako výkonný výpočetní engine může na požádání spustit cluster, analyzovat data v COS pomocí standardních výpočetních frameworků, jako jsou Spark a Presto, a po dokončení úlohy uvolnit zdroje. Výsledky analýzy mohou být následně využity v nástrojích pro business intelligence, datových aplikacích nebo platformách pro umělou inteligenci.

Nabídka hodnoty.Toto řešení dokonale odstraňuje problémy zmíněné v úvodu. Sníží náklady na ukládání a výpočty díky oddělení úložiště a výpočtů, prolomí izolovanost dat pomocí jednotných metadat, umožní rychlé analýzy díky flexibilnímu serverless výpočetnímu enginu a minimalizuje komplexnost provozu a údržby.

Základní produkty a komponenty

Název komponenty: \n Tencent Cloud Object Storage (COS)
- Hraní role:Celá strukturaVrstva pro trvalé ukládání dat.Ukládat všechna původní data, zpracovaná data a výsledky výpočtů.
- Klíčová konfigurace/doporučení pro výběr:Použijte pro horká data, která je třeba často analyzovat,Standardní úložištěPoužijte pro archivovaná data metoduArchivní úložištěZa použití strategie životního cyklu pro automatické převádění lze maximalizovat úspory nákladů.
- Proč jsem si ho vybral:Nabízí neomezenou kapacitu a spolehlivost dat na úrovni 99,9999999991 TP4T, což je ideální základ pro vytvoření datového jezera. Hladce se integruje s EMR a DLC a nabízí vynikající optimalizaci výkonu.
Název komponenty: \n Výpočty v datovém jezeře (DLC)
- Hraní role:Architektura“Inteligentní mozek”Provádí jednotnou správu metadat, poskytuje oprávnění k datům a kontrolu přístupu, nabízí katalog SQL dat a interaktivní dotazování bez serverů.
- Klíčová konfigurace/doporučení pro výběr:Použijte režim Serverless přímo, aniž byste museli předem nastavovat zdroje. Díky funkci datového katalogu můžete snadno propojit data na platformě COS a definovat strukturu tabulek.
- Proč jsem si ho vybral:To zcela vyřešilo problém izolovaných metadat. Nástroje EMR, BI a další mohou prostřednictvím DLC přistupovat k jednotnému pohledu na metadata a zajistit konzistentní správu oprávnění a struktury tabulek. Jeho schopnost Serverless Spark navíc umožňuje bezproblémové odesílání úloh Spark, což významně zjednodušuje provoz a údržbu.
Název komponenty: \n Elastická MapReduce (EMR)
- Hraní role: HlavníElastický výpočetní engineOdpovídá za provádění rozsáhlých úloh zpracování dat (jako například ETL, interaktivní dotazy, strojové učení).
- Klíčová konfigurace/doporučení pro výběr:VybratFakturace podle objemu和Elastická stahovací funkce.Model automaticky škáluje uzly Task podle zatížení CPU/paměti. Pro dosažení nejlepšího výkonu je nutné je nasadit ve stejné oblasti jako COS a DLC.
- Proč jsem si ho vybral:Nabízí kompletní sadu nástrojů pro ekosystém open-source big data (Hadoop, Spark, Presto, Hbase atd.) a je hluboce integrován do Tencent Cloud, takže jej lze nasadit ihned po vybalení. Jeho elastická kapacita zajišťuje efektivní využívání zdrojů a umožňuje platit pouze za skutečně využívanou výpočetní kapacitu.

Shrnutí přínosů programu

? Optimální optimalizace nákladů:Separace úložiště a výpočetní kapacity, přizpůsobování výpočetních zdrojů podle potřeby oproti tradičním samostavěným fixním klastrům.Celkové náklady mohou být sníženy o více než 501 TP4T.。
⚡ Efektivní analýza a agilní provoz a údržba:Bez nutnosti migrace dat může EMR analyzovat data COS přímo a ve vysoké rychlosti. DLC zajistí jednotnou správu metadat.Vybudování platformy pro velké objemy dat během několika minut.Objem práce související s provozem a údržbou klesl o 901 TP4T.
 ? Prolomení datových ostrovů:Data jsou uložena v COS a sdílena a analyzována pomocí různých výpočetních enginů (EMR, cloudové funkce atd.) prostřednictvím jednotného pohledu DLC, což skutečně umožňujeInkluzivní využívání dat。
?️ Bezpečnostní řízení na úrovni podniku:DLC poskytuje kontrolu přístupu k datům na úrovni sloupců a hladce se integruje s CAM.Auditní protokolJe kompletní a splňuje požadavky na bezpečnost a soulad s předpisy týkajícími se dat v podnicích.

Scénáře použití a použitelní zákazníci

Typické scénáře použití:
- Interaktivní ad hoc dotazy:Analytici dat používají Presto/Spark SQL k rychlému vyhledávání v obrovském množství historických dat přímo v DLC a získávají výsledky v reálném čase.
- Analýza logů v reálném čase:Obchodní protokoly jsou v reálném čase zapisovány do COS/Kafka a poté jsou zpracovány a analyzovány téměř v reálném čase pomocí EMR Streaming nebo Spark Streaming za účelem monitorování stavu obchodních aktivit.
- Machinální učení a dolování dat:Použijte Spark na klastru Kubernetes s EMR k přímému načtení tréninkových dat z COS a provést trénink modelu ve velkém měřítku.
Použitelné charakteristiky zákazníka.
- Objem dat již dosáhlTB až PB úroveňA také neustále rostoucí počet tradičních podniků a internetových společností.
- hluboce ovlivněnTradiční datové sklady jsou nákladné na rozšíření a trpí výkonnostními omezeními.Znepokojený tým.
- Například: „Doufám, že…“Integrace více zdrojů dat.Zákazníci, kteří chtějí vytvořit jednotný pohled na data ve své společnosti.
- Tým doufá, žeZaměřte se na vývoj obchodních dat, nikoliv na provoz a údržbu základní infrastruktury.。