引言(痛点分析)

親愛的開發者、架構師們,您是否正在為以下問題而困擾?

隨著業務飛速發展,您的用戶量突破億級大關,傳統的推薦系統開始力不從心。基於離線批處理的推薦結果更新緩慢,無法捕捉用戶的實時興趣;面對突如其來的流量高峰,系統響應延遲飆升,用戶體驗急劇下降;同時,在全量商品庫中進行海量候選集召回以及精準排序,計算耗時漫長,成為業務增長的瓶頸。

如果您正在為推薦時效性、系統擴展性和高併發效能而焦慮,那麼,騰訊雲為您準備的這套基於向量資料庫以及實時計算的毫秒級推薦架構,將是您的最佳選擇。

解决方案架构图及概述

本方案的核心設計思想是:​利用實時流處理捕捉用戶瞬時興趣,藉助高性能向量數據庫實現毫秒級相似檢索,最終融合長短期興趣做出精準推薦。​

一圖勝千言,以下是該方案的架構圖,清晰地展示了數據流動與核心組件的協同:

億級用戶推薦系統解決方案:向量資料庫+即時計算架構實現毫秒級推薦 - LikaCloud

其工作流程(Workflow)如下:

  1. 實時採集:​使用者在前端產生的行為數據(如點擊、瀏覽、收藏)被即時採集並發送至TDMQ RocketMQ消息佇列,進行削峰填谷和解耦。
  2. 實時處理:​​ ​流計算 Oceanus消費消息佇列中的資料,進行即時特徵提取、聚合,並呼叫模型快速推理,生成使用者的實時興趣向量
  3. 向量檢索:​用戶的即時向量和預先處理好的物品向量均儲存在騰訊雲向量資料庫中。當需要進行推薦時,業務應用直接向向量資料庫發起查詢,其在毫秒內返回最相似的物品集合。
  4. 數據與模型底座:​​ ​TBDS/WeData大數據平台負責離線的數據清洗、整合和用戶長期畫像構建。TI-ONE機器學習平臺則用於訓練和產出高質量的深度學習推薦模型,為實時計算和向量化提供模型支撐。
  5. 業務集成:​将推荐业务逻辑(如过滤、排序规则)部署在CVM上,通過內網安全、高速地調用各類服務,並將最終推薦結果返回給用戶。

該架構完美解決了引言中提出的實時性、擴展性和性能三个痛点。

核心产品及组件详解

组件扮演角色关键配置/选型建议你们为什么选择它?
騰訊雲向量資料庫
(Tencent Cloud VectorDB)​
系統的核心,負責儲存所有物品和使用者向量,並提供毫秒級近似最近鄰搜尋(ANN)選擇高性能實例類型,根據數據量(十億/百億級)選擇合適規格。索引類型選擇HNSW以追求極致性能。專為向量搜尋最佳化,性能遠超傳統數據庫方案。單索引支持千億級向量,​99.99%高可用无需运维,大大降低了开发和运维成本。
流計算 Oceanus實時計算大腦,負責消費用戶行為流,進行實時特徵計算和用戶向量生成。選擇Flink版本,根據數據吞吐量選擇CU(計算單元)數量。開啟Checkpoint功能保障狀態一致性。全託管Apache Flink服務,提供亞秒級處理延遲和高吞吐能力。無需關心集群運維,專注業務邏輯開發,輕鬆實現複雜事件處理。
消息隊列 TDMQ
(RocketMQ 版)​
系統的神經中樞,負責承接所有實時用戶行為數據,並緩衝和解耦上下游系統。選擇RocketMQ 5.x版本以獲得更好效能。Topic分區數設置與併發消費者數量匹配,保證吞吐量。具備極致的吞吐能力和低延遲,完美支撐億級用戶的高併發寫入。完全相容Apache RocketMQ生態,無縫對接現有系統。
大數據平臺 WeData/TBDS數據基石,負責離線的數據ETL、數據質量管理和用戶長期畫像構建。使用WeData進行資料開發和任務調度,使用TBDS處理超大規模數據的儲存與計算。提供一站式數據治理能力,確保輸入到模型和即時系統的數據是準確、可靠的,從源頭保障推薦效果。
機器學習平臺 TI-ONE推薦演算法引擎,用於訓練和部署雙塔模型、DNN等深度學習模型,生成高質量向量。使用Notebook進行特徵和模型實驗,使用訓練平臺進行大規模分散式訓練,使用模型服務進行一鍵部署。提供從特徵工程到模型服務的全流程支援,內置多種算法框架和優化組件,大幅提升算法工程師的研發效率。
雲伺服器 CVM & 私有網絡 VPC業務邏輯的承載者,用於部署推薦API服務、策略服務等業務應用。CVM選擇計算優化型。所有組件部署在同一地域的同一個VPC內,確保網路延遲最低、通訊最安全。VPC為所有雲產品提供一個隔離、安全、高速的內網環境,是保障整個系統高效能和安全性的基礎。

方案优势总结

  • ⚡ 毫秒級響應:​依託騰訊雲向量資料庫的極致檢索效能,推薦召回延遲降至毫秒級,使用者體驗絲般順滑。
  • ? 無限擴展:​架構中各組件均為分佈式設計,可輕鬆水平擴展,從容應對從百萬到千億級用戶和物品的增長。
  • ? 精準推薦:​将实时计算与向量化搜索相结合,既能反映用户的长期偏好,也能敏锐捕捉用户的实时兴趣,从而显著提高推荐的精准度。
  • ?️ 穩定可靠:​全託管服務提供自動故障轉移和高可用保障,系統可用性高達99.99%,為業務連續性保駕護航。
  • ? 降本增效:​无需处理繁琐的基础设施运维工作,使开发和算法团队能够更加专注于业务创新,从而显著降低总拥有成本(TCO)。

应用场景与适用客户群体

  • 典型应用场景:
    • 電商平臺:​实现“猜你喜欢”、“一刷再刷”等实时个性化推荐,提高点击率和商品交易总额(GMV)。
    • 內容資訊/短視頻平台:根據用戶實時瀏覽行為快速更新信息流內容,增加用戶黏性和停留時長。
    • 音樂/電臺應用:​实时生成下一首播放推荐,打造沉浸式体验。
  • 适用客户特征:
    • 用戶體量巨大(日活百萬級以上),面臨嚴峻的性能和擴展性挑戰。
    • 業務對推薦結果的實時性要求極高,需要快速反饋用戶最新行為。
    • 技術團隊希望採用業界領先架構,但希望減少運維投入,聚焦核心業務邏輯。

相关链接