引言(痛点分析)

亲爱的开发者和架构师们,你们是否正为以下问题而感到困扰?

随着业务飞速发展,您的用户量突破了十亿大关,传统的推荐系统开始力不从心。基于离线批处理的推荐结果更新速度缓慢,无法及时捕捉用户的兴趣变化。实时兴趣面对突如其来的流量高峰,系统响应延迟急剧上升,用户体验急剧下降;与此同时,系统在全量商品库中进行搜索时,遇到严重的性能瓶颈,导致搜索结果显示延迟严重,用户无法正常使用搜索功能。召回大量候选集合以及精准排序计算耗时过长,这已成为业务增长的瓶颈。

如果您正在為推荐时效性、系统扩展性以及高并发性能。若您感到焦虑,那么腾讯云为您准备的这套基于……的解决方案将助您一臂之力。矢量数据库以及实时计算凭借其毫秒级的推荐架构,它将是您的最佳选择。

解决方案架构图与概述

方案的核心设计理念是:通过实时流处理捕捉用户的即时兴趣,借助高性能向量数据库实现毫秒级相似搜索,最终将短期和长期兴趣相结合,提供精准的推荐服务。

胜过千言万语的是一张图。以下是该方案的架构图,它清晰地展示了数据流和核心组件之间的协同作用:

面向亿级用户的推荐系统解决方案:利用向量数据库与实时计算架构,实现毫秒级推荐——LikaCloud

它的工作流程如下:

  1. 实时采集:用户在前端进行的操作数据(如点击、浏览、收藏)会被实时收集并发送至后端服务器。TDMQ 与 RocketMQ消息队列用于平衡负载、实现异步通信,并实现系统解耦。
  2. 实时处理:​ ​海洋流计算器 Oceanus将消费消息队列中的数据进行实时特征提取和聚合,并调用模型进行快速推理,从而生成用户的相关信息。实时兴趣向量
  3. 向量检索:用户的实时向量和预处理后的物品向量都存储在腾讯云矢量数据库需要进行推荐时,业务应用会直接向向量数据库发起查询,数据库会在数毫秒内返回最相似的商品集合。
  4. 数据与模型底座:​ ​天猫数据服务(TBDS)/微数据(WeData)大数据平台负责离线数据的清洗、整合以及用户长期画像的构建。TI-ONE机器学习平台用于训练和生成高质量的深度学习推荐模型,为实时计算和向量化提供模型支持。
  5. 业务集成:建议将业务逻辑(例如过滤、排序规则)部署在CVM上一步,系统通过内部网络安全、高速地调用各类服务,并将最终的推荐结果返回给用户。

这种架构完美地解决了引言中提出的难题。实时性、可扩展性和性能三个痛点。

核心产品与组件详解

組件扮演角色關鍵配置/選型建議为什么选择它?
腾讯云矢量数据库
(腾讯云矢量数据库)
系统的核心负责存储所有物品和用户向量,并提供毫秒级别的近似最近邻搜索(ANN)服务。選擇高性能实例类型根據數據量(十億級/百億級)選擇適合的規格。選擇索引類型HNSW以追求极致的性能为目标。专为向量搜索优化设计它的性能远超传统数据库方案。单个索引可支持数千亿级的向量数据。99%高可用性无需运维,大大降低了开发和运维成本。
海洋流计算器 Oceanus实时计算大脑的活动负责消费用户行为流,进行实时特征计算和用户向量生成。選擇Flink 版本根據數據吞吐量選擇计算单元(CU)的数量。启用Checkpoint功能可确保状态的一致性。完全托管的Apache Flink服务它能提供亚秒级的处理延迟和高吞吐量。无需操心集群运维,只需专注于业务逻辑开发,即可轻松处理复杂事件。
消息队列 TDMQ
(RocketMQ 版本)
系统的神经中枢负责接收所有实时用户行为数据,并对上下游系统进行缓冲和解耦。選擇火箭消息队列(RocketMQ)5.x版本通过版本升级可获得更高的性能。主题分区数量应与并发消费者数量相匹配,以确保吞吐量达标。具备极高的吞吐量和低延迟完美支持亿级用户的高并发写入。完全兼容Apache RocketMQ生态系统,可无缝对接现有系统。
大数据平台 WeData/TBDS数据基石负责离线数据ETL、数据质量管理以及用户长期画像的构建工作。使用 (注:此处"使用"指的是某种产品或服务的使用情况)WeData进行数据开发和任务调度,使用 。TBDS处理超大规模数据的存储和计算。提供端到端数据治理能力确保输入到模型和实时系统的数据准确可靠,从源头上保障推荐效果。
机器学习平台 TI-ONE推荐算法的引擎用于训练和部署双塔模型、深度学习模型(如DNN)等,以生成高质量的向量。使用 (注:此处"使用"指的是某种产品或服务的使用情况)Notebook进行特征和模型实验,使用训练平台进行大规模分布式训练,使用模型服务进行一键部署。提供从……到……的交通服务。支持从特征工程到模型服务的全流程它内置了多种算法框架和优化组件,可极大地提高算法工程师的研发效率。
云服务器 CVM 和专有网络 VPC业务逻辑的承载者用于部署推荐API服务、策略服务等业务应用程序。CVM选择计算优化型。所有组件都部署在同一区域内的同一 VPC通过内置的优化算法,该系统能确保网络延迟最低,通信最安全。VPC为所有云产品提供一个统一的管理平台。隔离、安全、高速的内网环境它是保障整个系统高性能和安全性的基础。

方案优势总结

  • ⚡ 毫秒级响应:得益于腾讯云向量数据库的极致检索性能,推荐召回的延迟时间缩短至毫秒级,用户体验流畅无比。
  • 无限扩展:架构中的各个组件均采用分布式设计,可轻松实现横向扩展,能够从容应对从数百万到数十亿级别的用户和物品增长需求。
  • 精准推荐:将实时计算与向量化搜索相结合,既能反映用户的长期偏好,也能敏锐捕捉用户的实时兴趣,从而显著提高推荐的精准度。
  • ?️ 稳定可靠:全面托管服务提供自动故障转移和高可用性保障,系统可用性高达 99.99%,为业务连续性保驾护航。
  • 降本增效:无需进行繁琐的基础设施运维工作,这使得开发和算法团队能够更加专注于业务创新,从而显著降低总拥有成本(TCO)。

应用场景及适用客户

  • 典型应用场景:
    • 电商平台:实现“猜你喜欢”、“一刷再刷”等实时个性化推荐,提升点击率和商品交易总额(GMV)。
    • 内容信息/短视频平台:基于用户的实时浏览行为,快速更新信息流内容,从而提高用户的粘性和停留时长。
    • 音乐/电台应用:实时生成下一首播放推荐,打造沉浸式体验。
  • 適用客户特徵:​
    • 用户数量庞大(日活跃用户超过数百万),因此面临着严峻的性能和可扩展性挑战。
    • 业务部门对推荐结果的满意度如何?实时性要求极高,需要快速向用户反馈他们的最新行为。
    • 技术团队希望采用行业领先的架构,但他们希望降低运维投入专注于核心业务逻辑。

相关链接