工程实现——从传统RAG到GraphRAG
什么是RAG 检索增强生成 (RAG) 是一个两阶段过程,涉及文档检索和通过大型语言模型 (LLM) 制定答案。初始阶段利用 Embeddings 来检索文档。根据用例,此检索可以基于各种数据库格式,例如向量数据库、摘要索引、树索引或关键字表索引。 为响应查询,文档检索器会选择最相关的文档。确定相关…
|
620
|
|
2081 字
|
10 分钟
【推荐平台】重启随机游走算法在以用户为中心的大型异构网络中的应用
问题描述 目前,我们已经使用重启随机游走算法实现了在大型社交网络中的用户关联度计算,详情见:【推荐平台】基于Spark的大型社交网络重启随机游走算法实现 。 但是,仅仅计算用户间的关联度还不够。例如,对于搜索场景而言,用户不仅需要搜索联系人,还可能会搜索 Channel ,File ,Meeting…
|
232
|
|
2077 字
|
13 分钟
【推荐平台】基于Spark的大型社交网络重启随机游走算法实现
问题描述 目前,Zoom的业务涵盖了会议,电话,IM,邮件,日历,文档等等多个方面,事实上已经成为了一个多业务场景的办公平台。高效办公,是客户对于Zoom的期望。每天,数亿用户在Zoom各个业务线上产生了巨量的数据。如何利用好这些数据,真真正正地使办公变得高效,是亟需解决的问题。 Zoom Grap…
|
136
|
|
3552 字
|
23 分钟
【推荐平台】离线推荐算法——Random-Walk
1 背景 随着业务的不断发展,以及后疫情时代视频会议市场逐渐趋于稳定,目前,AI+社交成为公司下一个阶段的战略目标。ZRS(Zoom Relevant Service)通过多种方式导入用户业务数据,从0到1构建公司级准实时用户网络,为用户提供统一的搜索与推荐体验,助力高效社交。 2 现状 在ZRS中…
|
324
|
|
5252 字
|
39 分钟
【电商DMP平台】分群方案
相关概念 分群,指相同实体类型的实体ID集合,实体类型通常由业务方定义。如用户运营系统下,分群实体即为人群;商品推荐系统下,分群实体即位商品包。 分群类型 标签规则分群:使用多个标签的与或非关系创建的分群。 上传分群:用户手动生成的实体id集合,导入系统。 算法分群:针对不同场景开发算法模型,根据用…
|
133
|
|
367 字
|
6 分钟
【电商DMP平台】码表方案
相关概念 应用场景 将标签值映射为业务语义。如性别标签,存储层使用int表示,展示时,将其映射为男女。 对标签值进行补充说明。如用户偏好商家标签,存储层存储商家id,展示时,补全商家名称、logo、等级等额外信息。 类型 静态码表:码表值静态,可枚举。如性别只有男女。 动态码表:码表值动态,不可枚举…
|
218
|
|
376 字
|
6 分钟
【用户运营数据中心】人群投放方案
相关概念 人群 人群是一个uid集合。用户通过标签、手动上传、算法模型等方式创建人群,再针对这些uid进行定向运营,如发券,个性化资源位等。 渠道/应用系统 渠道是消费人群的平台/业务方。不同的渠道通常有不同的业务场景,并支撑不同的业务。如判定渠道、广告渠道。 判定 判定渠道提供实时判定能力,支撑拉…
|
228
|
|
487 字
|
7 分钟
【用户运营数据中心】画像分析方案
相关概念 预览:查询满足相关标签条件的用户数量。 总览:查询满足相关标签条件的用户集合的总指标,如GMV。 洞察:查询满足相关标签条件的人群在某几个特定标签下的用户分布。 榜单:查询满足相关标签条件的人群在某一个特定维度下的指标排名与分布,如女性用户在各行业下的GMV值。 预览 预览 总览 总览 洞…
|
110
|
|
485 字
|
7 分钟
【用户运营数据中心】人群方案
相关概念 人群 人群是一个uid集合。用户通过标签、手动上传、算法模型等方式创建人群,再针对这些uid进行定向运营,如发券,个性化资源位等。 人群类型 标签规则人群:使用多个标签的与或非关系创建的人群。 上传人群:用户手动生成的人群,导入系统。 算法人群:针对不同场景开发算法模型,根据用户的输入产出…
|
103
|
|
580 字
|
11 分钟
【用户运营数据中心】标签+码表方案
相关概念 标签 一个标签代表用户某一个特征,贯穿整个用户运营周期,支撑人群圈选、数据分析、人群判定等基础能力。 标签类型 原子标签 单维度标签:如性别、年龄、消费力,属于用户基本属性。 多维度标签:如用户在母婴行业下的消费力,通常关联行业、商家、商品、店铺等维度,表示用户在某个维度下的特征。 组合标…
|
92
|
|
789 字
|
19 分钟