电话:0518-46785200
传真:0528-790572348
邮箱:admin@chinashenkang.com
地址:福建省莆田市海城市都洛大楼3565号
58当地服务由数百个细分品类、多个创新业务和国际业务组成,如何构建智能化的流量分发体系是一项挑战,我们通过整合搜索和推荐场景构建了一套统一的流量分发系统,本次分享将主要先容系统中的算法实践,包罗基于信息结构化和用户意图识此外用户表征、召回和排序算法等。本次分享的主要内容包罗:58同城当地服务生态先容当地服务主站流量分发问题与特点当地服务主站流量分发解法总结和展望0158同城当地服务生态先容1. 业务配景58当地服务事业群,旧称"大黄页"、"黄老大",在团体内是即古老又年轻的业务线,古总是因为自从58建立以来,就是以提供当地信息服务的分类信息网站,年轻是因为近期来在业务上也做了许多创新,面目面目一新了。58当地服务的业务生态涉及面很是广而且杂,其中业务上主要战场有20多个,涉及行业有200多个,如丽人、餐饮美食、家政、教育培训等,能看出行业间关联也比力少。
现在当地服务主要分三大块:主站、抵家、到店&电商,业务形态多变,依托于商家中台和合资人流量分发网络 ( 一种流量组织形式,通过对社会各个锚点的重新组织,形成与之前流量投放及变现完全差别的流量分发渠道 )。2. 产物流量形态主站:58通用的业务形式,由APPPCM等端侧入口进来到当地服务落地页,以流量生意为主 ( 开环业务,现在产物形态正在从开环向半闭环演进 )。推荐场景:列表页、详情页、落地页等推荐内容:帖子、商家、店肆、商品、标签等推荐关注指标:CTR、CVR、Call/UV等抵家:提供抵家精选服务品牌 ( 完全闭环业务 )。
推荐关注指标:GMV、订单转化率、复购率等。到店&电商:创新业务 ( 完全闭环业务 )。
推荐关注指标:GMV、订单转化率、复购率等。都会合资人:通过线上和线下方式招募或者主动注册为58合资人后,可以转发对应合资人任务,该任务可以是以上多种业务形态,通过社交分发而且任务形成转化后,可以拿到一定的分佣。推荐关注指标:效果转化率、ROI、DAU。
由于此次分享时间关系,本文只讲对主站的流量分发探索。02当地服务主站流量分发问题与特点主站场景下,焦点目的是将主站上的信息资产,通过算刑场景化和搜索推荐平分发系统,到达对用户的精准触达。
1. 主站用户交互流程用户焦点行为路径:用户可以直接带着需求或者不带需求 ( 搜索词 ),进入到主要的服务场景-主站的列表页。在列表页上,用户可以浏览帖子标题、价钱等内容,并点击举行帖子详情页,检察详细信息、评论等,提倡线上电话相同,或者通过58提供的微聊,从而促进线下成交。中间发生的数据信息:列表页详情页曝光、点击、电话、微聊、评论等2. 主站流量分发特点和问题信息同质化严重,体现在一是帖子信息堆叠严重,二是可区分度差,部门帖子只有一句话,许多是无意义内容,好比线上泛起过有公布保姆月嫂的帖子,只有一张正常女性照片,帖子内容只有三个字,你懂的。人群结构庞大,存在未登任命户、新用户、低活用户等,需要制定差异化的推荐计谋,针对性优化推荐模型。
决议周期问题,是非周期纷歧、轻重决议共存,同时也存在短期低频、需求周期短的情况,好比说单价高的家装、租车等长周期服务,用户会相对审慎,花更多的时间来挑选决议;而管道疏通、空调维修等需求,用户则会在浏览几个店家后就举行决议,此类需求往往要求短时间内快速解决。多行业多场景多种类多目的,当地服务类目繁多,涉及200+不相关行业、10+个推荐场景位,推荐内容包罗帖子、商家、店肆等,联合业务特点有差别的优化目的 ( CVR、CTR、Call/UV等 )。03主站流量分发解法上面提到的问题比力多,我们首先从信息供应侧解决,重点通过内容结构化来提高内容形貌能力,增加信息区分度。
1. 信息结构化① 公布结构化原来的帖子内容类似,能看出大量拷贝的痕迹,这个问题理应先想到在公布的时候解决。从内容公布端界说了针对差别服务的内容模板,商家直接选择对应模板,填写个性化参数即可完成公布。除了多种模板可选,同时也针对差别服务类型在产物侧举行了优化,主要有3部门:一是服务尺度化。
以搬迁为例,根据用户个性化需求选择差别需求项,快速完成服务预订,同时也能获得相应的价钱预估,更利便辅助用户决议:如车辆信息,可选择详细车辆型号、尺寸、可载量等如详细服务,可选择是否有电梯、小件搬运、支持远程、小件搬运等如收费单项,可选择差别里程对应的价钱、超里程盘算、无电梯楼层加价、随车人员数量等二是服务智能订价,凭据已选项由算法盘算输出合理的价钱区间,为了剔除市场泛起过高过低的报价,用以规范58的运营和列表页效果展现三是相册自动分类,即让用户上传的图片可以自动分类到差别相册,利便回溯② 标签设计及应用左图是未做优化前的列表页展示页面,从图上来看,各搜索效果的展现信息都是类似的,信息枚举水平单一,看不出来各自的区分度,很难契适用户关注,体验较差;因此针对这个问题,我们重点做了信息标签设计,并体现在产物展示层中,标签化是结构化的重要方法。用户通过需求搜索词进入列表页后,通过搜索词匹配对应服务的标签,展示出尺度化的服务特点,能够更好地细化用户需求,契适用户关注,如体现家电维修的快速上门、家政服务包罗老人看护等 ( 右图 )。③ 标签挖掘流程整个标签挖掘流程是,通过帖子等数据源挖掘备选词,再在备选词库中融合成标签词,这批标签词再通过同义词库和归一规则形成基础标签,用算法举行行业词消歧,形成行业标签,最终在差别场景应用。
2. 知识结构化① 知识化标签体系上面提到的标签化,是相对扁平的信息,无法体现出标签间的关联关系。因此我们希望能够挖掘出标签间的关系。初期通过标题、评论、搜索词等数据源,找到每个行业中的关注维度,再凭据维度界说出种子词,经由数据挖掘,通过漫笔底细似把对应其他标签词归类到同一个维度下,并不停地转动迭代。
详细方式就是各标签词与维度词和维度下的种子词举行向量盘算距离,取距离最近的标签词放入到维度中继续作为种子词,这样种子词越来越多,后续标签词分维度会越来越准,然后凭据阈值,有一部门不能归类的标签词可能是需要继续添加维度,然后在举行下一次转动一直到所有词归类完毕。② 场景化标签体系凭据以上挖掘的标签之间的关系,以及类目和标签之间的关系,维度和标签之间的关系最终形成了完整的场景化标签体系,标签体系是信息的表达前言,结构化的基础。
现在,我们的场景化标签体系规模如下:行业标签 ( 40w+ ):凭据各行业服务维度设计,如租车、家装,其分类维度及对应差别标签通用标签 ( 10w+ ):包罗用户体验相关 ( 态度好、价钱满足 )、商家服务答应、平台评估标签等应用场景:包罗标签筛选、热词推荐、找相似、猜你喜欢、智能摘要等用户场景构建:使用场景化标签体系,我们举行了用户场景构建,原因如下:在老版无场景提示条件下,我们发现58当地服务的登任命户在一进入列表页后的跳出率很是高。这个问题分析获得的最后结论是,用户确实是带着明确需求和目的性进入列表页,如果用户在默认效果页中没有找到想要的服务,这时候就会跳出。既然是有目的的,我们何不事先猜好,找到契合高频场景的词,至少能让用户在默认页发生一次点击,然后使用这次点击逐步引导用户。
通过挖掘用户的服务需求,我们发现其和58自己的CMCS类目体系是交织、网状的关系 ( 如用户想找水电革新服务,在标签中对应是装修建材->局部维修->水电革新 )。可以看到右图,一开始我们是用弹窗形式让用户选择,但这种阻断式提醒很是影响用户体验。
因此我们接纳了在顶部横滑的方式展示。上图可以看到的是用户需求的细化和标签的对应关系,用户在横滑模块中选择的功效服务或者说是一种使用场景 ( 也是一类标签,这类标签代表用户的在特定场景下的需求,具有很强的用户属性,用户看到后很容易发生共识,下文将提到这类标签如何挖掘 ),可以对应到结构化标签中,并通过标签可以举行特定召回。③ 类目的签体系这些有用户属性的标签可以认为是类目的签,因为形貌比力宽泛所以具备跨类目属性,因此我们接纳了合并、拆分原有类目的方法来建设类目的签体系。
合并:从需求侧来看:可以凭据搜索词举行类目预测,盘算类目预测PMI ( 类目词的孝敬值 )。从内容侧来看:凭据帖子标题检查类目词的相似度,通过Tagging盘算词频。
从用户行为数据应用来看:接纳转化行为前24小时点击过的Top3类目和个数,增加阈值筛选等方式盘算类目词频繁项接纳用户随机游走盘算类目相似度的算法。获取用户点击商品、电话的点击序列,根据点击类目是否相同划分打分,再凭据结构出来的类目图关系,通过随机游走算法发生行为序列,通过SkipGram盘算词向量,最后盘算类目词之间的相似度。拆分:通过拆分挖掘类目词主要有两种做法:接纳通用的知识图谱。
好比家电维修,家电在通用图谱中是有下位词的,如电视、冰箱、洗衣机等,凭据下位词和模板可以挖掘出来是电视维修,还是冰箱维修。接纳帖子图聚类算法。凭据用户行为获取两个帖子之间的点击、电话序列,同时赋予差别的权重并结构I2I关系图,凭据图举行聚类获得帖子聚类表。每个帖子对应到一个荟萃里,再对图举行DeepWalk的训练生成帖子向量,再对荟萃的Embedding举行表征,再使用表征关系盘算荟萃间的相似度。
通过合并和拆分类目再联合高频搜索词挖掘,可以找到需求词,构建进场景标签以及标签和类目之间的关系,标签和标签之间的关系。3. 用户意图感知现在我们完成了用户场景化分发体系的构建,如上图所示,从用户的需求侧到供应侧编织了一张大网,一端是用户,其中恒久偏好通过用户画像获取,实时意图通过意图系统获取 ( 下文先容 ),另一端是已经经由结构化的帖子店肆和商品SKU,中间通过类目的签 ( 需求侧标签 ) 和内容标签 ( 结构化标签 ) 串起来,整个历程是通过获取用户画像和点击对应类目行为,再选择类目对应的结构化标签,召回对应的商家帖子和店肆。
即通过信息的结构化快速找到对应服务的SKU。如搬迁->公司搬迁->拆装服务->展示出有拆装服务的优质公司搬迁店肆。在用户端,我们有对应的用户画像,在用户点击对应类目时,可以关联到对应的结构化标签中,从而召回对应的商家帖子和店肆。
上图就是整个用户使用流程。用户通过点击横滑模块的标签,展示已形成结构化的标签列表,最终用户可以挑选并快速找到对应的帖子和体贴的服务SKU。4. 分层优化适才说的是场景化构建历程,目的是在默认页能让有明确需求的用户能够在短时间内找到想要的服务,淘汰用户跳出,只要用户有了点击,我们就有希望明确用户的意图,除此之外另有很大一部门用户他们还使用了搜索或者推荐等功效,在此我们主要先容一下在分发系统上的分层优化的方案。
如前所述,快速捕捉用户意图十分关键,用户意图是树型或者是网状的关系。下面我们讲一下,怎么感知和表征这个关系,怎么在算法分层上举行优化。① 召回优化不管用户是否带着Query词进入列表页,此时用户总会有上下文信息,如用户画像、所在场景、点击标签、点击行为等。
我们有一套用户意图系统,可以通过系统改写Query,串出用户意图树,再凭据意图树在引擎中召回帖子、店肆列表等。这种革新Query词的方式其实是一种布尔召回,召回深度偏低。因此希望通过建设用户意图表征,优化成以向量召回,提高泛化能力,从而提高召回深度。用户意图表征:那怎么做用户意图表征?首先对近期的帖子文本内容举行清洗、分词、标签化,通过SkipGram形成最终词向量。
这种方式仍然存在问题:整体帖子内容多而杂,表意性稍差。因此引入了业界通用的AI Lab中文词向量,虽然在当地服务场景下无法直接使用,但我们通过在SkipGram之前对词向量做了初始化,使用了词向量的预训练效果。完成这步后,在人工评测时效果有大幅提升,相似召回率提升凌驾2倍;在线上验证应用时,标签推荐CTR效果有4%提升 ( 标签推荐不涉及帖子标题、企业等其他信息,因此可以用来验证词向量是否准确 )。
在预训练的基础上进一步优化,我们将使用用户的最近使用序列举行清洗,最终也放到模型中去训练。在模型增加行为序列时,也有一些应用技巧。一个是标签的点击行为数据稀疏,需要做一些前期处置惩罚,如拆分Session,把长Session凭据时间切分,凭据长度取topN做数据增广、通过Dropout做泛化。
经由前期处置惩罚后,整体数据训练样本量基本到达预期。另一个是凭据Session生成用户向量,同时会对用户前一段的向量举行初始化,连续保持用户的原有信息不流失。在增加用户使用序列后,线上标签推荐的CTR转化效果提升15%,涨幅还是很是显着的。用户意图多目的表征:刚刚也提到当地服务的优化目的多样,有CTR、CVR等,这些目的在实际推荐效果中要求都要有一定水平的满足,也就是要求模型能够平衡多目的,即需要模型对用户掌握更全面。
那怎么来训练最终用户的表征向量呢?我们使用了多任务学习模型,通过共享部门网络结构,来学习基础通用的表征。而相对多个单任务模型,多任务模型有以下优点:网络结构更小、在线CPU使用率更低、支撑更高QPS、性能稳定性高、存储资源更少。同时,学习用户的通用表征向量,也可以更利便迁移到其他任务模型中。
凭据前期的数据准备,对用户行为序列做Embedding,再接入双向LSTM,即可凭据Embedding对用户行为序列自己举行表征。在完成表征后,思量到用户行为千变万化,还需要再加一个Attention网络,即当用户搜索或者用户自己有这样的标签时,可以实时捕捉到对应行为序列中的变化点,并反映到网络中,最后形成128维的用户表征。
因此,可以实现凭据差别优化目的,可以选择差别网络举行学习。以CTR目的为例,将生成的用户通用表征和Item通用表征,一起放在网络中对CTR举行优化。多目的表征几点启示:相关任务,多目的学习的各任务间需要有一定的相关性,否则会起反作用。至于详细是什么样的相关性,在实际应用中需要多多考量。
增量学习,前面也说到在多目的学习模型中增加了Attention网络,而随着时间和用户兴趣的变化,Embedding表征也需要随之变化,好比牢固时间距离自动增量更新,天天级更新等,让模型更贴近用户的近期数据。数据稀疏问题,多目的表征可以解决一部门样本稀疏问题。
如帖子CTR点击数据多,电话、微聊CVR转化数据少,因此可以通过CTR数据解决一部门CVR数据问题 ( Share )。模型泛化特征更有效,加了多个任务目的后,其他任务对当前任务有正向作用。从模型AUC来看,多目的学习在线上测试集是优于单目的学习的。在训练集中相反,单目的更优,但这个影响不大。
实际上我们认为多目的学习的作用是在单目的基础上增加了正则项 ( 原本网络训练时也需要加入正则 ),有一定促进作用。模型效率问题, 好比说CTR训练任务中,有1w个物品,需要盘算1w次,每次挪用泯灭资源很高。如果最终是需要生成一个User表征,其实可以只盘算一次。样本偏差问题,需要注意离线均值和方差和在线保持一致。
上图是在加上多目的表征做召回的实验效果,可以看到PV CTR、UV CTR都有1%多的提升,只管样本没有发生太大的改变。② 排序优化实时意图:排序上优化重点在如何挖掘用户点击的实时意图。我们通过收集用户种种行为数据,做数据清洗、存储和权重盘算,最终存储在用户意向表中,包罗一些行为更新、逾期治理、分值衰减等。这里最终存储的就是用户的行为和对应行为的分值、标签和对应标签的分值。
在统计标签分值时,需要思量帖子标签的权重是否有区分度:不重要无区分度的标签权重相对较小凭据用户对帖子行为距离当前的时间设置权重,时间越近影响越大差别行为类型权重差别,如搜索、筛选、电话等需要设置差别权重上下文感知:适才获得的是对用户行为特征的意图挖掘,可添加到线上网络中应用。而网络中还涉及到大量的其他特征,如人群、商家、场景特征等。
由于用户点击序列不会特别长,点击特征可能存在冷启动问题,所以更多可以通过场景、商家特征作为增补。这些特征维度特别高,需要通过几层网络来做降维,最终形成有上下文关系的用户意图感知。
上图是实时意图特征应用的实验效果,通过帖子提取大量的内容标签,凭据用户行为举行标签匹配,最后发生用户所感知的信息。可以看到在对应场景下,转化效果都有一定提升。
③ 展示优化由于用户意图实时变化,而帖子信息特别繁杂,在列表页展示信息时,其展示的信息纷歧定契适用户当前需求。因此我们做了智能展示计谋,焦点是基于用户服务标签和行为数据,凭据用户实时意图,对帖子自己举行展示区分,同时改变其结构化信息。
标签、标题、图片、摘要等展示内容都市随着用户的实时意图随时发生改变,极大提高了对用户需求的关注粒度,有效提升用户体验。5. 系统整合优化在流量分发历程中,涉及的系统繁多,如搜索、推荐、智能摘要等。
因此我们需要对各系统举行整合。利益很显着,差别系统沉淀的用户数据不需要存多份,淘汰重复数据存储;通用算法共享;相似场景模块复用,淘汰开发成本。数据资产,我们能够提供的数据资产富厚 ( 用户画像、行为数据 ),还包罗帖子、服务、SKU、商品、任务都可以作为分发的内容。
算法注册表,包罗召回、排序等种种模型,封装在组件服务中。组件注册表,提供满足用户在差别场景、差别上下文意图中的功效组件。如需要处置惩罚Query时,有纠错、改写、Tagging等组件,需要处置惩罚用户意图,有意图识别、偏好预估等组件。
场景任务设置,提供利便组件间自由组合的设置功效,如智能摘要中,只需要设置召回、排序组件;在用户搜索场景中,在召回、排序基础上,还需要设置Query相应的处置惩罚、用户搜索意图识别等。04总结与展望1. 重排序后续会继续研究重排序模块,我们实验在详情页、猜你喜欢页面上做了交互式推荐,如在Feed流无限下拉,点击回退后希望会对之前效果举行重排序,现在还在实验中。2. 品类交织推荐刚刚提到58的服务品类是多而杂的,虽然品类间关联少,仍然也可以挖掘出一定的交织能力,如通常用户在搬完家后会找保洁服务,那搬迁和保洁就是有一定关联的。3. 拼单推荐我们也在探索拼单推荐的模式。
如果发现当前小区有多个服务需求,而四周保洁阿姨正在事情,为了淘汰跑腿,可以有第二单减免的优惠等,对平台、用户、商家都是有利的。4. 周期推荐像做饭、保洁这类服务都是有一定周期性的,好比每月一次、逐日三餐等。5. 闭环反哺开环当地服务大多依赖于线下成交,用户在线上寻找服务后的电话、微聊转化情况,线下是否成交等,我们是很难知道的。
而现在的抵家精选业务是有完整的闭环数据,可以辅助我们决议。6. 社交关系分发合资人网络这块,实际是社交关系的分发,好比合资人会分享任务在微信群或者其他群里,这里是存在社交中的信任关系的。7. 利益驱动分发另外,由于合资人涉及分佣,其中的提成比例、分佣金额等,涉及到与业务投入产出比的指标,也需要思量。
8. 流量分发与生态建设:规则?算法?58当地服务涉及到200+基础行业的方方面面,中小商家、务工人员等,都是依托整个平台流量来生存。因此我们需要思考怎么更好地匹配商家和用户,凭据生态更好的演化,做到更好的优胜劣汰;需要思考如何把产物规则和算法目的更好地融合。现在开端的想法是把产物规则前置,淘汰规则性对算法输出效果的破坏和滋扰。
作者:陈琳 58同城算法架构师,58当地服务事业群算法计谋部卖力人,卖力当地服务业务中用户/商家画像、标签挖掘、搜索推荐、知识图谱等系统的建设,支持58站内当地服务、都会合资人体系、抵家到店及电商体系的流量分发和营销。
本文来源:亚博yabo888网页登录-www.chinashenkang.com
电话:0518-46785200
传真:0528-790572348
邮箱:admin@chinashenkang.com
地址:福建省莆田市海城市都洛大楼3565号