技术驱动婚恋,百合网的混合云、大数据与机器学习实践
大数据对于百合网的作用,杨溢欣用iOS之于苹果的重要性来类比。百合网提出的心灵匹配算法(可以看到两个人心灵的契合程度),不仅仅是一个心理学模型,更是一个算法模型。然而,婚恋不同于电商,要求你情我愿,双向匹配的实现难度更高。 匹配模型与实现 “心灵匹配算法”是基于百合网与北师大心理学院、中科院心理所、北京大学人格与社会心理学研究所多年的研究成果,集合机器智能学习理论,基于中国用户的心理特征、兴趣爱好以及海量行为数据,采用聚类算法结合协同过滤算法搭建的心灵匹配智能推荐引擎。 杨溢欣认为,婚恋匹配的难度是电商推荐难度的平方:如果电商基于user、item推荐成功的概率是P,则双向匹配成功的概率则是P*P。此外,电商推荐的item是严重冷热不均的,而百合需要保证item的被推荐次数处于冷热合理的区间。 对百合网来说,对用户匹配的难度和技术含量相当高。所以我们采用了一些很大量的大数据的数据挖掘和机器学习的手段,比如说我们的用户属性,直接提供的用户属性共有160多项,加上用户行为分析得出来的数据,可能是1000项左右的数,每个用户有这样的属性,包括有大量的用户行为。我们尝试这些用户行为和属性,为用户寻找到最匹配的另一半。 百合网的算法需要考虑基本的用户画像、单向推荐模型(即经典的user/item推荐,基于用户属性和用户行为),用户的活跃、沟通方式模型(基于用户行为),双方成功建立联系的模型(基于行为与一部分属性),以及用户对收发信的偏好模型等等因素。其中一部分环节可以参考标准、流行的模型,比如“单向推荐”模型结合了协同过滤、决策树等。有一部分技术是独特的,百合网正在申请专利。 谈及数据的预处理的挑战和处理,杨溢欣介绍:一来百合一直在做新功能和产品体验的改进,导致不同时期,用户的特征和行为会有天然的区别;二来百合有将近一亿用户,用户的性别、年龄段、职业和受教育程度等都决定了有不同的用户诉求和使用习惯。所以在处理的时候要采用一些分类器和离群点检测的方法,结合信息熵,针对性的调整数据、采样方式和模型。 深度学习应用 在深度学习方面,百合网也尝试了一些应用,目前主要是在图像领域,人脸识别、匹配等等,这是DL非常擅长的领域,他认为这些对婚恋应用来讲也很重要。百合网尝试了人脸识别和人脸打分,供择偶参考,同时还有美颜的尝试(取代PS),不过需要保证让网友可控,并保证不会太失真。 另外,百合网也正在设计将深度学习应用于自然语言文本方面的一些工作。杨溢欣介绍,婚恋匹配方面,深度学习处于原理论证阶段,因为涉及到的特征比较具体,并且需要考虑社会学、心理学和产品体验的一些问题。 基于开源的大数据架构 大数据架构,百合网基于开源的Hadoop体系,包括HDFS、YARN、MapReduce、HBase、Hive、Pig等,实时处理的部分用Spark,这和流行的框架基本一致。 事实上,百合网使用的大部分基础设施都来自开源项目,也都是业界流行的,从LVS、HAProxy、MongoDB、Redis、Kafka、ZooKeeper、Spark、Mahout到Hadoop等等一套东西。除了正在引入Docker,百合网最近还关注在深度学习中使用Google新开源的TensorFlow。 此外,百合网也在探索公有云上的大数据。杨溢欣认为,公有云上的大数据分析系统是非常有前途的,因为理论上讲它可以让计算和负载均匀很多,并采用专用硬件,形成较大的成本优势,还能通过弹性服务提供更快的速度和扩展性。 不过云上的大数据系统需要更加成熟——百合网在试用中发现包括AWS的EMR在内,稳定性、特别是使用较长时间之后的性能都有进步空间。 未来:支持婚恋VR的探索 2016年初,百合网还投资了一家叫做兰亭数字的VR公司,希望让VR技术在婚恋行业之中得到应用。百合网认为,VR技术在婚恋体验上有更深一层的效果,例如婚礼全景记录,会很好的一个效果。这同样对基础IT提出更多的需求。 百合网现在的发展目标是做好婚恋全产业链,从恋爱到婚姻,有非常多的线上线下用户需求,需要围绕大数据,提供敏捷、高弹性的技术架构。既有性能、数据量、计算量方面的要求,又需要保证研发速度。既需要控制成本,又需要高可扩展性。这其实是云计算比较擅长的事情。 杨溢欣表示,百合网对云计算有比较高的期望。套用“面向方面”的概念,希望一些公用的、可伸缩的应用层功能可以通过SaaS等方式更多的提供出来,百合愿意与腾讯共同开发。这样可以让互联网应用开发专注于其独特的技术部分,敏捷、快速、稳定、高效,提高整个行业的生产效率。 (编辑:应用网_丽江站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |