背景 对于快手人而言,他们更愿意称自己的公司为AI公司而非短视频聚合平台。对快手来讲,是要构建一整套以AI技术为核心的基础设施,能够用科技的力量提升每一个人独特的幸福感觉,能够让每一个人更多更好地感受这个世界,也能够更好地被这个世界所感受到。快手基于用户行为的AI特征分析会随着用户的深入使用变得越来越细致、越来越具体,而用户则惊喜地发现,他们总是能够刷到喜欢的短视频,上传的短视频也能得到更多的点赞。这背后,是快手AI平台对数十亿视频内容的深刻理解。内容理解,是快手在AI领域的核心技术之一,通过快速解析用户上传的短视频内容,对内容的各个维度进行精确置化,从而衍伸出匹配、推荐、搜索、广告投放、安全监控等一系列功能。事实上, AI平台已成为快手实现各类酷炫功能时不可或缺的基础平台。针对快手的需求,引领AI领域计算平台创新的英特尔为其提供了从产品到技术的全方位支撑。一方面,英特尔向快手提供了包括英特尔® 至强® 可扩展处理器在内的各类先进硬件产品,为快手AI平台打造算力更为强劲的基础设施。另一方面,为其导入英特尔® 数学核心函数库 (Intel® Math Kernel Library,英特尔® MKL) 以及来自英特尔的高性能编译器,来帮助快手进一步优化其AI算法。双方的通力协作取得了良好效果,一系列测试与实际部署数据都表明,英特尔产品与技术的引入,无论是在图像检索、还是在语音识别能力上,都帮助快手AI平台获得了数倍的性能提升,这为快手业务的进一步拓展与用户体验的改善,提供了良好的技术助力。
快手AI平台面临的挑战
良好用户反馈的背后,是快手强大的技术支撑能力。从成立伊始,快手就积极组建AI团队,推出智能推荐、人脸识别、自动美颜、视频即时特效等功能,深得用户青睐。随着业务的高速增长,尤其当其日播放量已达百亿次级,日上传视频量已达千万条级时,快手的AI平台也开始经受严峻的性能考验, 亟需寻求更强劲的计算力和更优化的算法予以应对。构建强大高效的AI平台井非易事。众所周知,在深度学习等AI方法中,随着数据处理量的增加,所需的计算力将呈几何级数增长。早在2012年Google Brain*进行的一次测试中,为了利用深度神经网络来识别视频中的猫,系统共使用了 16,000个通用处理器。如今,快手的短视频发布总量已达70亿条,每天新增视频达到千万量级,其所面临的计算量可想而知。因此,要应对这一挑战,快手AI平台需要做的是:配备更强的计算力,对AI算法进行更深入的优化。
英特尔® 至强® 可扩展处理器为快手AI平台提供更强算力
无论是智能推荐,还是精准营销,或者是智能鉴黄,短视频应用背后的AI平台,都需要对用户上传的视频进行有效的分析和感知。图像和语音是其中两个核心维度。在图像维度,通过图像检索技术,平台可以实现内容特征库的构建,并建立高效的特征库索引;在语音维度,通过语音识别技术,平台可以对人物的情绪、年龄等属性进行精准分析。因此,图像检索和语音识别是目前快手AI平台的两大核心功能。K-Means*聚类算法是目前快手AI平台重要的图像检索算法之一。通过对图像内的信息进行向量转化,再通过K-Means聚类算法计算聚类中心,从而快速得到索引。利用这一算法,快手AI平台可以迅速将用户上传的视频进行索引归类,加入特征库,并通过推荐系统向用户推荐匹配度和相关性最高的视频。可以说, AI平台图像检索的处理速度,将直接影响快手多项用户功能的使用体验。实施K-Means聚类算法时, AI平台需要执行大置的迭代计算。当需要处理的图像数据集达到一定规模后,快手发现,其AI平台在多线程计算处理上开始显现出不足。为此,英特尔团队一方面帮助快手对其算法进行优化,通过重构数据结构和完全矢量化的方法,使算法的数据处理效率得以提高。另一方面,英特尔为快手AI平台提供的新一代英特尔® 至强® 可扩展处理器,也极大地提升了K-Means聚类算法的处理效率,拥有多达28个内核的英特尔® 至强® 可扩展处理器,可以轻松应对上文所述的多线程计算能力不足问题。同时,其全新的内核微架构,包括所有内核共用末级高速缓存 (Last Level Cache, LLC) 、 六内存通道以及多达48个PCIP通道等特性,也能有效地对K-Means聚类算法的优化内容予以支持,令其在处理海置图像数据时获得更优性能。在英特尔® 至强® 金牌6130处理器上进行的一顶图像检索对比测试中,基准测试组与优化测试组分别采用优化前后的K-Means聚类算法对10亿张图片进行图像检索处理。测试数据如图 1 所示,经过优化的K-Means聚类算法,可使快手AI平台的性能增至原有的2.22倍。
图1. K-Means聚类算法用于图片检索处理的对比测试英特尔® MKL与高性能英特尔® 编译器全方位优化释放快手AI平台潜能 针对海量视频内容进行语音识别也是快手AI平台的重要职责之一。目前,快手采用业界流行的Kaldi*语音识别工具箱来进行这一工作。而在Kaldi处理语音的各个环节中,有多处需要用到大量的矩阵计算。传统上, Kaldi会调用其内置的BLAS*/LAPACK*模块来执行这些计算,但实践证明,这些模块还有大量值得优化的空间。为帮助快手AI平台进一步提升在语音识别上的工作效能,除引入新一代的英特尔® 至强® 可扩展处理器外,英特尔还为快手提供了英特尔® MKL与高性能编译器两顶“尖端武器”,前者包含了一系列经过深度优化、线程化和矢量化的数学函数,能够最大化地发挥基于英特尔® 架构的处理器的性能潜力,同时其也能与Kaldi中的其它模块相互兼容。来自英特尔的高性能编译器自带的大量高性能可用设置,也可与新一代英特尔® 至强® 可扩展处理器相互配合,为矩阵计算带来更高的计算效率,从而大大提高语音识别在解码等流程上的性能。为验证优化后的效果,快手基于最新的英特尔® 至强® 金牌6148处理器对语音识别优化前后的性能进行了对比测试。 基准测试组采用了操作系统内置的GCC编译器和Kaldi内置的BLAS/LAPACK模块,而优化测试组采用了英特尔® MKL与高性能英特尔® 编译器的组合,并根据快手在不同场景下语音识别需求,结合不同算法和数据集设计了 6种工作负载。测试数据如图 2 所示,经过优化的语音识别,处理性能可提升至优化前的1.92倍到2.46倍不等。
图2. 优化前后的语音识别对比测试更多部署方案,更大发展空间 快手的愿景,是以科技的力量提升每一个人独特的幸福感。帮助用户记录自己的生活。让每个人都有机会被世界看到,这些都离不开背后AI系统的支撑。通过对海量视频、图片和语音进行高速进理,快手实现了通过一个小小的应用,来拉近人与人之间的距离,提升用户的幸福感。快手与英特尔的工程师们正携起手来,以先进的产品与技术为这一愿景添砖加瓦。现在,快手已幵始引入英特尔® 至强® 金牌6130处理器作为其AI平台的核心计算引擎,并逐渐引入性能更为强劲的英特尔® 至强® 金牌6148处理器。英特尔产品与技术的加入,尤其是新一代英特尔® 至强® 可扩展处理器的采用,帮助快手更好地实现了提升用户幸福感这一目标。未来,双方还计划在AI基础设施构建,软件、算法优化等多个维度幵展更深层次的合作,以技术之“芯”,帮助人们记录和分享在这个美好世界中的点点滴滴。
文章摘自英特尔精英汇
想购买及了解更多英特尔产品详情,欢迎咨询以下联系方式!
永信贵宾会集团联系方式
咨询热线:0755-88603572
永信贵宾会官网:www.yyhsjs.com
客户垂询邮箱:cuifang.mo@yyhsjs.com
客户垂询QQ:1627678462
地址:深圳市福田区深南大道1006号国际创新中心C座11楼
邮编:518026