基于深度学习的舞蹈视频推荐模型

(整期优先)网络出版时间:2023-03-10
/ 2

基于深度学习的舞蹈视频推荐模型

周帅航

西北民族大学,甘肃兰州730000

摘要:随着舞蹈网站中用户数量以及舞蹈视频数量的增多,用户交互数据变得极其稀疏,本文在主流的推荐模型DeepFM的基础上,融合Bert模型进行文本语义特征向量的提取。通过此模型预测用户对舞蹈视频的点击概率,从而形成推荐列表。实验结果表明,在精确率的评价指标上,高达83.10%,取得不错的推荐效果。

关键字:舞蹈视频、推荐算法、DeepFM、Bert

0 引言

随着互联网的迅速发展,“信息过载”已成为当前快速匹配信息的技术难题。推荐系统是一种信息过滤技术,用于快速查找有效信息,如今被各个行业广泛应用。引入推荐系统为舞蹈视频做推荐,是当下解决海量舞蹈视频信息过载的方案。本文利用Bert模型进行文本特征提取,结合DeepFM模型进行推荐模型构建,可以充分提取较深的文本信息,同时可以提取低阶结合特征和高阶结合特征,从而提高推荐模型预测的精度。

1 Bert-DeepFM模型结构

本文提出的Bert-DeepFM模型由Bert模型、深度神经网络(DNN)和因子分解器(FM)三部分组成,模型的网络结构如图1所示。其中,Bert提取文本特征向量,FM自动学习二次特征交叉,DNN学习深层高阶隐身特征。然后详细分析模型组件的结构和原理。

图1 Bert-DeepFM模型

1.1基于Bert的文本向量特征提取

Bert是基于双向Transformer的编码器[1],可以在大型语法上进行无监督的学习。Bert模型通过查询向量表变换文本中向量,其描述全局语义信息,模型输出是输入对应于每个字的融合全文语义信息后的向量表示,本文采用了中文预训练模型“bert-base-chines”进行文本向量提取。输入文本信息利用Bert模型检索字向量表,获取位置信息,最终可以获得结合全文信息的句子向量表示。因此,在使用Bert模型进行信息特征提取的情况下,能简单且快速地量化舞蹈标题或标签等文本,比传统的处理方法更快、更有效。

1.2 FM模型

FM由Rendle等人[2]提出,综合矩阵分解和支持向量机模型的优点,特别适合数据稀疏的场景。通常的线性模型只是对不同的特征进行加权相加,没有考虑特征间的组合关系,模型的表达能力较弱。FM的提出为每一个特征引入了一个具有低维与稠密特性的向量特征,并使用特征向量之间的内积来衡量特征间的相关性,此时即使推荐系统中两个特征共同存在的数据很少甚至没有,也可以衡量两者之间的相关性,从而有效解决了推荐系统中数据稀疏所导致的难以计算特征交互的问题。FM能够衡量特征的一阶重要性与特征之间的二阶相关性,其输出为一维特征与向量内积各元素的和,如公式1所示。

         公式1

1.3深度神经网络

DNN部分用于学习特征的高阶交互,为全连接前馈神经网络。推荐系统中舞蹈与用户的属性经过Label Encoder编码后,数据具有稀疏性,使得神经网络的学习极其困难,且效果不佳。因此需要通过Embedding层将高维稀疏特征转化为低维稠密特征,再输入全连接网络层。对比Wide&Deep[3]模型,用FM部分替换了原来的Wide部分,加强浅层网络部分特征组合的能力,使Wide部分具有了自动的特征组合能力,最后将FM的输出与DNN部分的输出一同输入最后的输出层,参与最后的目标拟合。

1.4输出层

输出层计算出一个用于排序的得分,将FM部分、深度神经网络的输出拼接起来作为输出层的输入,输出层的表达式如公式2所示。

公式2

其中是Sigmoid激活函数,concat表示将向量拼接,表示FM模型输出的向量,表示DNN训练得到的向量。在训练过程中,使用点击率作为标签,并使用交叉熵(binary cross entropy)作为模型的损失函数,如公式3所示。

          公式3

其中u,i代表用户和舞蹈,∈(0,1)是用户u对第i个舞蹈的预测概率,∈(0,1)是用户u对第i个舞蹈的实际的标签,代表用户是否点击。

2 推荐工作流程

针对舞蹈视频的推荐任务,本文提出的模型主要流程有舞蹈视频数据采集、数据预处理与特征工程、推荐模型网络设计、模型评估与应用。

步骤1 舞蹈视频数据的采集,主要使用网络爬虫采集某弹幕视频网站舞蹈区的原始数据。本文采集了2021下半年的舞蹈视频信息、用户信息以及交互信息构建舞蹈视频数据集。

步骤2 数据预处理与特征工程。对采集到的原始数据中重复值、缺失值和异常值等非法数据进行处理,对舞蹈ID、用户ID和性别等类别型离散数据进行Label Encoder编码和归一化操作,使用Bert模型对舞蹈标题和舞蹈标签进行文本特征提取,将处理好的数据进行拼接,作为输入层的输入特征向量。

步骤3 推荐模型网络结构设计。为使模型具有更好的推荐效果,解决传统推荐模型面临的数据稀疏和冷启动问题,在DeepFM[4]模型结构的基础上,提出了一种融合Bert提取特征的深度交叉网络和因子分解机的混合推荐模型。

步骤4 模型训练与评估。使用交叉熵损失函数计算损失值,并利用Adam优化器更新模型参数,最后选定评估指标,在本文构建的舞蹈视频训练数据集上测试模型性能。

3实验

3.1实验环境

本文编程语言是python3.8版本,相关的开发包有Numpy、Pandas、Sklearn、Transformers和Tensorflow2.5版本等,内存64GB,操作环境windows 10,显卡是GeForce GTX TITAN X。数据集内容主要包括40866条舞蹈视频特征信息、235156条用户特征信息以及375263条用户-舞蹈视频交互特征信息。构建模型的训练集与数据集时,以随机的形式分割,前80%作为训练集,后20%作为测试集,batch_size设置为512,epochs设为100,学习率设为0.001,embedding size值设为100。

3.2实验结果与分析

实验结果测试基于Top-N进行推荐列表生成,选择精确率(Precision)作为模型的评价指标。准确率指正确推荐的舞蹈数量占所有推荐舞蹈数量的比例,用来衡量用户对推荐项目感兴趣程度,如公式4所示。

公式4

其中,表示模型为用户推荐的舞蹈集合,表示测试集中用户推荐的舞蹈集合,表示两个舞蹈集合的交集。最终在测试集上的结果为83.10%,由此可以看出融合Bert的DeepFM模型具有很好的推荐效果。

4结论

针对无法准确提出文本语义信息的问题,本文提出一种融合Bert和DeepFM的模型,引入Bert模型提取文本深层次的特征,使用DeepFM模型进一步学习特征之间的关系,最终计算用户对舞蹈的感兴趣程度,产生推荐结果。最后在舞蹈数据集上进行实验。结果表明,本文提出的推荐模型取得不错的推荐效果。在未来的研究中,可以通过不断的调整参数,寻找最优的模型,能够具有更高的推荐准确率。

参考文献

[1] Devlin J,Chang M W , Lee K, et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding[J]. 2018.

[2] Rendle S . Factorization Machines[C]//ICDM 2010, The 10th IEEE International Conference on Data Mining, Sydney, Australia, 14-17 December 2010. IEEE, 2010.

[3] Cheng H T ,  Koc L ,  Harmsen J , et al. Wide & Deep Learning for Recommender Systems[J]. ACM, 2016.

[4]王瑞平, 贾真, 刘畅,. 基于DeepFM的深度兴趣因子分解机网络[J]. 计算机科学, 2021.