推荐系统(6):推荐算法之基于内容的推荐算法
目录0. 相关文章链接1. 什么是基于内容的推荐算法2. 基于内容的推荐算法举例3. 基于内容的推荐算法总结4. 相似度计算5. 基于内容推荐系统的高层次结构6. 基于UGC的推荐7. 基于UGC简单推荐的问题8. 基于TF-IDF的推荐9. TF-IDF对基于UGC推荐的改进0. 相关文章链接推荐系统文章汇总1. 什么是基于内容的推荐算法Content-based Recommendations
目录
0. 相关文章链接
1. 什么是基于内容的推荐算法
Content-based Recommendations (CB)根据用户过去喜欢的产品(本文统称为item),为用户推荐和他过去喜欢的产品相似的产品。该相似度不是通过ItemCF进行实现,而是通过抽取物品内在或者外在的特征值,实现相似度计算。
比如一个电影,有导演、演员、用户标签UGC、用户评论、时长、风格等等,都可以算是特征。可以表示为特征向量: V = [导演,演员,用户标签UGC,用户评论,时长,风格],多个电影不就是多个向量么!向量之间可以求相似度。
- //V1 = [张艺谋,巩俐,剧情,好看,90分钟,中国风,红高粱]
- //V2 = [张艺谋,巩俐,剧情,好看,90分钟,中国风,xxx]
基于内容的推荐算法,原理是用户喜欢和自己关注过的Item在内容上类似的Item,比如你看了哈利波特I,基于内容的推荐算法发现哈利波特II,与你以前观看的在内容上面(共有很多关键词)有很大关联性,就把后者推荐给你。一般来说, 物品都有一些关于内容的分类,例如书籍有科技、人文、工具等分类,电影有战争、爱情、喜剧等分类,商品有食物、衣物、家电等分类。
而基于内容的推荐,就是根据这些物品的内容属性和用户历史评分或操作记录,计算出用户对不同内容属性的爱好程度,再根据这些爱好推荐其他相同属性的物品。
基于内容的推荐系统本质是对Item内容进行分析,建立特征,然后基于用户对何种特征的内容感兴趣以及分析一个Item具备什么特征来进行推荐。
2. 基于内容的推荐算法举例
用户A 对《银河护卫队》《变形金刚》《星际迷航》三部科幻电影都有评分,平均分为4 .7 分( ( 5+4+5 ) / 3=4.7 );对《三生三世》《美人鱼》《北京遇上西雅图》三部爱情电影评分平均分为2.3 分( ( 3 十2+2 ) /3= 2.3 )。
那么很明显, 用户A 对科幻电影有明显的偏好。当推荐系统预测用户A 在《独立日》上的评分时,可以用A 在所有科幻电影上的平均分4.7 分替换;类似地,可以预测用户A 在《七月与安生》的评分为2 . 3 分,因此推荐系统优先将《独立日》推荐给用户A 。
而对于用户B ,在爱情电影上平均分更高,故而推荐系统会将《三生三世》推荐给用户B 。
实际上,在很多视频APP 中,都有类似的基于内容的推荐方法。
3. 基于内容的推荐算法总结
基于内容的推荐算法介绍一:
- Content-based Recommendations (CB)根据推荐物品或内容的元数据,发现物品的相关性,再基于用户过去的喜好记录,为用户推荐相似的物品。
- 通过抽取物品内在或者外在的特征值,实现相似度计算。
- 比如一个电影,有导演、演员、用户标签 UGC 、用户评论、时长、风格等等,都可以算是特征。
- 将用户(user)个人信息的特征(基于喜好记录或是预设兴趣标签),和物品(item)的特征相匹配,就能得到用户对物品感兴趣的程度
- 在一些电影、音乐、图书的社交网站有很成功的应用,有些网站还请专业的人员对物品进行基因编码/打标签(PGC)
基于内容的推荐算法介绍二:
- 对于物品的特征提取 - 打标签(tag)
- 专家标签(PGC)
- 用户自定义标签(UGC)
- 降维分析数据,提取隐语义标签(LFM)
- 对于文本信息的特征提取 - 关键词
- 分词、语议处理和情感分析(NLP)
- 潜在语义分析(LSA)
4. 相似度计算
- 相似度的评判,可以用距离表示,而一般更常用的是“余弦相似度”
- 欧氏距离
- 余弦相似度
- 如下图所示( dist(A,B)为欧氏距离,
为余弦相似度 ):
5. 基于内容推荐系统的高层次结构
6. 基于UGC的推荐
7. 基于UGC简单推荐的问题
8. 基于TF-IDF的推荐
9. TF-IDF对基于UGC推荐的改进
注:其他推荐系统相关文章链接由此进 -> 推荐系统文章汇总
更多推荐
所有评论(0)