1092
浏览Spark商务推荐系统论文范文提纲--基于Spark的商户推荐系统的设计与实现
摘要:随着信息技术的发展,互联网为人们的日常生活带来了诸多便利,人们可以通过互联网随时随地的浏览、获取信息。互联网为我们带来便利的同时,也带来了海量的数据信息。面对海量的数据信息,用户无法快速准确的定位感兴趣的信息,造成了数据冗余问题。本论文基于此背景,设计并实现了一款基于Spark的商户推荐系统,帮助用户过滤出感兴趣的商户信息,解决海量商户数据造成的数据冗余问题。系统整体采用模型/视图/控制器(MVC)三层架构设计模式,开发框架选择Spring Boot完成Web应用的开发。Spring Boot内部集成的Spring MVC框架进行前后端的控制转发,My Batis同主业务数据库做映射,保存、读取推荐结果,推荐结果最终通过前端页面呈现给系统用户。系统的核心是推荐功能,推荐功能采用Spark分布式计算框架进行开发实现。系统内设计实现了离线、实时两个推荐功能。离线推荐功能内包括:基于内容的离线推荐、基于隐语义模型的离线推荐、基于统计的热门内容推荐三个模块。基于内容的离线推荐模块,通过计算标签信息的权重值,构建用户、物品画像进行推荐,因为系统内物品信息较于用户信息更加的稳定,基于内容的推荐模块十分适用于系统的冷启动期。基于隐语义模型的离线推荐模块结合用户行为矩阵进行评分预测。区别于单纯的基于内容推荐,这一模块利用评分信息,能够侧面的反应物品的质量优劣,推荐结果优于基于内容的离线推荐模块。基于统计的热门内容离线推荐模块配置Mongo DB连接信息,连接主业务数据库,获取数据库中数据信息。这一模块基于数量统计直接查询数据库内数据得到推荐结果,得到的推荐结果同用户的历史行为数据重叠度低,能够挖掘更多的用户信息,丰富用户画像。实时推荐功能内包括基于近k次评分的实时推荐、基于内容的实时推荐两个模块。基于近k次评分的实时推荐模块内,实现了一种结合评分和相似度的推荐优先级计算算法,该模块直接利用基于隐语义模型离线推荐模块产出的相似度信息进行计算,大大的节省了运行时间。基于内容的实时推荐模块获取基于内容的离线推荐模块中产出的相似度信息进行推荐,满足实时场景下的基于内容推荐。离线、实时两个推荐功能基于混合推荐的机制进行联动,可以应用于不同的推荐场景。系统目前已经通过了各项测试指标,能够在稳定运行的基础上,满足用户不同场景下的使用需求。
关键词:商户推荐;Spark;SpringBoot;推荐系统;协同过滤;隐语义模型;
中文摘要
ABSTRACT
1 绪论
1.1 论文工作背景及意义
1.2 国内外发展现状
1.3 论文的相关工作
1.4 论文的组织结构
2 相关技术概述
2.1 大数据相关技术概述
2.1.1 HDFS
2.1.2 Flume
2.1.3 Kafka
2.2 推荐系统中的相似度计算
2.2.1 余弦相似度计算
2.2.2 皮尔逊相似度计算
2.3 主流推荐算法概述
2.3.1 基于内容的推荐算法
2.3.2 基于用户的协同过滤推荐算法
2.3.3 基于物品的协同过滤推荐算法
2.4 本章小结
3 系统需求分析
3.1 系统可行性分析
3.2 系统建设目标
3.3 系统功能性需求分析
3.4 系统非功能性需求分析
3.5 本章小结
4 系统概要设计
4.1 系统总架构设计
4.2 系统推荐功能Spark框架设计
4.2.1 RDD弹性数据集在系统推荐功能中的运用
4.2.2 系统应用Spark框架的优势
4.2.3 推荐功能中的混合推荐机制
4.3 系统功能结构设计
4.4 系统数据库结构设计
4.5 本章小结
5 系统详细设计
5.1 系统推荐功能结构设计及系统的数据加载
5.1.1 系统推荐功能结构设计
5.1.2 系统的数据加载
5.2 基于内容的离线推荐模块
5.3 基于隐语义模型的离线推荐模块
5.3.1 基于隐语义模型的推荐算法设计
5.3.2 基于隐语义模型的离线推荐模块的设计实现
5.4 基于统计的热门内容离线推荐模块
5.5 基于近k次评分的实时推荐模块
5.5.1 基于近k次评分的实时推荐模块算法设计
5.5.2 基于近k次评分的实时推荐模块的设计实现
5.6 基于内容的实时推荐模块
5.7 本章小结
6 系统测试
6.1 推荐系统主流测试策略
6.2 系统的推荐功能测试指标
6.2.1 评分预测类测试指标
6.2.2 TopN类推荐测试指标
6.3 系统的推荐功能测试
6.3.1 推荐功能测试结果分析
6.3.2 系统的推荐功能测试小结
6.4 系统功能性测试
6.4.1 首页功能测试
6.4.2 详情页功能测试
6.5 本章小结
7 总结与展望
7.1 论文总结
7.2 工作展望
参考文献