由于民宿的装修、居家以及房东服务态度等相比于酒店而言,存在较大优势,民宿成为现在在住宿选择中的一大趋势,因此小组认为以民宿营业额为相关课题可能更具备现实意义。那么,在对北京民宿营业额有影响的因素中,哪些因素是关键?
在技术层面上,该次爬取和分析与我们课程学到的知识相关,能够对我们所学到的技术进行巩固。优势方面上,该课题贴近生活,小组成员进行分析时能够结合生活实际,减少了抽象的思维与概念,方便读者理解。所以我们小组最终选定课题,并对从携程爬取的北京地区民宿(2020年7月1日-2020年7月8日)的数据进行分析。
1、创建爬取每一页数据的函数getDatafromOnepage
2、将欢迎度、好评度、价格作为三个value,分别创建三个数据框:recommend_data、wellcomments_data、lowest_price_data,便于后续分析。 爬取网址: https://inn.ctrip.com/onlineinn/newlist/beijing48/?d2=2020-07-08&d1=2020-07-01&s=1
由图表可知,由于此次疫情,7月1日至7月8日仍处于抗疫阶段,无接触入住成为房客首要诉求。同时,连住优惠可以减少房主工作量的同时减轻房客负担,近地铁保障房客使用便捷交通出行,因此连住优惠、进地铁与无接触入住成为房客选择民宿的最主要需求。此外还有做饭、闪订、房东服务态度、网传照片真实性及宽松取消保障等系列服务作为加分项。
由图表可知,近后海/南锣鼓巷和近国贸CBD为房客最主要诉求,这意味着选择民宿的房客主要由游客和上班/出差族主要构成。综上,房主在考虑房客需求时可从目标消费者入手,并创造卖点吸引房客,实现民宿房主的利益最大化以及民宿房间利用最大化。
从直方图看,由于疫情影响,对于住户来说,规模、卫生程度上非标准化的民宿酒店中,只有评分较高的民宿才让顾客放心,受信任度更高,因而在区间4.8~5.0 内受欢迎程度的频数较高,即酒店数量较多;获得评价高分的民宿酒店因为在环境、餐饮、规模等方面都发展更好,所以价格更加昂贵,即4.2~5.0区间内频数较高,酒店数量更多。 从箱线图看,从欢迎度、价格得到的评分等级显示出数据存在分布差异性。因为评分是因子变量,所以箱线图仅可以说明欢迎度相比于价格来说波动更小,这是由于大家对于民宿酒店的选择普遍追求评分高的,在疫情期间更加凸显;而价格的确定受成本定价的多种因素影响,同时反映了在酒店的选择方面,消费者更注重舒适度、满意度,价格低廉或者低价策略并不能很好的吸引顾客。 评分等级密度函数上看,仍然反映了相同的事实。欢迎度普遍呈右偏且平扁分布,欢迎度对于介绍评价等级具有更好的统计特性。而价格部分是右偏且扁平分布,但是也有相当部分处于正态分布和左偏,也存在尖峰分布,同上述箱线图的分析,疫情期间评分高的民宿酒店有更好的评价,价格低廉的酒店并没有获得高分评价。
用户评级和评论数量表示平台推荐信息 酒店的房间价格表示酒店的特征信息 由图中的拟合曲线分析可以得到好评度最高的民宿不一定是预定量最高的。由于疫情影响,要定民宿需要更多的考虑安全因素,评分在这方面对于消费者了解民宿有很大帮助,所以对于评分更高的民宿更容易接受,但评分还受到价格等因素的影响,所以曲线在评分较高时呈下降趋势。
由图可得,对于价格对预定量的影响,在群众收入水平能够接受的范围内,价格越高的民宿更受欢迎,民宿的预定量在这个价格区间是与价格呈正相关。价格也能够代表一个民宿在装修以及各方面所拥有的实力,这样的正相关关系也间接地证明了在这段时间里,消费者更倾向于选择更加舒适或者距离想要到达的目的地较近的民宿。
由图可知,价格越高的民宿,评分越高的可能性越大。由于只有入住之后才能够在网上进行评价,所以保障了评论的真实性。而一般选择价格较高的民宿的消费者,会更加在意在民宿中的居住体验,故评分较高的趋势越大。
团队信息 队长 李凌漪 全部PPT,word整理,代码整理 队员 何姝霖 回归分析,数据整理 姚兆旺 项目背景,变量描述,参考资料,总结 李佳瑶 描述分析 耿怡婷 爬取数据及过程介绍,词频词云分析,推送制作 指导老师:姚凯
点击 点赞 和在看 送你小花花
▼获取源代码与PPT方法▼
第一步:分享文章为了让您更多的朋友看到该学习资料,请分享文章到朋友圈公开可见,并保存截图(请一定先保存截图)。
第二步:填写领取表R源代码和PPT资料将通过邮件发放,请长按识别二维码,填写领取表格(先保存集赞截图后再填表):
|