织梦CMS - 轻松建站从此开始!

葡京赌场-葡京娱乐-葡京网址-葡京娱乐平台-葡京开户注册

当前位置: 主页 > 搜狗明医 >

自学大数据:Hive基于搜狗搜索的用户日志行为分析 - …

时间:2018-01-25 21:42来源:未知 作者:admin 点击:
”大数据时代“,“大数据/云计算”,“大数据平台”,每天听到太多的大数据相关的词语,好像现在说一句话不跟大数据沾边都不好意思说自己是做IT的。可能这与整个IT圈子的炒作也有关联,某一个方面来看其实就是一营销术语。很多朋友就想问,我想做大数据,但是没有这个条件,没有这个数据量,没有那么多业务场景,没有那多集群可以吗?其实,我觉得是可以的,大数据只是一个华丽的词语,实际的背后也是一些开源框架的支撑,也是通过技术来实现的,所以只要掌握这一套理论体系,开源框架,技术手段,底层实现,就ok。做技术分析之前必须需要相关的理论知识作为研究支撑,所以建议先掌握相应的理论知识。主要分两部分,一个是统计分析相关的,一些关于得出数据总量分量的关系,百分比,进而绘制出趋势走向,历史图标,各种报表等,提供BI的功能。另外一部分是数据挖掘/文本挖掘,挖掘用户查询词的语义,查到相邻词语,进而进行相关搜索推荐等,挖掘出用户兴趣,人群画像等。发现用户通过搜狗搜索获取百度的地址的数量比较多,其次是游戏类,视频。可以发现有很高的比例的人,其实不是真正的使用搜狗搜索直接搜索数据,而是通过搜狗获得百度搜索,搜索数据。思考扩展:可以通过对每个网站的分类,比如可以划为视频、搜索、导航、SNS、游戏等网站类型,获得用户最关心的网站类型,什么类型网站最热门,在同一类型网站中热度排行榜,哪个网站最热门,排行榜是怎样的。可以看出来,以每页10条数据的显示,用户通常情况下只查看第一页的数据,占到了绝大多数,最后很少一部分会查看第二页的数据。可以考虑出用户的使用习惯是在回家的时候达到最高峰,用户达到最活跃,凌晨时间段用户最少,可以从运营的角度考虑服务器的一些升级部署可以安排到凌晨时段,高峰期在晚上应该可以提高访问速度等。思路2:根据点击顺序为1来判断,说明他第一次点击。如果点击顺序 1 说明用户是第二次以上点击了,keyword不是第一次输入。这样也有遗漏,有可能用户只输入了查询词,没有点击网页。 (责任编辑:admin)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------