小时级实时数据仓库构建方法_A项目
  2sVs8vrvjmTp 2023年11月20日 23 0

项目描述 天亮舆情是一个简单易用的互联网舆论分析平台。通过对互联网常见的舆论信息传播媒介进行采集分析,提供了实时舆情、情感分析、地域统计及事件脉络等数据与分析能力,助力客户把握时事脉搏。用户只需设置关键词即可实现对全互联网的信息进行检测分析。通过该产品可以满足用户对网络舆情对网络舆情监测和热点事件专题追踪等需求!

项目背景 为了帮助客户全面掌握舆情动态,正确进行舆论引导,为确保我国互联网络大众媒体的舆论导向的正确性起到了一定的辅助作用,实现为政府分忧,对网络舆情进行监控和管理。用舆情系统,宣传部门可以有效的规范互联网信息,引导健康有益的舆论导向。系统对于促进加强互联网信息监管,组织力量展开信息整理和深入分析,应对网络突发的公共事件,全面掌握社情民意起决定性作用。

项目功能 通过spark streaming 消费到kafka中的实时数据,针对数据计算了微博数据每分钟的uv和pv。 计算了近一个小时的热词,滑动窗口设置的是5分钟。 将计算结构同步到redis中 定期将redis的数据写入hbase,进行数据持久化,供前段展示。 功能亮点 热词统计时,使用了自然语言处理 统计用户uv的时候,使用到了redis的hyperloglog 使用了redis的连接池,把redis提出到partition那一层 社会价值-企业价值 在政府机关单位,他们可以对自己发表的一些政策,或者针对当下热词进行舆论分析 用在各种企业,他们可以分析当前大家对于他们产品或者服务的看法 用在高校里。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年11月20日 0

暂无评论

推荐阅读
2sVs8vrvjmTp