通知
清除所有

如何评估和比较Hadoop的商业智能

RSS

(@sathish)
成员 主持人
加入:1年前
帖子:1391
22/03/2021上午10:20

我正在考虑各种用于数据仓库和商业智能的技术,并偶然发现了名为Hadoop的激进工具。Hadoop似乎并不完全是为BI目的而构建的,但有一些参考文献表明它在这个领域有潜力。(http://www.infoworld.com/d/data explosion/hadoop -定位-业务-情报- 488)。

尽管我从互联网上得到的信息很少,但我的朋友告诉我,Hadoop可以成为传统BI解决方案领域的颠覆性技术。关于这个话题的信息确实很少,因此我想在这里收集所有的Guru的想法,即与传统的后端BI基础设施相比,Hadoop作为BI工具的潜力Oracle Exadata, Vertica等.首先,我想问以下问题

  • 设计注意事项使用Hadoop设计BI解决方案与传统工具有什么不同?我知道它应该是不同的,因为我读到在Hadoop中不能创建模式。我还读到一个主要的优势将是完全消除Hadoop的ETL工具(这是真的吗?)我们需要Hadoop + pig + mahout来获得BI解决方案吗?

报价
(@anamika)
贵族成员
加入:1年前
帖子:1381
22/03/2021 21点

作为BI解决方案的一部分,Hadoop是一个很棒的工具。它本身并不是一个BI解决方案。Hadoop所做的是获取Data_A并输出Data_B。Bi需要的任何数据,但没有以一种有用的形式出现,都可以使用MapReduce处理并输出一种有用的数据形式。可以是CSV, HIVE, HBase, MSSQL,或者任何用于查看数据的工具。

我相信Hadoop应该是ETL工具。这就是我们使用它的目的。我们每小时处理大量的日志文件,并将它们存储在Hive中,并进行每日的聚合,这些聚合将加载到MSSQL服务器中,并通过可视化层进行查看。

我遇到的主要设计考虑因素有:
-数据的灵活性:您希望用户查看预先聚合的数据,还是希望用户能够灵活地调整查询并按照自己的意愿查看数据
-速度:您希望用户等待数据的时间是多长?Hive(例如)是慢的。生成结果需要几分钟,即使是在相当小的数据集上。遍历的数据越多,生成结果所需的时间就越长。
-可视化:你想使用哪种类型的可视化?你想要定制很多组件还是能够使用现成的东西?你的视觉化需要什么样的约束和灵活性?可视化需要有多灵活和多变?


回复报价
分享:
Baidu