如何评估和比较Hadoop的商业智能-商业智能-社区- myTectra论坛

我正在考虑各种用于数据仓库和商业智能的技术，并偶然发现了名为Hadoop的激进工具。Hadoop似乎并不完全是为BI目的而构建的，但有一些参考文献表明它在这个领域有潜力。（http://www.infoworld.com/d/data explosion/hadoop -定位-业务-情报- 488)。

尽管我从互联网上得到的信息很少，但我的朋友告诉我，Hadoop可以成为传统BI解决方案领域的颠覆性技术。关于这个话题的信息确实很少，因此我想在这里收集所有的Guru的想法，即与传统的后端BI基础设施相比，Hadoop作为BI工具的潜力Oracle Exadata, Vertica等．首先，我想问以下问题

设计注意事项使用Hadoop设计BI解决方案与传统工具有什么不同?我知道它应该是不同的，因为我读到在Hadoop中不能创建模式。我还读到一个主要的优势将是完全消除Hadoop的ETL工具(这是真的吗?)我们需要Hadoop + pig + mahout来获得BI解决方案吗?

22/03/2021 21点

作为BI解决方案的一部分，Hadoop是一个很棒的工具。它本身并不是一个BI解决方案。Hadoop所做的是获取Data_A并输出Data_B。Bi需要的任何数据，但没有以一种有用的形式出现，都可以使用MapReduce处理并输出一种有用的数据形式。可以是CSV, HIVE, HBase, MSSQL，或者任何用于查看数据的工具。

我相信Hadoop应该是ETL工具。这就是我们使用它的目的。我们每小时处理大量的日志文件，并将它们存储在Hive中，并进行每日的聚合，这些聚合将加载到MSSQL服务器中，并通过可视化层进行查看。

我遇到的主要设计考虑因素有:
-数据的灵活性:您希望用户查看预先聚合的数据，还是希望用户能够灵活地调整查询并按照自己的意愿查看数据
-速度:您希望用户等待数据的时间是多长?Hive(例如)是慢的。生成结果需要几分钟，即使是在相当小的数据集上。遍历的数据越多，生成结果所需的时间就越长。
-可视化:你想使用哪种类型的可视化?你想要定制很多组件还是能够使用现成的东西?你的视觉化需要什么样的约束和灵活性?可视化需要有多灵活和多变?