我正在考虑各种用于数据仓库和商业智能的技术,并偶然发现了名为Hadoop的激进工具。Hadoop似乎并不完全是为BI目的而构建的,但有一些参考文献表明它在这个领域有潜力。(http://www.infoworld.com/d/data explosion/hadoop -定位-业务-情报- 488)。
尽管我从互联网上得到的信息很少,但我的朋友告诉我,Hadoop可以成为传统BI解决方案领域的颠覆性技术。关于这个话题的信息确实很少,因此我想在这里收集所有的Guru的想法,即与传统的后端BI基础设施相比,Hadoop作为BI工具的潜力Oracle Exadata, Vertica等.首先,我想问以下问题
作为BI解决方案的一部分,Hadoop是一个很棒的工具。它本身并不是一个BI解决方案。Hadoop所做的是获取Data_A并输出Data_B。Bi需要的任何数据,但没有以一种有用的形式出现,都可以使用MapReduce处理并输出一种有用的数据形式。可以是CSV, HIVE, HBase, MSSQL,或者任何用于查看数据的工具。
我相信Hadoop应该是ETL工具。这就是我们使用它的目的。我们每小时处理大量的日志文件,并将它们存储在Hive中,并进行每日的聚合,这些聚合将加载到MSSQL服务器中,并通过可视化层进行查看。
我遇到的主要设计考虑因素有:
-数据的灵活性:您希望用户查看预先聚合的数据,还是希望用户能够灵活地调整查询并按照自己的意愿查看数据
-速度:您希望用户等待数据的时间是多长?Hive(例如)是慢的。生成结果需要几分钟,即使是在相当小的数据集上。遍历的数据越多,生成结果所需的时间就越长。
-可视化:你想使用哪种类型的可视化?你想要定制很多组件还是能够使用现成的东西?你的视觉化需要什么样的约束和灵活性?可视化需要有多灵活和多变?