Azure中国区最近最让人兴奋的发布莫过于HDInsight已经预览上线了。具体可见官网的最新公告:
凑巧最近在忙着四处奔波、传道解惑,不过也是忙里偷闲,体验了一下这个新服务。
首先值得肯定的是微软与Hortonworks的联手,推动开放的Hadoop的发展,而HDInsight据说也是百分百原汁原味的Hadoop在Azure云上的实现。
其中值得重点推荐的有几个,首先是为Hive查询语言提供了一个不错的编辑器。在这里可以直接对存储在Azure 存储(Storage)账号的容器(Container)中的Hive表(Table)进行查询。如下图。
而上图中底下红线所标识的,可以通过“查看细节”来看查询结果及执行过程中的情况(主要是LOG信息)。需要说明一点的是,在HDInsight中,Hive命令行被编译为MapReduce任务,在Hadoop中执行。如下图:
另外需要注意的是这里列出的结果(”Job Output“)只是整体结果的一部分,如果要看全部的话,如上图,可以点击”下载文件(Download File)”,则可以看到全部的查询结果。
此外,如公告中所说,HDInsight中,基于Stinger/Tez进行了性能调优,根据基准测试结果,HDP2.1查询的性能相比之前最早的结果(HIVE10)得到2个数量级的提升。
另外一个值得肯定的是再HDInsight中建立Hadoop服务,真正是非常简单,可以说在管理门户(Management Portal)上“Click”、“Click”、“Click”,然后就“OK”了。如下图。
如果用PowerShell脚本的话,则更简单,可以实现高度自动化。
需要说明的是,这里采用快速创建方式建立的Hadoop默认版本是最新的3.1。当然也可以采用自定义创建的方式选择低版本。
另外也可以看到这里也支持HBase,为NoSQL解决方案提供了更新、更强大的选择。此外还包括了支持Sqoop、Mahout等功能。
当然,也不能不提在背后默默无闻工作的Azure Storage,这个担当了HDFS重要职能的关键角色。
Azure Storage的强大功能,包括异地冗余复制等,对开发者来讲提供了强有力的支持。
可以看到,包括Hadoop的系统文件,包括大家要上载的原始数据文件,包括MapReduce产生的结果,包括Hive创建的表及查询结果,甚至执行每个任务(Job)所产生的日志文件(Log)都在这里。
进一步去想,既然HDInsight每次分析处理的Job及Log都在这里,是不是可以进一步分析一下,对他们本身进行一次大数据分析呢?
忙碌了好一会儿,得休息一下了,“到这里,就到这里吧” ...