| 
                         
        
           1.? 基本状况 
  Tez是Hortonworks开发的。 
  董西成的分析 http://dongxicheng.org/mapreduce-nextgen/apache-tez/ 
  http://zh.hortonworks.com/blog/introducing-tez-faster-hadoop-processing/ 
  tez运行在Yarn上的,DAG工作流,底层设计,对Map和Reduce进一步拆分。Map拆成Input,Processor,Sort,Merger,Output,Reduce拆分成Input,Shuffle,Processor和Output。拆分后的单元可以任意组合,组装成大的DAG作业。目标,替换性能较为低下的Hive和Pig。 
   Tez被Hortonworks用户Hive引擎优化,产生了一个性能很强的新项目Stinger,经过测试,性能提升了100倍。 
  http://zh.hortonworks.com/blog/100x-faster-hive/ 
   (Tez+hive)和(Impala,Dremel和Drill)都是为了解决hive/pig的低性能问题。前者使用MapReduce框架对GAG裁剪优化,后者抛弃MapReduce,直接从DataNode取数据,传统数据库的方式。 
   Tez和Oozie的差别:Tez是偏向底层的,Oozie偏向顶层,它是对MR,Hive,Pig等进行DAG作业设计,将各种工具实现的功能组合在一起。 
 
   2. 更多细节 
  http://dongxicheng.org/mapreduce-nextgen/apache-tez-newest-progress/ 
  (1) 丰富的数据流(dataflow,NOT Streaming!)编程接口; 
  (2) 扩展性良好的“Input-Processor-Output”运行模型; 
  (3) 简化数据部署(充分利用了YARN框架,Tez本身仅是一个客户端编程库,无需事先部署相关服务) 
  (4) 性能优于MapReduce 
  (5)? 优化的资源管理(直接运行在资源管理系统YARN之上) 
  (6) 动态生成物理数据流(dataflow) 
   其中,3非常有吸引力。 
  (1)Tez官方网站:http://tez.incubator.apache.org/ 
  (2)Tez官方文档:https://issues.apache.org/jira/secure/attachment/12588887/Tez%20Design%20v1.1.pdf 
  (3)Tez SVN:https://issues.apache.org/jira/browse/TEZ 
 
   3. 评估: 
  3.1 优先使用优化后的Hive,也就是Stinger。 
  3.2 次之使用impala,drill。主要考虑到扩展性和迁移性。 
 
 
   4. Oozie 
  官网 http://oozie.apache.org/ 
  
   
5. 为什么有tez?  
我认为是这样的:CDH有一个高效的Impala可以替代Hive,那么HDP也就必须有一个性能对等的替代Hive的工具,否则在竞争上就有劣势,于是Hortonworks就发明了tez。  
        
            
        	
                        (编辑:91站长网) 
【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! 
                     |