Hive底层原理：Explain执行计划详解

大数据 2023-07-05 17:29:38

134阅读

基础理论

这节将详细介绍 explain 的使用方法及主要参数详细介绍

HIVE出示了EXPLAIN指令来展现一个查看的执行计划,这一执行计划针对大家掌握最底层基本原理，hive 调优，清查数据倾斜等很有协助

应用英语的语法以下：

explain 后边能够跟下列可选主要参数，留意：这好多个可选主要参数并不是 hive 每一个版本号都适用的

EXTENDED：再加上 extended 能够輸出相关方案的附加信息内容。这一般是物理信息，比如文件夹名称。这种附加信息内容对大家用途并不大
CBO：輸出由Calcite优化器转化成的方案。CBO 从 hive 4.0.0 版本号逐渐适用
AST：輸出查看的抽象语法树。AST 在hive 2.1.0 版本号删除了，存有bug，转储AST很有可能会造成 OOM不正确，将在4.0.0版本号修补
DEPENDENCY：dependency在EXPLAIN句子中应用会造成相关方案中键入的附加信息内容。它表明了键入的各种各样特性
AUTHORIZATION：表明全部的实体线必须被受权实行(假如存有)的查看和受权不成功
LOCKS：这针对掌握系统软件将得到什么锁以运作特定的查看很有效。LOCKS 从 hive 3.2.0 逐渐适用
VECTORIZATION：将详细资料加上到EXPLAIN輸出中，以表明为何未对Map和Reduce开展矢量化。从 Hive 2.3.0 逐渐适用
ANALYZE：用具体的个数注解方案。从 Hive 2.2.0 逐渐适用

在 hive cli 中键入下列指令(hive 2.3.7)：

 
  explain select sum(id) from test1;

获得結果(请一行行看了，即便不明白还要每排要看)：

 
  STAGE DEPENDENCIES: 
    Stage-1 is a root stage 
    Stage-0 depends on stages: Stage-1 
   
  STAGE PLANS: 
    Stage: Stage-1 
      Map Reduce 
        Map Operator Tree: 
            TableScan 
              alias: test1 
              Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
              Select Operator 
                expressions: id (type: int) 
                outputColumnNames: id 
                Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
                Group By Operator 
                  aggregations: sum(id) 
                  mode: hash 
                  outputColumnNames: _col0 
                  Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE 
                  Reduce Output Operator 
                    sort order: 
                    Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE 
                    value expressions: _col0 (type: bigint) 
        Reduce Operator Tree: 
          Group By Operator 
            aggregations: sum(VALUE._col0) 
            mode: mergepartial 
            outputColumnNames: _col0 
            Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE 
            File Output Operator 
              compressed: false 
              Statistics: Num rows: 1 Data size: 8 Basic stats: COMPLETE Column stats: NONE 
              table: 
                  input format: org.apache.hadoop.mapred.SequenceFileInputFormat 
                  output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat 
                  serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 
   
    Stage: Stage-0 
      Fetch Operator 
        limit: -1 
        Processor Tree: 
          ListSink

看了以上内容有哪些体会，是否觉得都不明白，别着急，下边可能详尽解读每一个主要参数，相信你学好下边的內容以后再看 explain 的查看結果将得心应手。

一个HIVE查看被变换为一个由一个或好几个stage构成的编码序列(有向无环图DAG)。这种stage能够是MapReduce stage，还可以是承担元数据储存的stage，还可以是承担系统文件的实际操作(例如挪动和重新命名)的stage。

大家将所述結果分拆看，先从最表层逐渐，包括2个大的一部分：

stage dependencies：每个stage中间的依赖感
stage plan：每个stage的执行计划

首先看第一部分 stage dependencies ，包括2个 stage，Stage-1 是根stage，表明它是逐渐的stage，Stage-0 依靠 Stage-1，Stage-1实行进行后实行Stage-0。

再看第二一部分 stage plan，里边有一个 Map Reduce，一个MR的执行计划分成2个一部分：

Map Operator Tree： MAP端执行计划树
Reduce Operator Tree： Reduce端执行计划树

这两个执行计划树里边包括这条sql语句的 operator：

1.map端第一个实际操作肯定是载入表，因此便是 TableScan 表扫描仪实际操作，普遍的特性：

alias：表名字
Statistics：表统计数据，包括表中数据总数，数据信息尺寸等

2.Select Operator：选择实际操作，普遍的特性：

expressions：必须的字段称及字段名种类
outputColumnNames：輸出的列名字
Statistics：表统计数据，包括表中数据总数，数据信息尺寸等

3.Group By Operator：排序汇聚实际操作，普遍的特性：

aggregations：表明聚合函数信息内容
mode：汇聚方式，值有 hash：任意汇聚，便是hash partition;partial：部分汇聚;final：最后汇聚
keys：排序的字段名，要是没有排序，则沒有此字段名
outputColumnNames：汇聚以后輸出字段名
Statistics：表统计数据，包括排序汇聚以后的数据信息总数，数据信息尺寸等

4.Reduce Output Operator：輸出到reduce实际操作，普遍特性：

sort order：数值空不排列;数值正序排列，数值 - 倒序排列;数值 - 排列的列入多列，第一列入正序，第二列入倒序

5.Filter Operator：过滤操作，普遍的特性：

predicate：过虑标准，如sql语句中的where id>=1，则这里表明(id >= 1)

6.Map Join Operator：join 实际操作，普遍的特性：

condition map：join方法，如Inner Join 0 to 1 Left Outer Join0 to 2
keys: join 的标准字段名
outputColumnNames： join 进行以后輸出的字段名
Statistics： join 进行以后转化成的数据信息总数，尺寸等

7.File Output Operator：文档輸出实际操作，普遍的特性

compressed：是不是缩小
table：表的信息内容，包括I/O文档恢复出厂设置方法，实例化方法等

8.Fetch Operator 手机客户端读取数据实际操作，普遍的特性：

limit，数值 -1 表明不限定总数，别的数值限定的总数

好，学得这儿再翻出上边 explain 的查看結果，是否觉得基础都看得懂了。

实践活动

这节详细介绍 explain 可以为我们在生活实践中产生什么便捷及处理大家什么蒙蔽

1. join 句子会过虑 null 的值吗?

如今，我们在hive cli 键入下列查看方案句子

 
  select a.id,b.user_name from test1 a join test2 b on a.id=b.id;

问：上边这条 join 句子会过虑 id 为 null 的值吗

实行下边句子：

 
  explain select a.id,b.user_name from test1 a join test2 b on a.id=b.id;

大家看来結果 (为了更好地融入网页页面展现，仅提取了一部分輸出信息内容)：

 
  TableScan 
   alias: a 
   Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
   Filter Operator 
      predicate: id is not null (type: boolean) 
      Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
      Select Operator 
          expressions: id (type: int) 
          outputColumnNames: _col0 
          Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
          HashTable Sink Operator 
             keys: 
               0 _col0 (type: int) 
               1 _col0 (type: int) 
   ...

从所述結果能够见到 predicate: id is not null 那样一行，表明 join 的时候会全自动过虑掉关系字段名为 null 值的状况，但 left join 或 full join 是不容易全自动过虑的，大伙儿能够自主试着下。

2. group by 排序句子会开展排列吗?

看下面这条sql

 
  select id,max(user_name) from test1 group by id;

问：group by 排序句子会开展排列吗

立即看来 explain 以后結果 (为了更好地融入网页页面展现，仅提取了一部分輸出信息内容)

 
  TableScan 
     alias: test1 
     Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE 
     Select Operator 
         expressions: id (type: int), user_name (type: string) 
         outputColumnNames: id, user_name 
         Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE 
         Group By Operator 
            aggregations: max(user_name) 
            keys: id (type: int) 
            mode: hash 
            outputColumnNames: _col0, _col1 
            Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE 
            Reduce Output Operator 
              key expressions: _col0 (type: int) 
              sort order:   
              Map-reduce partition columns: _col0 (type: int) 
              Statistics: Num rows: 9 Data size: 108 Basic stats: COMPLETE Column stats: NONE 
              value expressions: _col1 (type: string) 
  ...

大家看 Group By Operator，里边有 keys: id (type: int) 表明依照 id 开展排序的，再往下看也有 sort order: ，表明是依照 id 字段名开展正序排列的。

3. 哪一条sql实行高效率呢?

观查两根sql语句

 
  SELECT 
      a.id, 
      b.user_name 
  FROM 
      test1 a 
  JOIN test2 b ON a.id = b.id 
  WHERE 
      a.id > 2; 
  SELECT 
      a.id, 
      b.user_name 
  FROM 
      (SELECT * FROM test1 WHERE id > 2) a 
  JOIN test2 b ON a.id = b.id;

这两根sql语句輸出的結果是一样的，可是哪一条sql实行高效率呢

有些人说第一条sql实行高效率，由于第二条sql有子查询，子查询会危害特性

有些人说第二条sql实行高效率，由于先过虑以后，在开展join时的总数降低了，因此实行高效率就高了

究竟哪一条sql高效率呢，大家立即在sql语句前边再加上 explain，看下执行计划不就知道嘛

在第一条sql语句前再加上 explain，获得以下結果

 
  hive (default)> explain select a.id,b.user_name from test1 a join test2 b on a.id=b.id where a.id >2; 
  OK 
  Explain 
  STAGE DEPENDENCIES: 
    Stage-4 is a root stage 
    Stage-3 depends on stages: Stage-4 
    Stage-0 depends on stages: Stage-3 
   
  STAGE PLANS: 
    Stage: Stage-4 
      Map Reduce Local Work 
        Alias -> Map Local Tables: 
          $hdt$_0:a 
            Fetch Operator 
              limit: -1 
        Alias -> Map Local Operator Tree: 
          $hdt$_0:a 
            TableScan 
              alias: a 
              Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
              Filter Operator 
                predicate: (id > 2) (type: boolean) 
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
                Select Operator 
                  expressions: id (type: int) 
                  outputColumnNames: _col0 
                  Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
                  HashTable Sink Operator 
                    keys: 
                      0 _col0 (type: int) 
                      1 _col0 (type: int) 
   
    Stage: Stage-3 
      Map Reduce 
        Map Operator Tree: 
            TableScan 
              alias: b 
              Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
              Filter Operator 
                predicate: (id > 2) (type: boolean) 
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
                Select Operator 
                  expressions: id (type: int), user_name (type: string) 
                  outputColumnNames: _col0, _col1 
                  Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
                  Map Join Operator 
                    condition map: 
                         Inner Join 0 to 1 
                    keys: 
                      0 _col0 (type: int) 
                      1 _col0 (type: int) 
                    outputColumnNames: _col0, _col2 
                    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE 
                    Select Operator 
                      expressions: _col0 (type: int), _col2 (type: string) 
                      outputColumnNames: _col0, _col1 
                      Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE 
                      File Output Operator 
                        compressed: false 
                        Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE 
                        table: 
                            input format: org.apache.hadoop.mapred.SequenceFileInputFormat 
                            output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat 
                            serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 
        Local Work: 
          Map Reduce Local Work 
   
    Stage: Stage-0 
      Fetch Operator 
        limit: -1 
        Processor Tree: 
          ListSink

在第二条sql语句前再加上 explain，获得以下結果

 
  hive (default)> explain select a.id,b.user_name from(select * from  test1 where id>2 ) a join test2 b on a.id=b.id; 
  OK 
  Explain 
  STAGE DEPENDENCIES: 
    Stage-4 is a root stage 
    Stage-3 depends on stages: Stage-4 
    Stage-0 depends on stages: Stage-3 
   
  STAGE PLANS: 
    Stage: Stage-4 
      Map Reduce Local Work 
        Alias -> Map Local Tables: 
          $hdt$_0:test1 
            Fetch Operator 
              limit: -1 
        Alias -> Map Local Operator Tree: 
          $hdt$_0:test1 
            TableScan 
              alias: test1 
              Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
              Filter Operator 
                predicate: (id > 2) (type: boolean) 
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
                Select Operator 
                  expressions: id (type: int) 
                  outputColumnNames: _col0 
                  Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
                  HashTable Sink Operator 
                    keys: 
                      0 _col0 (type: int) 
                      1 _col0 (type: int) 
   
    Stage: Stage-3 
      Map Reduce 
        Map Operator Tree: 
            TableScan 
              alias: b 
              Statistics: Num rows: 6 Data size: 75 Basic stats: COMPLETE Column stats: NONE 
              Filter Operator 
                predicate: (id > 2) (type: boolean) 
                Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
                Select Operator 
                  expressions: id (type: int), user_name (type: string) 
                  outputColumnNames: _col0, _col1 
                  Statistics: Num rows: 2 Data size: 25 Basic stats: COMPLETE Column stats: NONE 
                  Map Join Operator 
                    condition map: 
                         Inner Join 0 to 1 
                    keys: 
                      0 _col0 (type: int) 
                      1 _col0 (type: int) 
                    outputColumnNames: _col0, _col2 
                    Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE 
                    Select Operator 
                      expressions: _col0 (type: int), _col2 (type: string) 
                      outputColumnNames: _col0, _col1 
                      Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE 
                      File Output Operator 
                        compressed: false 
                        Statistics: Num rows: 2 Data size: 27 Basic stats: COMPLETE Column stats: NONE 
                        table: 
                            input format: org.apache.hadoop.mapred.SequenceFileInputFormat 
                            output format: org.apache.hadoop.hive.ql.io.HiveSequenceFileOutputFormat 
                            serde: org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe 
        Local Work: 
          Map Reduce Local Work 
   
    Stage: Stage-0 
      Fetch Operator 
        limit: -1 
        Processor Tree: 
          ListSink

大伙儿有哪些发觉，除开表别称不一样，别的的执行计划彻底一样，全是先开展 where 标准过虑，在开展 join 标准关系。表明 hive 最底层会全自动帮大家开展提升，因此这两根sql语句实行高效率是一样的。

最终

之上仅例举了3个大家生产制造中既了解又有点儿糊涂的事例，explain 也有许多别的的主要用途，如查询stage的依靠状况、清查数据倾斜、hive 调优评，朋友们能够自主试着。

the end

免责声明：本文不代表本站的观点和立场，如有侵权请联系本站删除！本站仅提供信息存储空间服务。

Hive底层原理：Explain执行计划详解

精选推荐

让 Flutter 在鸿蒙系统上跑起来

小冰一口气发布11个AI歌手：仅训练45天媲美专业级歌手

京东智能客服品牌焕新：“言犀”亮相2020京东JDD大会

AI改进建筑施工安全的十种方式

六项任务、多种数据类型，谷歌、DeepMind提出高效Transformer评估基准

第四范式NeurIPS 2020：知识图谱嵌入的自动化

随机推荐

Hive底层原理：Explain执行计划详解

精选推荐

让 Flutter 在鸿蒙系统上跑起来

小冰一口气发布11个AI歌手：仅训练45天 媲美专业级歌手

京东智能客服品牌焕新：“言犀”亮相2020京东JDD大会

AI改进建筑施工安全的十种方式

六项任务、多种数据类型，谷歌、DeepMind提出高效Transformer评估基准

第四范式NeurIPS 2020：知识图谱嵌入的自动化

随机推荐

小冰一口气发布11个AI歌手：仅训练45天媲美专业级歌手