对于MySQL 5.6以及之前的版本来说,查询优化器就像是一个黑盒子一样,你只能通过EXPLAIN语句查看到最后优化器决定使用的执行计划,却无法知道它为什么做这个决策。这对于一部分喜欢刨根问底的小伙伴来说简直是灾难:“我就觉得使用其他的执行方案比EXPLAIN输出的这种方案强,凭什么优化器做的决定和我想的不一样呢?”

    MySQL 5.6以及之后的版本中,设计MySQL的大叔贴心的为这部分小伙伴提出了一个optimizer trace的功能,这个功能可以让我们方便的查看优化器生成执行计划的整个过程,这个功能的开启与关闭由系统变量optimizer_trace决定,我们看一下:

    1. mysql> SHOW VARIABLES LIKE 'optimizer_trace';
    2. +-----------------+--------------------------+
    3. | Variable_name | Value |
    4. +-----------------+--------------------------+
    5. | optimizer_trace | enabled=off,one_line=off |
    6. +-----------------+--------------------------+
    7. 1 row in set (0.02 sec)

    可以看到enabled值为off,表明这个功能默认是关闭的。

    1. 小贴士:
    2. one_line的值是控制输出格式的,如果为on那么所有输出都将在一行中展示,不适合人阅读,所以我们就保持其默认值为off吧。

    如果想打开这个功能,必须首先把enabled的值改为on,就像这样:

    1. mysql> SET optimizer_trace="enabled=on";
    2. Query OK, 0 rows affected (0.00 sec)

    然后我们就可以输入我们想要查看优化过程的查询语句,当该查询语句执行完成后,就可以到information_schema数据库下的OPTIMIZER_TRACE表中查看完整的优化过程。这个OPTIMIZER_TRACE表有4个列,分别是:

    • QUERY:表示我们的查询语句。

    • TRACE:表示优化过程的JSON格式文本。

    • MISSING_BYTES_BEYOND_MAX_MEM_SIZE:由于优化过程可能会输出很多,如果超过某个限制时,多余的文本将不会被显示,这个字段展示了被忽略的文本字节数。

    • INSUFFICIENT_PRIVILEGES:表示是否没有权限查看优化过程,默认值是0,只有某些特殊情况下才会是1,我们暂时不关心这个字段的值。

    完整的使用optimizer trace功能的步骤总结如下:

    1. # 1. 打开optimizer trace功能 (默认情况下它是关闭的):
    2. SET optimizer_trace="enabled=on";
    3. # 2. 这里输入你自己的查询语句
    4. SELECT ...;
    5. # 3. 从OPTIMIZER_TRACE表中查看上一个查询的优化过程
    6. SELECT * FROM information_schema.OPTIMIZER_TRACE;
    7. # 4. 可能你还要观察其他语句执行的优化过程,重复上边的第2、3步
    8. ...
    9. # 5. 当你停止查看语句的优化过程时,把optimizer trace功能关闭
    10. SET optimizer_trace="enabled=off";

    现在我们有一个搜索条件比较多的查询语句,它的执行计划如下:

    1. mysql> EXPLAIN SELECT * FROM s1 WHERE
    2. -> key1 > 'z' AND
    3. -> key2 < 1000000 AND
    4. -> key3 IN ('a', 'b', 'c') AND
    5. -> common_field = 'abc';
    6. +----+-------------+-------+------------+-------+----------------------------+----------+---------+------+------+----------+------------------------------------+
    7. | id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
    8. +----+-------------+-------+------------+-------+----------------------------+----------+---------+------+------+----------+------------------------------------+
    9. | 1 | SIMPLE | s1 | NULL | range | idx_key2,idx_key1,idx_key3 | idx_key2 | 5 | NULL | 12 | 0.42 | Using index condition; Using where |
    10. +----+-------------+-------+------------+-------+----------------------------+----------+---------+------+------+----------+------------------------------------+
    11. 1 row in set, 1 warning (0.00 sec)

    可以看到该查询可能使用到的索引有3个,那么为什么优化器最终选择了idx_key2而不选择其他的索引或者直接全表扫描呢?这时候就可以通过otpimzer trace功能来查看优化器的具体工作过程:

    1. SET optimizer_trace="enabled=on";
    2. SELECT * FROM s1 WHERE
    3. key1 > 'z' AND
    4. key2 < 1000000 AND
    5. key3 IN ('a', 'b', 'c') AND
    6. common_field = 'abc';
    7. SELECT * FROM information_schema.OPTIMIZER_TRACE\G

    我们直接看一下通过查询OPTIMIZER_TRACE表得到的输出(我使用#后跟随注释的形式为大家解释了优化过程中的一些比较重要的点,大家重点关注一下):

    1. *************************** 1. row ***************************
    2. # 分析的查询语句是什么
    3. QUERY: SELECT * FROM s1 WHERE
    4. key1 > 'z' AND
    5. key2 < 1000000 AND
    6. key3 IN ('a', 'b', 'c') AND
    7. common_field = 'abc'
    8. # 优化的具体过程
    9. TRACE: {
    10. "steps": [
    11. {
    12. "join_preparation": { # prepare阶段
    13. "select#": 1,
    14. "steps": [
    15. {
    16. "IN_uses_bisection": true
    17. },
    18. {
    19. "expanded_query": "/* select#1 */ select `s1`.`id` AS `id`,`s1`.`key1` AS `key1`,`s1`.`key2` AS `key2`,`s1`.`key3` AS `key3`,`s1`.`key_part1` AS `key_part1`,`s1`.`key_part2` AS `key_part2`,`s1`.`key_part3` AS `key_part3`,`s1`.`common_field` AS `common_field` from `s1` where ((`s1`.`key1` > 'z') and (`s1`.`key2` < 1000000) and (`s1`.`key3` in ('a','b','c')) and (`s1`.`common_field` = 'abc'))"
    20. }
    21. ] /* steps */
    22. } /* join_preparation */
    23. },
    24. {
    25. "join_optimization": { # optimize阶段
    26. "select#": 1,
    27. "steps": [
    28. {
    29. "condition_processing": { # 处理搜索条件
    30. "condition": "WHERE",
    31. # 原始搜索条件
    32. "original_condition": "((`s1`.`key1` > 'z') and (`s1`.`key2` < 1000000) and (`s1`.`key3` in ('a','b','c')) and (`s1`.`common_field` = 'abc'))",
    33. "steps": [
    34. {
    35. # 等值传递转换
    36. "transformation": "equality_propagation",
    37. "resulting_condition": "((`s1`.`key1` > 'z') and (`s1`.`key2` < 1000000) and (`s1`.`key3` in ('a','b','c')) and (`s1`.`common_field` = 'abc'))"
    38. },
    39. {
    40. # 常量传递转换
    41. "transformation": "constant_propagation",
    42. "resulting_condition": "((`s1`.`key1` > 'z') and (`s1`.`key2` < 1000000) and (`s1`.`key3` in ('a','b','c')) and (`s1`.`common_field` = 'abc'))"
    43. },
    44. {
    45. # 去除没用的条件
    46. "transformation": "trivial_condition_removal",
    47. "resulting_condition": "((`s1`.`key1` > 'z') and (`s1`.`key2` < 1000000) and (`s1`.`key3` in ('a','b','c')) and (`s1`.`common_field` = 'abc'))"
    48. }
    49. ] /* steps */
    50. } /* condition_processing */
    51. },
    52. {
    53. # 替换虚拟生成列
    54. "substitute_generated_columns": {
    55. } /* substitute_generated_columns */
    56. },
    57. {
    58. # 表的依赖信息
    59. "table_dependencies": [
    60. {
    61. "table": "`s1`",
    62. "row_may_be_null": false,
    63. "map_bit": 0,
    64. "depends_on_map_bits": [
    65. ] /* depends_on_map_bits */
    66. }
    67. ] /* table_dependencies */
    68. },
    69. {
    70. "ref_optimizer_key_uses": [
    71. ] /* ref_optimizer_key_uses */
    72. },
    73. {
    74. # 预估不同单表访问方法的访问成本
    75. "rows_estimation": [
    76. {
    77. "table": "`s1`",
    78. "range_analysis": {
    79. "table_scan": { # 全表扫描的行数以及成本
    80. "rows": 9688,
    81. "cost": 2036.7
    82. } /* table_scan */,
    83. # 分析可能使用的索引
    84. "potential_range_indexes": [
    85. {
    86. "index": "PRIMARY", # 主键不可用
    87. "usable": false,
    88. "cause": "not_applicable"
    89. },
    90. {
    91. "index": "idx_key2", # idx_key2可能被使用
    92. "usable": true,
    93. "key_parts": [
    94. "key2"
    95. ] /* key_parts */
    96. },
    97. {
    98. "index": "idx_key1", # idx_key1可能被使用
    99. "usable": true,
    100. "key_parts": [
    101. "key1",
    102. "id"
    103. ] /* key_parts */
    104. },
    105. {
    106. "index": "idx_key3", # idx_key3可能被使用
    107. "usable": true,
    108. "key_parts": [
    109. "key3",
    110. "id"
    111. ] /* key_parts */
    112. },
    113. {
    114. "index": "idx_key_part", # idx_keypart不可用
    115. "usable": false,
    116. "cause": "not_applicable"
    117. }
    118. ] /* potential_range_indexes */,
    119. "setup_range_conditions": [
    120. ] /* setup_range_conditions */,
    121. "group_index_range": {
    122. "chosen": false,
    123. "cause": "not_group_by_or_distinct"
    124. } /* group_index_range */,
    125. # 分析各种可能使用的索引的成本
    126. "analyzing_range_alternatives": {
    127. "range_scan_alternatives": [
    128. {
    129. # 使用idx_key2的成本分析
    130. "index": "idx_key2",
    131. # 使用idx_key2的范围区间
    132. "ranges": [
    133. "NULL < key2 < 1000000"
    134. ] /* ranges */,
    135. "index_dives_for_eq_ranges": true, # 是否使用index dive
    136. "rowid_ordered": false, # 使用该索引获取的记录是否按照主键排序
    137. "using_mrr": false, # 是否使用mrr
    138. "index_only": false, # 是否是索引覆盖访问
    139. "rows": 12, # 使用该索引获取的记录条数
    140. "cost": 15.41, # 使用该索引的成本
    141. "chosen": true # 是否选择该索引
    142. },
    143. {
    144. # 使用idx_key1的成本分析
    145. "index": "idx_key1",
    146. # 使用idx_key1的范围区间
    147. "ranges": [
    148. "z < key1"
    149. ] /* ranges */,
    150. "index_dives_for_eq_ranges": true, # 同上
    151. "rowid_ordered": false, # 同上
    152. "using_mrr": false, # 同上
    153. "index_only": false, # 同上
    154. "rows": 266, # 同上
    155. "cost": 320.21, # 同上
    156. "chosen": false, # 同上
    157. "cause": "cost" # 因为成本太大所以不选择该索引
    158. },
    159. {
    160. # 使用idx_key3的成本分析
    161. "index": "idx_key3",
    162. # 使用idx_key3的范围区间
    163. "ranges": [
    164. "a <= key3 <= a",
    165. "b <= key3 <= b",
    166. "c <= key3 <= c"
    167. ] /* ranges */,
    168. "index_dives_for_eq_ranges": true, # 同上
    169. "rowid_ordered": false, # 同上
    170. "using_mrr": false, # 同上
    171. "index_only": false, # 同上
    172. "rows": 21, # 同上
    173. "cost": 28.21, # 同上
    174. "chosen": false, # 同上
    175. "cause": "cost" # 同上
    176. }
    177. ] /* range_scan_alternatives */,
    178. # 分析使用索引合并的成本
    179. "analyzing_roworder_intersect": {
    180. "usable": false,
    181. "cause": "too_few_roworder_scans"
    182. } /* analyzing_roworder_intersect */
    183. } /* analyzing_range_alternatives */,
    184. # 对于上述单表查询s1最优的访问方法
    185. "chosen_range_access_summary": {
    186. "range_access_plan": {
    187. "type": "range_scan",
    188. "index": "idx_key2",
    189. "rows": 12,
    190. "ranges": [
    191. "NULL < key2 < 1000000"
    192. ] /* ranges */
    193. } /* range_access_plan */,
    194. "rows_for_plan": 12,
    195. "cost_for_plan": 15.41,
    196. "chosen": true
    197. } /* chosen_range_access_summary */
    198. } /* range_analysis */
    199. }
    200. ] /* rows_estimation */
    201. },
    202. {
    203. # 分析各种可能的执行计划
    204. #(对多表查询这可能有很多种不同的方案,单表查询的方案上边已经分析过了,直接选取idx_key2就好)
    205. "considered_execution_plans": [
    206. {
    207. "plan_prefix": [
    208. ] /* plan_prefix */,
    209. "table": "`s1`",
    210. "best_access_path": {
    211. "considered_access_paths": [
    212. {
    213. "rows_to_scan": 12,
    214. "access_type": "range",
    215. "range_details": {
    216. "used_index": "idx_key2"
    217. } /* range_details */,
    218. "resulting_rows": 12,
    219. "cost": 17.81,
    220. "chosen": true
    221. }
    222. ] /* considered_access_paths */
    223. } /* best_access_path */,
    224. "condition_filtering_pct": 100,
    225. "rows_for_plan": 12,
    226. "cost_for_plan": 17.81,
    227. "chosen": true
    228. }
    229. ] /* considered_execution_plans */
    230. },
    231. {
    232. # 尝试给查询添加一些其他的查询条件
    233. "attaching_conditions_to_tables": {
    234. "original_condition": "((`s1`.`key1` > 'z') and (`s1`.`key2` < 1000000) and (`s1`.`key3` in ('a','b','c')) and (`s1`.`common_field` = 'abc'))",
    235. "attached_conditions_computation": [
    236. ] /* attached_conditions_computation */,
    237. "attached_conditions_summary": [
    238. {
    239. "table": "`s1`",
    240. "attached": "((`s1`.`key1` > 'z') and (`s1`.`key2` < 1000000) and (`s1`.`key3` in ('a','b','c')) and (`s1`.`common_field` = 'abc'))"
    241. }
    242. ] /* attached_conditions_summary */
    243. } /* attaching_conditions_to_tables */
    244. },
    245. {
    246. # 再稍稍的改进一下执行计划
    247. "refine_plan": [
    248. {
    249. "table": "`s1`",
    250. "pushed_index_condition": "(`s1`.`key2` < 1000000)",
    251. "table_condition_attached": "((`s1`.`key1` > 'z') and (`s1`.`key3` in ('a','b','c')) and (`s1`.`common_field` = 'abc'))"
    252. }
    253. ] /* refine_plan */
    254. }
    255. ] /* steps */
    256. } /* join_optimization */
    257. },
    258. {
    259. "join_execution": { # execute阶段
    260. "select#": 1,
    261. "steps": [
    262. ] /* steps */
    263. } /* join_execution */
    264. }
    265. ] /* steps */
    266. }
    267. # 因优化过程文本太多而丢弃的文本字节大小,值为0时表示并没有丢弃
    268. MISSING_BYTES_BEYOND_MAX_MEM_SIZE: 0
    269. # 权限字段
    270. INSUFFICIENT_PRIVILEGES: 0
    271. 1 row in set (0.00 sec)

    大家看到这个输出的第一感觉就是这文本也太多了点儿吧,其实这只是优化器执行过程中的一小部分,设计MySQL的大叔可能会在之后的版本中添加更多的优化过程信息。不过杂乱之中其实还是蛮有规律的,优化过程大致分为了三个阶段:

    • prepare阶段

    • optimize阶段

    • execute阶段

    我们所说的基于成本的优化主要集中在optimize阶段,对于单表查询来说,我们主要关注optimize阶段的"rows_estimation"这个过程,这个过程深入分析了对单表查询的各种执行方案的成本;对于多表连接查询来说,我们更多需要关注"considered_execution_plans"这个过程,这个过程里会写明各种不同的连接方式所对应的成本。反正优化器最终会选择成本最低的那种方案来作为最终的执行计划,也就是我们使用EXPLAIN语句所展现出的那种方案。

    如果有小伙伴对使用EXPLAIN语句展示出的对某个查询的执行计划很不理解,大家可以尝试使用optimizer trace功能来详细了解每一种执行方案对应的成本,相信这个功能能让大家更深入的了解MySQL查询优化器。