tencent cloud

文档反馈

窗口函数使用说明

最后更新时间:2024-12-17 16:43:12
    窗口函数也叫 OLAP 函数(Online Analytical Processing,联机分析处理),可以对数据进行实时分析处理,对于一个分析型数据库而言非常重要。
    只读分析引擎中窗口函数的使用方法与 MySQL 8.0 基本一致。但同时在 MySQL 5.7 版本中开启的只读分析引擎依然可以使用窗口函数与开窗语法。
    具体的开窗使用语法如下:
    SELECT
    <WindowFunction> OVER (PARTITION BY <expr_list> ORDER BY <expr_list> [ASC / DESC] [<WindowFrame>])
    FROM
    tb_test_window;
    SQL 示例:
    select studentid,departmentid,classid,math,
    row_number() over(partition by departmentid,classid order by math) as row_num
    from student_scores;
    此示例为:对分组 departmentid,classid 内的数据按 math 排序。

    WindowFrame

    Frame
    ROWS 场景
    RANGE 场景
    CURRENT ROW
    当前行。
    与当前行相同的所有行。
    UNBOUNDED PRECEDING
    到第一行。
    到第一行。
    UNBOUNDED
    FOLLOWING
    到最后一行。
    到最后一行。
    <N> PRECEDING
    前 N 行。
    到大于等于 OrderBy 列值减去<N>得到的值对应的行。
    <N> FOLLOWING
    后 N 行。
    到小于等于 OrderBy 列值加上<N>得到的值对应的行。
    ROWS | RANGE <Frame>。
    ROWS | RANGE BETWEEN <Frame> AND <Frame>。

    WindowFunction

    目前在开窗语法中支持使用的窗口函数如下表所示:
    函数名称
    功能描述
    函数参数
    支持类型
    ROW_NUMBER()
    对每个分区内数据标记行号。
    -
    -
    RANK()
    对每个分区内数据非密集型排序。
    -
    -
    DENSE_RANK()
    对每个分区内数据密集型排序。
    -
    -
    LEAD(<expr>,<offset>,<default>)
    计算当前行的后<offset>行的值,没有满足行则返回<default>。
    [必选] <expr>:计算列。
    所有类型(三参数除了 Time 类型)。
    [可选] <offset>:当前行向后偏移行,缺省为1。
    数值类型。
    [可选] <default>:不满足计算行默认返回值,缺省返回 NULL。
    与 <expr> 类型一致。
    LAG(<expr>,<offset>,<default>)
    计算当前行的前<offset>行的值,没有满足行则返回<default>。
    [必选] <expr>:计算列。
    所有类型(三参数除了 Time 类型)。
    [可选] <offset>:当前行向前偏移行,缺省为1。
    数值类型。
    [可选] <default>:不满足计算行默认返回值,缺省返回 NULL。
    与 <expr> 类型一致。
    FIRST_VALUE(<expr>)
    计算分区窗口内第一个值。
    [必选] <expr>:计算列。
    所有类型。
    LAST_VALUE(<expr>)
    计算分区窗口内最后一个值。
    [必选] <expr>:计算列。
    所有类型。
    MIN(<expr>)
    计算分区窗口OrderBy列最小值对应行的<expr>值。
    [必选] <expr>:计算列。
    所有类型。
    MAX(<expr>)
    计算分区窗口OrderBy列最大值对应行的<expr>值。
    [必选] <expr>:计算列。
    所有类型。
    COUNT(<expr>)
    计算分区窗口内数据总行数。
    [必选] <expr>:计算列。
    所有类型。
    SUM(<expr>)
    计算分区窗口内数据总和。
    [必选] <expr>:计算列。
    数值类型。
    AVG(<expr>)
    计算分区窗口内数据平均值。
    [必选] <expr>:计算列。
    数值类型。
    数值类型:int,bigint,float,double,decimal。
    字符类型:char,varchar。
    时间类型:date,time,datetime,timestamp。

    详细案例

    案例建表语句:
    drop table if exists test.tb_window;
    create table test.tb_window (c1 int not null primary key, c2 int, c3 int);
    create table test.tb_window (c1 Int32, c2 Nullable(Int32), c3 Nullable(Int32)) engine = LibraTree order by (c1);
    insert into test.tb_window values (1, 1, 1), (2, 1, 1), (3, 1, 2), (4, 1, 4), (5, 1, 6), (6, 1, 6);

    ROWS 关键字

    说明:
    该关键字是按照行统计窗口大小,并对窗口内数据进行计算。
    -- 案例语句
    mysql> select c2, c3, COUNT(c1) over (partition by c2 order by c3 ROWS BETWEEN CURRENT ROW AND 2 FOLLOWING) cn from test.tb_window;
    +----+----+----+
    | c2 | c3 | cn |
    +----+----+----+
    | 1 | 1 | 3 | -- 窗口行索引范围: current -> 之后2行 [0 ~ 2]
    | 1 | 1 | 3 | -- 窗口行索引范围: current -> 之后2行 [1 ~ 3]
    | 1 | 2 | 3 | -- 窗口行索引范围: current -> 之后2行 [2 ~ 4]
    | 1 | 4 | 3 | -- 窗口行索引范围: current -> 之后2行 [3 ~ 5]
    | 1 | 6 | 2 | -- 窗口行索引范围: current -> 之后1行 [4 ~ 5] (后边只有一行)
    | 1 | 6 | 1 | -- 窗口行索引范围: current (后边没有数据)
    +----+----+----+
    6 rows in set (0.06 sec)

    RANGE 关键字

    说明:
    该关键字是按照值统计窗口大小,并对窗口内数据进行计算,例如以下 SQL 案例是对 C3列当前行值加2后找到对应行位置,到当前行之间为一个窗口。
    -- 案例语句
    mysql> select c2, c3, COUNT(c1) over (partition by c2 order by c3 RANGE BETWEEN CURRENT ROW AND 2 FOLLOWING) cn from test.tb_window;
    +----+----+----+
    | c2 | c3 | cn |
    +----+----+----+
    | 1 | 1 | 3 | -- 窗口行索引范围: current -> 3对应的行索引之间的行数据 [0 ~ 2]
    | 1 | 1 | 3 |
    | 1 | 2 | 2 | -- 窗口行索引范围: current -> 4对应的行索引之间的行数据 [2 ~ 3]
    | 1 | 4 | 3 | -- 窗口行索引范围: current -> 6对应的行索引之间的行数据 [3 ~ 5]
    | 1 | 6 | 2 | -- 窗口行索引范围: current -> 8对应的行索引之间的行数据 [4 ~ 5]
    | 1 | 6 | 2 |
    +----+----+----+
    6 rows in set (0.06 sec)

    ROW_NUMBER

    说明:
    该函数是对分区内数据进行编号处理,该函数不受 <WindowFrame> 限制。
    -- 案例语句
    mysql> select c2, c3, ROW_NUMBER() over (partition by c2 order by c3) rn from test.tb_window;
    +----+----+------+
    | c2 | c3 | rn |
    +----+----+------+
    | 1 | 1 | 1 |
    | 1 | 1 | 2 |
    | 1 | 2 | 3 |
    | 1 | 4 | 4 |
    | 1 | 6 | 5 |
    | 1 | 6 | 6 |
    +----+----+------+
    6 rows in set (0.04 sec)

    RANK & DENSE_RANK

    RANK 函数:对分区内部数据进行非密集型排名,该函数不受 <WindowFrame> 限制。
    DESC_RANK函数:对分区内部数据进行密集型排名,该函数不受 <WindowFrame> 限制。
    -- 案例语句
    select
    c2, c3,
    RANK() over (partition by c2 order by c3) rk,
    DENSE_RANK() over (partition by c2 order by c3) drk
    from test.tb_window;
    +------+------+------+------+
    | c2 | c3 | rk | drk |
    +------+------+------+------+
    | 1 | 1 | 1 | 1 |
    | 1 | 1 | 1 | 1 |
    | 1 | 2 | 3 | 2 |
    | 1 | 4 | 4 | 3 |
    | 1 | 6 | 5 | 4 |
    | 1 | 6 | 5 | 4 |
    +------+------+------+------+
    6 rows in set (0.05 sec)

    LEAD & LAG

    一、1个参数场景

    LEAD(<expr>)函数:计算分区当前行的后一行数据,没有后一行默认补 NULL,该函数不受 <WindowFrame> 限制。
    LAG(<expr>)函数:计算分区当前行的前一行数据,没有前一行默认补 NULL,该函数不受 <WindowFrame> 限制。
    -- 案例语句
    mysql> select
    c2, c3,
    LEAD(c3) over (partition by c2 order by c3) ld,
    LAG(c3) over (partition by c2 order by c3) lg
    from test.tb_window;
    +------+------+------+------+
    | c2 | c3 | ld | lg |
    +------+------+------+------+
    | 1 | 1 | 1 | NULL |
    | 1 | 1 | 2 | 1 |
    | 1 | 2 | 4 | 1 |
    | 1 | 4 | 6 | 2 |
    | 1 | 6 | 6 | 4 |
    | 1 | 6 | NULL | 6 |
    +------+------+------+------+
    6 rows in set (0.11 sec)

    二、2个参数场景

    LEAD(<expr>, <offset>)函数:计算分区当前行的后 <offset> 行数据,没有后 <offset> 行默认补 NULL,该函数不受 <WindowFrame> 限制。
    LAG(<expr>, <offset>)函数:计算分区当前行的前 <offset> 行数据,没有前 <offset> 行默认补 NULL,该函数不受 <WindowFrame> 限制。
    -- 案例语句
    mysql> select
    c2, c3,
    LEAD(c3, 2) over (partition by c2 order by c3) ld,
    LAG(c3, 2) over (partition by c2 order by c3) lg
    from test.tb_window;
    +------+------+------+------+
    | c2 | c3 | ld | lg |
    +------+------+------+------+
    | 1 | 1 | 2 | NULL |
    | 1 | 1 | 4 | NULL |
    | 1 | 2 | 6 | 1 |
    | 1 | 4 | 6 | 1 |
    | 1 | 6 | NULL | 2 |
    | 1 | 6 | NULL | 4 |
    +------+------+------+------+
    6 rows in set (0.07 sec)

    三、3个参数场景

    LEAD(<expr>, <offset>, <default>>)函数:计算分区当前行的后 <offset> 行数据,没有后 <offset> 行补 <default>,该函数不受 <WindowFrame> 限制。
    LAG(<expr>, <offset>, <default>>)函数:计算分区当前行的前 <offset> 行数据,没有前 <offset> 行补 <default>,该函数不受 <WindowFrame> 限制。
    -- 案例语句
    mysql> select
    c2, c3,
    LEAD(c3, 2, 1000) over (partition by c2 order by c3) ld,
    LAG(c3, 2, 1000) over (partition by c2 order by c3) lg
    from test.tb_window;
    +------+------+------+------+
    | c2 | c3 | ld | lg |
    +------+------+------+------+
    | 1 | 1 | 2 | 1000 |
    | 1 | 1 | 4 | 1000 |
    | 1 | 2 | 6 | 1 |
    | 1 | 4 | 6 | 1 |
    | 1 | 6 | 1000 | 2 |
    | 1 | 6 | 1000 | 4 |
    +------+------+------+------+
    6 rows in set (0.10 sec)

    FIRST_VALUE & LAST_VALUE

    FIRST_VALUE(<expr>)函数:计算分区内窗口的第一个值(如果 OrderBy c3,且 c3列第一个值存在重复数据,那么 first_value(c4),场景结果可能是不稳定结果)。
    LAST_VALUE(<expr>)函数:计算分区内窗口的最后一个值(如果 OrderBy c3,且 c3列最后一个值存在重复数据,那么 first_value(c4),场景结果可能是不稳定结果)。
    -- 案例语句
    mysql> select
    c2, c3,
    FIRST_VALUE(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) fv,
    LAST_VALUE(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) lv
    from test.tb_window;
    +------+------+------+------+
    | c2 | c3 | fv | lv |
    +------+------+------+------+
    | 1 | 1 | 1 | 6 |
    | 1 | 1 | 1 | 6 |
    | 1 | 2 | 1 | 6 |
    | 1 | 4 | 1 | 6 |
    | 1 | 6 | 1 | 6 |
    | 1 | 6 | 1 | 6 |
    +------+------+------+------+
    6 rows in set (0.07 sec)

    MIN & MAX

    MIN(<expr>)函数:计算分区内窗口的最小值。
    MAX(<expr>)函数:计算分区内窗口的最大值。
    -- 案例语句
    mysql> select
    c2, c3,
    MIN(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) mi,
    MAX(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) ma
    from test.tb_window;
    +------+------+------+------+
    | c2 | c3 | mi | ma |
    +------+------+------+------+
    | 1 | 1 | 1 | 6 |
    | 1 | 1 | 1 | 6 |
    | 1 | 2 | 1 | 6 |
    | 1 | 4 | 1 | 6 |
    | 1 | 6 | 1 | 6 |
    | 1 | 6 | 1 | 6 |
    +------+------+------+------+
    6 rows in set (0.07 sec)

    COUNT

    说明:
    计算分区内窗口的数据总行数。
    -- 案例语句
    mysql> select c2, c3, COUNT(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) c from test.tb_window;
    +------+------+----+
    | c2 | c3 | c |
    +------+------+----+
    | 1 | 1 | 6 |
    | 1 | 1 | 6 |
    | 1 | 2 | 6 |
    | 1 | 4 | 6 |
    | 1 | 6 | 6 |
    | 1 | 6 | 6 |
    +------+------+----+
    6 rows in set (0.04 sec)

    SUM

    说明:
    计算分区内窗口的数据总和。
    -- 案例语句
    mysql> select c2, c3, SUM(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) s from test.tb_window;
    +------+------+------+
    | c2 | c3 | s |
    +------+------+------+
    | 1 | 1 | 20 |
    | 1 | 1 | 20 |
    | 1 | 2 | 20 |
    | 1 | 4 | 20 |
    | 1 | 6 | 20 |
    | 1 | 6 | 20 |
    +------+------+------+
    6 rows in set (0.06 sec)

    AVG

    说明:
    计算分区内窗口的数据平均值。
    -- 案例语句
    mysql> select c2, c3, AVG(c3) over (partition by c2 order by c3 ROWS BETWEEN UNBOUNDED PRECEDING AND UNBOUNDED FOLLOWING) a from test.tb_window;
    +------+------+--------+
    | c2 | c3 | a |
    +------+------+--------+
    | 1 | 1 | 3.3333 |
    | 1 | 1 | 3.3333 |
    | 1 | 2 | 3.3333 |
    | 1 | 4 | 3.3333 |
    | 1 | 6 | 3.3333 |
    | 1 | 6 | 3.3333 |
    +------+------+--------+
    6 rows in set (0.06 sec)
    
    联系我们

    联系我们,为您的业务提供专属服务。

    技术支持

    如果你想寻求进一步的帮助,通过工单与我们进行联络。我们提供7x24的工单服务。

    7x24 电话支持