@arizeai/phoenix-mcp

Official

Overview Schema Related Servers Score Discussions

test_binning.py•11.6 KiB

import math
from dataclasses import MISSING
from typing import Any

import numpy as np
import pandas as pd
import pytest
from numpy.testing import assert_almost_equal
from pandas.testing import assert_series_equal

from phoenix.core.model_schema import Column
from phoenix.metrics import Metric, binning
from phoenix.metrics.metrics import Count, CountNotNull, Max


def test_additive_smoothing() -> None:
    np.random.seed(12345)
    x_index, y_index = np.random.rand(7), np.random.rand(7)
    counts = (
        pd.Series([0, 1, 2, 3, 0, 0, 0], name="x", index=x_index, dtype=int),
        pd.Series([0, 0, 0, 3, 2, 1, 0], name="y", index=y_index, dtype=int),
    )

    for i, (desired_result, actual_result) in enumerate(
        zip(
            (
                pd.Series(
                    [0.0769, 0.1538, 0.2308, 0.3077, 0.0769, 0.0769, 0.0769],
                    name="x",
                    index=x_index,
                    dtype=float,
                ),
                pd.Series(
                    [0.0769, 0.0769, 0.0769, 0.3077, 0.2308, 0.1538, 0.0769],
                    name="y",
                    index=y_index,
                    dtype=float,
                ),
            ),
            map(binning.AdditiveSmoothing(pseudocount=1), counts),
        )
    ):
        assert_almost_equal(actual_result.sum(), 1, err_msg=f"i={i}")
        assert_series_equal(actual_result.round(4), desired_result)

    for i, (desired_result, actual_result) in enumerate(
        zip(
            (
                pd.Series(
                    [0.0149, 0.1642, 0.3134, 0.4627, 0.0149, 0.0149, 0.0149],
                    name="x",
                    index=x_index,
                    dtype=float,
                ),
                pd.Series(
                    [0.0149, 0.0149, 0.0149, 0.4627, 0.3134, 0.1642, 0.0149],
                    name="y",
                    index=y_index,
                    dtype=float,
                ),
            ),
            map(binning.AdditiveSmoothing(pseudocount=0.1), counts),
        )
    ):
        assert_almost_equal(actual_result.sum(), 1, err_msg=f"i={i}")
        assert_series_equal(actual_result.round(4), desired_result)

    for i, (desired_result, actual_result) in enumerate(
        zip(
            (
                pd.Series(
                    [0, 0.1667, 0.3333, 0.5, 0, 0, 0],
                    name="x",
                    index=x_index,
                    dtype=float,
                ),
                pd.Series(
                    [0, 0, 0, 0.5, 0.3333, 0.1667, 0],
                    name="y",
                    index=y_index,
                    dtype=float,
                ),
            ),
            map(binning.AdditiveSmoothing(pseudocount=0), counts),
        )
    ):
        assert_almost_equal(actual_result.sum(), 1, err_msg=f"i={i}")
        assert_series_equal(actual_result.round(4), desired_result)


data = pd.Series([-1, 0, 1, 2, 3, None, ""], dtype=object)


def test_categorical_binning() -> None:
    assert_series_equal(
        binning.CategoricalBinning().histogram(data),
        data.value_counts(dropna=False),
    )
    assert_series_equal(
        binning.CategoricalBinning(dropna=True).histogram(data),
        data.value_counts(),
    )


def test_interval_binning() -> None:
    bins = pd.IntervalIndex(
        (
            pd.Interval(-np.inf, 1.0, closed="left"),
            pd.Interval(1.0, 2.0, closed="left"),
            pd.Interval(2.0, np.inf, closed="left"),
        )
    )

    assert_series_equal(
        binning.IntervalBinning(bins=bins).histogram(data),
        pd.cut(data, bins).value_counts(dropna=False),
    )
    assert_series_equal(
        binning.IntervalBinning(bins=bins, dropna=True).histogram(data),
        pd.cut(data, bins).value_counts(),
    )


def test_quantile_binning() -> None:
    prob = (0.25, 0.5, 0.75)
    bins = pd.IntervalIndex(
        (
            pd.Interval(-np.inf, 0.0, closed="left"),
            pd.Interval(0.0, 1.0, closed="left"),
            pd.Interval(1.0, 2.0, closed="left"),
            pd.Interval(2.0, np.inf, closed="left"),
        )
    )
    assert_series_equal(
        binning.QuantileBinning(probabilities=prob).histogram(data),
        pd.cut(data, bins).value_counts(dropna=False),
    )
    assert_series_equal(
        binning.QuantileBinning(probabilities=prob, dropna=True).histogram(data),
        pd.cut(data, bins).value_counts(),
    )


def test_quantile_binning_reference_bins_adherence() -> None:
    method = binning.QuantileBinning(
        reference_series=data,
        probabilities=(0.25, 0.5, 0.75),
        dropna=True,
    )
    assert (bins := method.bins) is not None
    new_data = pd.Series(range(2001)) - 1000
    hist = method.histogram(new_data)
    diff = hist.index.difference(bins)
    assert hist.sum() == len(new_data)
    assert diff.empty


@pytest.mark.parametrize("dropna", [(True,), (False,)])
def test_quantile_binning_dropna_adherence(dropna: bool) -> None:
    method = binning.QuantileBinning(
        reference_series=data,
        probabilities=(0.25, 0.5, 0.75),
        dropna=dropna,
    )
    new_data = pd.Series([None])
    hist = method.histogram(new_data)
    assert (method_bins := method.bins) is not None
    diff = hist.index.difference(method_bins.tolist())
    if dropna:
        assert hist.sum() == 0
        assert diff.empty
    else:
        assert hist.sum() == len(new_data)
        assert diff.size == 1
        assert math.isnan(diff[0])


@pytest.mark.parametrize(
    "metrics,desired_values,dropna",
    [
        ((), [], False),
        ((), [], True),
        ((Count(),), [[12, 5, 1]], False),
        ((Count(),), [[5, 1]], True),
        ((CountNotNull(Column("x")),), [[6, 4, 0]], False),
        ((CountNotNull(Column("x")),), [[4, 0]], True),
        ((CountNotNull(Column()),), [[0] * 3], False),
        ((CountNotNull(Column()),), [[0] * 2], True),
        (
            (
                Max(Column("x")),
                Max(Column()),
                Max(Column("x2")),
                Max(Column("x")),
            ),
            [
                [7.0, 6.0, np.nan],
                [np.nan] * 3,
                [14.0, 12.0, np.nan],
                [7.0, 6.0, np.nan],
            ],
            False,
        ),
        (
            (
                Max(Column("x2")),
                Max(Column()),
                Max(Column("x")),
                Max(Column("x2")),
            ),
            [
                [12.0, np.nan],
                [np.nan] * 2,
                [6.0, np.nan],
                [12.0, np.nan],
            ],
            True,
        ),
    ],
)
def test_segmented_summary_with_interval_binning(
    metrics: tuple[Metric],
    desired_values: list[list[Any]],
    dropna: bool,
) -> None:
    df = pd.DataFrame(
        [
            [np.nan, np.nan],
            [None, -1],
            [pd.NA, -np.inf],  # infinities are not null
            [pd.NaT, np.nan],
            [MISSING, np.nan],  # MISSING is not null
            [-4, 5],
            [-3, np.nan],
            [-2, 1],
            [0.1, 0],
            [1, 4],
            [" 1 ", 6],  # " 1 " is same as 1 due to numeric coercion
            [1.1, np.nan],
            [2, 2],
            [" 2 ", 3],
            ["", np.nan],  # "" is same as NaN due to numeric coercion
            ["nan", np.nan],
            [np.inf, 7],
            [-np.inf, np.nan],
        ],
        columns=["by", "x"],
    )
    df["x2"] = df["x"] * 2
    df["x3"] = df["x"] * 3  # should not be summarized
    bins = pd.IntervalIndex(
        (
            pd.Interval(-2, 2, closed="left"),
            pd.Interval(100, 200, closed="left"),  # not found in data
            pd.Interval(-np.inf, -200, closed="left"),
        ),
    )
    binning_method = binning.IntervalBinning(
        bins=bins,
        dropna=dropna,
    )
    actual = binning_method.segmented_summary(
        Column("by"),
        df.sample(len(df)),
        metrics,
    )
    desired = pd.DataFrame(
        dict(zip((m.id() for m in metrics), desired_values)),
    ).set_axis(
        pd.CategoricalIndex(
            ([] if dropna else [np.nan])
            + [
                pd.Interval(-2, 2, closed="left"),
                pd.Interval(-np.inf, -200, closed="left"),
            ],
            categories=bins,
            ordered=True,
        ),
        axis=0,
    )
    _compare_summaries(metrics, actual, desired)


@pytest.mark.parametrize(
    "metrics,desired_values,dropna",
    [
        ((), [], False),
        ((), [], True),
        ((Count(),), [[4, 1, 2, 3, 1, 4, 1, 1]], False),
        ((Count(),), [[1, 2, 3, 1, 4, 1, 1]], True),
        ((CountNotNull(Column("x")),), [[4, 1, 2, 2, 0, 3, 0, 1]], False),
        ((CountNotNull(Column("x")),), [[1, 2, 2, 0, 3, 0, 1]], True),
        ((CountNotNull(Column()),), [[0] * 8], False),
        ((CountNotNull(Column()),), [[0] * 7], True),
        (
            (
                Max(Column("x")),
                Max(Column()),
                Max(Column("x2")),
                Max(Column("x")),
            ),
            [
                [-2, -1, 0, 1, np.nan, 2, np.nan, 3],
                [np.nan] * 8,
                [-4, -2, 0, 2, np.nan, 4, np.nan, 6],
                [-2, -1, 0, 1, np.nan, 2, np.nan, 3],
            ],
            False,
        ),
        (
            (
                Max(Column("x2")),
                Max(Column()),
                Max(Column("x")),
                Max(Column("x2")),
            ),
            [
                [-2, 0, 2, np.nan, 4, np.nan, 6],
                [np.nan] * 7,
                [-1, 0, 1, np.nan, 2, np.nan, 3],
                [-2, 0, 2, np.nan, 4, np.nan, 6],
            ],
            True,
        ),
    ],
)
def test_segmented_summary_with_categorical_binning(
    metrics: tuple[Metric],
    desired_values: list[list[Any]],
    dropna: bool,
) -> None:
    df = pd.DataFrame(
        [
            [np.nan, -2],
            [pd.NA, -3],
            [pd.NaT, -4],
            [None, -5],
            [MISSING, -1],  # MISSING is not null
            [0.1, 0],
            [0.1, 0],
            [1, 1],
            [1, 1],
            [1, np.nan],
            ["", np.nan],
            ["1", 2],  # "1" differs from 1
            ["1", -np.inf],  # infinities are not null
            ["1", 2],
            ["1", np.nan],
            ["nan", np.nan],
            [-np.inf, 3],
        ],
        columns=["by", "x"],
    )
    df["x2"] = df["x"] * 2
    df["x3"] = df["x"] * 3  # should not be summarized
    binning_method = binning.CategoricalBinning(
        dropna=dropna,
    )
    actual = binning_method.segmented_summary(
        Column("by"),
        df.sample(len(df)),
        metrics,
    )
    desired = pd.DataFrame(
        dict(zip((m.id() for m in metrics), desired_values)),
    ).set_axis(
        pd.CategoricalIndex(
            ([] if dropna else [np.nan]) + [MISSING, 0.1, 1, "", "1", "nan", -np.inf],
            ordered=False,
        ),
        axis=0,
    )
    _compare_summaries(metrics, actual, desired)


def _compare_summaries(
    metrics: tuple[Metric],
    actual: pd.DataFrame,
    desired: pd.DataFrame,
) -> None:
    assert_almost_equal(len(actual), len(desired))
    assert_almost_equal(actual.size, desired.size)
    for idx in desired.index.union(actual.index):
        results = []
        for summary in (actual, desired):
            try:
                results.append(summary.loc[idx])
            except KeyError:
                results.append({})
        for metric in metrics:
            actual_value, desired_value = map(metric.get_value, results)
            assert_almost_equal(
                actual_value,
                desired_value,
                err_msg=f"{repr(idx)}:{repr(metric)}",
            )

Loading blob content...

Latest Blog Posts

Redis vs ioredis vs valkey-glide
By punkpeye on January 26, 2026.
benchmark
Redis
valkey
Quickstart: Publish an MCP Server to the MCP Registry
By punkpeye on January 24, 2026.
mcp
official reference mirror
Official MCP Registry Server.json Requirements
By punkpeye on January 24, 2026.
mcp
official reference mirror

MCP directory API

We provide all the information about MCP servers via our MCP API.

curl -X GET 'https://glama.ai/api/mcp/v1/servers/Arize-ai/phoenix'

If you have feedback or need assistance with the MCP directory API, please join our Discord server

test_binning.py•11.6 KiB

import math
from dataclasses import MISSING
from typing import Any

import numpy as np
import pandas as pd
import pytest
from numpy.testing import assert_almost_equal
from pandas.testing import assert_series_equal

from phoenix.core.model_schema import Column
from phoenix.metrics import Metric, binning
from phoenix.metrics.metrics import Count, CountNotNull, Max


def test_additive_smoothing() -> None:
    np.random.seed(12345)
    x_index, y_index = np.random.rand(7), np.random.rand(7)
    counts = (
        pd.Series([0, 1, 2, 3, 0, 0, 0], name="x", index=x_index, dtype=int),
        pd.Series([0, 0, 0, 3, 2, 1, 0], name="y", index=y_index, dtype=int),
    )

    for i, (desired_result, actual_result) in enumerate(
        zip(
            (
                pd.Series(
                    [0.0769, 0.1538, 0.2308, 0.3077, 0.0769, 0.0769, 0.0769],
                    name="x",
                    index=x_index,
                    dtype=float,
                ),
                pd.Series(
                    [0.0769, 0.0769, 0.0769, 0.3077, 0.2308, 0.1538, 0.0769],
                    name="y",
                    index=y_index,
                    dtype=float,
                ),
            ),
            map(binning.AdditiveSmoothing(pseudocount=1), counts),
        )
    ):
        assert_almost_equal(actual_result.sum(), 1, err_msg=f"i={i}")
        assert_series_equal(actual_result.round(4), desired_result)

    for i, (desired_result, actual_result) in enumerate(
        zip(
            (
                pd.Series(
                    [0.0149, 0.1642, 0.3134, 0.4627, 0.0149, 0.0149, 0.0149],
                    name="x",
                    index=x_index,
                    dtype=float,
                ),
                pd.Series(
                    [0.0149, 0.0149, 0.0149, 0.4627, 0.3134, 0.1642, 0.0149],
                    name="y",
                    index=y_index,
                    dtype=float,
                ),
            ),
            map(binning.AdditiveSmoothing(pseudocount=0.1), counts),
        )
    ):
        assert_almost_equal(actual_result.sum(), 1, err_msg=f"i={i}")
        assert_series_equal(actual_result.round(4), desired_result)

    for i, (desired_result, actual_result) in enumerate(
        zip(
            (
                pd.Series(
                    [0, 0.1667, 0.3333, 0.5, 0, 0, 0],
                    name="x",
                    index=x_index,
                    dtype=float,
                ),
                pd.Series(
                    [0, 0, 0, 0.5, 0.3333, 0.1667, 0],
                    name="y",
                    index=y_index,
                    dtype=float,
                ),
            ),
            map(binning.AdditiveSmoothing(pseudocount=0), counts),
        )
    ):
        assert_almost_equal(actual_result.sum(), 1, err_msg=f"i={i}")
        assert_series_equal(actual_result.round(4), desired_result)


data = pd.Series([-1, 0, 1, 2, 3, None, ""], dtype=object)


def test_categorical_binning() -> None:
    assert_series_equal(
        binning.CategoricalBinning().histogram(data),
        data.value_counts(dropna=False),
    )
    assert_series_equal(
        binning.CategoricalBinning(dropna=True).histogram(data),
        data.value_counts(),
    )


def test_interval_binning() -> None:
    bins = pd.IntervalIndex(
        (
            pd.Interval(-np.inf, 1.0, closed="left"),
            pd.Interval(1.0, 2.0, closed="left"),
            pd.Interval(2.0, np.inf, closed="left"),
        )
    )

    assert_series_equal(
        binning.IntervalBinning(bins=bins).histogram(data),
        pd.cut(data, bins).value_counts(dropna=False),
    )
    assert_series_equal(
        binning.IntervalBinning(bins=bins, dropna=True).histogram(data),
        pd.cut(data, bins).value_counts(),
    )


def test_quantile_binning() -> None:
    prob = (0.25, 0.5, 0.75)
    bins = pd.IntervalIndex(
        (
            pd.Interval(-np.inf, 0.0, closed="left"),
            pd.Interval(0.0, 1.0, closed="left"),
            pd.Interval(1.0, 2.0, closed="left"),
            pd.Interval(2.0, np.inf, closed="left"),
        )
    )
    assert_series_equal(
        binning.QuantileBinning(probabilities=prob).histogram(data),
        pd.cut(data, bins).value_counts(dropna=False),
    )
    assert_series_equal(
        binning.QuantileBinning(probabilities=prob, dropna=True).histogram(data),
        pd.cut(data, bins).value_counts(),
    )


def test_quantile_binning_reference_bins_adherence() -> None:
    method = binning.QuantileBinning(
        reference_series=data,
        probabilities=(0.25, 0.5, 0.75),
        dropna=True,
    )
    assert (bins := method.bins) is not None
    new_data = pd.Series(range(2001)) - 1000
    hist = method.histogram(new_data)
    diff = hist.index.difference(bins)
    assert hist.sum() == len(new_data)
    assert diff.empty


@pytest.mark.parametrize("dropna", [(True,), (False,)])
def test_quantile_binning_dropna_adherence(dropna: bool) -> None:
    method = binning.QuantileBinning(
        reference_series=data,
        probabilities=(0.25, 0.5, 0.75),
        dropna=dropna,
    )
    new_data = pd.Series([None])
    hist = method.histogram(new_data)
    assert (method_bins := method.bins) is not None
    diff = hist.index.difference(method_bins.tolist())
    if dropna:
        assert hist.sum() == 0
        assert diff.empty
    else:
        assert hist.sum() == len(new_data)
        assert diff.size == 1
        assert math.isnan(diff[0])


@pytest.mark.parametrize(
    "metrics,desired_values,dropna",
    [
        ((), [], False),
        ((), [], True),
        ((Count(),), [[12, 5, 1]], False),
        ((Count(),), [[5, 1]], True),
        ((CountNotNull(Column("x")),), [[6, 4, 0]], False),
        ((CountNotNull(Column("x")),), [[4, 0]], True),
        ((CountNotNull(Column()),), [[0] * 3], False),
        ((CountNotNull(Column()),), [[0] * 2], True),
        (
            (
                Max(Column("x")),
                Max(Column()),
                Max(Column("x2")),
                Max(Column("x")),
            ),
            [
                [7.0, 6.0, np.nan],
                [np.nan] * 3,
                [14.0, 12.0, np.nan],
                [7.0, 6.0, np.nan],
            ],
            False,
        ),
        (
            (
                Max(Column("x2")),
                Max(Column()),
                Max(Column("x")),
                Max(Column("x2")),
            ),
            [
                [12.0, np.nan],
                [np.nan] * 2,
                [6.0, np.nan],
                [12.0, np.nan],
            ],
            True,
        ),
    ],
)
def test_segmented_summary_with_interval_binning(
    metrics: tuple[Metric],
    desired_values: list[list[Any]],
    dropna: bool,
) -> None:
    df = pd.DataFrame(
        [
            [np.nan, np.nan],
            [None, -1],
            [pd.NA, -np.inf],  # infinities are not null
            [pd.NaT, np.nan],
            [MISSING, np.nan],  # MISSING is not null
            [-4, 5],
            [-3, np.nan],
            [-2, 1],
            [0.1, 0],
            [1, 4],
            [" 1 ", 6],  # " 1 " is same as 1 due to numeric coercion
            [1.1, np.nan],
            [2, 2],
            [" 2 ", 3],
            ["", np.nan],  # "" is same as NaN due to numeric coercion
            ["nan", np.nan],
            [np.inf, 7],
            [-np.inf, np.nan],
        ],
        columns=["by", "x"],
    )
    df["x2"] = df["x"] * 2
    df["x3"] = df["x"] * 3  # should not be summarized
    bins = pd.IntervalIndex(
        (
            pd.Interval(-2, 2, closed="left"),
            pd.Interval(100, 200, closed="left"),  # not found in data
            pd.Interval(-np.inf, -200, closed="left"),
        ),
    )
    binning_method = binning.IntervalBinning(
        bins=bins,
        dropna=dropna,
    )
    actual = binning_method.segmented_summary(
        Column("by"),
        df.sample(len(df)),
        metrics,
    )
    desired = pd.DataFrame(
        dict(zip((m.id() for m in metrics), desired_values)),
    ).set_axis(
        pd.CategoricalIndex(
            ([] if dropna else [np.nan])
            + [
                pd.Interval(-2, 2, closed="left"),
                pd.Interval(-np.inf, -200, closed="left"),
            ],
            categories=bins,
            ordered=True,
        ),
        axis=0,
    )
    _compare_summaries(metrics, actual, desired)


@pytest.mark.parametrize(
    "metrics,desired_values,dropna",
    [
        ((), [], False),
        ((), [], True),
        ((Count(),), [[4, 1, 2, 3, 1, 4, 1, 1]], False),
        ((Count(),), [[1, 2, 3, 1, 4, 1, 1]], True),
        ((CountNotNull(Column("x")),), [[4, 1, 2, 2, 0, 3, 0, 1]], False),
        ((CountNotNull(Column("x")),), [[1, 2, 2, 0, 3, 0, 1]], True),
        ((CountNotNull(Column()),), [[0] * 8], False),
        ((CountNotNull(Column()),), [[0] * 7], True),
        (
            (
                Max(Column("x")),
                Max(Column()),
                Max(Column("x2")),
                Max(Column("x")),
            ),
            [
                [-2, -1, 0, 1, np.nan, 2, np.nan, 3],
                [np.nan] * 8,
                [-4, -2, 0, 2, np.nan, 4, np.nan, 6],
                [-2, -1, 0, 1, np.nan, 2, np.nan, 3],
            ],
            False,
        ),
        (
            (
                Max(Column("x2")),
                Max(Column()),
                Max(Column("x")),
                Max(Column("x2")),
            ),
            [
                [-2, 0, 2, np.nan, 4, np.nan, 6],
                [np.nan] * 7,
                [-1, 0, 1, np.nan, 2, np.nan, 3],
                [-2, 0, 2, np.nan, 4, np.nan, 6],
            ],
            True,
        ),
    ],
)
def test_segmented_summary_with_categorical_binning(
    metrics: tuple[Metric],
    desired_values: list[list[Any]],
    dropna: bool,
) -> None:
    df = pd.DataFrame(
        [
            [np.nan, -2],
            [pd.NA, -3],
            [pd.NaT, -4],
            [None, -5],
            [MISSING, -1],  # MISSING is not null
            [0.1, 0],
            [0.1, 0],
            [1, 1],
            [1, 1],
            [1, np.nan],
            ["", np.nan],
            ["1", 2],  # "1" differs from 1
            ["1", -np.inf],  # infinities are not null
            ["1", 2],
            ["1", np.nan],
            ["nan", np.nan],
            [-np.inf, 3],
        ],
        columns=["by", "x"],
    )
    df["x2"] = df["x"] * 2
    df["x3"] = df["x"] * 3  # should not be summarized
    binning_method = binning.CategoricalBinning(
        dropna=dropna,
    )
    actual = binning_method.segmented_summary(
        Column("by"),
        df.sample(len(df)),
        metrics,
    )
    desired = pd.DataFrame(
        dict(zip((m.id() for m in metrics), desired_values)),
    ).set_axis(
        pd.CategoricalIndex(
            ([] if dropna else [np.nan]) + [MISSING, 0.1, 1, "", "1", "nan", -np.inf],
            ordered=False,
        ),
        axis=0,
    )
    _compare_summaries(metrics, actual, desired)


def _compare_summaries(
    metrics: tuple[Metric],
    actual: pd.DataFrame,
    desired: pd.DataFrame,
) -> None:
    assert_almost_equal(len(actual), len(desired))
    assert_almost_equal(actual.size, desired.size)
    for idx in desired.index.union(actual.index):
        results = []
        for summary in (actual, desired):
            try:
                results.append(summary.loc[idx])
            except KeyError:
                results.append({})
        for metric in metrics:
            actual_value, desired_value = map(metric.get_value, results)
            assert_almost_equal(
                actual_value,
                desired_value,
                err_msg=f"{repr(idx)}:{repr(metric)}",
            )