`vllm.entrypoints.serve.dev.rlhf.api_router` ¶

Functions:

get_world_size –

Get the world size from the parallel config.
is_paused –

Return the current pause status.
pause_generation –

Pause generation requests to allow weight updates.
resume_generation –

Resume generation after a pause.

`get_world_size(raw_request, include_dp=Query(True))` `async` ¶

Get the world size from the parallel config.

Parameters:

include_dp ¶
(bool, default: Query(True) ) –

If True (default), returns the world size including data parallelism (TP * PP * DP). If False, returns the world size without data parallelism (TP * PP).

Source code in vllm/entrypoints/serve/dev/rlhf/api_router.py

@router.get("/get_world_size")
async def get_world_size(
    raw_request: Request,
    include_dp: bool = Query(True),
):
    """Get the world size from the parallel config.

    Args:
        include_dp: If True (default), returns the world size including
            data parallelism (TP * PP * DP). If False, returns the world
            size without data parallelism (TP * PP).
    """
    parallel_config = engine_client(raw_request).vllm_config.parallel_config
    if include_dp:
        world_size = parallel_config.world_size_across_dp
    else:
        world_size = parallel_config.world_size
    return JSONResponse(content={"world_size": world_size})

`is_paused(raw_request)` `async` ¶

Return the current pause status.

Source code in vllm/entrypoints/serve/dev/rlhf/api_router.py

@router.get("/is_paused")
async def is_paused(raw_request: Request) -> JSONResponse:
    """Return the current pause status."""

    engine = engine_client(raw_request)

    try:
        paused = await engine.is_paused()
    except Exception as err:  # pragma: no cover - defensive
        logger.exception("Failed to fetch pause status")
        return JSONResponse(
            content={"error": f"Failed to fetch pause status: {err}"},
            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value,
        )

    return JSONResponse(content={"is_paused": paused})

`pause_generation(raw_request, mode='abort', wait_for_inflight_requests=Query(False), clear_cache=True)` `async` ¶

Pause generation requests to allow weight updates.

Parameters:

mode ¶
(Annotated[PauseMode, Query()], default: 'abort' ) –

How to handle in-flight requests: - "abort": Abort all in-flight requests immediately (default). - "wait": Wait for in-flight requests to complete. - "keep": Freeze requests in queue; they resume on /resume.
wait_for_inflight_requests ¶
(bool, default: Query(False) ) –

DEPRECATED. Use mode="wait" instead.
clear_cache ¶
(Annotated[bool, Query()], default: True ) –

DEPRECATED. Whether to clear KV/prefix caches after draining. Ignored when mode="keep".

Source code in vllm/entrypoints/serve/dev/rlhf/api_router.py

@router.post("/pause")
async def pause_generation(
    raw_request: Request,
    mode: Annotated[PauseMode, Query()] = "abort",
    wait_for_inflight_requests: bool = Query(False),
    clear_cache: Annotated[bool, Query()] = True,
) -> JSONResponse:
    """Pause generation requests to allow weight updates.

    Args:
        mode: How to handle in-flight requests:
            - ``"abort"``: Abort all in-flight requests immediately (default).
            - ``"wait"``: Wait for in-flight requests to complete.
            - ``"keep"``: Freeze requests in queue; they resume on /resume.
        wait_for_inflight_requests: DEPRECATED. Use ``mode="wait"`` instead.
        clear_cache: DEPRECATED. Whether to clear KV/prefix caches after
            draining. Ignored when mode="keep".
    """

    engine = engine_client(raw_request)

    try:
        await engine.pause_generation(
            mode=mode,
            clear_cache=clear_cache,
            wait_for_inflight_requests=wait_for_inflight_requests,
        )
        return JSONResponse(
            content={"status": "paused"},
            status_code=HTTPStatus.OK.value,
        )

    except ValueError as err:
        return JSONResponse(
            content={"error": str(err)},
            status_code=HTTPStatus.BAD_REQUEST.value,
        )
    except Exception as err:  # pragma: no cover - defensive
        logger.exception("Failed to pause generation")
        return JSONResponse(
            content={"error": f"Failed to pause generation: {err}"},
            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value,
        )

`resume_generation(raw_request)` `async` ¶

Resume generation after a pause.

Source code in vllm/entrypoints/serve/dev/rlhf/api_router.py

@router.post("/resume")
async def resume_generation(raw_request: Request) -> JSONResponse:
    """Resume generation after a pause."""

    engine = engine_client(raw_request)

    try:
        await engine.resume_generation()
        return JSONResponse(
            content={"status": "resumed"},
            status_code=HTTPStatus.OK.value,
        )
    except Exception as err:  # pragma: no cover - defensive
        logger.exception("Failed to resume generation")
        return JSONResponse(
            content={"error": f"Failed to resume generation: {err}"},
            status_code=HTTPStatus.INTERNAL_SERVER_ERROR.value,
        )

`vllm.entrypoints.serve.dev.rlhf.api_router` ¶

`get_world_size(raw_request, include_dp=Query(True))` `async` ¶

`include_dp` ¶

`is_paused(raw_request)` `async` ¶

`pause_generation(raw_request, mode='abort', wait_for_inflight_requests=Query(False), clear_cache=True)` `async` ¶

`mode` ¶

`wait_for_inflight_requests` ¶

`clear_cache` ¶

`resume_generation(raw_request)` `async` ¶

vllm.entrypoints.serve.dev.rlhf.api_router ¶

get_world_size(raw_request, include_dp=Query(True)) async ¶

include_dp ¶

is_paused(raw_request) async ¶

pause_generation(raw_request, mode='abort', wait_for_inflight_requests=Query(False), clear_cache=True) async ¶

mode ¶

wait_for_inflight_requests ¶

clear_cache ¶

resume_generation(raw_request) async ¶

`vllm.entrypoints.serve.dev.rlhf.api_router` ¶

`get_world_size(raw_request, include_dp=Query(True))` `async` ¶

`include_dp` ¶

`is_paused(raw_request)` `async` ¶

`pause_generation(raw_request, mode='abort', wait_for_inflight_requests=Query(False), clear_cache=True)` `async` ¶

`mode` ¶

`wait_for_inflight_requests` ¶

`clear_cache` ¶

`resume_generation(raw_request)` `async` ¶