diff --git a/agent-schema.json b/agent-schema.json
index b1ec92903..c65015885 100644
--- a/agent-schema.json
+++ b/agent-schema.json
@@ -546,7 +546,7 @@
         },
         "provider_opts": {
           "type": "object",
-          "description": "Provider-specific options. dmr: runtime_flags. anthropic/amazon-bedrock (Claude): interleaved_thinking (boolean, default true). openai/anthropic/google: rerank_prompt (string) to fully override the system prompt used for RAG reranking (advanced - prefer using results.reranking.criteria for domain-specific guidance).",
+          "description": "Provider-specific options. dmr: runtime_flags. anthropic/amazon-bedrock (Claude): interleaved_thinking (boolean, default true). openai: transport ('sse' or 'websocket') to choose between SSE and WebSocket streaming for the Responses API. openai/anthropic/google: rerank_prompt (string) to fully override the system prompt used for RAG reranking (advanced - prefer using results.reranking.criteria for domain-specific guidance).",
           "additionalProperties": true
         },
         "track_usage": {
diff --git a/docs/providers/openai/index.md b/docs/providers/openai/index.md
index 4dd20e6af..8be075196 100644
--- a/docs/providers/openai/index.md
+++ b/docs/providers/openai/index.md
@@ -77,3 +77,33 @@ models:
     model: gpt-4o
     base_url: https://your-proxy.example.com/v1
 ```
+
+## WebSocket Transport
+
+For OpenAI Responses API models (gpt-4.1+, o-series, gpt-5), you can use WebSocket streaming instead of the default SSE (Server-Sent Events):
+
+```yaml
+models:
+  fast-gpt:
+    provider: openai
+    model: gpt-4.1
+    provider_opts:
+      transport: websocket  # Use WebSocket instead of SSE
+```
+
+### Benefits
+
+- **~40% faster** for workflows with 20+ tool calls
+- **Persistent connection** reduces per-turn overhead
+- **Server-side caching** of connection state
+- **Automatic fallback** to SSE if WebSocket fails
+
+### Requirements
+
+- Only works with Responses API models: `gpt-4.1+`, `o1`, `o3`, `o4`, `gpt-5`
+- NOT compatible with `--gateway` flag (automatically falls back to SSE)
+- Requires `OPENAI_API_KEY` environment variable
+
+### Example
+
+See [`examples/websocket_transport.yaml`]({{ '/examples/websocket_transport/' | relative_url }}) for a complete example.
diff --git a/examples/websocket_transport.yaml b/examples/websocket_transport.yaml
new file mode 100644
index 000000000..1ab4069d2
--- /dev/null
+++ b/examples/websocket_transport.yaml
@@ -0,0 +1,42 @@
+#!/usr/bin/env docker agent run
+
+# Example: WebSocket Transport for OpenAI Responses API
+#
+# This example demonstrates how to use WebSocket streaming instead of
+# Server-Sent Events (SSE) for the OpenAI Responses API.
+#
+# WebSocket transport maintains a persistent connection across tool-call
+# rounds, reducing per-turn overhead and improving end-to-end latency
+# for agentic workflows with many tool calls.
+#
+# Benefits of WebSocket over SSE:
+#   - ~40% faster end-to-end execution for workflows with 20+ tool calls
+#   - Persistent connection reduces per-turn continuation overhead
+#   - Connection-local state caching on the server
+#   - Falls back to SSE automatically if WebSocket connection fails
+#
+# Requirements:
+#   - Works only with OpenAI Responses API models (gpt-4.1+, o-series, gpt-5)
+#   - Requires OPENAI_API_KEY environment variable (or use token_key)
+#   - NOT compatible with --gateway flag (automatically falls back to SSE)
+#
+# Run with:
+#   docker agent run websocket_transport.yaml
+
+models:
+  gpt-ws:
+    provider: openai
+    model: gpt-4.1
+    provider_opts:
+      transport: websocket  # Use WebSocket instead of SSE
+
+agents:
+  root:
+    model: gpt-ws
+    description: Assistant using WebSocket streaming
+    instruction: |
+      You are a helpful assistant. Answer questions concisely.
+    toolsets:
+      - type: shell  # Real toolset for demonstrating multi-turn tool calls
+    commands:
+      demo: "List the files in the current directory, then count how many are YAML files"
diff --git a/pkg/model/provider/openai/client.go b/pkg/model/provider/openai/client.go
index d3ad07eff..f5d440229 100644
--- a/pkg/model/provider/openai/client.go
+++ b/pkg/model/provider/openai/client.go
@@ -7,6 +7,7 @@ import (
 	"errors"
 	"fmt"
 	"log/slog"
+	"net/http"
 	"net/url"
 	"strings"
 
@@ -29,11 +30,15 @@ import (
 	"github.com/docker/docker-agent/pkg/tools"
 )
 
-// Client represents an OpenAI client wrapper
-// It implements the provider.Provider interface
+// Client represents an OpenAI client wrapper.
+// It implements the provider.Provider interface.
 type Client struct {
 	base.Config
 	clientFn func(context.Context) (*openai.Client, error)
+
+	// wsPool is initialized in NewClient when transport=websocket is configured.
+	// It maintains a persistent WebSocket connection across requests.
+	wsPool *wsPool
 }
 
 // NewClient creates a new OpenAI client from the provided configuration
@@ -139,14 +144,32 @@ func NewClient(ctx context.Context, cfg *latest.ModelConfig, env environment.Pro
 
 	slog.Debug("OpenAI client created successfully", "model", cfg.Model)
 
-	return &Client{
+	client := &Client{
 		Config: base.Config{
 			ModelConfig:  *cfg,
 			ModelOptions: globalOptions,
 			Env:          env,
 		},
 		clientFn: clientFn,
-	}, nil
+	}
+
+	// Pre-create the WebSocket pool when the transport is configured.
+	// The pool is cheap (no connections opened until the first Stream call)
+	// and eager init avoids a data race on the lazy path.
+	if getTransport(cfg) == "websocket" && globalOptions.Gateway() == "" {
+		baseURL := cmp.Or(cfg.BaseURL, "https://api.openai.com/v1")
+		client.wsPool = newWSPool(httpToWSURL(baseURL), client.buildWSHeaderFn())
+	}
+
+	return client, nil
+}
+
+// Close releases resources held by the client, including any pooled WebSocket
+// connections. It is safe to call Close multiple times.
+func (c *Client) Close() {
+	if c.wsPool != nil {
+		c.wsPool.Close()
+	}
 }
 
 // convertMessages converts chat.Message to openai.ChatCompletionMessageParamUnion
@@ -306,12 +329,6 @@ func (c *Client) CreateResponseStream(
 		return nil, errors.New("at least one message is required")
 	}
 
-	client, err := c.clientFn(ctx)
-	if err != nil {
-		slog.Error("Failed to create OpenAI client", "error", err)
-		return nil, err
-	}
-
 	input := convertMessagesToResponseInput(messages)
 
 	params := responses.ResponseNewParams{
@@ -397,10 +414,85 @@ func (c *Client) CreateResponseStream(
 		slog.Error("Failed to marshal OpenAI responses request to JSON", "error", err)
 	}
 
+	// Choose transport: WebSocket or SSE (default).
+	// WebSocket is disabled when using a Gateway since most gateways don't support it.
+	transport := getTransport(&c.ModelConfig)
+	trackUsage := c.ModelConfig.TrackUsage == nil || *c.ModelConfig.TrackUsage
+
+	if transport == "websocket" && c.ModelOptions.Gateway() == "" {
+		stream, err := c.createWebSocketStream(ctx, params)
+		if err != nil {
+			slog.Warn("WebSocket stream failed, falling back to SSE", "error", err)
+			// Fall through to SSE below.
+		} else {
+			slog.Debug("OpenAI responses WebSocket stream created successfully", "model", c.ModelConfig.Model)
+			return newResponseStreamAdapter(stream, trackUsage), nil
+		}
+	} else if transport == "websocket" {
+		slog.Debug("WebSocket transport requested but Gateway is configured, using SSE",
+			"model", c.ModelConfig.Model,
+			"gateway", c.ModelOptions.Gateway())
+	}
+
+	client, err := c.clientFn(ctx)
+	if err != nil {
+		slog.Error("Failed to create OpenAI client", "error", err)
+		return nil, err
+	}
 	stream := client.Responses.NewStreaming(ctx, params)
 
 	slog.Debug("OpenAI responses stream created successfully", "model", c.ModelConfig.Model)
-	return newResponseStreamAdapter(stream, c.ModelConfig.TrackUsage == nil || *c.ModelConfig.TrackUsage), nil
+	return newResponseStreamAdapter(stream, trackUsage), nil
+}
+
+// createWebSocketStream sends a request over the pre-initialized WebSocket
+// pool, returning a responseEventStream.
+func (c *Client) createWebSocketStream(
+	ctx context.Context,
+	params responses.ResponseNewParams,
+) (responseEventStream, error) {
+	if c.wsPool == nil {
+		return nil, errors.New("websocket pool not initialized")
+	}
+
+	return c.wsPool.Stream(ctx, params)
+}
+
+// buildWSHeaderFn returns a function that produces the HTTP headers needed
+// for the WebSocket handshake, including the Authorization header.
+func (c *Client) buildWSHeaderFn() func(ctx context.Context) (http.Header, error) {
+	return func(ctx context.Context) (http.Header, error) {
+		h := http.Header{}
+
+		// Resolve the API key using the same logic as the HTTP client.
+		var apiKey string
+		if c.ModelConfig.TokenKey != "" {
+			apiKey, _ = c.Env.Get(ctx, c.ModelConfig.TokenKey)
+		}
+		if apiKey == "" {
+			// Fall back to the standard OPENAI_API_KEY env var via the
+			// environment provider so that secret resolution is
+			// consistent with the HTTP client path.
+			apiKey, _ = c.Env.Get(ctx, "OPENAI_API_KEY")
+		}
+		if apiKey != "" {
+			h.Set("Authorization", "Bearer "+apiKey)
+		}
+
+		return h, nil
+	}
+}
+
+// getTransport returns the streaming transport preference from ProviderOpts.
+// Valid values are "sse" (default) and "websocket".
+func getTransport(cfg *latest.ModelConfig) string {
+	if cfg == nil || cfg.ProviderOpts == nil {
+		return "sse"
+	}
+	if t, ok := cfg.ProviderOpts["transport"].(string); ok {
+		return strings.ToLower(t)
+	}
+	return "sse"
 }
 
 func convertMessagesToResponseInput(messages []chat.Message) []responses.ResponseInputItemUnionParam {
diff --git a/pkg/model/provider/openai/event_stream.go b/pkg/model/provider/openai/event_stream.go
new file mode 100644
index 000000000..16b533cae
--- /dev/null
+++ b/pkg/model/provider/openai/event_stream.go
@@ -0,0 +1,23 @@
+package openai
+
+import "github.com/openai/openai-go/v3/responses"
+
+// responseEventStream abstracts over SSE and WebSocket transports for
+// streaming Responses API events.
+//
+// The ssestream.Stream[responses.ResponseStreamEventUnion] type already
+// satisfies this interface, so it can be used directly.
+type responseEventStream interface {
+	// Next advances the stream to the next event.
+	// Returns false when the stream is exhausted or an error occurred.
+	Next() bool
+
+	// Current returns the most recently decoded event.
+	Current() responses.ResponseStreamEventUnion
+
+	// Err returns the first non-EOF error encountered by the stream.
+	Err() error
+
+	// Close releases resources held by the stream.
+	Close() error
+}
diff --git a/pkg/model/provider/openai/response_stream.go b/pkg/model/provider/openai/response_stream.go
index 065cba32c..260e5b55f 100644
--- a/pkg/model/provider/openai/response_stream.go
+++ b/pkg/model/provider/openai/response_stream.go
@@ -13,15 +13,19 @@ import (
 	"github.com/docker/docker-agent/pkg/tools"
 )
 
-// ResponseStreamAdapter adapts the OpenAI responses stream to our interface
+// Compile-time check: ssestream.Stream satisfies responseEventStream.
+var _ responseEventStream = (*ssestream.Stream[responses.ResponseStreamEventUnion])(nil)
+
+// ResponseStreamAdapter adapts the OpenAI responses stream to our interface.
+// It works with any responseEventStream implementation (SSE or WebSocket).
 type ResponseStreamAdapter struct {
-	stream         *ssestream.Stream[responses.ResponseStreamEventUnion]
+	stream         responseEventStream
 	trackUsage     bool
 	itemCallIDMap  map[string]string
 	itemHasContent map[string]bool
 }
 
-func newResponseStreamAdapter(stream *ssestream.Stream[responses.ResponseStreamEventUnion], trackUsage bool) *ResponseStreamAdapter {
+func newResponseStreamAdapter(stream responseEventStream, trackUsage bool) *ResponseStreamAdapter {
 	return &ResponseStreamAdapter{
 		stream:         stream,
 		trackUsage:     trackUsage,
@@ -254,5 +258,5 @@ func (a *ResponseStreamAdapter) Recv() (chat.MessageStreamResponse, error) {
 
 // Close closes the stream
 func (a *ResponseStreamAdapter) Close() {
-	a.stream.Close()
+	_ = a.stream.Close()
 }
diff --git a/pkg/model/provider/openai/ws_pool.go b/pkg/model/provider/openai/ws_pool.go
new file mode 100644
index 000000000..348fc3421
--- /dev/null
+++ b/pkg/model/provider/openai/ws_pool.go
@@ -0,0 +1,210 @@
+package openai
+
+import (
+	"context"
+	"fmt"
+	"log/slog"
+	"net/http"
+	"sync"
+	"time"
+
+	"github.com/gorilla/websocket"
+	"github.com/openai/openai-go/v3/responses"
+)
+
+const (
+	// wsMaxConnectionAge is the maximum lifetime of a WebSocket connection.
+	// OpenAI enforces a 60-minute limit; we reconnect slightly earlier.
+	wsMaxConnectionAge = 55 * time.Minute
+)
+
+// wsConnection holds a WebSocket connection together with bookkeeping
+// metadata for the connection pool.
+type wsConnection struct {
+	conn      *websocket.Conn
+	createdAt time.Time
+}
+
+// isExpired returns true when the connection has been open longer than
+// wsMaxConnectionAge.
+func (c *wsConnection) isExpired() bool {
+	return time.Since(c.createdAt) >= wsMaxConnectionAge
+}
+
+// wsPool manages a single reusable WebSocket connection to the OpenAI
+// Responses API. It is safe for concurrent use; however, because the
+// OpenAI WebSocket protocol is sequential (one response at a time),
+// callers must not overlap requests on the same pool.
+type wsPool struct {
+	mu   sync.Mutex
+	conn *wsConnection
+
+	// lastResponseID is the ID of the most recent response completed on
+	// this pool. It can be passed as previous_response_id in subsequent
+	// requests to enable server-side context caching.
+	// It lives on the pool (not wsConnection) so it survives reconnections.
+	lastResponseID string
+
+	// wsURL is the WebSocket endpoint (e.g. wss://api.openai.com/v1/responses).
+	wsURL string
+
+	// headerFn returns the HTTP headers (including Authorization) for
+	// the WebSocket handshake. It is called each time a new connection
+	// is established so that short-lived tokens are refreshed.
+	headerFn func(ctx context.Context) (http.Header, error)
+}
+
+// newWSPool creates a pool for the given WebSocket URL.
+func newWSPool(wsURL string, headerFn func(ctx context.Context) (http.Header, error)) *wsPool {
+	return &wsPool{
+		wsURL:    wsURL,
+		headerFn: headerFn,
+	}
+}
+
+// Stream opens (or reuses) a WebSocket connection, sends a response.create
+// message, and returns a responseEventStream that yields server events.
+func (p *wsPool) Stream(
+	ctx context.Context,
+	params responses.ResponseNewParams,
+) (responseEventStream, error) {
+	p.mu.Lock()
+	defer p.mu.Unlock()
+
+	// Close stale connections.
+	if p.conn != nil && p.conn.isExpired() {
+		slog.Debug("Closing expired WebSocket connection",
+			"age", time.Since(p.conn.createdAt))
+		p.closeLocked()
+	}
+
+	// Establish a new connection if needed.
+	if p.conn == nil {
+		return p.dialLocked(ctx, params)
+	}
+
+	// Reuse existing connection: send a new response.create.
+	stream, err := sendOnExisting(p.conn.conn, params)
+	if err != nil {
+		// Connection is broken; tear down and reconnect once.
+		slog.Warn("Existing WebSocket connection failed, reconnecting", "error", err)
+		p.closeLocked()
+		return p.dialLocked(ctx, params)
+	}
+
+	return &pooledStream{pool: p, inner: stream}, nil
+}
+
+// dialLocked opens a fresh WebSocket connection and stores it in the pool.
+// Caller must hold p.mu.
+func (p *wsPool) dialLocked(
+	ctx context.Context,
+	params responses.ResponseNewParams,
+) (*pooledStream, error) {
+	headers, err := p.headerFn(ctx)
+	if err != nil {
+		return nil, fmt.Errorf("websocket pool: headers: %w", err)
+	}
+
+	stream, err := dialWebSocket(ctx, p.wsURL, headers, params)
+	if err != nil {
+		return nil, err
+	}
+
+	p.conn = &wsConnection{
+		conn:      stream.conn,
+		createdAt: time.Now(),
+	}
+
+	return &pooledStream{pool: p, inner: stream}, nil
+}
+
+// closeLocked closes the current connection. lastResponseID is preserved
+// on the pool so it survives reconnections. Caller must hold p.mu.
+func (p *wsPool) closeLocked() {
+	if p.conn == nil {
+		return
+	}
+	_ = p.conn.conn.Close()
+	p.conn = nil
+}
+
+// invalidateConn tears down the pooled connection if it matches conn.
+// Called by pooledStream.Close when the stream encountered an error,
+// so the pool does not hand out a broken connection.
+func (p *wsPool) invalidateConn(conn *websocket.Conn) {
+	p.mu.Lock()
+	defer p.mu.Unlock()
+
+	if p.conn != nil && p.conn.conn == conn {
+		p.closeLocked()
+	}
+}
+
+// Close shuts down the pooled connection.
+func (p *wsPool) Close() {
+	p.mu.Lock()
+	defer p.mu.Unlock()
+
+	p.closeLocked()
+}
+
+// sendOnExisting sends a response.create on an already-open connection and
+// returns a wsStream that reads events from it.
+func sendOnExisting(conn *websocket.Conn, params responses.ResponseNewParams) (*wsStream, error) {
+	if err := sendResponseCreate(conn, params); err != nil {
+		return nil, err
+	}
+
+	slog.Debug("WebSocket response.create sent (reused connection)")
+
+	return &wsStream{conn: conn}, nil
+}
+
+// pooledStream wraps a wsStream and updates pool state when the response
+// finishes. Its Close does NOT close the underlying WebSocket connection
+// (which is owned by the pool).
+type pooledStream struct {
+	pool  *wsPool
+	inner *wsStream
+}
+
+var _ responseEventStream = (*pooledStream)(nil)
+
+func (s *pooledStream) Next() bool {
+	ok := s.inner.Next()
+	if !ok {
+		return false
+	}
+
+	// Track response ID from terminal events for future continuation.
+	event := s.inner.Current()
+	if isTerminalEvent(event.Type) && event.Response.ID != "" {
+		s.pool.mu.Lock()
+		s.pool.lastResponseID = event.Response.ID
+		s.pool.mu.Unlock()
+	}
+
+	return true
+}
+
+func (s *pooledStream) Current() responses.ResponseStreamEventUnion {
+	return s.inner.Current()
+}
+
+func (s *pooledStream) Err() error {
+	return s.inner.Err()
+}
+
+// Close releases the stream. If the stream encountered an error, the
+// underlying connection is invalidated so that the pool opens a fresh one
+// on the next request. Otherwise the connection stays in the pool for reuse.
+func (s *pooledStream) Close() error {
+	s.inner.done = true
+
+	if s.inner.Err() != nil {
+		s.pool.invalidateConn(s.inner.conn)
+	}
+
+	return nil
+}
diff --git a/pkg/model/provider/openai/ws_stream.go b/pkg/model/provider/openai/ws_stream.go
new file mode 100644
index 000000000..4b2fc63bc
--- /dev/null
+++ b/pkg/model/provider/openai/ws_stream.go
@@ -0,0 +1,214 @@
+package openai
+
+import (
+	"context"
+	"encoding/json"
+	"fmt"
+	"log/slog"
+	"net/http"
+	"strings"
+	"time"
+
+	"github.com/gorilla/websocket"
+	"github.com/openai/openai-go/v3/responses"
+)
+
+const (
+	// wsHandshakeTimeout is the maximum time allowed for the WebSocket handshake.
+	wsHandshakeTimeout = 45 * time.Second
+)
+
+// wsCreateMessage is the envelope sent over WebSocket to start a new response.
+// It wraps ResponseNewParams with the required "type" discriminator.
+type wsCreateMessage struct {
+	Type string `json:"type"`
+
+	// Embed the params as a raw message so that its MarshalJSON is used
+	// and we simply add the "type" key on top.
+	Params json.RawMessage `json:"-"`
+}
+
+func (m wsCreateMessage) MarshalJSON() ([]byte, error) {
+	// Marshal the params first, then inject "type".
+	raw := m.Params
+	if raw == nil {
+		raw = []byte("{}")
+	}
+
+	// Merge: start with the params object, add "type".
+	var obj map[string]json.RawMessage
+	if err := json.Unmarshal(raw, &obj); err != nil {
+		return nil, fmt.Errorf("wsCreateMessage: unmarshal params: %w", err)
+	}
+	typeVal, _ := json.Marshal(m.Type)
+	obj["type"] = typeVal
+	return json.Marshal(obj)
+}
+
+// wsStream implements responseEventStream for a single request/response
+// exchange over a WebSocket connection.
+//
+// After the terminal event (response.completed, response.failed, etc.) is
+// delivered via Current(), the next call to Next() returns false.
+type wsStream struct {
+	conn    *websocket.Conn
+	current responses.ResponseStreamEventUnion
+	err     error
+	done    bool
+}
+
+// Compile-time check: wsStream satisfies responseEventStream.
+var _ responseEventStream = (*wsStream)(nil)
+
+// sendResponseCreate marshals params and writes a response.create message
+// on the given WebSocket connection.
+func sendResponseCreate(conn *websocket.Conn, params responses.ResponseNewParams) error {
+	paramsJSON, err := json.Marshal(params)
+	if err != nil {
+		return fmt.Errorf("websocket: marshal params: %w", err)
+	}
+
+	msg := wsCreateMessage{
+		Type:   "response.create",
+		Params: paramsJSON,
+	}
+
+	if err := conn.WriteJSON(msg); err != nil {
+		return fmt.Errorf("websocket: write response.create: %w", err)
+	}
+
+	return nil
+}
+
+// dialWebSocket opens a WebSocket connection, sends the response.create
+// message, and returns a stream that yields server events.
+func dialWebSocket(
+	ctx context.Context,
+	wsURL string,
+	headers http.Header,
+	params responses.ResponseNewParams,
+) (*wsStream, error) {
+	dialer := websocket.Dialer{
+		HandshakeTimeout: wsHandshakeTimeout,
+	}
+
+	slog.Debug("Opening WebSocket connection", "url", wsURL)
+
+	conn, resp, err := dialer.DialContext(ctx, wsURL, headers)
+	if err != nil {
+		if resp != nil {
+			if resp.Body != nil {
+				_ = resp.Body.Close()
+			}
+			slog.Error("WebSocket handshake failed",
+				"status", resp.StatusCode,
+				"error", err)
+		}
+		return nil, fmt.Errorf("websocket dial %s: %w", wsURL, err)
+	}
+
+	if err := sendResponseCreate(conn, params); err != nil {
+		conn.Close()
+		return nil, err
+	}
+
+	slog.Debug("WebSocket response.create sent", "url", wsURL)
+
+	return &wsStream{conn: conn}, nil
+}
+
+// Next reads the next event from the WebSocket. Returns false when the
+// response is complete or an error occurred.
+func (s *wsStream) Next() bool {
+	if s.done {
+		return false
+	}
+
+	_, data, err := s.conn.ReadMessage()
+	if err != nil {
+		if websocket.IsCloseError(err,
+			websocket.CloseNormalClosure,
+			websocket.CloseGoingAway,
+			websocket.CloseNoStatusReceived,
+		) {
+			s.done = true
+			return false
+		}
+		s.err = fmt.Errorf("websocket read: %w", err)
+		s.done = true
+		return false
+	}
+
+	var event responses.ResponseStreamEventUnion
+	if err := json.Unmarshal(data, &event); err != nil {
+		s.err = fmt.Errorf("websocket unmarshal event: %w", err)
+		s.done = true
+		return false
+	}
+
+	s.current = event
+
+	slog.Debug("WebSocket event received", "type", event.Type)
+
+	// Check for server-side error events.
+	if event.Type == "error" {
+		s.err = fmt.Errorf("openai websocket error: %s (param: %s)", event.Message, event.Param)
+		s.done = true
+		// Still return true so the caller can inspect the event.
+		return true
+	}
+
+	// Terminal events: deliver this event then stop on next call.
+	if isTerminalEvent(event.Type) {
+		s.done = true
+		// Return true so the adapter receives usage/finish data.
+		return true
+	}
+
+	return true
+}
+
+// Current returns the most recently decoded event.
+func (s *wsStream) Current() responses.ResponseStreamEventUnion {
+	return s.current
+}
+
+// Err returns the first non-EOF error encountered by the stream.
+func (s *wsStream) Err() error {
+	return s.err
+}
+
+// Close sends a close frame and releases the connection.
+func (s *wsStream) Close() error {
+	s.done = true
+	// Best-effort close handshake.
+	_ = s.conn.WriteMessage(
+		websocket.CloseMessage,
+		websocket.FormatCloseMessage(websocket.CloseNormalClosure, ""),
+	)
+	return s.conn.Close()
+}
+
+// isTerminalEvent returns true for event types that signal the end of a
+// response on the WebSocket stream.
+func isTerminalEvent(eventType string) bool {
+	switch eventType {
+	case "response.completed", "response.done",
+		"response.failed", "response.incomplete":
+		return true
+	default:
+		return false
+	}
+}
+
+// httpToWSURL converts an HTTP(S) base URL to its WebSocket equivalent.
+// "https://api.openai.com/v1" → "wss://api.openai.com/v1/responses"
+func httpToWSURL(baseURL string) string {
+	u := strings.TrimRight(baseURL, "/")
+	u = strings.Replace(u, "https://", "wss://", 1)
+	u = strings.Replace(u, "http://", "ws://", 1)
+	if !strings.HasSuffix(u, "/responses") {
+		u += "/responses"
+	}
+	return u
+}
diff --git a/pkg/model/provider/openai/ws_stream_test.go b/pkg/model/provider/openai/ws_stream_test.go
new file mode 100644
index 000000000..90f6e5427
--- /dev/null
+++ b/pkg/model/provider/openai/ws_stream_test.go
@@ -0,0 +1,442 @@
+package openai
+
+import (
+	"encoding/json"
+	"io"
+	"net/http"
+	"net/http/httptest"
+	"strings"
+	"testing"
+
+	"github.com/gorilla/websocket"
+	"github.com/openai/openai-go/v3/responses"
+	"github.com/stretchr/testify/assert"
+	"github.com/stretchr/testify/require"
+
+	"github.com/docker/docker-agent/pkg/chat"
+	"github.com/docker/docker-agent/pkg/config/latest"
+	"github.com/docker/docker-agent/pkg/environment"
+)
+
+// testWSServer starts an httptest.Server that upgrades to WebSocket,
+// reads the response.create message, and sends back the given events
+// as JSON text frames.
+func testWSServer(t *testing.T, events []map[string]any) *httptest.Server {
+	t.Helper()
+
+	upgrader := websocket.Upgrader{CheckOrigin: func(*http.Request) bool { return true }}
+
+	return httptest.NewServer(http.HandlerFunc(func(w http.ResponseWriter, r *http.Request) {
+		conn, err := upgrader.Upgrade(w, r, nil)
+		if err != nil {
+			t.Errorf("WebSocket upgrade failed: %v", err)
+			return
+		}
+		defer conn.Close()
+
+		// Read the response.create message.
+		_, data, err := conn.ReadMessage()
+		if err != nil {
+			t.Errorf("Failed to read response.create: %v", err)
+			return
+		}
+
+		var createMsg map[string]any
+		if err := json.Unmarshal(data, &createMsg); err != nil {
+			t.Errorf("Failed to unmarshal response.create: %v", err)
+			return
+		}
+		assert.Equal(t, "response.create", createMsg["type"])
+
+		// Send events.
+		for _, event := range events {
+			eventData, _ := json.Marshal(event)
+			if err := conn.WriteMessage(websocket.TextMessage, eventData); err != nil {
+				return
+			}
+		}
+
+		// Close the connection after sending all events.
+		_ = conn.WriteMessage(
+			websocket.CloseMessage,
+			websocket.FormatCloseMessage(websocket.CloseNormalClosure, ""),
+		)
+	}))
+}
+
+func TestWSStream_TextDelta(t *testing.T) {
+	t.Parallel()
+
+	events := []map[string]any{
+		{
+			"type":    "response.output_text.delta",
+			"delta":   "Hello ",
+			"item_id": "item_1",
+		},
+		{
+			"type":    "response.output_text.delta",
+			"delta":   "World!",
+			"item_id": "item_1",
+		},
+		{
+			"type": "response.completed",
+			"response": map[string]any{
+				"id":     "resp_123",
+				"output": []any{},
+				"usage": map[string]any{
+					"input_tokens":  10,
+					"output_tokens": 5,
+					"total_tokens":  15,
+					"input_tokens_details": map[string]any{
+						"cached_tokens": 0,
+					},
+					"output_tokens_details": map[string]any{
+						"reasoning_tokens": 0,
+					},
+				},
+			},
+		},
+	}
+
+	srv := testWSServer(t, events)
+	defer srv.Close()
+
+	wsURL := "ws" + strings.TrimPrefix(srv.URL, "http")
+	stream, err := dialWebSocket(t.Context(), wsURL, http.Header{}, defaultTestParams())
+	require.NoError(t, err)
+	defer stream.Close()
+
+	adapter := newResponseStreamAdapter(stream, true)
+
+	// First delta
+	resp, err := adapter.Recv()
+	require.NoError(t, err)
+	require.Len(t, resp.Choices, 1)
+	assert.Equal(t, "Hello ", resp.Choices[0].Delta.Content)
+
+	// Second delta
+	resp, err = adapter.Recv()
+	require.NoError(t, err)
+	require.Len(t, resp.Choices, 1)
+	assert.Equal(t, "World!", resp.Choices[0].Delta.Content)
+
+	// response.completed → finish reason + usage
+	resp, err = adapter.Recv()
+	require.NoError(t, err)
+	require.Len(t, resp.Choices, 1)
+	assert.Equal(t, chat.FinishReasonStop, resp.Choices[0].FinishReason)
+	require.NotNil(t, resp.Usage)
+	assert.Equal(t, int64(10), resp.Usage.InputTokens)
+	assert.Equal(t, int64(5), resp.Usage.OutputTokens)
+
+	// Stream is exhausted.
+	_, err = adapter.Recv()
+	assert.ErrorIs(t, err, io.EOF)
+}
+
+func TestWSStream_ToolCall(t *testing.T) {
+	t.Parallel()
+
+	events := []map[string]any{
+		{
+			"type":    "response.output_item.added",
+			"item_id": "item_2",
+			"item": map[string]any{
+				"type":    "function_call",
+				"id":      "item_2",
+				"call_id": "call_abc",
+				"name":    "get_weather",
+			},
+		},
+		{
+			"type":    "response.function_call_arguments.delta",
+			"item_id": "item_2",
+			"delta":   `{"city":`,
+		},
+		{
+			"type":    "response.function_call_arguments.delta",
+			"item_id": "item_2",
+			"delta":   `"Paris"}`,
+		},
+		{
+			"type":    "response.function_call_arguments.done",
+			"item_id": "item_2",
+		},
+		{
+			"type": "response.completed",
+			"response": map[string]any{
+				"id": "resp_456",
+				"output": []any{
+					map[string]any{"type": "function_call"},
+				},
+				"usage": map[string]any{
+					"input_tokens":  8,
+					"output_tokens": 12,
+					"total_tokens":  20,
+					"input_tokens_details": map[string]any{
+						"cached_tokens": 0,
+					},
+					"output_tokens_details": map[string]any{
+						"reasoning_tokens": 0,
+					},
+				},
+			},
+		},
+	}
+
+	srv := testWSServer(t, events)
+	defer srv.Close()
+
+	wsURL := "ws" + strings.TrimPrefix(srv.URL, "http")
+	stream, err := dialWebSocket(t.Context(), wsURL, http.Header{}, defaultTestParams())
+	require.NoError(t, err)
+	defer stream.Close()
+
+	adapter := newResponseStreamAdapter(stream, true)
+
+	// output_item.added → tool call with name
+	resp, err := adapter.Recv()
+	require.NoError(t, err)
+	require.Len(t, resp.Choices, 1)
+	require.Len(t, resp.Choices[0].Delta.ToolCalls, 1)
+	assert.Equal(t, "get_weather", resp.Choices[0].Delta.ToolCalls[0].Function.Name)
+	assert.Equal(t, "call_abc", resp.Choices[0].Delta.ToolCalls[0].ID)
+
+	// arguments delta 1
+	resp, err = adapter.Recv()
+	require.NoError(t, err)
+	require.Len(t, resp.Choices, 1)
+	require.Len(t, resp.Choices[0].Delta.ToolCalls, 1)
+	assert.Equal(t, `{"city":`, resp.Choices[0].Delta.ToolCalls[0].Function.Arguments)
+
+	// arguments delta 2
+	resp, err = adapter.Recv()
+	require.NoError(t, err)
+	require.Len(t, resp.Choices, 1)
+	require.Len(t, resp.Choices[0].Delta.ToolCalls, 1)
+	assert.Equal(t, `"Paris"}`, resp.Choices[0].Delta.ToolCalls[0].Function.Arguments)
+
+	// arguments done → empty response (no choices)
+	resp, err = adapter.Recv()
+	require.NoError(t, err)
+	assert.Empty(t, resp.Choices)
+
+	// response.completed → finish reason tool_calls
+	resp, err = adapter.Recv()
+	require.NoError(t, err)
+	require.Len(t, resp.Choices, 1)
+	assert.Equal(t, chat.FinishReasonToolCalls, resp.Choices[0].FinishReason)
+
+	// Stream is exhausted.
+	_, err = adapter.Recv()
+	assert.ErrorIs(t, err, io.EOF)
+}
+
+func TestWSStream_ErrorEvent(t *testing.T) {
+	t.Parallel()
+
+	events := []map[string]any{
+		{
+			"type":    "error",
+			"message": "rate_limit_exceeded",
+			"param":   "",
+		},
+	}
+
+	srv := testWSServer(t, events)
+	defer srv.Close()
+
+	wsURL := "ws" + strings.TrimPrefix(srv.URL, "http")
+	stream, err := dialWebSocket(t.Context(), wsURL, http.Header{}, defaultTestParams())
+	require.NoError(t, err)
+	defer stream.Close()
+
+	// The error event is still yielded to Recv, then the stream errors.
+	ok := stream.Next()
+	assert.True(t, ok)
+	assert.Equal(t, "error", stream.Current().Type)
+	require.Error(t, stream.Err())
+	assert.Contains(t, stream.Err().Error(), "rate_limit_exceeded")
+
+	// Further calls return false.
+	assert.False(t, stream.Next())
+}
+
+func TestHTTPToWSURL(t *testing.T) {
+	t.Parallel()
+
+	tests := []struct {
+		input    string
+		expected string
+	}{
+		{"https://api.openai.com/v1", "wss://api.openai.com/v1/responses"},
+		{"https://api.openai.com/v1/", "wss://api.openai.com/v1/responses"},
+		{"http://localhost:8080/v1", "ws://localhost:8080/v1/responses"},
+		{"https://api.openai.com/v1/responses", "wss://api.openai.com/v1/responses"},
+	}
+
+	for _, tt := range tests {
+		t.Run(tt.input, func(t *testing.T) {
+			t.Parallel()
+			assert.Equal(t, tt.expected, httpToWSURL(tt.input))
+		})
+	}
+}
+
+func TestGetTransport(t *testing.T) {
+	t.Parallel()
+
+	tests := []struct {
+		name     string
+		config   *latest.ModelConfig
+		expected string
+	}{
+		{
+			name:     "nil config",
+			config:   nil,
+			expected: "sse",
+		},
+		{
+			name:     "no provider opts",
+			config:   &latest.ModelConfig{},
+			expected: "sse",
+		},
+		{
+			name: "transport=websocket",
+			config: &latest.ModelConfig{
+				ProviderOpts: map[string]any{"transport": "websocket"},
+			},
+			expected: "websocket",
+		},
+		{
+			name: "transport=WebSocket (case insensitive)",
+			config: &latest.ModelConfig{
+				ProviderOpts: map[string]any{"transport": "WebSocket"},
+			},
+			expected: "websocket",
+		},
+		{
+			name: "transport=sse",
+			config: &latest.ModelConfig{
+				ProviderOpts: map[string]any{"transport": "sse"},
+			},
+			expected: "sse",
+		},
+	}
+
+	for _, tt := range tests {
+		t.Run(tt.name, func(t *testing.T) {
+			t.Parallel()
+			assert.Equal(t, tt.expected, getTransport(tt.config))
+		})
+	}
+}
+
+func TestWSStream_EndToEnd_WithClient(t *testing.T) {
+	t.Parallel()
+
+	events := []map[string]any{
+		{
+			"type":    "response.output_text.delta",
+			"delta":   "Hi!",
+			"item_id": "item_1",
+		},
+		{
+			"type": "response.completed",
+			"response": map[string]any{
+				"id":     "resp_e2e",
+				"output": []any{},
+				"usage": map[string]any{
+					"input_tokens":  5,
+					"output_tokens": 1,
+					"total_tokens":  6,
+					"input_tokens_details": map[string]any{
+						"cached_tokens": 0,
+					},
+					"output_tokens_details": map[string]any{
+						"reasoning_tokens": 0,
+					},
+				},
+			},
+		},
+	}
+
+	srv := testWSServer(t, events)
+	defer srv.Close()
+
+	baseURL := srv.URL
+
+	cfg := &latest.ModelConfig{
+		Provider: "openai",
+		Model:    "gpt-4.1",
+		BaseURL:  baseURL,
+		ProviderOpts: map[string]any{
+			"api_type":  "openai_responses",
+			"transport": "websocket",
+		},
+	}
+
+	env := environment.NewMapEnvProvider(map[string]string{})
+
+	client, err := NewClient(t.Context(), cfg, env)
+	require.NoError(t, err)
+
+	stream, err := client.CreateChatCompletionStream(
+		t.Context(),
+		[]chat.Message{{Role: chat.MessageRoleUser, Content: "hello"}},
+		nil,
+	)
+	require.NoError(t, err)
+	defer stream.Close()
+
+	// First event: text delta
+	resp, err := stream.Recv()
+	require.NoError(t, err)
+	require.Len(t, resp.Choices, 1)
+	assert.Equal(t, "Hi!", resp.Choices[0].Delta.Content)
+
+	// Second event: completed
+	resp, err = stream.Recv()
+	require.NoError(t, err)
+	require.Len(t, resp.Choices, 1)
+	assert.Equal(t, chat.FinishReasonStop, resp.Choices[0].FinishReason)
+
+	// Done
+	_, err = stream.Recv()
+	assert.ErrorIs(t, err, io.EOF)
+}
+
+func defaultTestParams() responses.ResponseNewParams {
+	return responses.ResponseNewParams{
+		Model: "gpt-4.1",
+	}
+}
+
+func TestWebSocketDisabledWithGateway(t *testing.T) {
+	t.Parallel()
+
+	cfg := &latest.ModelConfig{
+		Provider: "openai",
+		Model:    "gpt-4.1",
+		ProviderOpts: map[string]any{
+			"transport": "websocket",
+		},
+	}
+
+	// Test 1: No gateway - WebSocket should be allowed
+	transport := getTransport(cfg)
+	assert.Equal(t, "websocket", transport)
+
+	// Test 2: With gateway - the condition in CreateResponseStream
+	// checks c.ModelOptions.Gateway() == "" before allowing WebSocket
+	// We can't easily test the full flow without mocking the Gateway auth,
+	// but we can verify the getTransport function works correctly
+	assert.Equal(t, "websocket", getTransport(cfg))
+
+	// Test 3: SSE is default
+	cfgNoTransport := &latest.ModelConfig{
+		Provider: "openai",
+		Model:    "gpt-4.1",
+	}
+	assert.Equal(t, "sse", getTransport(cfgNoTransport))
+}