implement load balancing across LLM providers to scale #7

sorcerer2073 · 2025-08-22T07:35:03Z

sorcerer2073
Aug 22, 2025
Collaborator

o scale AgentForge for high availability and cost efficiency, we need to balance requests across multiple LLM providers (e.g., OpenAI, Grok, Ollama) based on availability or cost. How can we implement this in llm_providers.py?

Answered by kunwar-vikrant

Aug 22, 2025

We can implement a load balancer in llm_providers.py by selecting providers dynamically based on criteria like response time, cost, or availability. something like this should work?
pythonimport random
import time
import requests
import os

class LLMProvider:
def init(self, name, api_key_var, url, model):
self.name = name
self.api_key = os.getenv(api_key_var)
self.url = url
self.model = model
self.last_response_time = float('inf') # Track performance

providers = [
LLMProvider('openai', 'OPENAI_API_KEY', 'https://api.openai.com/v1/chat/completions', 'gpt-4o-mini'),
LLMProvider('grok', 'XAI_API_KEY', 'https://api.x.ai/v1/chat/completions', 'grok-beta'),
LLMProvider('ollama', None, 'http://lo…

View full answer

kunwar-vikrant · 2025-08-22T07:39:01Z

kunwar-vikrant
Aug 22, 2025
Maintainer

We can implement a load balancer in llm_providers.py by selecting providers dynamically based on criteria like response time, cost, or availability. something like this should work?
pythonimport random
import time
import requests
import os

class LLMProvider:
def init(self, name, api_key_var, url, model):
self.name = name
self.api_key = os.getenv(api_key_var)
self.url = url
self.model = model
self.last_response_time = float('inf') # Track performance

providers = [
LLMProvider('openai', 'OPENAI_API_KEY', 'https://api.openai.com/v1/chat/completions', 'gpt-4o-mini'),
LLMProvider('grok', 'XAI_API_KEY', 'https://api.x.ai/v1/chat/completions', 'grok-beta'),
LLMProvider('ollama', None, 'http://localhost:11434/api/chat', 'llama3')
]

def get_llm_response(prompt):
# Select provider with lowest recent response time
available = [p for p in providers if p.api_key or p.name == 'ollama']
if not available:
raise ValueError("No available providers")
provider = min(available, key=lambda p: p.last_response_time, default=random.choice(available))

start_time = time.time()
headers = {"Authorization": f"Bearer {provider.api_key}", "Content-Type": "application/json"} if provider.api_key else {}
data = {"model": provider.model, "messages": [{"role": "user", "content": prompt}]}
try:
    response = requests.post(provider.url, headers=headers, json=data, timeout=10)
    response.raise_for_status()
    provider.last_response_time = time.time() - start_time
    return response.json()['choices'][0]['message']['content']
except requests.exceptions.RequestException:
    provider.last_response_time = float('inf')  # Mark as slow/unavailable
    raise

This selects the fastest-responding provider for each request, updating based on recent performance. We could extend it with weights for cost or add failover logic to retry with another provider on failure.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

implement load balancing across LLM providers to scale #7

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

implement load balancing across LLM providers to scale #7

Uh oh!

sorcerer2073 Aug 22, 2025 Collaborator

Replies: 1 comment

Uh oh!

kunwar-vikrant Aug 22, 2025 Maintainer

sorcerer2073
Aug 22, 2025
Collaborator

kunwar-vikrant
Aug 22, 2025
Maintainer