feat: adapter logging + fix Gemini system_instruction placement

jace-ryan · claude · jace-ryan · commit 358196110bc5 · 2026-04-02T20:49:41.000-05:00
- All adapters now log model name + latency on every LLM call
- Anthropic/OpenAI adapters also log token usage (in/out)
- Gemini adapter: moved system_instruction from GenerationConfig to
  GenerativeModel constructor (was in wrong location per current API)

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/server/adapters/anthropic_adapter.py b/server/adapters/anthropic_adapter.py
@@ -2,10 +2,15 @@
 
 from __future__ import annotations
 
+import logging
+import time
+
 from anthropic import Anthropic
 
 from .base import LLMAdapter
 
+logger = logging.getLogger(__name__)
+
 
 class AnthropicAdapter(LLMAdapter):
     def __init__(self, api_key: str, model: str) -> None:
@@ -18,12 +23,20 @@ def complete(
         messages: list[dict[str, str]],
         max_tokens: int = 4096,
     ) -> str:
+        start = time.monotonic()
         resp = self._client.messages.create(
             model=self._model,
             max_tokens=max_tokens,
             system=system,
             messages=messages,
         )
+        elapsed = time.monotonic() - start
+        tokens_in = resp.usage.input_tokens
+        tokens_out = resp.usage.output_tokens
+        logger.info(
+            "anthropic model=%s in=%d out=%d %.1fs",
+            self._model, tokens_in, tokens_out, elapsed,
+        )
         return resp.content[0].text
 
     @property
diff --git a/server/adapters/gemini_adapter.py b/server/adapters/gemini_adapter.py
@@ -2,35 +2,52 @@
 
 from __future__ import annotations
 
+import logging
+import time
+
 import google.generativeai as genai
 
 from .base import LLMAdapter
 
+logger = logging.getLogger(__name__)
+
 
 class GeminiAdapter(LLMAdapter):
     def __init__(self, api_key: str, model: str) -> None:
         genai.configure(api_key=api_key)
         self._model_name = model
-        self._model = genai.GenerativeModel(model_name=model)
+        self._model = genai.GenerativeModel(
+            model_name=model,
+            system_instruction=None,  # set per-call
+        )
 
     def complete(
         self,
         system: str,
         messages: list[dict[str, str]],
         max_tokens: int = 4096,
     ) -> str:
+        # Gemini uses system_instruction on the model, not in GenerationConfig
+        model = genai.GenerativeModel(
+            model_name=self._model_name,
+            system_instruction=system,
+        )
+
         history = [
             {"role": "user" if m["role"] == "user" else "model", "parts": [m["content"]]}
             for m in messages
         ]
-        chat = self._model.start_chat(history=history[:-1] if len(history) > 1 else [])
+        chat = model.start_chat(history=history[:-1] if len(history) > 1 else [])
+
+        start = time.monotonic()
         resp = chat.send_message(
             history[-1]["parts"][0] if history else "",
             generation_config=genai.types.GenerationConfig(
                 max_output_tokens=max_tokens,
-                system_instruction=system,
             ),
         )
+        elapsed = time.monotonic() - start
+        logger.info("gemini model=%s %.1fs", self._model_name, elapsed)
         return resp.text
 
     @property
diff --git a/server/adapters/ollama_adapter.py b/server/adapters/ollama_adapter.py
@@ -2,10 +2,15 @@
 
 from __future__ import annotations
 
+import logging
+import time
+
 import httpx
 
 from .base import LLMAdapter
 
+logger = logging.getLogger(__name__)
+
 
 class OllamaAdapter(LLMAdapter):
     def __init__(self, base_url: str, model: str) -> None:
@@ -24,12 +29,15 @@ def complete(
             "stream": False,
             "options": {"num_predict": max_tokens},
         }
+        start = time.monotonic()
         resp = httpx.post(
             f"{self._base_url}/api/chat",
             json=payload,
             timeout=120.0,
         )
         resp.raise_for_status()
+        elapsed = time.monotonic() - start
+        logger.info("ollama model=%s %.1fs", self._model, elapsed)
         return resp.json()["message"]["content"]
 
     @property
diff --git a/server/adapters/openai_adapter.py b/server/adapters/openai_adapter.py
@@ -2,10 +2,15 @@
 
 from __future__ import annotations
 
+import logging
+import time
+
 from openai import OpenAI
 
 from .base import LLMAdapter
 
+logger = logging.getLogger(__name__)
+
 
 class OpenAIAdapter(LLMAdapter):
     def __init__(self, api_key: str, model: str) -> None:
@@ -18,12 +23,20 @@ def complete(
         messages: list[dict[str, str]],
         max_tokens: int = 4096,
     ) -> str:
+        start = time.monotonic()
         full = [{"role": "system", "content": system}, *messages]
         resp = self._client.chat.completions.create(
             model=self._model,
             max_tokens=max_tokens,
             messages=full,
         )
+        elapsed = time.monotonic() - start
+        usage = resp.usage
+        if usage:
+            logger.info(
+                "openai model=%s in=%d out=%d %.1fs",
+                self._model, usage.prompt_tokens, usage.completion_tokens, elapsed,
+            )
         return resp.choices[0].message.content or ""
 
     @property