fix: anthopic compression

drujensen · drujensen · commit bb06f93ba8ff · 2026-03-03T15:48:10.000-08:00
diff --git a/internal/domain/services/chat_service.go b/internal/domain/services/chat_service.go
@@ -329,7 +329,13 @@ func (s *chatService) SendMessage(ctx context.Context, id string, message *entit
 		Role:    "system",
 		Content: agent.FullSystemPrompt(),
 	}
-	systemTokens := estimateTokens(systemMessage)
+
+	// Use provider-specific token estimation for system message
+	systemEstimateFunc := estimateTokens
+	if provider.Type == entities.ProviderAnthropic {
+		systemEstimateFunc = estimateAnthropicTokens
+	}
+	systemTokens := systemEstimateFunc(systemMessage)
 	if systemTokens > tokenLimit {
 		return nil, errors.InternalErrorf("system prompt too large for the context window")
 	}
@@ -348,8 +354,15 @@ func (s *chatService) SendMessage(ctx context.Context, id string, message *entit
 
 	// Check if we need to compress messages
 	totalMessageTokens := systemTokens
+	// Use provider-specific token estimation
+	tokenEstimator := estimateTokens
+	if provider.Type == entities.ProviderAnthropic {
+		tokenEstimator = estimateAnthropicTokens
+		s.logger.Debug("Using Anthropic-specific token estimation")
+	}
+
 	for i := range chat.Messages {
-		totalMessageTokens += estimateTokens(&chat.Messages[i])
+		totalMessageTokens += tokenEstimator(&chat.Messages[i])
 	}
 
 	s.logger.Debug("Total message tokens: ", zap.Float64("total_message_tokens", float64(totalMessageTokens)), zap.Float64("compression_threshold", compressionThreshold))
@@ -436,25 +449,35 @@ func (s *chatService) SendMessage(ctx context.Context, id string, message *entit
 		return nil, errors.InternalErrorf("no messages to send")
 	}
 
+	// Use provider-specific token estimation for pre-flight check
+	var estimateFunc func(*entities.Message) int = estimateTokens
+	if provider.Type == entities.ProviderAnthropic {
+		estimateFunc = estimateAnthropicTokens
+	}
+
 	totalTokens := 0
 	for _, msg := range messagesToSend {
 		if msg == nil {
 			s.logger.Error("Nil message found in messagesToSend")
 			continue
 		}
-		totalTokens += estimateTokens(msg)
+		totalTokens += estimateFunc(msg)
 	}
 
 	// More aggressive pre-flight compression at 75% to prevent API errors
 	preFlightLimit := int(float64(tokenLimit) * 0.75)
 	if totalTokens > preFlightLimit {
-		s.logger.Warn("Messages exceed pre-flight limit, attempting compression", zap.Int("total_tokens", totalTokens), zap.Int("pre_flight_limit", preFlightLimit))
+		s.logger.Warn("Messages exceed pre-flight limit, attempting compression",
+			zap.Int("total_tokens", totalTokens),
+			zap.Int("pre_flight_limit", preFlightLimit),
+			zap.Int("token_limit", tokenLimit))
 
-		// Try compression first
-		compressedMessages, originalMessagesReplaced, err := s.compressMessages(ctx, chat, model, provider, resolvedAPIKey, tokenLimit)
+		// Try compression with the pre-flight limit as target
+		compressedMessages, originalMessagesReplaced, err := s.compressMessages(ctx, chat, model, provider, resolvedAPIKey, preFlightLimit)
 		if err != nil {
 			s.logger.Warn("Pre-flight compression failed, falling back to trimming", zap.Error(err))
-			messagesToSend = s.trimMessagesToLimit(messagesToSend, preFlightLimit)
+			messagesToSend = s.trimMessagesToLimit(messagesToSend, preFlightLimit, provider.Type)
+			s.logger.Info("Pre-flight trimming applied", zap.Int("original_count", len(messagesToSend)), zap.Int("trimmed_count", len(messagesToSend)))
 		} else {
 			if originalMessagesReplaced {
 				if err := s.chatRepo.UpdateChat(ctx, chat); err != nil {
@@ -463,7 +486,10 @@ func (s *chatService) SendMessage(ctx context.Context, id string, message *entit
 			}
 			// Replace messagesToSend with compressed version
 			messagesToSend = append([]*entities.Message{systemMessage}, compressedMessages...)
-			s.logger.Info("Pre-flight compression successful", zap.Int("original_count", len(chat.Messages)), zap.Int("compressed_count", len(compressedMessages)))
+			s.logger.Info("Pre-flight compression successful",
+				zap.Int("original_count", len(chat.Messages)),
+				zap.Int("compressed_count", len(compressedMessages)),
+				zap.Int("target_tokens", preFlightLimit))
 		}
 	}
 
@@ -518,7 +544,7 @@ func (s *chatService) SendMessage(ctx context.Context, id string, message *entit
 		compressedMessages, originalMessagesReplaced, err := s.compressMessages(ctx, chat, model, provider, resolvedAPIKey, compressionTarget)
 		if err != nil {
 			s.logger.Warn("Failed progressive compression, using fallback trimming", zap.Error(err), zap.Int("target_tokens", compressionTarget))
-			compressedMessages = s.trimMessagesToLimit(messagesToSend, compressionTarget)
+			compressedMessages = s.trimMessagesToLimit(messagesToSend, compressionTarget, provider.Type)
 			originalMessagesReplaced = false
 		} else if originalMessagesReplaced {
 			if err := s.chatRepo.UpdateChat(ctx, chat); err != nil {
@@ -673,6 +699,28 @@ func estimateTokens(msg *entities.Message) int {
 	return len(tokens)
 }
 
+// estimateAnthropicTokens provides a rough token estimate for Anthropic models
+// Anthropic uses different tokenization than OpenAI, approximately 4 chars per token
+func estimateAnthropicTokens(msg *entities.Message) int {
+	if msg == nil {
+		return 0
+	}
+
+	// Rough approximation: ~4 characters per token for English text
+	charCount := len(msg.Content)
+	tokenEstimate := charCount / 4
+
+	// Add some padding for safety and to account for tokenization differences
+	tokenEstimate = int(float64(tokenEstimate) * 1.1)
+
+	// Minimum of 1 token
+	if tokenEstimate < 1 {
+		tokenEstimate = 1
+	}
+
+	return tokenEstimate
+}
+
 // isContextError checks if an error is related to context window limits
 func isContextError(err error) bool {
 	if err == nil {
@@ -1132,12 +1180,37 @@ func (s *chatService) compressMessages(
 	apiKey string,
 	tokenLimit int,
 ) ([]*entities.Message, bool, error) {
-	// Calculate how many messages to summarize (approx 50% of older messages)
-	numMessagesToKeep := int(float64(len(chat.Messages)) * 0.5)
+	// Use provider-specific token estimation
+	var estimateFunc func(*entities.Message) int = estimateTokens
+	if provider.Type == entities.ProviderAnthropic {
+		estimateFunc = estimateAnthropicTokens
+	}
+	// Calculate current total tokens to determine compression aggressiveness
+	currentTokens := 0
+	for _, msg := range chat.Messages {
+		currentTokens += estimateFunc(&msg)
+	}
+
+	// If we're way over the limit, be more aggressive with compression
+	compressionRatio := 0.5 // Default: keep 50% of messages
+	if currentTokens > tokenLimit*2 {
+		compressionRatio = 0.3 // If 2x over limit, keep only 30%
+	} else if currentTokens > int(float64(tokenLimit)*1.5) {
+		compressionRatio = 0.4 // If 1.5x over limit, keep 40%
+	}
+
+	numMessagesToKeep := int(float64(len(chat.Messages)) * compressionRatio)
 	if numMessagesToKeep < 1 {
 		numMessagesToKeep = 1 // Always keep at least the most recent message
 	}
 
+	s.logger.Debug("Compression calculation",
+		zap.Int("current_tokens", currentTokens),
+		zap.Int("token_limit", tokenLimit),
+		zap.Float64("compression_ratio", compressionRatio),
+		zap.Int("messages_total", len(chat.Messages)),
+		zap.Int("messages_to_keep", numMessagesToKeep))
+
 	// Tentative split point
 	summarizeEndIdx := len(chat.Messages) - numMessagesToKeep
 	if summarizeEndIdx < 1 {
@@ -1235,13 +1308,13 @@ func (s *chatService) compressMessages(
 	chat.Messages = append([]entities.Message{*summaryMsg}, recentMessagesToKeep...)
 
 	// Verify we're not exceeding token limit
-	currentTokens := estimateTokens(summaryMsg)
+	currentTokens = estimateFunc(summaryMsg)
 	var finalMessages []*entities.Message
 	finalMessages = append(finalMessages, summaryMsg)
 
 	// Add as many of the recent messages as possible within token limit
 	for i := range recentMessagesToKeep {
-		msgTokens := estimateTokens(&recentMessagesToKeep[i])
+		msgTokens := estimateFunc(&recentMessagesToKeep[i])
 		if currentTokens+msgTokens > tokenLimit {
 			break
 		}
@@ -1253,7 +1326,7 @@ func (s *chatService) compressMessages(
 }
 
 // trimMessagesToLimit removes oldest messages until under token limit
-func (s *chatService) trimMessagesToLimit(messages []*entities.Message, maxTokens int) []*entities.Message {
+func (s *chatService) trimMessagesToLimit(messages []*entities.Message, maxTokens int, providerType entities.ProviderType) []*entities.Message {
 	if messages == nil || len(messages) <= 1 {
 		return messages // Always keep at least system message
 	}
@@ -1263,8 +1336,14 @@ func (s *chatService) trimMessagesToLimit(messages []*entities.Message, maxToken
 		return messages
 	}
 
+	// Use provider-specific token estimation
+	estimateFunc := estimateTokens
+	if providerType == entities.ProviderAnthropic {
+		estimateFunc = estimateAnthropicTokens
+	}
+
 	var result []*entities.Message
-	totalTokens := estimateTokens(messages[0]) // Always include system message
+	totalTokens := estimateFunc(messages[0]) // Always include system message
 
 	result = append(result, messages[0])
 
@@ -1274,7 +1353,7 @@ func (s *chatService) trimMessagesToLimit(messages []*entities.Message, maxToken
 			s.logger.Warn("Skipping nil message in trimMessagesToLimit", zap.Int("index", i))
 			continue
 		}
-		msgTokens := estimateTokens(messages[i])
+		msgTokens := estimateFunc(messages[i])
 		if totalTokens+msgTokens > maxTokens {
 			break
 		}
diff --git a/internal/domain/services/chat_service_test.go b/internal/domain/services/chat_service_test.go
@@ -27,7 +27,7 @@ func TestTrimMessagesToLimit(t *testing.T) {
 	}
 
 	// Test with a very low token limit to force trimming
-	result := cs.trimMessagesToLimit(messages, 10) // Very low limit
+	result := cs.trimMessagesToLimit(messages, 10, entities.ProviderOpenAI) // Very low limit
 
 	// Should always keep at least the system message
 	if len(result) == 0 {
@@ -52,14 +52,14 @@ func TestTrimMessagesToLimitNilInput(t *testing.T) {
 	cs := &chatService{logger: logger}
 
 	// Test with nil input
-	result := cs.trimMessagesToLimit(nil, 100)
+	result := cs.trimMessagesToLimit(nil, 100, entities.ProviderOpenAI)
 	if result != nil {
 		t.Error("trimMessagesToLimit should return nil for nil input")
 	}
 
 	// Test with empty slice
 	empty := []*entities.Message{}
-	result = cs.trimMessagesToLimit(empty, 100)
+	result = cs.trimMessagesToLimit(empty, 100, entities.ProviderOpenAI)
 	if len(result) != 0 {
 		t.Error("trimMessagesToLimit should return empty slice for empty input")
 	}
diff --git a/internal/impl/integrations/anthropic.go b/internal/impl/integrations/anthropic.go
@@ -207,11 +207,9 @@ func (m *AnthropicIntegration) GenerateResponse(ctx context.Context, messages []
 					zap.Int("status_code", resp.StatusCode),
 					zap.String("body", string(body)))
 
-				// Check for context window errors
-				if resp.StatusCode == http.StatusBadRequest {
-					if contextErr := m.parseAnthropicContextError(body); contextErr != nil {
-						return nil, contextErr
-					}
+				// Check for context window errors on any error status
+				if contextErr := m.parseAnthropicContextError(body); contextErr != nil {
+					return nil, contextErr
 				}
 
 				return nil, fmt.Errorf("unexpected status %d: %s", resp.StatusCode, string(body))
@@ -498,6 +496,7 @@ func (m *AnthropicIntegration) GetLastUsage() (*entities.Usage, error) {
 
 // parseAnthropicContextError checks if the error response is related to context window limits
 func (m *AnthropicIntegration) parseAnthropicContextError(body []byte) error {
+	// Try to parse as structured error first
 	var errorResp struct {
 		Type  string `json:"type"`
 		Error struct {
@@ -506,18 +505,42 @@ func (m *AnthropicIntegration) parseAnthropicContextError(body []byte) error {
 		} `json:"error"`
 	}
 
-	if err := json.Unmarshal(body, &errorResp); err != nil {
-		return nil // Not a valid JSON error response, return nil to let caller handle
-	}
+	if err := json.Unmarshal(body, &errorResp); err == nil {
+		m.logger.Debug("Parsed structured Anthropic error", zap.String("type", errorResp.Type), zap.String("error_type", errorResp.Error.Type), zap.String("message", errorResp.Error.Message))
 
-	if errorResp.Type == "error" && errorResp.Error.Type == "invalid_request_error" {
+		// Check for context-related errors regardless of error type
 		errMsg := strings.ToLower(errorResp.Error.Message)
 		if strings.Contains(errMsg, "too long") ||
 			strings.Contains(errMsg, "token limit") ||
 			strings.Contains(errMsg, "context") ||
-			strings.Contains(errMsg, "maximum length") {
+			strings.Contains(errMsg, "maximum length") ||
+			strings.Contains(errMsg, "context_length_exceeded") ||
+			strings.Contains(errMsg, "prompt is too long") ||
+			strings.Contains(errMsg, "input too long") {
 			return errors.ContextWindowErrorf("Anthropic context window exceeded: %s", errorResp.Error.Message)
 		}
+
+		// Also check for system errors that might indicate context issues
+		if errorResp.Type == "error" && (errorResp.Error.Type == "system_error" || errorResp.Error.Type == "internal_error") {
+			if strings.Contains(errMsg, "context") || strings.Contains(errMsg, "token") || strings.Contains(errMsg, "length") {
+				return errors.ContextWindowErrorf("Anthropic system error (likely context): %s", errorResp.Error.Message)
+			}
+		}
+	} else {
+		// If not structured JSON, check if it's a raw error message that contains context-related text
+		bodyStr := strings.ToLower(string(body))
+		m.logger.Debug("Checking raw Anthropic error for context issues", zap.String("body", bodyStr))
+
+		if strings.Contains(bodyStr, "too long") ||
+			strings.Contains(bodyStr, "token limit") ||
+			strings.Contains(bodyStr, "context") ||
+			strings.Contains(bodyStr, "maximum length") ||
+			strings.Contains(bodyStr, "context_length_exceeded") ||
+			strings.Contains(bodyStr, "prompt is too long") ||
+			strings.Contains(bodyStr, "input too long") ||
+			strings.Contains(bodyStr, "context window") {
+			return errors.ContextWindowErrorf("Anthropic context window exceeded (raw error): %s", string(body))
+		}
 	}
 
 	return nil