add a cpu specific helm chart values file for AgentQnA

haoruan · haoruan · commit c73e02bb7f60 · 2025-03-03T19:00:56.000+08:00
Signed-off-by: Ruan Hao &lt;hao.ruan@intel.com&gt;
diff --git a/AgentQnA/kubernetes/helm/README.md b/AgentQnA/kubernetes/helm/README.md
@@ -9,3 +9,10 @@
 export HFTOKEN="insert-your-huggingface-token-here"
 helm install agentqna oci://ghcr.io/opea-project/charts/agentqna  --set global.HUGGINGFACEHUB_API_TOKEN=${HFTOKEN} -f gaudi-values.yaml
 ```
+
+## Deploy on CPU
+
+```
+export HFTOKEN="insert-your-huggingface-token-here"
+helm install agentqna oci://ghcr.io/opea-project/charts/agentqna  --set global.HUGGINGFACEHUB_API_TOKEN=${HFTOKEN} -f cpu-values.yaml
+```
diff --git a/AgentQnA/kubernetes/helm/cpu-values.yaml b/AgentQnA/kubernetes/helm/cpu-values.yaml
@@ -0,0 +1,26 @@
+# Copyright (C) 2025 Intel Corporation
+# SPDX-License-Identifier: Apache-2.0
+
+# Accelerate inferencing in heaviest components to improve performance
+# by overriding their subchart values
+
+vllm:
+  enabled: true
+  accelDevice: ""
+  resources:
+    limits: 
+      habana.ai/gaudi: 0
+  image:
+    repository: opea/vllm
+  LLM_MODEL_ID: "meta-llama/Llama-3.2-3B-Instruct"
+  VLLM_CPU_KVCACHE_SPACE: 40
+  extraCmdArgs: ["--max-seq-len-to-capture", "16384"]
+supervisor:
+  llm_endpoint_url: http://{{ .Release.Name }}-vllm
+  model: "meta-llama/Llama-3.2-3B-Instruct"
+ragagent:
+  llm_endpoint_url: http://{{ .Release.Name }}-vllm
+  model: "meta-llama/Llama-3.2-3B-Instruct"
+sqlagent:
+  llm_endpoint_url: http://{{ .Release.Name }}-vllm
+  model: "meta-llama/Llama-3.2-3B-Instruct"