feat: Add a max output tokens env variable

author: Mohamed Bassem <me@mbassem.com> 2025-07-20 23:39:38 +0000
committer: Mohamed Bassem <me@mbassem.com> 2025-07-20 23:39:38 +0000
commit: 52ac0869d53b54e91db557f012f7ee9a3ecc3e9d (patch)
tree: 8c56b8aa621686f3379f4617f77536562ea046bf /packages/shared/inference.ts
parent: 2f3da0b8ce039afebf3aca0cc4030fbf168c13dc (diff)
download: karakeep-52ac0869d53b54e91db557f012f7ee9a3ecc3e9d.tar.zst
1 files changed, 3 insertions, 1 deletions
diff --git a/packages/shared/inference.ts b/packages/shared/inference.ts
index 04fa8cfc..41026fbd 100644
--- a/packages/shared/inference.ts
+++ b/packages/shared/inference.ts
@@ -90,6 +90,7 @@ class OpenAIInferenceClient implements InferenceClient {
       {
         messages: [{ role: "user", content: prompt }],
         model: serverConfig.inference.textModel,
+        max_tokens: serverConfig.inference.maxOutputTokens,
         response_format: mapInferenceOutputSchema(
           {
             structured: optsWithDefaults.schema
@@ -126,6 +127,7 @@ class OpenAIInferenceClient implements InferenceClient {
     const chatCompletion = await this.openAI.chat.completions.create(
       {
         model: serverConfig.inference.imageModel,
+        max_tokens: serverConfig.inference.maxOutputTokens,
         response_format: mapInferenceOutputSchema(
           {
             structured: optsWithDefaults.schema
@@ -151,7 +153,6 @@ class OpenAIInferenceClient implements InferenceClient {
             ],
           },
         ],
-        max_tokens: 2000,
       },
       {
         signal: optsWithDefaults.abortSignal,
@@ -224,6 +225,7 @@ class OllamaInferenceClient implements InferenceClient {
       keep_alive: serverConfig.inference.ollamaKeepAlive,
       options: {
         num_ctx: serverConfig.inference.contextLength,
+        num_predict: serverConfig.inference.maxOutputTokens,
       },
       messages: [
         { role: "user", content: prompt, images: image ? [image] : undefined },
author	Mohamed Bassem <me@mbassem.com>	2025-07-20 23:39:38 +0000
committer	Mohamed Bassem <me@mbassem.com>	2025-07-20 23:39:38 +0000
commit	52ac0869d53b54e91db557f012f7ee9a3ecc3e9d (patch)
tree	8c56b8aa621686f3379f4617f77536562ea046bf /packages/shared/inference.ts
parent	2f3da0b8ce039afebf3aca0cc4030fbf168c13dc (diff)
download	karakeep-52ac0869d53b54e91db557f012f7ee9a3ecc3e9d.tar.zst