fix: upgrade Transformers.js to 4.0.0-next.7 for GLM-OCR Glm46VImageProcessor support

ijbo · ijbo · commit 569fd8b8fdd1 · 2026-03-18T03:20:42.000+09:00
diff --git a/ai-worker-glm-ocr.js b/ai-worker-glm-ocr.js
@@ -12,7 +12,7 @@
  *   ping/pong   → health check
  */
 
-const TRANSFORMERS_URL = "https://cdn.jsdelivr.net/npm/@huggingface/transformers@4.0.0-next.6";
+const TRANSFORMERS_URL = "https://cdn.jsdelivr.net/npm/@huggingface/transformers@4.0.0-next.7";
 
 // Model host — downloads ONNX models from textagent HuggingFace org
 const MODEL_ORG_FALLBACK = "onnx-community";
@@ -23,7 +23,7 @@ let MODEL_LABEL = "GLM-OCR (1.5B)";
 
 // Dynamically loaded modules
 let AutoProcessor = null;
-let AutoModelForVision2Seq = null;
+let AutoModelForImageTextToText = null;
 let load_image = null;
 let TextStreamer = null;
 
@@ -43,7 +43,7 @@ async function loadModel() {
             try {
                 const transformers = await import(TRANSFORMERS_URL);
                 AutoProcessor = transformers.AutoProcessor;
-                AutoModelForVision2Seq = transformers.AutoModelForVision2Seq;
+                AutoModelForImageTextToText = transformers.AutoModelForImageTextToText;
                 load_image = transformers.load_image;
                 TextStreamer = transformers.TextStreamer;
             } catch (importError) {
@@ -97,7 +97,7 @@ async function loadModel() {
             });
 
             self.postMessage({ type: "status", message: `Loading ${MODEL_LABEL} model (${device.toUpperCase()})...` });
-            model = await AutoModelForVision2Seq.from_pretrained(MODEL_ID, {
+            model = await AutoModelForImageTextToText.from_pretrained(MODEL_ID, {
                 dtype: {
                     embed_tokens: "q4f16",
                     vision_encoder: "q4f16",
@@ -184,8 +184,8 @@ async function processDocument({ imageData, outputFormat = 'text', doImageSplitt
 
         // Apply chat template and process inputs
         const text = processor.apply_chat_template(messages, { add_generation_prompt: true });
-        const inputs = await processor(text, [image], {
-            do_image_splitting: doImageSplitting,
+        const inputs = await processor(text, image, {
+            add_special_tokens: false,
         });
 
         // Generate with streaming
diff --git a/changelogs/CHANGELOG-glm-ocr-compat.md b/changelogs/CHANGELOG-glm-ocr-compat.md
@@ -0,0 +1,15 @@
+# CHANGELOG — GLM-OCR Transformers.js Compatibility Fix
+
+## 2026-03-18
+
+Fixed `Unknown image_processor_type: 'Glm46VImageProcessor'` error that prevented GLM-OCR model from loading.
+
+### Root Cause
+Transformers.js `4.0.0-next.6` did not include support for the `Glm46VImageProcessor` class required by the GLM-OCR ONNX model. Support was added in [PR #1582](https://github.com/huggingface/transformers.js/pull/1582).
+
+### Changes
+
+- **`ai-worker-glm-ocr.js`** + **`public/ai-worker-glm-ocr.js`** (both copies):
+  - Upgraded Transformers.js from `4.0.0-next.6` → `4.0.0-next.7`
+  - Switched model class from `AutoModelForVision2Seq` → `AutoModelForImageTextToText`
+  - Fixed processor call: `processor(text, image, { add_special_tokens: false })` (was `processor(text, [image], { do_image_splitting })`)
diff --git a/public/ai-worker-glm-ocr.js b/public/ai-worker-glm-ocr.js
@@ -12,7 +12,7 @@
  *   ping/pong   → health check
  */
 
-const TRANSFORMERS_URL = "https://cdn.jsdelivr.net/npm/@huggingface/transformers@4.0.0-next.6";
+const TRANSFORMERS_URL = "https://cdn.jsdelivr.net/npm/@huggingface/transformers@4.0.0-next.7";
 
 // Model host — downloads ONNX models from textagent HuggingFace org
 const MODEL_ORG_FALLBACK = "onnx-community";
@@ -23,7 +23,7 @@ let MODEL_LABEL = "GLM-OCR (1.5B)";
 
 // Dynamically loaded modules
 let AutoProcessor = null;
-let AutoModelForVision2Seq = null;
+let AutoModelForImageTextToText = null;
 let load_image = null;
 let TextStreamer = null;
 
@@ -43,7 +43,7 @@ async function loadModel() {
             try {
                 const transformers = await import(TRANSFORMERS_URL);
                 AutoProcessor = transformers.AutoProcessor;
-                AutoModelForVision2Seq = transformers.AutoModelForVision2Seq;
+                AutoModelForImageTextToText = transformers.AutoModelForImageTextToText;
                 load_image = transformers.load_image;
                 TextStreamer = transformers.TextStreamer;
             } catch (importError) {
@@ -97,7 +97,7 @@ async function loadModel() {
             });
 
             self.postMessage({ type: "status", message: `Loading ${MODEL_LABEL} model (${device.toUpperCase()})...` });
-            model = await AutoModelForVision2Seq.from_pretrained(MODEL_ID, {
+            model = await AutoModelForImageTextToText.from_pretrained(MODEL_ID, {
                 dtype: {
                     embed_tokens: "q4f16",
                     vision_encoder: "q4f16",
@@ -184,8 +184,8 @@ async function processDocument({ imageData, outputFormat = 'text', doImageSplitt
 
         // Apply chat template and process inputs
         const text = processor.apply_chat_template(messages, { add_generation_prompt: true });
-        const inputs = await processor(text, [image], {
-            do_image_splitting: doImageSplitting,
+        const inputs = await processor(text, image, {
+            add_special_tokens: false,
         });
 
         // Generate with streaming