From f2d7dc0cf16fdecef7b12e5b4964684d6d6f00c4 Mon Sep 17 00:00:00 2001
From: Grill cheese <grillcheeseapi@gmail.com>
Date: Thu, 16 Apr 2026 15:34:13 -0400
Subject: [PATCH] fixes and addons

---
 CMakeLists.txt                       |   6 +
 backend/_bridge.py                   | 157 +++++++++++++++++++++++++++
 backend/attention.py                 |  44 +++++---
 backend/fnn.py                       |   8 +-
 cpp/include/grilly/ops/bandit.h      |  29 +++++
 cpp/include/grilly/ops/eggroll.h     |  46 ++++++++
 cpp/include/grilly/ops/loss.h        |  25 ++++-
 cpp/include/grilly/ops/mingru.h      |  39 +++++++
 cpp/python/bindings_bandit.cpp       |  26 +++++
 cpp/python/bindings_core.cpp         |   6 +
 cpp/python/bindings_eggroll.cpp      |  45 ++++++++
 cpp/python/bindings_loss.cpp         |  62 +++++++++++
 cpp/python/bindings_mingru.cpp       | 102 +++++++++++++++++
 cpp/src/ops/bandit.cpp               |  63 +++++++++++
 cpp/src/ops/eggroll.cpp              | 120 ++++++++++++++++++++
 cpp/src/ops/loss.cpp                 |  92 ++++++++++++++++
 cpp/src/ops/mingru.cpp               | 155 ++++++++++++++++++++++++++
 cpp/src/ops/moe_forward.cpp          |   2 +-
 functional/_helpers.py               |  21 ++++
 functional/activations.py            |  25 ++---
 functional/attention.py              |  11 +-
 functional/bridge.py                 |  10 +-
 functional/cells.py                  |  10 +-
 functional/dropout.py                |  11 +-
 functional/embedding.py              |  10 +-
 functional/faiss.py                  |  10 +-
 functional/learning.py               |  10 +-
 functional/linear.py                 |  11 +-
 functional/loss.py                   |  10 +-
 functional/memory.py                 |  10 +-
 functional/normalization.py          |  11 +-
 nn/attention.py                      |  36 +++---
 nn/autograd.py                       |  58 ++++++----
 nn/linear.py                         | 117 +-------------------
 nn/module.py                         |  50 +++++----
 nn/prefix_scan.py                    |  86 +++++++++++++++
 optim/adamw.py                       |  14 +++
 optim/base.py                        |  15 ++-
 pytest_out.txt                       | Bin 0 -> 6196 bytes
 scratch/inspect_grilly_core.py       |   3 +
 shaders/bandit-solve.glsl            | 151 ++++++++++++++++++++++++++
 shaders/eggroll-generate.glsl        |  91 ++++++++++++++++
 shaders/eggroll-update.glsl          |  64 +++++++++++
 shaders/gqa-attention.glsl           | 143 +++++++++++-------------
 shaders/loss-cosine.glsl             |  35 ++++++
 shaders/loss-mse.glsl                |  19 ++++
 shaders/mingru-backward.glsl         |  81 ++++++++++++++
 shaders/mingru-forward.glsl          |  56 ++++++++++
 shaders/moe-layer-fused-vec4.glsl    |  44 ++++----
 shaders/spv/bandit-solve.spv         | Bin 0 -> 10552 bytes
 shaders/spv/eggroll-generate.spv     | Bin 0 -> 5148 bytes
 shaders/spv/eggroll-update.spv       | Bin 0 -> 4776 bytes
 shaders/spv/fnn-layernorm.spv        | Bin 7428 -> 7500 bytes
 shaders/spv/gqa-attention.spv        | Bin 9812 -> 10204 bytes
 shaders/spv/loss-cosine.spv          | Bin 0 -> 3024 bytes
 shaders/spv/loss-cross-entropy.spv   | Bin 7264 -> 7336 bytes
 shaders/spv/loss-mse.spv             | Bin 0 -> 1748 bytes
 shaders/spv/mingru-backward.spv      | Bin 0 -> 6080 bytes
 shaders/spv/mingru-forward.spv       | Bin 0 -> 3752 bytes
 shaders/spv/moe-layer-fused-vec4.spv | Bin 10864 -> 11396 bytes
 shaders/spv/moe-layer-fused.spv      | Bin 9660 -> 9732 bytes
 shaders/spv/moe-router.spv           | Bin 5816 -> 5888 bytes
 tests/conftest.py                    |  10 +-
 tests/test_bandit_gpu.py             |  64 +++++++++++
 tests/test_losses_gpu.py             |  96 ++++++++++++++++
 tests/test_lr_scheduler.py           |   1 +
 tests/test_mingru_parity.py          |  57 ++++++++++
 utils/grl_checkpoint.py              |  23 ++--
 uv.lock                              |   2 +-
 69 files changed, 2080 insertions(+), 423 deletions(-)
 create mode 100644 cpp/include/grilly/ops/bandit.h
 create mode 100644 cpp/include/grilly/ops/eggroll.h
 create mode 100644 cpp/include/grilly/ops/mingru.h
 create mode 100644 cpp/python/bindings_bandit.cpp
 create mode 100644 cpp/python/bindings_eggroll.cpp
 create mode 100644 cpp/python/bindings_mingru.cpp
 create mode 100644 cpp/src/ops/bandit.cpp
 create mode 100644 cpp/src/ops/eggroll.cpp
 create mode 100644 cpp/src/ops/mingru.cpp
 create mode 100644 functional/_helpers.py
 create mode 100644 pytest_out.txt
 create mode 100644 scratch/inspect_grilly_core.py
 create mode 100644 shaders/bandit-solve.glsl
 create mode 100644 shaders/eggroll-generate.glsl
 create mode 100644 shaders/eggroll-update.glsl
 create mode 100644 shaders/loss-cosine.glsl
 create mode 100644 shaders/loss-mse.glsl
 create mode 100644 shaders/mingru-backward.glsl
 create mode 100644 shaders/mingru-forward.glsl
 create mode 100644 shaders/spv/bandit-solve.spv
 create mode 100644 shaders/spv/eggroll-generate.spv
 create mode 100644 shaders/spv/eggroll-update.spv
 create mode 100644 shaders/spv/loss-cosine.spv
 create mode 100644 shaders/spv/loss-mse.spv
 create mode 100644 shaders/spv/mingru-backward.spv
 create mode 100644 shaders/spv/mingru-forward.spv
 create mode 100644 tests/test_bandit_gpu.py
 create mode 100644 tests/test_losses_gpu.py
 create mode 100644 tests/test_mingru_parity.py

diff --git a/CMakeLists.txt b/CMakeLists.txt
index 076d0ad..7f53e73 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -221,6 +221,9 @@ add_library(grilly_core_lib STATIC
     cpp/src/ops/moe_forward.cpp
     cpp/src/ops/vsa_lm_forward.cpp
     cpp/src/ops/prefix_scan.cpp
+    cpp/src/ops/mingru.cpp
+    cpp/src/ops/bandit.cpp
+    cpp/src/ops/eggroll.cpp
     cpp/src/shader_fusion.cpp
     # ── Experimental ──
     cpp/src/experimental/paged_latent_pool.cpp
@@ -312,6 +315,9 @@ pybind11_add_module(grilly_core
     cpp/python/bindings_vsa_lm.cpp
     cpp/python/bindings_grl.cpp
     cpp/python/bindings_prefix_scan.cpp
+    cpp/python/bindings_mingru.cpp
+    cpp/python/bindings_bandit.cpp
+    cpp/python/bindings_eggroll.cpp
 )
 target_link_libraries(grilly_core PRIVATE grilly_core_lib)
 
diff --git a/backend/_bridge.py b/backend/_bridge.py
index 9b74d53..20c15a1 100644
--- a/backend/_bridge.py
+++ b/backend/_bridge.py
@@ -2467,3 +2467,160 @@ def blockcode_similarity(query, codebook, num_blocks, block_size):
             )
         sims[entry_idx] = dot_sum / num_blocks
     return sims
+
+
+# ── VSA Core (Bitpacked / Full-Vector) ───────────────────────────────────
+
+
+def vsa_bind(a, b):
+    """GPU VSA cyclic binding (circular convolution)."""
+    dev = _get_device()
+    if dev is None:
+        return None
+    try:
+        return _core.vsa_bind(dev, _ensure_f32_contiguous(a), _ensure_f32_contiguous(b))
+    except Exception as e:
+        _record_fallback("vsa_bind", e)
+        return None
+
+
+def vsa_bundle(a, b):
+    """GPU VSA bundling (vector addition)."""
+    dev = _get_device()
+    if dev is None:
+        return None
+    try:
+        return _core.vsa_bundle(dev, _ensure_f32_contiguous(a), _ensure_f32_contiguous(b))
+    except Exception as e:
+        _record_fallback("vsa_bundle", e)
+        return None
+
+
+def vsa_unbind(composite, key):
+    """GPU VSA unbinding (circular correlation)."""
+    dev = _get_device()
+    if dev is None:
+        return None
+    try:
+        return _core.vsa_unbind(dev, _ensure_f32_contiguous(composite), _ensure_f32_contiguous(key))
+    except Exception as e:
+        _record_fallback("vsa_unbind", e)
+        return None
+
+
+def vsa_bitpack(x):
+    """GPU VSA bitpacking: convert float vector to uint32 bitset."""
+    dev = _get_device()
+    if dev is None:
+        return None
+    try:
+        return _core.vsa_bitpack(dev, _ensure_f32_contiguous(x))
+    except Exception as e:
+        _record_fallback("vsa_bitpack", e)
+        return None
+
+
+def blake3_role(seed_string, dim):
+    """Generate a pseudo-random VSA role vector using BLAKE3 hashing."""
+    if not _NATIVE or not hasattr(_core, "blake3_role"):
+        return None
+    try:
+        return _core.blake3_role(str(seed_string), int(dim))
+    except Exception as e:
+        _record_fallback("blake3_role", e)
+        return None
+
+
+# ── Search & Retrieval ───────────────────────────────────────────────────
+
+
+def hamming_search(query, codebook):
+    """GPU Hamming search for nearest bitpacked vector."""
+    dev = _get_device()
+    if dev is None:
+        return None
+    try:
+        # Codebook should be uint32 (bitpacked)
+        return _core.hamming_search(dev, query, codebook)
+    except Exception as e:
+        _record_fallback("hamming_search", e)
+        return None
+
+
+# ── CubeMind & Cognitive Ops ─────────────────────────────────────────────
+
+
+def resonator_step(query, codebooks):
+    """GPU Resonator Network step for VSA factorisation."""
+    dev = _get_device()
+    if dev is None:
+        return None
+    try:
+        # codebooks should be a list of ndarrays
+        cbs = [_ensure_f32_contiguous(cb) for cb in codebooks]
+        return _core.resonator(dev, _ensure_f32_contiguous(query), cbs)
+    except Exception as e:
+        _record_fallback("resonator_step", e)
+        return None
+
+
+def semantic_assigner(x, semantic_codes):
+    """GPU Semantic Assigner: maps continuous features to VSA semantic space."""
+    dev = _get_device()
+    if dev is None:
+        return None
+    try:
+        return _core.semantic_assigner(
+            dev, _ensure_f32_contiguous(x), _ensure_f32_contiguous(semantic_codes)
+        )
+    except Exception as e:
+        _record_fallback("semantic_assigner", e)
+        return None
+
+
+# ── Optimized Transformer & Training ─────────────────────────────────────
+
+
+def flash_attention2(q, k, v, mask=None, scale=None, use_rope=False):
+    """GPU Flash Attention 2. Returns None on failure."""
+    dev = _get_device()
+    if dev is None:
+        return None
+    try:
+        q = _ensure_f32_contiguous(q)
+        k = _ensure_f32_contiguous(k)
+        v = _ensure_f32_contiguous(v)
+        mask = _ensure_f32_contiguous(mask)
+        # Use default scale if None
+        s = float(scale) if scale is not None else 1.0 / np.sqrt(q.shape[-1])
+        return _core.flash_attention2(dev, q, k, v, mask, s)
+    except Exception as e:
+        _record_fallback("flash_attention2", e)
+        return None
+
+
+def adamw_update(
+    weights, grad, m, v, lr=1e-3, beta1=0.9, beta2=0.999, eps=1e-8, weight_decay=0.01,
+    beta1_t=None, beta2_t=None, clear_grad=False
+):
+    """GPU AdamW optimizer update step."""
+    dev = _get_device()
+    if dev is None:
+        return None
+    try:
+        # Use provided bias correction factors or compute from t
+        b1_t = float(beta1_t) if beta1_t is not None else 1.0
+        b2_t = float(beta2_t) if beta2_t is not None else 1.0
+        
+        return _core.adamw_update(
+            dev,
+            _ensure_f32_contiguous(weights),
+            _ensure_f32_contiguous(grad),
+            _ensure_f32_contiguous(m),
+            _ensure_f32_contiguous(v),
+            float(lr), float(beta1), float(beta2), float(eps),
+            float(weight_decay), b1_t, b2_t, bool(clear_grad)
+        )
+    except Exception as e:
+        _record_fallback("adamw_update", e)
+        return None
diff --git a/backend/attention.py b/backend/attention.py
index c9d1edb..af68526 100644
--- a/backend/attention.py
+++ b/backend/attention.py
@@ -115,9 +115,11 @@ def attention_scores(self, queries, keys, num_heads, head_dim, scale=None):
                 "IIIIfI", batch_size, seq_len, num_heads, head_dim, scale, 0
             )
 
-            # Dispatch
+            # Dispatch: x = seq_len, y = seq_len, z = batch_size * num_heads
             workgroups_x = (seq_len + 15) // 16
-            workgroups_y = ((batch_size * num_heads * seq_len) + 15) // 16
+            workgroups_y = (seq_len + 15) // 16
+            workgroups_z = batch_size * num_heads
+            
             self.core._dispatch_compute(
                 pipeline,
                 pipeline_layout,
@@ -125,6 +127,7 @@ def attention_scores(self, queries, keys, num_heads, head_dim, scale=None):
                 workgroups_x,
                 push_constants,
                 workgroups_y,
+                workgroups_z,
             )
 
             # Download results
@@ -958,7 +961,7 @@ def gqa_decode_attention(
         self._upload_buffer(buf_v, v_flat)
 
         pipeline, pipeline_layout, _ = self.pipelines.get_or_create_pipeline(
-            "gqa-attention", 5, push_constant_size=24
+            "gqa-attention", 5, push_constant_size=28
         )
 
         descriptor_set = self.pipelines.get_cached_descriptor_set(
@@ -972,17 +975,30 @@ def gqa_decode_attention(
             ],
         )
 
-        push_constants = struct.pack(
-            "IIIIIf", batch_size, num_q_heads, num_kv_heads, head_dim, cache_len, scale
-        )
-
-        total_q = batch_size * num_q_heads
-        workgroups_x = (max(cache_len, head_dim) + 15) // 16
-        workgroups_y = (total_q + 15) // 16
-
-        self.core._dispatch_compute(
-            pipeline, pipeline_layout, descriptor_set, workgroups_x, push_constants, workgroups_y
-        )
+        total_q = batch_size * num_q_heads;
+        workgroups_scores_x = (cache_len + 15) // 16;
+        workgroups_scores_y = (total_q + 15) // 16;
+        
+        workgroups_softmax_x = 1; # One thread per head
+        workgroups_softmax_y = (total_q + 15) // 16;
+        
+        workgroups_out_x = (head_dim + 15) // 16;
+        workgroups_out_y = (total_q + 15) // 16;
+
+        with self.core.record_commands() as rec:
+            # Phase 0: Scores
+            push_0 = struct.pack("IIIIIfI", batch_size, num_q_heads, num_kv_heads, head_dim, cache_len, scale, 0)
+            rec.dispatch(pipeline, pipeline_layout, descriptor_set, (workgroups_scores_x, workgroups_scores_y, 1), push_0)
+            rec.barrier()
+            
+            # Phase 1: Softmax
+            push_1 = struct.pack("IIIIIfI", batch_size, num_q_heads, num_kv_heads, head_dim, cache_len, scale, 1)
+            rec.dispatch(pipeline, pipeline_layout, descriptor_set, (workgroups_softmax_x, workgroups_softmax_y, 1), push_1)
+            rec.barrier()
+            
+            # Phase 2: Output
+            push_2 = struct.pack("IIIIIfI", batch_size, num_q_heads, num_kv_heads, head_dim, cache_len, scale, 2)
+            rec.dispatch(pipeline, pipeline_layout, descriptor_set, (workgroups_out_x, workgroups_out_y, 1), push_2)
 
         result = self._download_buffer(buf_out, out_bytes, np.float32)
         self._release_buffers([buf_q, buf_k, buf_v, buf_out, buf_scores])
diff --git a/backend/fnn.py b/backend/fnn.py
index 436cd88..24e3101 100644
--- a/backend/fnn.py
+++ b/backend/fnn.py
@@ -795,17 +795,21 @@ def activation_swiglu(self, input_data):
         output_shape = original_shape[:-1] + (hidden_dim,)
         return result.reshape(output_shape)
 
-    def activation_softmax(self, input_data, axis=-1):
+    def activation_softmax(self, input_data, axis=-1, **kwargs):
         """
         Apply softmax activation: exp(x) / sum(exp(x))
 
         Args:
             input_data: Input array
-            axis: Axis along which to compute softmax (default: -1)
+            axis: Axis along which to compute softmax
+            kwargs: Accepts 'dim' as an alias for 'axis'
 
         Returns:
             Softmax probabilities
         """
+        if "dim" in kwargs:
+            axis = kwargs.pop("dim")
+
         # Check if shader is available
         if "activation-softmax" not in self.shaders:
             # CPU fallback (numba if available)
diff --git a/cpp/include/grilly/ops/bandit.h b/cpp/include/grilly/ops/bandit.h
new file mode 100644
index 0000000..5874921
--- /dev/null
+++ b/cpp/include/grilly/ops/bandit.h
@@ -0,0 +1,29 @@
+#pragma once
+
+#include "grilly/command_batch.h"
+#include "grilly/buffer_pool.h"
+#include "grilly/pipeline_cache.h"
+
+namespace grilly {
+namespace ops {
+
+struct BanditParams {
+    uint32_t nArms;
+    uint32_t nInstances;
+    uint32_t iters;
+    float delta;
+};
+
+/**
+ * Bandit Top-2 Solver & Stopping Criterion
+ * 
+ * Computes TargetW (K, nInstances) and StopFlags (nInstances).
+ */
+void banditSolve(CommandBatch& batch, BufferPool& pool,
+                 PipelineCache& cache,
+                 const float* muHat, const float* N,
+                 float* targetW, uint32_t* stopFlags,
+                 const BanditParams& p);
+
+}  // namespace ops
+}  // namespace grilly
diff --git a/cpp/include/grilly/ops/eggroll.h b/cpp/include/grilly/ops/eggroll.h
new file mode 100644
index 0000000..3922567
--- /dev/null
+++ b/cpp/include/grilly/ops/eggroll.h
@@ -0,0 +1,46 @@
+#pragma once
+
+#include "grilly/command_batch.h"
+#include "grilly/buffer_pool.h"
+#include "grilly/pipeline_cache.h"
+
+namespace grilly {
+namespace ops {
+
+struct EggrollGenParams {
+    uint32_t dOut;
+    uint32_t dIn;
+    uint32_t nWorkers;
+    uint32_t seed;
+    float sigma;
+};
+
+struct EggrollUpdateParams {
+    uint32_t dOut;
+    uint32_t dIn;
+    uint32_t topK;
+    uint32_t nWorkers;
+    float meritIncrease;
+    float meritDecay;
+};
+
+/**
+ * Generate perturbations (U, V)
+ */
+void eggrollGenerate(CommandBatch& batch, BufferPool& pool,
+                    PipelineCache& cache,
+                    float* U, float* V,
+                    const EggrollGenParams& p);
+
+/**
+ * Apply fused update to weights and merit
+ */
+void eggrollUpdate(CommandBatch& batch, BufferPool& pool,
+                  PipelineCache& cache,
+                  float* W, float* Merit,
+                  const float* U, const float* V,
+                  const uint32_t* topIdx, const float* topWeights,
+                  const EggrollUpdateParams& p);
+
+}  // namespace ops
+}  // namespace grilly
diff --git a/cpp/include/grilly/ops/loss.h b/cpp/include/grilly/ops/loss.h
index 5a79792..f746b46 100644
--- a/cpp/include/grilly/ops/loss.h
+++ b/cpp/include/grilly/ops/loss.h
@@ -44,7 +44,30 @@ void crossEntropyBackward(CommandBatch& batch, BufferPool& pool,
                           PipelineCache& cache,
                           const float* logits, const uint32_t* targets,
                           float* gradLogits,
-                          const CrossEntropyBackwardParams& p);
+    const CrossEntropyBackwardParams& p);
+
+// ── MSE Loss ────────────────────────────────────────────────────────────
+
+struct MSELossParams {
+    uint32_t n;
+};
+
+void mseLoss(CommandBatch& batch, BufferPool& pool,
+             PipelineCache& cache,
+             const float* preds, const float* targets,
+             float* losses, const MSELossParams& p);
+
+// ── Cosine Similarity Loss ──────────────────────────────────────────────
+
+struct CosineLossParams {
+    uint32_t batchSize;
+    uint32_t dim;
+};
+
+void cosineSimilarityLoss(CommandBatch& batch, BufferPool& pool,
+                          PipelineCache& cache,
+                          const float* preds, const float* targets,
+                          float* losses, const CosineLossParams& p);
 
 }  // namespace ops
 }  // namespace grilly
diff --git a/cpp/include/grilly/ops/mingru.h b/cpp/include/grilly/ops/mingru.h
new file mode 100644
index 0000000..e1aa483
--- /dev/null
+++ b/cpp/include/grilly/ops/mingru.h
@@ -0,0 +1,39 @@
+#pragma once
+
+#include "grilly/command_batch.h"
+#include "grilly/buffer_pool.h"
+#include "grilly/pipeline_cache.h"
+
+namespace grilly {
+namespace ops {
+
+struct MinGruParams {
+    uint32_t batchSize;
+    uint32_t seqLen;
+    uint32_t hiddenDim;
+};
+
+/**
+ * Fused MinGRU Forward (projections + activations + recurrence)
+ * Logic:
+ *   x_scan = sigmoid(g) * tanh(v)
+ *   a      = 0.05 + 0.9 * sigmoid(d)
+ *   h_t    = a_t * h_{t-1} + x_scan_t
+ */
+void minGruForward(CommandBatch& batch, BufferPool& pool,
+                   PipelineCache& cache,
+                   const float* G, const float* V, const float* D,
+                   float* H, const MinGruParams& p);
+
+/**
+ * Fused MinGRU Backward
+ */
+void minGruBackward(CommandBatch& batch, BufferPool& pool,
+                    PipelineCache& cache,
+                    const float* gradH, const float* G, const float* V, const float* D,
+                    const float* H,
+                    float* gradG, float* gradV, float* gradD,
+                    const MinGruParams& p);
+
+}  // namespace ops
+}  // namespace grilly
diff --git a/cpp/python/bindings_bandit.cpp b/cpp/python/bindings_bandit.cpp
new file mode 100644
index 0000000..4edc894
--- /dev/null
+++ b/cpp/python/bindings_bandit.cpp
@@ -0,0 +1,26 @@
+#include "bindings_core.h"
+#include "grilly/ops/bandit.h"
+
+static pybind11::dict solver_impl(GrillyCoreContext& ctx, pybind11::array_t<float> mu, pybind11::array_t<float> n, uint32_t iters, float delta) {
+    auto m_info = mu.request();
+    auto n_info = n.request();
+    uint32_t k = (uint32_t)m_info.shape[0];
+    uint32_t ni = (uint32_t)m_info.shape[1];
+    grilly::ops::BanditParams p = {k, ni, iters, delta};
+    pybind11::array_t<float> tw({(pybind11::ssize_t)k, (pybind11::ssize_t)ni});
+    pybind11::array_t<uint32_t> sf({(pybind11::ssize_t)ni});
+    auto tw_info = tw.request();
+    auto sf_info = sf.request();
+    {
+        pybind11::gil_scoped_release release;
+        grilly::ops::banditSolve(ctx.batch, ctx.pool, ctx.cache, (const float*)m_info.ptr, (const float*)n_info.ptr, (float*)tw_info.ptr, (uint32_t*)sf_info.ptr, p);
+    }
+    pybind11::dict r;
+    r["target_w"] = tw;
+    r["stop_flags"] = sf;
+    return r;
+}
+
+void register_bandit_ops(pybind11::module_& m) {
+    m.def("bandit_solve", &solver_impl);
+}
diff --git a/cpp/python/bindings_core.cpp b/cpp/python/bindings_core.cpp
index 0491197..ae258dd 100644
--- a/cpp/python/bindings_core.cpp
+++ b/cpp/python/bindings_core.cpp
@@ -15,6 +15,9 @@
 
 // Forward declarations for split binding files
 void register_siglip_ops(py::module_& m);
+void register_mingru_ops(py::module_& m);
+void register_bandit_ops(py::module_& m);
+void register_eggroll_ops(py::module_& m);
 
 PYBIND11_MODULE(grilly_core, m) {
     m.doc() = "grilly C++ Vulkan backend — eliminates Python->C boundary "
@@ -441,4 +444,7 @@ PYBIND11_MODULE(grilly_core, m) {
     register_grl_ops(m);
     register_misc_ops(m);
     register_prefix_scan_ops(m);
+    register_mingru_ops(m);
+    register_bandit_ops(m);
+    register_eggroll_ops(m);
 }
diff --git a/cpp/python/bindings_eggroll.cpp b/cpp/python/bindings_eggroll.cpp
new file mode 100644
index 0000000..f33f566
--- /dev/null
+++ b/cpp/python/bindings_eggroll.cpp
@@ -0,0 +1,45 @@
+#include "bindings_core.h"
+#include "grilly/ops/eggroll.h"
+
+static pybind11::dict eggroll_gen_impl(GrillyCoreContext& ctx, uint32_t d_out, uint32_t d_in, uint32_t n_workers, uint32_t seed, float sigma) {
+    pybind11::array_t<float> u_data({(pybind11::ssize_t)d_out, (pybind11::ssize_t)n_workers});
+    pybind11::array_t<float> v_data({(pybind11::ssize_t)d_in, (pybind11::ssize_t)n_workers});
+    auto u_req = u_data.request();
+    auto v_req = v_data.request();
+    
+    grilly::ops::EggrollGenParams p = {d_out, d_in, n_workers, seed, sigma};
+    {
+        pybind11::gil_scoped_release release;
+        grilly::ops::eggrollGenerate(ctx.batch, ctx.pool, ctx.cache, (float*)u_req.ptr, (float*)v_req.ptr, p);
+    }
+    
+    pybind11::dict out_dict;
+    out_dict["U"] = u_data;
+    out_dict["V"] = v_data;
+    return out_dict;
+}
+
+static void eggroll_upd_impl(GrillyCoreContext& ctx, pybind11::array_t<float> weights, pybind11::array_t<float> merit, pybind11::array_t<float> u_pool, pybind11::array_t<float> v_pool, pybind11::array_t<uint32_t> top_idx, pybind11::array_t<float> top_fit, float m_inc, float m_dec) {
+    auto w_req = weights.request();
+    auto m_req = merit.request();
+    auto up_req = u_pool.request();
+    auto vp_req = v_pool.request();
+    auto idx_req = top_idx.request();
+    auto fit_req = top_fit.request();
+    
+    uint32_t d_out = (uint32_t)w_req.shape[0];
+    uint32_t d_in = (uint32_t)w_req.shape[1];
+    uint32_t n_workers = (uint32_t)up_req.shape[1];
+    uint32_t top_k = (uint32_t)idx_req.shape[0];
+    
+    grilly::ops::EggrollUpdateParams p = {d_out, d_in, top_k, n_workers, m_inc, m_dec};
+    {
+        pybind11::gil_scoped_release release;
+        grilly::ops::eggrollUpdate(ctx.batch, ctx.pool, ctx.cache, (float*)w_req.ptr, (float*)m_req.ptr, (const float*)up_req.ptr, (const float*)vp_req.ptr, (const uint32_t*)idx_req.ptr, (const float*)fit_req.ptr, p);
+    }
+}
+
+void register_eggroll_ops(pybind11::module_& m) {
+    m.def("eggroll_generate", &eggroll_gen_impl);
+    m.def("eggroll_update", &eggroll_upd_impl);
+}
diff --git a/cpp/python/bindings_loss.cpp b/cpp/python/bindings_loss.cpp
index 7bbb03d..7275fc6 100644
--- a/cpp/python/bindings_loss.cpp
+++ b/cpp/python/bindings_loss.cpp
@@ -82,4 +82,66 @@ void register_loss_ops(py::module_& m) {
         },
         py::arg("device"), py::arg("logits"), py::arg("targets"),
         "GPU cross-entropy backward");
+
+    // ── MSE Loss ─────────────────────────────────────────────────────────
+    m.def(
+        "mse_loss",
+        [](GrillyCoreContext& ctx, py::array_t<float> preds, py::array_t<float> targets) -> Tensor {
+            auto pBuf = preds.request();
+            auto tBuf = targets.request();
+            require_c_contiguous_float(pBuf);
+            require_c_contiguous_float(tBuf);
+            
+            if (pBuf.size != tBuf.size)
+                throw std::runtime_error("mse_loss: preds and targets must have same size");
+                
+            uint32_t n = static_cast<uint32_t>(pBuf.size);
+            py::array_t<float> losses(n);
+            auto lBuf = losses.request();
+            
+            grilly::ops::MSELossParams p{n};
+            {
+                py::gil_scoped_release release;
+                grilly::ops::mseLoss(
+                    ctx.batch, ctx.pool, ctx.cache,
+                    static_cast<const float*>(pBuf.ptr),
+                    static_cast<const float*>(tBuf.ptr),
+                    static_cast<float*>(lBuf.ptr), p);
+            }
+            return Tensor::from_numpy(losses);
+        },
+        py::arg("device"), py::arg("preds"), py::arg("targets"),
+        "GPU MSE loss forward");
+
+    // ── Cosine Similarity Loss ───────────────────────────────────────────
+    m.def(
+        "cosine_similarity_loss",
+        [](GrillyCoreContext& ctx, py::array_t<float> preds, py::array_t<float> targets) -> Tensor {
+            auto pBuf = preds.request();
+            auto tBuf = targets.request();
+            require_c_contiguous_float(pBuf);
+            require_c_contiguous_float(tBuf);
+            
+            if (pBuf.ndim != 2 || tBuf.ndim != 2 || pBuf.shape[0] != tBuf.shape[0] || pBuf.shape[1] != tBuf.shape[1])
+                throw std::runtime_error("cosine_similarity_loss: inputs must be 2D and equal shape");
+                
+            uint32_t batchSize = static_cast<uint32_t>(pBuf.shape[0]);
+            uint32_t dim = static_cast<uint32_t>(pBuf.shape[1]);
+            
+            py::array_t<float> losses(batchSize);
+            auto lBuf = losses.request();
+            
+            grilly::ops::CosineLossParams p{batchSize, dim};
+            {
+                py::gil_scoped_release release;
+                grilly::ops::cosineSimilarityLoss(
+                    ctx.batch, ctx.pool, ctx.cache,
+                    static_cast<const float*>(pBuf.ptr),
+                    static_cast<const float*>(tBuf.ptr),
+                    static_cast<float*>(lBuf.ptr), p);
+            }
+            return Tensor::from_numpy(losses);
+        },
+        py::arg("device"), py::arg("preds"), py::arg("targets"),
+        "GPU Cosine Similarity loss forward");
 }
diff --git a/cpp/python/bindings_mingru.cpp b/cpp/python/bindings_mingru.cpp
new file mode 100644
index 0000000..fdb55c3
--- /dev/null
+++ b/cpp/python/bindings_mingru.cpp
@@ -0,0 +1,102 @@
+/// bindings_mingru.cpp — MinGRU fused forward/backward bindings.
+///
+/// Exposes ``mingru_forward`` and ``mingru_backward`` to Python.
+/// Fuses G, V, D projections activations and causal scan.
+
+#include "bindings_core.h"
+#include "grilly/ops/mingru.h"
+
+void register_mingru_ops(py::module_& m) {
+    using namespace grilly::ops;
+
+    m.def(
+        "mingru_forward",
+        [](GrillyCoreContext& ctx,
+           py::array_t<float> g, py::array_t<float> v, py::array_t<float> d) -> py::array_t<float> {
+            auto gBuf = g.request();
+            auto vBuf = v.request();
+            auto dBuf = d.request();
+
+            if (gBuf.ndim != 3 || vBuf.ndim != 3 || dBuf.ndim != 3)
+                throw std::runtime_error("mingru_forward: inputs must be 3D");
+
+            const uint32_t batchSize = static_cast<uint32_t>(gBuf.shape[0]);
+            const uint32_t seqLen    = static_cast<uint32_t>(gBuf.shape[1]);
+            const uint32_t hiddenDim = static_cast<uint32_t>(gBuf.shape[2]);
+
+            MinGruParams p{batchSize, seqLen, hiddenDim};
+
+            py::array_t<float> result(gBuf.shape);
+            auto rBuf = result.request();
+
+            {
+                py::gil_scoped_release release;
+                minGruForward(
+                    ctx.batch, ctx.pool, ctx.cache,
+                    static_cast<const float*>(gBuf.ptr),
+                    static_cast<const float*>(vBuf.ptr),
+                    static_cast<const float*>(dBuf.ptr),
+                    static_cast<float*>(rBuf.ptr), p);
+            }
+
+            return result;
+        },
+        py::arg("device"), py::arg("g"), py::arg("v"), py::arg("d"),
+        "Fused MinGRU forward: fuses activations and causal scan");
+
+    m.def(
+        "mingru_backward",
+        [](GrillyCoreContext& ctx,
+           py::array_t<float> grad_h, py::array_t<float> g,
+           py::array_t<float> v, py::array_t<float> d,
+           py::array_t<float> h) -> py::dict {
+            auto dhBuf = grad_h.request();
+            auto gBuf  = g.request();
+            auto vBuf  = v.request();
+            auto dBuf  = d.request();
+            auto hBuf  = h.request();
+
+            const uint32_t batchSize = static_cast<uint32_t>(dhBuf.shape[0]);
+            const uint32_t seqLen    = static_cast<uint32_t>(dhBuf.shape[1]);
+            const uint32_t hiddenDim = static_cast<uint32_t>(dhBuf.shape[2]);
+
+            MinGruParams p{batchSize, seqLen, hiddenDim};
+
+            py::array_t<float> gradG(dhBuf.shape);
+            py::array_t<float> gradV(dhBuf.shape);
+            py::array_t<float> gradD(dhBuf.shape);
+
+            const void* dhPtr = dhBuf.ptr;
+            const void* gPtr  = gBuf.ptr;
+            const void* vPtr  = vBuf.ptr;
+            const void* dPtr  = dBuf.ptr;
+            const void* hPtr  = hBuf.ptr;
+            
+            void* ggPtr = gradG.request().ptr;
+            void* gvPtr = gradV.request().ptr;
+            void* gdPtr = gradD.request().ptr;
+
+            {
+                py::gil_scoped_release release;
+                minGruBackward(
+                    ctx.batch, ctx.pool, ctx.cache,
+                    static_cast<const float*>(dhPtr),
+                    static_cast<const float*>(gPtr),
+                    static_cast<const float*>(vPtr),
+                    static_cast<const float*>(dPtr),
+                    static_cast<const float*>(hPtr),
+                    static_cast<float*>(ggPtr),
+                    static_cast<float*>(gvPtr),
+                    static_cast<float*>(gdPtr), p);
+            }
+
+            py::dict res;
+            res["grad_g"] = gradG;
+            res["grad_v"] = gradV;
+            res["grad_d"] = gradD;
+            return res;
+        },
+        py::arg("device"), py::arg("grad_h"), py::arg("g"),
+        py::arg("v"), py::arg("d"), py::arg("h"),
+        "Fused MinGRU backward: returns grad_g, grad_v, grad_d");
+}
diff --git a/cpp/src/ops/bandit.cpp b/cpp/src/ops/bandit.cpp
new file mode 100644
index 0000000..2ba8a17
--- /dev/null
+++ b/cpp/src/ops/bandit.cpp
@@ -0,0 +1,63 @@
+#include "grilly/ops/bandit.h"
+
+#include <vector>
+#include <stdexcept>
+
+namespace grilly {
+namespace ops {
+
+void banditSolve(CommandBatch& batch, BufferPool& pool,
+                 PipelineCache& cache,
+                 const float* muHat, const float* N,
+                 float* targetW, uint32_t* stopFlags,
+                 const BanditParams& p) {
+    const size_t muBytes = size_t(p.nArms) * p.nInstances * sizeof(float);
+    const size_t stopBytes = size_t(p.nInstances) * sizeof(uint32_t);
+
+    GrillyBuffer bMu_DL = pool.acquireDeviceLocal(muBytes);
+    GrillyBuffer bN_DL  = pool.acquireDeviceLocal(muBytes);
+    GrillyBuffer bW_DL  = pool.acquireDeviceLocal(muBytes);
+    GrillyBuffer bS_DL  = pool.acquireDeviceLocal(stopBytes);
+
+    GrillyBuffer bMu_Stage = pool.acquire(muBytes);
+    GrillyBuffer bN_Stage  = pool.acquire(muBytes);
+    GrillyBuffer bW_Stage  = pool.acquireReadback(muBytes);
+    GrillyBuffer bS_Stage  = pool.acquireReadback(stopBytes);
+
+    pool.upload(bMu_Stage, muHat, muBytes);
+    pool.upload(bN_Stage,  N,     muBytes);
+
+    PipelineEntry pipe = cache.getOrCreate("bandit-solve", 4, sizeof(BanditParams));
+
+    std::vector<VkDescriptorBufferInfo> bufs = {
+        {bMu_DL.handle, 0, muBytes},
+        {bN_DL.handle,  0, muBytes},
+        {bW_DL.handle,  0, muBytes},
+        {bS_DL.handle,  0, stopBytes},
+    };
+    VkDescriptorSet descSet = cache.allocDescriptorSet("bandit-solve", bufs);
+
+    uint32_t gx = (p.nInstances + 63u) / 64u;
+
+    batch.begin();
+    batch.copyBuffer(bMu_Stage, bMu_DL, muBytes);
+    batch.copyBuffer(bN_Stage,  bN_DL,  muBytes);
+    batch.transferComputeBarrier();
+
+    batch.dispatch(pipe.pipeline, pipe.layout, descSet, gx, 1, 1, &p, sizeof(p));
+
+    batch.transferComputeBarrier();
+    batch.copyBuffer(bW_DL, bW_Stage, muBytes);
+    batch.copyBuffer(bS_DL, bS_Stage, stopBytes);
+    batch.submitDeferred();
+    batch.waitForCompletion();
+
+    pool.download(bW_Stage, targetW, muBytes);
+    pool.download(bS_Stage, (float*)stopFlags, stopBytes); // download use float* but handle uint32* cast
+
+    pool.release(bMu_DL); pool.release(bN_DL); pool.release(bW_DL); pool.release(bS_DL);
+    pool.release(bMu_Stage); pool.release(bN_Stage); pool.release(bW_Stage); pool.release(bS_Stage);
+}
+
+}  // namespace ops
+}  // namespace grilly
diff --git a/cpp/src/ops/eggroll.cpp b/cpp/src/ops/eggroll.cpp
new file mode 100644
index 0000000..1d662de
--- /dev/null
+++ b/cpp/src/ops/eggroll.cpp
@@ -0,0 +1,120 @@
+#include "grilly/ops/eggroll.h"
+
+#include <vector>
+
+namespace grilly {
+namespace ops {
+
+void eggrollGenerate(CommandBatch& batch, BufferPool& pool,
+                    PipelineCache& cache,
+                    float* U, float* V,
+                    const EggrollGenParams& p) {
+    const size_t uBytes = size_t(p.dOut) * p.nWorkers * sizeof(float);
+    const size_t vBytes = size_t(p.dIn) * p.nWorkers * sizeof(float);
+
+    GrillyBuffer bU_DL = pool.acquireDeviceLocal(uBytes);
+    GrillyBuffer bV_DL = pool.acquireDeviceLocal(vBytes);
+    GrillyBuffer bU_Read = pool.acquireReadback(uBytes);
+    GrillyBuffer bV_Read = pool.acquireReadback(vBytes);
+
+    PipelineEntry pipe = cache.getOrCreate("eggroll-generate", 2, sizeof(EggrollGenParams));
+    
+    std::vector<VkDescriptorBufferInfo> bufs = {
+        {bU_DL.handle, 0, uBytes},
+        {bV_DL.handle, 0, vBytes},
+    };
+    VkDescriptorSet descSet = cache.allocDescriptorSet("eggroll-generate", bufs);
+
+    uint32_t total = (p.dOut + p.dIn) * p.nWorkers;
+    uint32_t gx = (total + 63u) / 64u;
+
+    batch.begin();
+    batch.dispatch(pipe.pipeline, pipe.layout, descSet, gx, 1, 1, &p, sizeof(p));
+    batch.transferComputeBarrier();
+    batch.copyBuffer(bU_DL, bU_Read, uBytes);
+    batch.copyBuffer(bV_DL, bV_Read, vBytes);
+    batch.submitDeferred();
+    batch.waitForCompletion();
+
+    pool.download(bU_Read, U, uBytes);
+    pool.download(bV_Read, V, vBytes);
+
+    pool.release(bU_DL); pool.release(bV_DL);
+    pool.release(bU_Read); pool.release(bV_Read);
+}
+
+void eggrollUpdate(CommandBatch& batch, BufferPool& pool,
+                  PipelineCache& cache,
+                  float* W, float* Merit,
+                  const float* U, const float* V,
+                  const uint32_t* topIdx, const float* topWeights,
+                  const EggrollUpdateParams& p) {
+    const size_t wBytes = size_t(p.dOut) * p.dIn * sizeof(float);
+    const size_t uBytes = size_t(p.dOut) * p.nWorkers * sizeof(float);
+    const size_t vBytes = size_t(p.dIn) * p.nWorkers * sizeof(float);
+    const size_t idxBytes = size_t(p.topK) * sizeof(uint32_t);
+    const size_t fitBytes = size_t(p.topK) * sizeof(float);
+
+    GrillyBuffer bW_DL = pool.acquireDeviceLocal(wBytes);
+    GrillyBuffer bM_DL = pool.acquireDeviceLocal(wBytes);
+    GrillyBuffer bU_DL = pool.acquireDeviceLocal(uBytes);
+    GrillyBuffer bV_DL = pool.acquireDeviceLocal(vBytes);
+    GrillyBuffer bIdx_DL = pool.acquireDeviceLocal(idxBytes);
+    GrillyBuffer bFit_DL = pool.acquireDeviceLocal(fitBytes);
+
+    GrillyBuffer bW_Stage = pool.acquire(wBytes);
+    GrillyBuffer bM_Stage = pool.acquire(wBytes);
+    GrillyBuffer bU_Stage = pool.acquire(uBytes);
+    GrillyBuffer bV_Stage = pool.acquire(vBytes);
+    GrillyBuffer bIdx_Stage = pool.acquire(idxBytes);
+    GrillyBuffer bFit_Stage = pool.acquire(fitBytes);
+
+    pool.upload(bW_Stage, W, wBytes);
+    pool.upload(bM_Stage, Merit, wBytes);
+    pool.upload(bU_Stage, U, uBytes);
+    pool.upload(bV_Stage, V, vBytes);
+    pool.upload(bIdx_Stage, (float*)topIdx, idxBytes); // cast for upload API
+    pool.upload(bFit_Stage, topWeights, fitBytes);
+
+    PipelineEntry pipe = cache.getOrCreate("eggroll-update", 6, sizeof(EggrollUpdateParams));
+    
+    std::vector<VkDescriptorBufferInfo> bufs = {
+        {bW_DL.handle, 0, wBytes},
+        {bM_DL.handle, 0, wBytes},
+        {bU_DL.handle, 0, uBytes},
+        {bV_DL.handle, 0, vBytes},
+        {bIdx_DL.handle, 0, idxBytes},
+        {bFit_DL.handle, 0, fitBytes},
+    };
+    VkDescriptorSet descSet = cache.allocDescriptorSet("eggroll-update", bufs);
+
+    batch.begin();
+    batch.copyBuffer(bW_Stage, bW_DL, wBytes);
+    batch.copyBuffer(bM_Stage, bM_DL, wBytes);
+    batch.copyBuffer(bU_Stage, bU_DL, uBytes);
+    batch.copyBuffer(bV_Stage, bV_DL, vBytes);
+    batch.copyBuffer(bIdx_Stage, bIdx_DL, idxBytes);
+    batch.copyBuffer(bFit_Stage, bFit_DL, fitBytes);
+    batch.transferComputeBarrier();
+
+    uint32_t gx = (p.dIn + 15u) / 16u;
+    uint32_t gy = (p.dOut + 15u) / 16u;
+    batch.dispatch(pipe.pipeline, pipe.layout, descSet, gx, gy, 1, &p, sizeof(p));
+
+    batch.transferComputeBarrier();
+    batch.copyBuffer(bW_DL, bW_Stage, wBytes);
+    batch.copyBuffer(bM_DL, bM_Stage, wBytes);
+    batch.submitDeferred();
+    batch.waitForCompletion();
+
+    pool.download(bW_Stage, W, wBytes);
+    pool.download(bM_Stage, Merit, wBytes);
+
+    pool.release(bW_DL); pool.release(bM_DL); pool.release(bU_DL); pool.release(bV_DL);
+    pool.release(bIdx_DL); pool.release(bFit_DL);
+    pool.release(bW_Stage); pool.release(bM_Stage); pool.release(bU_Stage); pool.release(bV_Stage);
+    pool.release(bIdx_Stage); pool.release(bFit_Stage);
+}
+
+}  // namespace ops
+}  // namespace grilly
diff --git a/cpp/src/ops/loss.cpp b/cpp/src/ops/loss.cpp
index 6c9fcbf..75a9078 100644
--- a/cpp/src/ops/loss.cpp
+++ b/cpp/src/ops/loss.cpp
@@ -152,6 +152,98 @@ void crossEntropyBackward(CommandBatch& batch, BufferPool& pool,
     pool.release(bufTargetStage);
     pool.release(bufGradStage);
 }
+// ── MSE Loss ─────────────────────────────────────────────────────────────
+
+void mseLoss(CommandBatch& batch, BufferPool& pool,
+             PipelineCache& cache,
+             const float* preds, const float* targets,
+             float* losses, const MSELossParams& p) {
+    const size_t bytes = size_t(p.n) * sizeof(float);
+
+    GrillyBuffer bPDL = pool.acquireDeviceLocal(bytes);
+    GrillyBuffer bTDL = pool.acquireDeviceLocal(bytes);
+    GrillyBuffer bLDL = pool.acquireDeviceLocal(bytes);
+
+    GrillyBuffer bPStage = pool.acquire(bytes);
+    GrillyBuffer bTStage = pool.acquire(bytes);
+    GrillyBuffer bLStage = pool.acquireReadback(bytes);
+
+    pool.upload(bPStage, preds, bytes);
+    pool.upload(bTStage, targets, bytes);
+
+    PipelineEntry pipe = cache.getOrCreate("loss-mse", 3, sizeof(MSELossParams));
+
+    std::vector<VkDescriptorBufferInfo> bufs = {
+        {bPDL.handle, 0, bytes},
+        {bTDL.handle, 0, bytes},
+        {bLDL.handle, 0, bytes},
+    };
+    VkDescriptorSet descSet = cache.allocDescriptorSet("loss-mse", bufs);
+
+    uint32_t gx = (p.n + 255u) / 256u;
+
+    batch.begin();
+    batch.copyBuffer(bPStage, bPDL, bytes);
+    batch.copyBuffer(bTStage, bTDL, bytes);
+    batch.transferComputeBarrier();
+    batch.dispatch(pipe.pipeline, pipe.layout, descSet, gx, 1, 1, &p, sizeof(p));
+    batch.transferComputeBarrier();
+    batch.copyBuffer(bLDL, bLStage, bytes);
+    batch.submitDeferred();
+    batch.waitForCompletion();
+
+    pool.download(bLStage, losses, bytes);
+
+    pool.release(bPDL); pool.release(bTDL); pool.release(bLDL);
+    pool.release(bPStage); pool.release(bTStage); pool.release(bLStage);
+}
+
+// ── Cosine Similarity Loss ───────────────────────────────────────────────
+
+void cosineSimilarityLoss(CommandBatch& batch, BufferPool& pool,
+                          PipelineCache& cache,
+                          const float* preds, const float* targets,
+                          float* losses, const CosineLossParams& p) {
+    const size_t inBytes = size_t(p.batchSize) * p.dim * sizeof(float);
+    const size_t outBytes = size_t(p.batchSize) * sizeof(float);
+
+    GrillyBuffer bPDL = pool.acquireDeviceLocal(inBytes);
+    GrillyBuffer bTDL = pool.acquireDeviceLocal(inBytes);
+    GrillyBuffer bLDL = pool.acquireDeviceLocal(outBytes);
+
+    GrillyBuffer bPStage = pool.acquire(inBytes);
+    GrillyBuffer bTStage = pool.acquire(inBytes);
+    GrillyBuffer bLStage = pool.acquireReadback(outBytes);
+
+    pool.upload(bPStage, preds, inBytes);
+    pool.upload(bTStage, targets, inBytes);
+
+    PipelineEntry pipe = cache.getOrCreate("loss-cosine", 3, sizeof(CosineLossParams));
+
+    std::vector<VkDescriptorBufferInfo> bufs = {
+        {bPDL.handle, 0, inBytes},
+        {bTDL.handle, 0, inBytes},
+        {bLDL.handle, 0, outBytes},
+    };
+    VkDescriptorSet descSet = cache.allocDescriptorSet("loss-cosine", bufs);
+
+    uint32_t gx = (p.batchSize + 63u) / 64u;
+
+    batch.begin();
+    batch.copyBuffer(bPStage, bPDL, inBytes);
+    batch.copyBuffer(bTStage, bTDL, inBytes);
+    batch.transferComputeBarrier();
+    batch.dispatch(pipe.pipeline, pipe.layout, descSet, gx, 1, 1, &p, sizeof(p));
+    batch.transferComputeBarrier();
+    batch.copyBuffer(bLDL, bLStage, outBytes);
+    batch.submitDeferred();
+    batch.waitForCompletion();
+
+    pool.download(bLStage, losses, outBytes);
+
+    pool.release(bPDL); pool.release(bTDL); pool.release(bLDL);
+    pool.release(bPStage); pool.release(bTStage); pool.release(bLStage);
+}
 
 }  // namespace ops
 }  // namespace grilly
diff --git a/cpp/src/ops/mingru.cpp b/cpp/src/ops/mingru.cpp
new file mode 100644
index 0000000..5895e87
--- /dev/null
+++ b/cpp/src/ops/mingru.cpp
@@ -0,0 +1,155 @@
+#include "grilly/ops/mingru.h"
+
+#include <vector>
+#include <stdexcept>
+
+namespace grilly {
+namespace ops {
+
+void minGruForward(CommandBatch& batch, BufferPool& pool,
+                   PipelineCache& cache,
+                   const float* G, const float* V, const float* D,
+                   float* H, const MinGruParams& p) {
+    const size_t elemBytes = size_t(p.batchSize) * p.seqLen * p.hiddenDim * sizeof(float);
+
+    // DEVICE_LOCAL compute buffers
+    GrillyBuffer bG_DL = pool.acquireDeviceLocal(elemBytes);
+    GrillyBuffer bV_DL = pool.acquireDeviceLocal(elemBytes);
+    GrillyBuffer bD_DL = pool.acquireDeviceLocal(elemBytes);
+    GrillyBuffer bH_DL = pool.acquireDeviceLocal(elemBytes);
+
+    // Staging
+    GrillyBuffer bG_Stage = pool.acquire(elemBytes);
+    GrillyBuffer bV_Stage = pool.acquire(elemBytes);
+    GrillyBuffer bD_Stage = pool.acquire(elemBytes);
+    GrillyBuffer bH_Stage = pool.acquireReadback(elemBytes);
+
+    pool.upload(bG_Stage, G, elemBytes);
+    pool.upload(bV_Stage, V, elemBytes);
+    pool.upload(bD_Stage, D, elemBytes);
+
+    PipelineEntry pipe = cache.getOrCreate("mingru-forward", 4, 2 * sizeof(uint32_t));
+
+    std::vector<VkDescriptorBufferInfo> bufs = {
+        {bG_DL.handle, 0, elemBytes},
+        {bV_DL.handle, 0, elemBytes},
+        {bD_DL.handle, 0, elemBytes},
+        {bH_DL.handle, 0, elemBytes},
+    };
+    VkDescriptorSet descSet = cache.allocDescriptorSet("mingru-forward", bufs);
+
+    struct Push {
+        uint32_t seqLen;
+        uint32_t hiddenDim;
+    } push = {p.seqLen, p.hiddenDim};
+
+    uint32_t gx = (p.hiddenDim + 63u) / 64u;
+    uint32_t gy = p.batchSize;
+
+    batch.begin();
+    batch.copyBuffer(bG_Stage, bG_DL, elemBytes);
+    batch.copyBuffer(bV_Stage, bV_DL, elemBytes);
+    batch.copyBuffer(bD_Stage, bD_DL, elemBytes);
+    batch.transferComputeBarrier();
+
+    batch.dispatch(pipe.pipeline, pipe.layout, descSet, gx, gy, 1, &push, sizeof(push));
+
+    batch.transferComputeBarrier();
+    batch.copyBuffer(bH_DL, bH_Stage, elemBytes);
+    batch.submitDeferred();
+    batch.waitForCompletion();
+
+    pool.download(bH_Stage, H, elemBytes);
+
+    pool.release(bG_DL); pool.release(bV_DL); pool.release(bD_DL); pool.release(bH_DL);
+    pool.release(bG_Stage); pool.release(bV_Stage); pool.release(bD_Stage); pool.release(bH_Stage);
+}
+
+void minGruBackward(CommandBatch& batch, BufferPool& pool,
+                    PipelineCache& cache,
+                    const float* gradH, const float* G, const float* V, const float* D,
+                    const float* H,
+                    float* gradG, float* gradV, float* gradD,
+                    const MinGruParams& p) {
+    const size_t elemBytes = size_t(p.batchSize) * p.seqLen * p.hiddenDim * sizeof(float);
+
+    // Inputs (5 DEVICE_LOCAL)
+    GrillyBuffer bGH_DL = pool.acquireDeviceLocal(elemBytes);
+    GrillyBuffer bG_DL  = pool.acquireDeviceLocal(elemBytes);
+    GrillyBuffer bV_DL  = pool.acquireDeviceLocal(elemBytes);
+    GrillyBuffer bD_DL  = pool.acquireDeviceLocal(elemBytes);
+    GrillyBuffer bH_DL  = pool.acquireDeviceLocal(elemBytes);
+
+    // Outputs (3 DEVICE_LOCAL)
+    GrillyBuffer bGG_DL = pool.acquireDeviceLocal(elemBytes);
+    GrillyBuffer bGV_DL = pool.acquireDeviceLocal(elemBytes);
+    GrillyBuffer bGD_DL = pool.acquireDeviceLocal(elemBytes);
+
+    // Staging
+    GrillyBuffer bGH_Stage = pool.acquire(elemBytes);
+    GrillyBuffer bG_Stage  = pool.acquire(elemBytes);
+    GrillyBuffer bV_Stage  = pool.acquire(elemBytes);
+    GrillyBuffer bD_Stage  = pool.acquire(elemBytes);
+    GrillyBuffer bH_Stage  = pool.acquire(elemBytes);
+    
+    GrillyBuffer bGG_Stage = pool.acquireReadback(elemBytes);
+    GrillyBuffer bGV_Stage = pool.acquireReadback(elemBytes);
+    GrillyBuffer bGD_Stage = pool.acquireReadback(elemBytes);
+
+    pool.upload(bGH_Stage, gradH, elemBytes);
+    pool.upload(bG_Stage,  G,     elemBytes);
+    pool.upload(bV_Stage,  V,     elemBytes);
+    pool.upload(bD_Stage,  D,     elemBytes);
+    pool.upload(bH_Stage,  H,     elemBytes);
+
+    PipelineEntry pipe = cache.getOrCreate("mingru-backward", 8, 2 * sizeof(uint32_t));
+
+    std::vector<VkDescriptorBufferInfo> bufs = {
+        {bGH_DL.handle, 0, elemBytes},
+        {bG_DL.handle,  0, elemBytes},
+        {bV_DL.handle,  0, elemBytes},
+        {bD_DL.handle,  0, elemBytes},
+        {bH_DL.handle,  0, elemBytes},
+        {bGG_DL.handle, 0, elemBytes},
+        {bGV_DL.handle, 0, elemBytes},
+        {bGD_DL.handle, 0, elemBytes},
+    };
+    VkDescriptorSet descSet = cache.allocDescriptorSet("mingru-backward", bufs);
+
+    struct Push {
+        uint32_t seqLen;
+        uint32_t hiddenDim;
+    } push = {p.seqLen, p.hiddenDim};
+
+    uint32_t gx = (p.hiddenDim + 63u) / 64u;
+    uint32_t gy = p.batchSize;
+
+    batch.begin();
+    batch.copyBuffer(bGH_Stage, bGH_DL, elemBytes);
+    batch.copyBuffer(bG_Stage, bG_DL, elemBytes);
+    batch.copyBuffer(bV_Stage, bV_DL, elemBytes);
+    batch.copyBuffer(bD_Stage, bD_DL, elemBytes);
+    batch.copyBuffer(bH_Stage, bH_DL, elemBytes);
+    batch.transferComputeBarrier();
+
+    batch.dispatch(pipe.pipeline, pipe.layout, descSet, gx, gy, 1, &push, sizeof(push));
+
+    batch.transferComputeBarrier();
+    batch.copyBuffer(bGG_DL, bGG_Stage, elemBytes);
+    batch.copyBuffer(bGV_DL, bGV_Stage, elemBytes);
+    batch.copyBuffer(bGD_DL, bGD_Stage, elemBytes);
+    batch.submitDeferred();
+    batch.waitForCompletion();
+
+    pool.download(bGG_Stage, gradG, elemBytes);
+    pool.download(bGV_Stage, gradV, elemBytes);
+    pool.download(bGD_Stage, gradD, elemBytes);
+
+    pool.release(bGH_DL); pool.release(bG_DL); pool.release(bV_DL); pool.release(bD_DL); pool.release(bH_DL);
+    pool.release(bGG_DL); pool.release(bGV_DL); pool.release(bGD_DL);
+    pool.release(bGH_Stage); pool.release(bG_Stage); pool.release(bV_Stage); pool.release(bD_Stage); pool.release(bH_Stage);
+    pool.release(bGG_Stage); pool.release(bGV_Stage); pool.release(bGD_Stage);
+}
+
+}  // namespace ops
+}  // namespace grilly
diff --git a/cpp/src/ops/moe_forward.cpp b/cpp/src/ops/moe_forward.cpp
index 6802e8c..1daac03 100644
--- a/cpp/src/ops/moe_forward.cpp
+++ b/cpp/src/ops/moe_forward.cpp
@@ -255,7 +255,7 @@ void moe_forward_gpu(CommandBatch& batch, BufferPool& pool, PipelineCache& cache
     uint32_t V = h.vocab;
 
     pool.upload(h.bufIds, reinterpret_cast<const float*>(input_ids),
-                S * sizeof(uint32_t));
+                S * sizeof(int32_t));
     pool.upload(h.bufPosSlice, h.cpu_pos.data(), S * d * sizeof(float));
 
     batch.begin();
diff --git a/functional/_helpers.py b/functional/_helpers.py
new file mode 100644
index 0000000..fc2085a
--- /dev/null
+++ b/functional/_helpers.py
@@ -0,0 +1,21 @@
+"""Shared helpers for functional modules — bridge result conversion."""
+
+import numpy as np
+
+
+def _to_numpy(result):
+    """Convert bridge result to numpy if it's a C++ Tensor.
+
+    Handles:
+    - None → None
+    - numpy array → pass through
+    - grilly_core.Tensor → .numpy()
+    - anything else → np.asarray()
+    """
+    if result is None:
+        return None
+    if isinstance(result, np.ndarray):
+        return result
+    if hasattr(result, "numpy"):
+        return result.numpy()
+    return np.asarray(result)
diff --git a/functional/activations.py b/functional/activations.py
index e681e02..31788b5 100644
--- a/functional/activations.py
+++ b/functional/activations.py
@@ -2,16 +2,7 @@
 
 import numpy as np
 
-
-def _to_numpy(result):
-    """Convert bridge result to numpy if it's a C++ Tensor."""
-    if result is None:
-        return None
-    if isinstance(result, np.ndarray):
-        return result
-    if hasattr(result, "numpy"):
-        return result.numpy()
-    return np.asarray(result)
+from ._helpers import _to_numpy
 
 
 def relu(x: np.ndarray) -> np.ndarray:
@@ -86,10 +77,16 @@ def softmax(x: np.ndarray, dim: int = -1) -> np.ndarray:
     return (exp_x / np.sum(exp_x, axis=dim, keepdims=True)).astype(np.float32)
 
 
-def softplus(x: np.ndarray) -> np.ndarray:
+def softplus(x: np.ndarray, beta: float = 1.0, threshold: float = 20.0) -> np.ndarray:
     """
-    Softplus activation: log(1 + exp(x))
+    Softplus activation: (1/beta) * log(1 + exp(beta * x))
+
+    Uses a linear approximation for large values to prevent overflow.
     Uses: activation-softplus.glsl
     """
-    # No bridge equivalent; CPU fallback
-    return np.log(1 + np.exp(x))
+    x = np.asarray(x, dtype=np.float32)
+    bx = beta * x
+    # For bx > threshold, softplus ≈ x (avoids exp overflow)
+    return np.where(
+        bx > threshold, x, (1.0 / beta) * np.log(1.0 + np.exp(np.minimum(bx, threshold)))
+    ).astype(np.float32)
diff --git a/functional/attention.py b/functional/attention.py
index 2e2fc80..e563cb7 100644
--- a/functional/attention.py
+++ b/functional/attention.py
@@ -2,16 +2,7 @@
 
 import numpy as np
 
-
-def _to_numpy(result):
-    """Convert bridge result to numpy if it's a C++ Tensor."""
-    if result is None:
-        return None
-    if isinstance(result, np.ndarray):
-        return result
-    if hasattr(result, "numpy"):
-        return result.numpy()
-    return np.asarray(result)
+from ._helpers import _to_numpy
 
 
 def _numpy_softmax(x: np.ndarray, axis: int = -1) -> np.ndarray:
diff --git a/functional/bridge.py b/functional/bridge.py
index 449a9ef..35c67b7 100644
--- a/functional/bridge.py
+++ b/functional/bridge.py
@@ -7,15 +7,7 @@
 
 import numpy as np
 
-
-def _to_numpy(result):
-    if result is None:
-        return None
-    if isinstance(result, np.ndarray):
-        return result
-    if hasattr(result, "numpy"):
-        return result.numpy()
-    return np.asarray(result)
+from ._helpers import _to_numpy
 
 
 def continuous_to_spikes(
diff --git a/functional/cells.py b/functional/cells.py
index 34ca1aa..a095ec2 100644
--- a/functional/cells.py
+++ b/functional/cells.py
@@ -6,15 +6,7 @@
 
 import numpy as np
 
-
-def _to_numpy(result):
-    if result is None:
-        return None
-    if isinstance(result, np.ndarray):
-        return result
-    if hasattr(result, "numpy"):
-        return result.numpy()
-    return np.asarray(result)
+from ._helpers import _to_numpy
 
 
 def place_cell(
diff --git a/functional/dropout.py b/functional/dropout.py
index e1746e1..cf8796d 100644
--- a/functional/dropout.py
+++ b/functional/dropout.py
@@ -5,16 +5,7 @@
 
 import numpy as np
 
-
-def _to_numpy(result):
-    """Convert bridge result to numpy if it's a C++ Tensor."""
-    if result is None:
-        return None
-    if isinstance(result, np.ndarray):
-        return result
-    if hasattr(result, "numpy"):
-        return result.numpy()
-    return np.asarray(result)
+from ._helpers import _to_numpy
 
 
 def dropout(input: np.ndarray, p: float = 0.5, training: bool = True) -> np.ndarray:
diff --git a/functional/embedding.py b/functional/embedding.py
index 2e60ba7..df80f31 100644
--- a/functional/embedding.py
+++ b/functional/embedding.py
@@ -7,15 +7,7 @@
 
 import numpy as np
 
-
-def _to_numpy(result):
-    if result is None:
-        return None
-    if isinstance(result, np.ndarray):
-        return result
-    if hasattr(result, "numpy"):
-        return result.numpy()
-    return np.asarray(result)
+from ._helpers import _to_numpy
 
 
 def embedding_lookup(weight: np.ndarray, indices: np.ndarray) -> np.ndarray:
diff --git a/functional/faiss.py b/functional/faiss.py
index 7aad572..aea3ac1 100644
--- a/functional/faiss.py
+++ b/functional/faiss.py
@@ -7,15 +7,7 @@
 
 import numpy as np
 
-
-def _to_numpy(result):
-    if result is None:
-        return None
-    if isinstance(result, np.ndarray):
-        return result
-    if hasattr(result, "numpy"):
-        return result.numpy()
-    return np.asarray(result)
+from ._helpers import _to_numpy
 
 
 def faiss_distance(query: np.ndarray, vectors: np.ndarray, distance_type: str = "l2") -> np.ndarray:
diff --git a/functional/learning.py b/functional/learning.py
index ae63014..15d8e92 100644
--- a/functional/learning.py
+++ b/functional/learning.py
@@ -9,15 +9,7 @@
 
 import numpy as np
 
-
-def _to_numpy(result):
-    if result is None:
-        return None
-    if isinstance(result, np.ndarray):
-        return result
-    if hasattr(result, "numpy"):
-        return result.numpy()
-    return np.asarray(result)
+from ._helpers import _to_numpy
 
 
 def fisher_info(
diff --git a/functional/linear.py b/functional/linear.py
index 5fd0be5..6046841 100644
--- a/functional/linear.py
+++ b/functional/linear.py
@@ -5,16 +5,7 @@
 
 import numpy as np
 
-
-def _to_numpy(result):
-    """Convert bridge result to numpy if it's a C++ Tensor."""
-    if result is None:
-        return None
-    if isinstance(result, np.ndarray):
-        return result
-    if hasattr(result, "numpy"):
-        return result.numpy()
-    return np.asarray(result)
+from ._helpers import _to_numpy
 
 
 def linear(input: np.ndarray, weight: np.ndarray, bias: np.ndarray | None = None) -> np.ndarray:
diff --git a/functional/loss.py b/functional/loss.py
index 31691b5..7535c26 100644
--- a/functional/loss.py
+++ b/functional/loss.py
@@ -5,15 +5,7 @@
 
 import numpy as np
 
-
-def _to_numpy(result):
-    if result is None:
-        return None
-    if isinstance(result, np.ndarray):
-        return result
-    if hasattr(result, "numpy"):
-        return result.numpy()
-    return np.asarray(result)
+from ._helpers import _to_numpy
 
 
 def cross_entropy(
diff --git a/functional/memory.py b/functional/memory.py
index 5eabeb4..5666e6f 100644
--- a/functional/memory.py
+++ b/functional/memory.py
@@ -8,15 +8,7 @@
 
 import numpy as np
 
-
-def _to_numpy(result):
-    if result is None:
-        return None
-    if isinstance(result, np.ndarray):
-        return result
-    if hasattr(result, "numpy"):
-        return result.numpy()
-    return np.asarray(result)
+from ._helpers import _to_numpy
 
 
 def memory_read(
diff --git a/functional/normalization.py b/functional/normalization.py
index d3c438c..4f2a79e 100644
--- a/functional/normalization.py
+++ b/functional/normalization.py
@@ -5,16 +5,7 @@
 
 import numpy as np
 
-
-def _to_numpy(result):
-    """Convert bridge result to numpy if it's a C++ Tensor."""
-    if result is None:
-        return None
-    if isinstance(result, np.ndarray):
-        return result
-    if hasattr(result, "numpy"):
-        return result.numpy()
-    return np.asarray(result)
+from ._helpers import _to_numpy
 
 
 def layer_norm(
diff --git a/nn/attention.py b/nn/attention.py
index 9646897..e6e90f5 100644
--- a/nn/attention.py
+++ b/nn/attention.py
@@ -121,8 +121,8 @@ def forward(
                     attn_output = attn_output.astype(np.float32)
                     scores_softmax = scores_softmax.astype(np.float32)
                     self._cached_scores_pre_softmax = None
-                    self._cached_scores = scores_softmax.copy()
-                    self._cached_attn_output = attn_output.copy()
+                    self._cached_scores = scores_softmax
+                    self._cached_attn_output = attn_output
                     attn_output_reshaped = attn_output.transpose(0, 2, 1, 3).reshape(
                         batch_size, seq_len_q, self.embed_dim
                     )
@@ -144,7 +144,7 @@ def forward(
                     else:
                         scores = None
                 if scores is not None:
-                    self._cached_scores_pre_softmax = scores.copy()
+                    self._cached_scores_pre_softmax = scores
                     if mask is not None:
                         if mask.ndim == 2:
                             mask_expanded = mask[:, None, :, None]
@@ -155,11 +155,11 @@ def forward(
                     br_soft = _bridge.softmax(scores, dim=-1)
                     if br_soft is not None:
                         scores_softmax = _bridge_to_numpy(br_soft).astype(np.float32)
-                        self._cached_scores = scores_softmax.copy()
+                        self._cached_scores = scores_softmax
                         br_out = _bridge.attention_output(scores_softmax, v_reshaped)
                         if br_out is not None:
                             attn_output = _bridge_to_numpy(br_out).astype(np.float32)
-                            self._cached_attn_output = attn_output.copy()
+                            self._cached_attn_output = attn_output
                             attn_output_reshaped = attn_output.transpose(0, 2, 1, 3).reshape(
                                 batch_size, seq_len_q, self.embed_dim
                             )
@@ -186,7 +186,7 @@ def forward(
                     float(self.head_dim)
                 )
 
-        self._cached_scores_pre_softmax = scores.copy()
+        self._cached_scores_pre_softmax = scores
 
         if mask is not None:
             if mask.ndim == 2:
@@ -200,11 +200,11 @@ def forward(
         scores_exp = np.exp(scores - scores_max)
         scores_softmax = scores_exp / scores_exp.sum(axis=-1, keepdims=True)
 
-        self._cached_scores = scores_softmax.copy()
+        self._cached_scores = scores_softmax
 
         attn_output = np.einsum("bhqk,bhkd->bhqd", scores_softmax, v_reshaped)
 
-        self._cached_attn_output = attn_output.copy()
+        self._cached_attn_output = attn_output
 
         # Reshape back: (batch, num_heads, seq_len_q, head_dim) -> (batch, seq_len_q, embed_dim)
         attn_output_reshaped = attn_output.transpose(0, 2, 1, 3).reshape(
@@ -431,9 +431,9 @@ def forward(
             Output tensor (batch, seq_len, num_heads, head_dim) or (batch, seq_len, embed_dim)
         """
         # Cache inputs for backward pass
-        self._cached_q = q.copy()
-        self._cached_k = k.copy()
-        self._cached_v = v.copy()
+        self._cached_q = q
+        self._cached_k = k
+        self._cached_v = v
         self._cached_mask = mask
 
         # Handle different input shapes
@@ -444,11 +444,19 @@ def forward(
             k = k.reshape(batch_size, seq_len, self.num_heads, self.head_dim)
             v = v.reshape(batch_size, seq_len, self.num_heads, self.head_dim)
 
+        # Try C++ bridge fast path
+        if _USE_CPP_BRIDGE:
+            result = _bridge.flash_attention2(q, k, v, mask=mask, use_rope=self.use_rope)
+            if result is not None:
+                output = _bridge_to_numpy(result)
+                self._cached_output = output
+                return output
+
         backend = self._get_backend()
-        if hasattr(backend, "flash_attention2"):
+        if backend is not None and hasattr(backend, "flash_attention2"):
             try:
                 output = backend.flash_attention2(q, k, v, mask=mask, use_rope=self.use_rope)
-                self._cached_output = output.copy()
+                self._cached_output = output
                 return output
             except Exception:
                 pass  # Fall back to CPU
@@ -487,7 +495,7 @@ def forward(
         # Reshape back: (batch, num_heads, seq_len, head_dim) -> (batch, seq_len, num_heads, head_dim)
         output = output.transpose(0, 2, 1, 3)
 
-        self._cached_output = output.copy()
+        self._cached_output = output
         return output
 
     def backward(
diff --git a/nn/autograd.py b/nn/autograd.py
index e440905..40eeb7f 100644
--- a/nn/autograd.py
+++ b/nn/autograd.py
@@ -26,6 +26,27 @@
 # Global flag to disable gradient computation
 _grad_enabled = True
 
+# Cached GPU backward ops — avoids import + availability check on every backward() call.
+_gpu_backward_ops_cache = None
+_gpu_backward_ops_checked = False
+
+
+def _get_gpu_backward_ops():
+    """Return GPU backward ops if available, caching the result."""
+    global _gpu_backward_ops_cache, _gpu_backward_ops_checked
+    if _gpu_backward_ops_checked:
+        return _gpu_backward_ops_cache
+    _gpu_backward_ops_checked = True
+    try:
+        from grilly.nn.gpu_backward import get_gpu_backward_ops
+
+        ops = get_gpu_backward_ops(use_gpu=True)
+        if ops.is_available():
+            _gpu_backward_ops_cache = ops
+    except Exception:
+        pass
+    return _gpu_backward_ops_cache
+
 
 def is_grad_enabled() -> bool:
     """Check if gradient computation is enabled."""
@@ -240,35 +261,30 @@ def backward(
         # Initialize GPU backend if requested
         gpu_ops = None
         if use_gpu:
-            try:
-                from grilly.nn.gpu_backward import get_gpu_backward_ops
-
-                gpu_ops = get_gpu_backward_ops(use_gpu=True)
-                if not gpu_ops.is_available():
-                    gpu_ops = None
-                    use_gpu = False
-            except Exception:
-                # Fall back to CPU if GPU not available
-                gpu_ops = None
+            gpu_ops = _get_gpu_backward_ops()
+            if gpu_ops is None:
                 use_gpu = False
 
-        # Build topological order of the computation graph
+        # Build topological order of the computation graph (iterative DFS
+        # to avoid stack overflow on deep graphs with >1000 ops).
         topo_order = []
         visited = set()
+        topo_set = set()
+        stack = [self]
 
-        def build_topo(var: Variable):
-            """Execute build topo."""
-
+        while stack:
+            var = stack[-1]
             if var in visited:
-                return
+                stack.pop()
+                if var not in topo_set:
+                    topo_set.add(var)
+                    topo_order.append(var)
+                continue
             visited.add(var)
             if var.grad_fn is not None:
                 for input_var in var.grad_fn.inputs:
-                    if input_var is not None and input_var.requires_grad:
-                        build_topo(input_var)
-            topo_order.append(var)
-
-        build_topo(self)
+                    if input_var is not None and input_var.requires_grad and input_var not in visited:
+                        stack.append(input_var)
 
         # Initialize gradient for the output
         grad_map = {id(self): grad_output.copy()}
@@ -1774,7 +1790,7 @@ def softplus(a, beta=1.0, threshold=20.0) -> Variable:
     x = a.data
     bx = beta * x
     # For numerical stability, use x when beta*x > threshold
-    result_data = np.where(bx > threshold, x, np.log1p(np.exp(bx)) / beta)
+    result_data = np.where(bx > threshold, x, np.log1p(np.exp(np.minimum(bx, threshold))) / beta)
 
     def backward(grad):
         # d/dx softplus = sigmoid(beta * x)
diff --git a/nn/linear.py b/nn/linear.py
index aa3dbc1..ad644f0 100644
--- a/nn/linear.py
+++ b/nn/linear.py
@@ -11,6 +11,7 @@
     ParameterClass,
     _bridge,
     _bridge_to_numpy,
+    _create_param_wrapper,
     _get_param_array,
 )
 from ._perf_policy import choose_fastest
@@ -59,63 +60,7 @@ def __init__(self, in_features: int, out_features: int, bias: bool = True):
         if _PARAMETER_AVAILABLE and ParameterClass is not None:
             self.weight = ParameterClass(weight_data, requires_grad=True)
         else:
-            # Fallback: use wrapper class to add .grad attribute
-            class ParamWrapper:
-                """Lightweight parameter wrapper with gradient storage."""
-
-                def __init__(self, data):
-                    """Initialize the wrapped parameter array."""
-                    self.data = (
-                        data.copy()
-                        if isinstance(data, np.ndarray)
-                        else np.array(data, dtype=np.float32)
-                    )
-                    self.grad = None
-
-                def __array__(self):
-                    """Expose the wrapped array to numpy operations."""
-                    return self.data
-
-                def __getitem__(self, key):
-                    """Read parameter slices by index."""
-                    return self.data[key]
-
-                def __setitem__(self, key, value):
-                    """Write parameter slices by index."""
-                    self.data[key] = value
-
-                def __sub__(self, other):
-                    """Return elementwise subtraction as a wrapped parameter."""
-                    result = self.data - (other.data if hasattr(other, "data") else other)
-                    return ParamWrapper(result)
-
-                def __isub__(self, other):
-                    """Apply in-place subtraction to the wrapped array."""
-                    self.data -= other.data if hasattr(other, "data") else other
-                    return self
-
-                def copy(self):
-                    """Return a copy of the wrapped parameter."""
-                    return ParamWrapper(self.data.copy())
-
-                @property
-                def shape(self):
-                    """Expose the wrapped array shape."""
-                    return self.data.shape
-
-                @property
-                def dtype(self):
-                    """Expose the wrapped array dtype."""
-                    return self.data.dtype
-
-                def zero_grad(self):
-                    """Reset gradients to zeros."""
-                    if self.grad is not None:
-                        self.grad.fill(0.0)
-                    else:
-                        self.grad = np.zeros_like(self.data, dtype=np.float32)
-
-            self.weight = ParamWrapper(weight_data)
+            self.weight = _create_param_wrapper(weight_data)
 
         if bias:
             if _PARAMETER_AVAILABLE and ParameterClass is not None:
@@ -123,63 +68,7 @@ def zero_grad(self):
                     np.zeros(out_features, dtype=np.float32), requires_grad=True
                 )
             else:
-                # Use same wrapper approach
-                class ParamWrapper:
-                    """Lightweight bias wrapper with gradient storage."""
-
-                    def __init__(self, data):
-                        """Initialize the wrapped bias array."""
-                        self.data = (
-                            data.copy()
-                            if isinstance(data, np.ndarray)
-                            else np.array(data, dtype=np.float32)
-                        )
-                        self.grad = None
-
-                    def __array__(self):
-                        """Expose the wrapped array to numpy operations."""
-                        return self.data
-
-                    def __getitem__(self, key):
-                        """Read bias entries by index."""
-                        return self.data[key]
-
-                    def __setitem__(self, key, value):
-                        """Write bias entries by index."""
-                        self.data[key] = value
-
-                    def __sub__(self, other):
-                        """Return elementwise subtraction as a wrapped bias."""
-                        result = self.data - (other.data if hasattr(other, "data") else other)
-                        return ParamWrapper(result)
-
-                    def __isub__(self, other):
-                        """Apply in-place subtraction to the wrapped bias."""
-                        self.data -= other.data if hasattr(other, "data") else other
-                        return self
-
-                    def copy(self):
-                        """Return a copy of the wrapped bias."""
-                        return ParamWrapper(self.data.copy())
-
-                    @property
-                    def shape(self):
-                        """Expose the wrapped array shape."""
-                        return self.data.shape
-
-                    @property
-                    def dtype(self):
-                        """Expose the wrapped array dtype."""
-                        return self.data.dtype
-
-                    def zero_grad(self):
-                        """Reset gradients to zeros."""
-                        if self.grad is not None:
-                            self.grad.fill(0.0)
-                        else:
-                            self.grad = np.zeros_like(self.data, dtype=np.float32)
-
-                self.bias = ParamWrapper(np.zeros(out_features, dtype=np.float32))
+                self.bias = _create_param_wrapper(np.zeros(out_features, dtype=np.float32))
         else:
             self.bias = None
 
diff --git a/nn/module.py b/nn/module.py
index 4237bc2..47781ce 100644
--- a/nn/module.py
+++ b/nn/module.py
@@ -48,6 +48,28 @@ def zero_grad(self):
                 self.grad = np.zeros_like(self, dtype=np.float32)
 
 
+# Cached torch-API class resolution — avoids try/except on every forward pass.
+_torch_classes = None  # Will be (Tensor, LongTensor, Variable) or ()
+_torch_classes_resolved = False
+
+
+def _get_torch_classes():
+    """Return (Tensor, LongTensor, Variable) or () if unavailable. Cached."""
+    global _torch_classes, _torch_classes_resolved
+    if _torch_classes_resolved:
+        return _torch_classes
+    _torch_classes_resolved = True
+    try:
+        from grilly.nn.autograd import Variable as _Variable
+        from grilly.torch_api.tensor import LongTensor as _TorchLong
+        from grilly.torch_api.tensor import Tensor as _TorchTensor
+
+        _torch_classes = (_TorchTensor, _TorchLong, _Variable)
+    except ImportError:
+        _torch_classes = ()
+    return _torch_classes
+
+
 class Module:
     """Base class for Grilly neural network modules."""
 
@@ -108,15 +130,9 @@ def _convert_input(self, x: np.ndarray | Any):
         # unchanged. Variable matters because Tensor inherits from Variable
         # and ops like ``.reshape`` / ``.mean(dim=...)`` / arithmetic return
         # raw Variable instances rather than the Tensor subclass.
-        try:
-            from grilly.nn.autograd import Variable as _Variable
-            from grilly.torch_api.tensor import LongTensor as _TorchLong
-            from grilly.torch_api.tensor import Tensor as _TorchTensor
-
-            if isinstance(x, (_TorchTensor, _TorchLong, _Variable)):
-                return x
-        except ImportError:
-            pass
+        torch_cls = _get_torch_classes()
+        if torch_cls and isinstance(x, torch_cls):
+            return x
 
         # 2. GPU-first: always pass VulkanTensor through without CPU round-trip
         if TENSOR_CONVERSION_AVAILABLE:
@@ -173,18 +189,12 @@ def __call__(self, *args, **kwargs):
         ``Parameter`` (ndarray subclass) is left untouched on the way out so
         re-wrapping a stored weight doesn't break gradient bookkeeping.
         """
-        try:
-            from grilly.nn.autograd import Variable as _Variable
-            from grilly.torch_api.tensor import LongTensor as _TorchLong
-            from grilly.torch_api.tensor import Tensor as _TorchTensor
-
-            saw_torch_input = any(
-                isinstance(a, (_TorchTensor, _TorchLong, _Variable)) for a in args
-            )
-        except ImportError:
+        torch_cls = _get_torch_classes()
+        if torch_cls:
+            saw_torch_input = any(isinstance(a, torch_cls) for a in args)
+            _TorchTensor = torch_cls[0]
+        else:
             _TorchTensor = None  # type: ignore[assignment]
-            _TorchLong = None  # type: ignore[assignment]
-            _Variable = None  # type: ignore[assignment]
             saw_torch_input = False
 
         converted_args = tuple(self._convert_input(arg) for arg in args)
diff --git a/nn/prefix_scan.py b/nn/prefix_scan.py
index 88adeeb..086e40d 100644
--- a/nn/prefix_scan.py
+++ b/nn/prefix_scan.py
@@ -14,6 +14,12 @@
 so there is **no seq_len cap** — any length that fits in GPU memory works.
 Previous revision used a subgroup scan and capped at 32.
 
+Fused MinGRU:
+    Forward:   x_scan = sigmoid(g) * tanh(v)
+               a      = 0.05 + 0.9 * sigmoid(d)
+               h_t    = a_t * h_{t-1} + x_scan_t
+               (Computed in a single fused GPU kernel)
+
 Example::
 
     from grilly.nn.prefix_scan import prefix_scan_causal
@@ -107,6 +113,57 @@ def backward_fn(grad_output):
     return Variable(h_data, requires_grad=True, grad_fn=grad_fn)
 
 
+def min_gru(g, v, d) -> Variable:
+    """Fused MinGRU mixer: ``h_t = a_t * h_{t-1} + x_scan_t``.
+    
+    Logic:
+        x_scan_t = sigmoid(g_t) * tanh(v_t)
+        a_t      = 0.05 + 0.9 * sigmoid(d_t)
+        h_t      = a_t * h_{t-1} + x_scan_t
+        
+    Args:
+        g, v, d: Gate projections of shape ``(B, S, D)``.
+    """
+    import grilly_core as gc
+
+    g_var = _ensure_variable(g)
+    v_var = _ensure_variable(v)
+    d_var = _ensure_variable(d)
+
+    g_data = np.asarray(g_var.data, dtype=np.float32)
+    v_data = np.asarray(v_var.data, dtype=np.float32)
+    d_data = np.asarray(d_var.data, dtype=np.float32)
+
+    dev = _get_bridge_device()
+    h_data = np.asarray(gc.mingru_forward(dev, g_data, v_data, d_data), dtype=np.float32)
+
+    requires_grad = (
+        _grad_enabled
+        and (g_var.requires_grad or v_var.requires_grad or d_var.requires_grad)
+    )
+    if not requires_grad:
+        return Variable(h_data, requires_grad=False)
+
+    saved_g = g_data.copy()
+    saved_v = v_data.copy()
+    saved_d = d_data.copy()
+    saved_h = h_data.copy()
+
+    def backward_fn(grad_output):
+        grad_h = np.asarray(grad_output, dtype=np.float32)
+        result = gc.mingru_backward(
+            dev, grad_h, saved_g, saved_v, saved_d, saved_h
+        )
+        return (
+            np.asarray(result["grad_g"], dtype=np.float32),
+            np.asarray(result["grad_v"], dtype=np.float32),
+            np.asarray(result["grad_d"], dtype=np.float32)
+        )
+
+    grad_fn = GradFn("MinGRUFused", backward_fn, [g_var, v_var, d_var])
+    return Variable(h_data, requires_grad=True, grad_fn=grad_fn)
+
+
 class CausalSequenceMixer:
     """Subgroup-accelerated causal sequence mixer.
 
@@ -208,3 +265,32 @@ def __call__(self, x):
 
         h = prefix_scan_causal(x_t, a_t)
         return h
+
+
+class MinGRU:
+    """Fused MinGRU layer using the specialized GPU kernel."""
+    
+    def __init__(self, d_model: int, bias_init: float = 1.0):
+        from grilly import nn
+        self.d_model = d_model
+        self.proj_g = nn.Linear(d_model, d_model, bias=True)
+        self.proj_v = nn.Linear(d_model, d_model, bias=True)
+        self.proj_d = nn.Linear(d_model, d_model, bias=True)
+
+        try:
+            b = self.proj_d.bias
+            b_arr = b.data if hasattr(b, "data") else b
+            b_arr[:] = float(bias_init)
+        except Exception:
+            pass
+
+    def parameters(self):
+        yield from self.proj_g.parameters()
+        yield from self.proj_v.parameters()
+        yield from self.proj_d.parameters()
+
+    def __call__(self, x):
+        g = self.proj_g(x)
+        v = self.proj_v(x)
+        d = self.proj_d(x)
+        return min_gru(g, v, d)
diff --git a/optim/adamw.py b/optim/adamw.py
index 9f3cfec..6ec4147 100644
--- a/optim/adamw.py
+++ b/optim/adamw.py
@@ -16,6 +16,8 @@
 
 import numpy as np
 
+from ..backend import _bridge
+from ..nn._helpers import _USE_CPP_BRIDGE, _bridge_to_numpy
 from .base import Optimizer
 
 
@@ -274,6 +276,18 @@ def _adamw_update_gpu(
         GPU-accelerated AdamW update using adamw-update.glsl shader.
         """
         try:
+            if _USE_CPP_BRIDGE:
+                result = _bridge.adamw_update(
+                    param, grad, exp_avg, exp_avg_sq,
+                    lr=lr, beta1=beta1, beta2=beta2, eps=eps,
+                    weight_decay=weight_decay,
+                    beta1_t=beta1_t, beta2_t=beta2_t,
+                    clear_grad=clear_grad
+                )
+                if result is not None:
+                    # _bridge.adamw_update returns (p, m1, m2)
+                    return result
+
             if hasattr(backend, "learning") and hasattr(backend.learning, "adamw_update"):
                 param, exp_avg, exp_avg_sq = backend.learning.adamw_update(
                     weights=param,
diff --git a/optim/base.py b/optim/base.py
index 4aee94b..aff3f38 100644
--- a/optim/base.py
+++ b/optim/base.py
@@ -66,11 +66,18 @@ def zero_grad(self):
         """
         Clear gradients for all parameters.
 
-        Note: In this implementation, gradients are expected to be
-        stored in a separate structure (e.g., in the model's backward pass).
-        This method is provided for API compatibility.
+        Zeroes the .grad attribute on every parameter managed by this optimizer,
+        matching the standard PyTorch training loop pattern:
+            optimizer.zero_grad()
+            loss.backward()
+            optimizer.step()
         """
-        pass
+        for group in self.param_groups:
+            for p in group["params"]:
+                if hasattr(p, "zero_grad") and callable(p.zero_grad):
+                    p.zero_grad()
+                elif hasattr(p, "grad") and p.grad is not None:
+                    p.grad = None
 
     def step(self, closure=None):
         """
diff --git a/pytest_out.txt b/pytest_out.txt
new file mode 100644
index 0000000000000000000000000000000000000000..97b323086537d8a201f8a3c93f74494c750a1a92
GIT binary patch
literal 6196
zcmchbSx*~R6vyv#rGAHbi9(a$jBUUs5)U-HlC&rZX{FGPz!*aDLT!`ae)zWk-#K%c
zCEyT8twtW-?JW1~Xa4znD=hmYVHWyfs&}F{qiHw^<1n)MEbNDg_NJOGOJOT~AHEA`
zVIW+ya3tK5FciK|qB9EZ(9(ESPZD;*Tqi!{)Z3vEn%d=^hI`sSvwi1wHEe1p)vuNB
z4Z?Xi)-xBbrq(xXKjMBE9)!KHYj>RJy{D5CaWK%c7q*4_EIcv}_cebh9(tOw_e!UF
zIy)BBSp3hl_KWd;sQD+YIy5-TH+Yku{$w)jhbNk!>&Ayh#bw;6Kr|!`zjGG;3<u$_
zu&(p1a4M=3L3PDrDk?4qms3MJyU-6A!*NgY>x;&TARb6&jr_DrEi0V?;)A4hCccn5
zCr<Q3&fNA$vw>EVa9jBLn(vGMfzIAGY6n^y8NH!)CgKu$>!OIx+8VFa;HGwBCcHzz
zPGnJW4414N1vqp$VV4tO;Vx5AI52K9>8&ToCt4Y39sY(oF%l$PyM(7Yv0mDVbhgZ5
zQoa50Gy9TYcFD_@Sx+ixw}2B-M*85uFEW!)U%T+-Yrp{Ex*m#)vl@@(olH=Ey8<g5
zgCjman2fm*+9~w8*p46RbWhZg??`ai<Wr;eOsfZ)6;?mbZH7Cc>*Gs}qepDa?cfjL
z>Iqjvzp*e63=V(B-;liPbzh^o=41KanodXG#dEK+vsLrZru2ljMjzi7wz)7NT`;kS
zS9k>Y+~!tG76&D)=cC{{h7&mKyo#0k4RsEy-jaX&s3AYz4R6EG7Ejnaup5?b4GL9U
zS<S{Xlj4PBbuO#v%UTA)Kb9;r-3;!q^sVrdMk9@Gf-y$u>u?>377~jV>ak!f%J{FZ
zkEAQ20gp?m*d<;hl5`@OLu+U<152bl4fij{naPfuc`SF!J``ST=7F9Fb=^rkh=>8T
zxygkH0zZlTdOJK<{C%uwoLup|H%m#wt?=6=m&<3S0<xgI8(xe08__Oyzh#6Rv#)%L
zth|g2zm{56(|cdkU(|F{x@cNVCklKE&u|d6J(6`0Ydm9t`B-zjj%ZIclI7OYlf{sg
z`^q%O8qLg`@VcXXM8q0cWbG>^v~zE(uX?QY$hsp6V__rWQ>8qSmEuK2(*Hi|$NWzY
z?OHA%f@R828;Ysubx~dLQoIu5i84fgDubE0XEo}qThSQOB??W<m!bxcpvNz?8l%ff
zxFeZNB%7(p@s8%F%6NyGy96VA_5b&9lLrfUoZG;*Fh*T_etj&u=*4TA@>$|2wQFCJ
zIXAn&4#!$?Eps<AQ%@%njic_V9LcrKnoShzWh&({_25*tLGF&#7WA=_BJYx8n$p>t
z{_mH@D_Vu_tz2gD&aZ^;Lg%P+s58l~Xwd7QBWZz~c*WH>pYt5slvTG?3%9g)SGe1z
z$vRdbz5YH?c3gy&s<|VskxcgzYpa4a5vSY_Ye2el`QLjzo~?o0l)bi;nc*oFHnJT4
z*U%34?`o}^@48nyY{%fBA7RV8P3<<tT_@)&)&IR3XI0zt8Y309u3(|+9F?)Ah7k#-
zmEFYn?U-~o#CNB*OQqYfyKHJV!hV^fuHZI|BYL0B9IJORvEJDf)pg^m$}g4mhOKj(
zc7-FadEf;pq6LQqv*-P?6(^RfKi47hqqEu+e&p*icBx`<ZQ)(F)x@-lUa=YU+7@N1
zIoEbeBYcdztm#*rr#4%+wU!{Tjw)wW9pXoLB{;bIn%+==GMu6tEQ&o}Pc$Zi!a+-8
zmn{&;-Z^slme0E#VDn$nA()^5KdF9j7BNAgr8(N+?d!-4%18n}qbw4g^-3AJQh`N0
zE^GV<U*u+m4(XPcd6Mu@-g>6E;<YJNADusaEYT)*JOhoE!S68W^1Z6)7pl;b@J^Tq
z$`iz3Vp(7DhklxjO4J-_-@8HLDU~RZCDnUdl{q!wYrz6XPGk0~-pCLuOf-9|_ljWY
zSBPw`ZK52#HaP=)7iL9Rv*)UUL%s=km651d+EEVx2REm_=)RtT;Usp7-YdP6bTZ{T
zxTnG+bHFLpFkQ!?vMf0m`CWgK{*3$>E9v@as%-ESy>nUq-c5LqTjimSXR7|qbubZs
z=!rfMEz$!}gR!<86kmV*jxWM9X*ZLeHY5Xj13D&Xkz=?={bcus=ctFg?*bED64t?;
znISzgZ<UKhcg9*~=9!D33fXWcx_;ogSI{co(k&on{JISIK0+p^LaI}bUpc7wsOo^l
zvhaDn7EuM%VLq1pvuXv*yfgNWzwnr{Y@U~7ft^QNJG7X7HO!Bq8ShuXZ%a1Ou3~Js
z4%^px#Uj3{n3ngL#Wb#qfppv>{m>j8@QJ?pc{jeISbbMdA{*zc-l^7!XZ7gyPEm4O
zr@Vjmua<62H^Gg*qCYt1<vLyRh+7zOfH)q%C==bWKw_J7#8-o5duw8C^$S6y_5XdL
n;7j$@9ZHd*my@DH`Ii{JwtDADmc~lRVpKt0^Zak2fE51)I&Hd#

literal 0
HcmV?d00001

diff --git a/scratch/inspect_grilly_core.py b/scratch/inspect_grilly_core.py
new file mode 100644
index 0000000..693a1de
--- /dev/null
+++ b/scratch/inspect_grilly_core.py
@@ -0,0 +1,3 @@
+import grilly_core
+for attr in dir(grilly_core):
+    print(attr)
diff --git a/shaders/bandit-solve.glsl b/shaders/bandit-solve.glsl
new file mode 100644
index 0000000..a71b993
--- /dev/null
+++ b/shaders/bandit-solve.glsl
@@ -0,0 +1,151 @@
+#version 450
+
+/*
+ * Multi-Armed Bandit Top-2 Solver (Track-and-Stop)
+ *
+ * Parallelizes over 'n_instances'. Each instance has 'K' arms.
+ * Computes optimal sampling proportions (TargetW) and stopping criterion.
+ *
+ * Inputs:
+ *   MuHat: (K, n_instances) - Estimated means
+ *   N:     (K, n_instances) - Sample counts
+ *
+ * Outputs:
+ *   TargetW: (K, n_instances) - Optimal proportions
+ *   Stop:    (n_instances)    - Boolean (or 1/0) stopping flag
+ *
+ * Distribution: Gaussian (KL(p||q) = (p-q)^2 / 2)
+ */
+
+layout(local_size_x = 64, local_size_y = 1, local_size_z = 1) in;
+
+layout(binding = 0) readonly  buffer MuBuffer     { float MuHat[]; };
+layout(binding = 1) readonly  buffer NBuffer      { float N[];     };
+layout(binding = 2) writeonly buffer WBuffer      { float TargetW[]; };
+layout(binding = 3) writeonly buffer StopBuffer   { uint  StopFlags[]; };
+
+layout(push_constant) uniform PushConstants {
+    uint n_arms;
+    uint n_instances;
+    uint iters;
+    float delta;
+} params;
+
+// Maximum arms supported in a single thread's stack. 
+// For larger K, we would need to redesign to shared memory.
+#define MAX_ARMS 128
+
+float kl_gaussian(float mu, float nu) {
+    float diff = mu - nu;
+    return (diff * diff) * 0.5;
+}
+
+void main() {
+    uint inst = gl_GlobalInvocationID.x;
+    if (inst >= params.n_instances) return;
+
+    uint K = params.n_arms;
+    if (K > MAX_ARMS) return; // TODO: Fallback or error
+
+    float mu[MAX_ARMS];
+    float counts[MAX_ARMS];
+    float w[MAX_ARMS];
+    
+    uint best_idx = 0;
+    float mu_best = -1e30;
+    float total_n = 0.0;
+
+    // Load Mu and N, find best arm
+    for (uint k = 0; k < K; ++k) {
+        uint idx = k * params.n_instances + inst;
+        mu[k] = MuHat[idx];
+        counts[k] = N[idx];
+        w[k] = 1.0 / float(K);
+        total_n += counts[k];
+        
+        if (mu[k] > mu_best) {
+            mu_best = mu[k];
+            best_idx = k;
+        }
+    }
+
+    // --- Top-2 Algorithm for Optimal Proportions ---
+    for (uint i = 1; i < params.iters; ++i) {
+        float sum_kr = 0.0;
+        
+        // Precompute midpoints and KL ratios relative to best
+        for (uint k = 0; k < K; ++k) {
+            if (k == best_idx) continue;
+            
+            // Midpoint: (w_k * mu_k + w_best * mu_best) / (w_k + w_best)
+            float mu_avg = (w[k] * mu[k] + w[best_idx] * mu_best) / (w[k] + w[best_idx] + 1e-15);
+            
+            float kl_best = kl_gaussian(mu_best, mu_avg);
+            float kl_k    = kl_gaussian(mu[k], mu_avg);
+            
+            sum_kr += kl_best / (kl_k + 1e-15);
+        }
+
+        if (sum_kr > 1.0) {
+            // Case 1: Best arm is undersampled relative to sum of others
+            w[best_idx] += 1.0;
+        } else {
+            // Case 2: Find the arm k != best that minimizes the KL objective
+            uint min_arm = 0;
+            float min_val = 1e30;
+            
+            for (uint k = 0; k < K; ++k) {
+                if (k == best_idx) continue;
+                
+                float mu_avg = (w[k] * mu[k] + w[best_idx] * mu_best) / (w[k] + w[best_idx] + 1e-15);
+                float val = w[best_idx] * kl_gaussian(mu_best, mu_avg) + w[k] * kl_gaussian(mu[k], mu_avg);
+                
+                if (val < min_val) {
+                    min_val = val;
+                    min_arm = k;
+                }
+            }
+            w[min_arm] += 1.0;
+        }
+    }
+
+    // Finalize W (normalize by total iterations)
+    for (uint k = 0; k < K; ++k) {
+        uint idx = k * params.n_instances + inst;
+        TargetW[idx] = w[k] / float(params.iters);
+    }
+
+    // --- Stopping Criterion (GLRT) ---
+    uint stop = 0;
+    if (total_n > 0.0) {
+        float min_glrt = 1e30;
+        for (uint k = 0; k < K; ++k) {
+            if (k == best_idx) continue;
+            
+            float wk = counts[k] / total_n;
+            float wbest = counts[best_idx] / total_n;
+            
+            float mu_avg = (wk * mu[k] + wbest * mu_best) / (wk + wbest + 1e-15);
+            float obj = wbest * kl_gaussian(mu_best, mu_avg) + wk * kl_gaussian(mu[k], mu_avg);
+            float glrt_k = total_n * obj;
+            
+            min_glrt = min(min_glrt, glrt_k);
+        }
+        
+        // beta(N, delta) = log(K-1) - log(delta) + log(1 + log(total_n))
+        float threshold = log(float(K) - 1.0) - log(params.delta) + log(1.0 + log(max(total_n, 1.0)));
+        if (min_glrt >= threshold) {
+            stop = 1;
+        }
+    }
+    
+    // Check for forced round-robin (any N == 0)
+    for (uint k = 0; k < K; ++k) {
+        if (counts[k] == 0.0) {
+            stop = 0;
+            break;
+        }
+    }
+
+    StopFlags[inst] = stop;
+}
diff --git a/shaders/eggroll-generate.glsl b/shaders/eggroll-generate.glsl
new file mode 100644
index 0000000..fe77c7c
--- /dev/null
+++ b/shaders/eggroll-generate.glsl
@@ -0,0 +1,91 @@
+#version 450
+
+/*
+ * EGGROLL Perturbation Generator
+ *
+ * Generates N rank-1 perturbations (U and V vectors) for a target layer.
+ * Uses PCG-based PRNG for high-quality random values on GPU.
+ *
+ * Output:
+ *   U_pool: (d_out, n_workers)
+ *   V_pool: (d_in,  n_workers)
+ */
+
+layout(local_size_x = 64, local_size_y = 1, local_size_z = 1) in;
+
+layout(binding = 0) writeonly buffer UBuffer { float U_pool[]; };
+layout(binding = 1) writeonly buffer VBuffer { float V_pool[]; };
+
+layout(push_constant) uniform PushConstants {
+    uint d_out;
+    uint d_in;
+    uint n_workers;
+    uint seed;
+    float sigma;
+} params;
+
+// PCG Random Number Generator
+uint pcg_hash(uint seed_val) {
+    uint state = seed_val * 747796405u + 2891336453u;
+    uint word = ((state >> ((state >> 28u) + 4u)) ^ state) * 277803737u;
+    return (word >> 22u) ^ word;
+}
+
+// Map uint to Normal distribution using Box-Muller
+vec2 box_muller(uint seed) {
+    uint r1 = pcg_hash(seed);
+    uint r2 = pcg_hash(seed + 123456789u);
+    
+    float f1 = float(r1) / 4294967296.0;
+    float f2 = float(r2) / 4294967296.0;
+    
+    float theta = 6.2831853 * f1;
+    float rho = sqrt(-2.0 * log(max(f2, 1e-10)));
+    
+    return vec2(rho * cos(theta), rho * sin(theta));
+}
+
+void main() {
+    uint id = gl_GlobalInvocationID.x;
+    uint total_elements = (params.d_out + params.d_in) * params.n_workers;
+    
+    // Each thread generates one pair (or partial) of random normals
+    // We'll map id to specific vector and worker
+    
+    // For simplicity, each worker's vectors are contiguous
+    if (id < params.n_workers) {
+        // This thread generates ALL vectors for one worker
+        // (Slow but simple for now. Better to parallelize across k as well)
+        // Let's refine: parallelize across k and worker combined.
+    }
+    
+    // Refined mapping:
+    // id = worker_idx * (d_out + d_in) + element_idx
+    if (id >= total_elements) return;
+    
+    uint worker_idx = id / (params.d_out + params.d_in);
+    uint element_idx = id % (params.d_out + params.d_in);
+    
+    uint global_seed = params.seed + id;
+    
+    // We need Normals. Box-Muller generates 2 per call.
+    // To be efficient, we'll only call it every 2 elements.
+    float val;
+    if (id % 2 == 0) {
+        val = box_muller(global_seed).x;
+    } else {
+        val = box_muller(global_seed - 1).y;
+    }
+    
+    val *= params.sigma;
+
+    if (element_idx < params.d_out) {
+        // U vector
+        uint out_idx = element_idx * params.n_workers + worker_idx;
+        U_pool[out_idx] = val;
+    } else {
+        // V vector
+        uint in_idx = (element_idx - params.d_out) * params.n_workers + worker_idx;
+        V_pool[in_idx] = val;
+    }
+}
diff --git a/shaders/eggroll-update.glsl b/shaders/eggroll-update.glsl
new file mode 100644
index 0000000..5dc7e3f
--- /dev/null
+++ b/shaders/eggroll-update.glsl
@@ -0,0 +1,64 @@
+#version 450
+
+/*
+ * EGGROLL Fused Weight Update & Merit Modulation
+ *
+ * Implements the rank-r merit-modulated update:
+ *   W_new = W_orig + (sum_i w_i * (u_i @ v_i.T)) * Merit
+ *   Merit_new = Merit * (increase if update > eps else decay)
+ *
+ * Parallelizes over (d_out, d_in).
+ */
+
+layout(local_size_x = 16, local_size_y = 16) in;
+
+layout(binding = 0) buffer WeightBuffer { float W[];      }; // Dequantized weights (or float)
+layout(binding = 1) buffer MeritBuffer  { float Merit[];  }; 
+layout(binding = 2) readonly buffer UBuffer { float U_pool[]; }; // (d_out, n_workers)
+layout(binding = 3) readonly buffer VBuffer { float V_pool[]; }; // (d_in, n_workers)
+layout(binding = 4) readonly buffer TopIdx  { uint  Indices[]; };
+layout(binding = 5) readonly buffer TopFit  { float Weights[]; };
+
+layout(push_constant) uniform PushConstants {
+    uint d_out;
+    uint d_in;
+    uint top_k;
+    uint n_workers;
+    float merit_increase;
+    float merit_decay;
+} params;
+
+void main() {
+    uint i = gl_GlobalInvocationID.y; // Row
+    uint j = gl_GlobalInvocationID.x; // Col
+
+    if (i >= params.d_out || j >= params.d_in) return;
+
+    uint idx = i * params.d_in + j;
+    
+    float w_orig = W[idx];
+    float m_orig = Merit[idx];
+    
+    // Compute weighted average delta: sum_k w_k * u_k[i] * v_k[j]
+    float avg_delta = 0.0;
+    for (uint k = 0; k < params.top_k; ++k) {
+        uint worker_idx = Indices[k];
+        float fw = Weights[k];
+        
+        float uk = U_pool[i * params.n_workers + worker_idx];
+        float vk = V_pool[j * params.n_workers + worker_idx];
+        
+        avg_delta += fw * (uk * vk);
+    }
+    
+    // Merit-modulated update
+    float delta_m = avg_delta * m_orig;
+    W[idx] = w_orig + delta_m;
+    
+    // Update merit
+    if (abs(avg_delta) > 1e-8) {
+        Merit[idx] *= params.merit_increase;
+    } else {
+        Merit[idx] *= params.merit_decay;
+    }
+}
diff --git a/shaders/gqa-attention.glsl b/shaders/gqa-attention.glsl
index 9e86f40..4f862ea 100644
--- a/shaders/gqa-attention.glsl
+++ b/shaders/gqa-attention.glsl
@@ -37,94 +37,83 @@ layout(push_constant) uniform PushConsts {
     uint num_kv_heads;
     uint head_dim;
     uint cache_len;
-    float scale;           // 1.0 / sqrt(head_dim)
+    float scale;
+    uint phase; // 0: Scores, 1: Softmax, 2: Output
 };
 
 void main() {
     uint col = gl_GlobalInvocationID.x;
     uint row = gl_GlobalInvocationID.y;
-
-    // row encodes (batch, q_head), col encodes cache position or head_dim
     uint total_q = batch_size * num_q_heads;
 
-    // Phase 1: Compute attention scores Q @ K^T (each thread: one score)
-    // row = batch*num_q_heads + q_head, col = cache_pos
-    if (row < total_q && col < cache_len) {
-        uint batch_idx = row / num_q_heads;
-        uint q_head = row % num_q_heads;
-
-        // GQA mapping: which KV head does this query head attend to?
-        uint kv_group_size = num_q_heads / num_kv_heads;
-        uint kv_head = q_head / kv_group_size;
-
-        // Compute dot product: Q[batch, 0, q_head, :] @ K[batch, col, kv_head, :]
-        float dot = 0.0;
-        for (uint d = 0; d < head_dim; d++) {
-            uint q_idx = batch_idx * num_q_heads * head_dim + q_head * head_dim + d;
-            uint k_idx = batch_idx * cache_len * num_kv_heads * head_dim
-                       + col * num_kv_heads * head_dim
-                       + kv_head * head_dim + d;
-            dot += Q[q_idx] * K_cache[k_idx];
+    // Phase 0: Compute attention scores Q @ K^T
+    if (phase == 0u) {
+        if (row < total_q && col < cache_len) {
+            uint batch_idx = row / num_q_heads;
+            uint q_head = row % num_q_heads;
+            uint kv_group_size = num_q_heads / num_kv_heads;
+            uint kv_head = q_head / kv_group_size;
+
+            float dot = 0.0;
+            for (uint d = 0; d < head_dim; d++) {
+                uint q_idx = batch_idx * num_q_heads * head_dim + q_head * head_dim + d;
+                uint k_idx = batch_idx * cache_len * num_kv_heads * head_dim
+                           + col * num_kv_heads * head_dim
+                           + kv_head * head_dim + d;
+                dot += Q[q_idx] * K_cache[k_idx];
+            }
+
+            uint score_idx = batch_idx * num_q_heads * cache_len + q_head * cache_len + col;
+            scores[score_idx] = dot * scale;
         }
-
-        uint score_idx = batch_idx * num_q_heads * cache_len + q_head * cache_len + col;
-        scores[score_idx] = dot * scale;
     }
-
-    barrier();
-    memoryBarrierBuffer();
-
-    // Phase 2: Softmax over cache dimension (one thread per q_head)
-    if (row < total_q && col == 0) {
-        uint batch_idx = row / num_q_heads;
-        uint q_head = row % num_q_heads;
-        uint base = batch_idx * num_q_heads * cache_len + q_head * cache_len;
-
-        // Find max for numerical stability
-        float max_val = -1e10;
-        for (uint c = 0; c < cache_len; c++) {
-            float s = scores[base + c];
-            if (s > max_val) max_val = s;
-        }
-
-        // Compute exp and sum
-        float sum_exp = 0.0;
-        for (uint c = 0; c < cache_len; c++) {
-            float e = exp(scores[base + c] - max_val);
-            scores[base + c] = e;
-            sum_exp += e;
-        }
-
-        // Normalize
-        float inv_sum = 1.0 / max(sum_exp, 1e-10);
-        for (uint c = 0; c < cache_len; c++) {
-            scores[base + c] *= inv_sum;
+    // Phase 1: Softmax over cache dimension (one thread per q_head)
+    else if (phase == 1u) {
+        if (row < total_q && col == 0) {
+            uint batch_idx = row / num_q_heads;
+            uint q_head = row % num_q_heads;
+            uint base = batch_idx * num_q_heads * cache_len + q_head * cache_len;
+
+            float max_val = -1e10;
+            for (uint c = 0; c < cache_len; c++) {
+                float s = scores[base + c];
+                if (s > max_val) max_val = s;
+            }
+
+            float sum_exp = 0.0;
+            for (uint c = 0; c < cache_len; c++) {
+                float e = exp(scores[base + c] - max_val);
+                scores[base + c] = e;
+                sum_exp += e;
+            }
+
+            float inv_sum = 1.0 / max(sum_exp, 1e-10);
+            for (uint c = 0; c < cache_len; c++) {
+                scores[base + c] *= inv_sum;
+            }
         }
     }
-
-    barrier();
-    memoryBarrierBuffer();
-
-    // Phase 3: Weighted sum: output = scores @ V_cache
-    // row = batch*num_q_heads + q_head, col = head_dim index
-    if (row < total_q && col < head_dim) {
-        uint batch_idx = row / num_q_heads;
-        uint q_head = row % num_q_heads;
-        uint kv_group_size = num_q_heads / num_kv_heads;
-        uint kv_head = q_head / kv_group_size;
-
-        uint score_base = batch_idx * num_q_heads * cache_len + q_head * cache_len;
-
-        float sum = 0.0;
-        for (uint c = 0; c < cache_len; c++) {
-            float w = scores[score_base + c];
-            uint v_idx = batch_idx * cache_len * num_kv_heads * head_dim
-                       + c * num_kv_heads * head_dim
-                       + kv_head * head_dim + col;
-            sum += w * V_cache[v_idx];
+    // Phase 2: Weighted sum: output = scores @ V_cache
+    else if (phase == 2u) {
+        if (row < total_q && col < head_dim) {
+            uint batch_idx = row / num_q_heads;
+            uint q_head = row % num_q_heads;
+            uint kv_group_size = num_q_heads / num_kv_heads;
+            uint kv_head = q_head / kv_group_size;
+
+            uint score_base = batch_idx * num_q_heads * cache_len + q_head * cache_len;
+
+            float sum = 0.0;
+            for (uint c = 0; c < cache_len; c++) {
+                float w = scores[score_base + c];
+                uint v_idx = batch_idx * cache_len * num_kv_heads * head_dim
+                           + c * num_kv_heads * head_dim
+                           + kv_head * head_dim + col;
+                sum += w * V_cache[v_idx];
+            }
+
+            uint out_idx = batch_idx * num_q_heads * head_dim + q_head * head_dim + col;
+            output_data[out_idx] = sum;
         }
-
-        uint out_idx = batch_idx * num_q_heads * head_dim + q_head * head_dim + col;
-        output_data[out_idx] = sum;
     }
 }
diff --git a/shaders/loss-cosine.glsl b/shaders/loss-cosine.glsl
new file mode 100644
index 0000000..a4e61cb
--- /dev/null
+++ b/shaders/loss-cosine.glsl
@@ -0,0 +1,35 @@
+#version 450
+
+layout(local_size_x = 64) in;
+
+layout(binding = 0) readonly  buffer PBuf { float P[]; };
+layout(binding = 1) readonly  buffer TBuf { float T[]; };
+layout(binding = 2) writeonly buffer LBuf { float L[]; };
+
+layout(push_constant) uniform Push {
+    uint batch_size;
+    uint dim;
+} params;
+
+void main() {
+    uint i = gl_GlobalInvocationID.x;
+    if (i >= params.batch_size) return;
+    
+    float dp = 0.0;
+    float pnorm2 = 0.0;
+    float tnorm2 = 0.0;
+    
+    uint offset = i * params.dim;
+    for (uint d = 0; d < params.dim; ++d) {
+        float pd = P[offset + d];
+        float td = T[offset + d];
+        dp += pd * td;
+        pnorm2 += pd * pd;
+        tnorm2 += td * td;
+    }
+    
+    float pnorm = sqrt(pnorm2) + 1e-9;
+    float tnorm = sqrt(tnorm2) + 1e-9;
+    
+    L[i] = 1.0 - (dp / (pnorm * tnorm));
+}
diff --git a/shaders/loss-mse.glsl b/shaders/loss-mse.glsl
new file mode 100644
index 0000000..454f36c
--- /dev/null
+++ b/shaders/loss-mse.glsl
@@ -0,0 +1,19 @@
+#version 450
+
+layout(local_size_x = 256) in;
+
+layout(binding = 0) readonly  buffer PBuf { float P[]; };
+layout(binding = 1) readonly  buffer TBuf { float T[]; };
+layout(binding = 2) writeonly buffer LBuf { float L[]; };
+
+layout(push_constant) uniform Push {
+    uint n;
+} params;
+
+void main() {
+    uint i = gl_GlobalInvocationID.x;
+    if (i >= params.n) return;
+    
+    float d = P[i] - T[i];
+    L[i] = d * d;
+}
diff --git a/shaders/mingru-backward.glsl b/shaders/mingru-backward.glsl
new file mode 100644
index 0000000..c495d8d
--- /dev/null
+++ b/shaders/mingru-backward.glsl
@@ -0,0 +1,81 @@
+#version 450
+
+/*
+ * MinGRU Fused Activation + Causal Scan (backward)
+ *
+ * Inputs:
+ *   DH (grad_h): (B, S, D)
+ *   G, V, D: (B, S, D) - Original gate projections
+ *   H: (B, S, D) - Results of forward pass
+ *
+ * Outputs:
+ *   DG, DV, DD: (B, S, D) - Gradients for projections
+ */
+
+layout(local_size_x = 64, local_size_y = 1, local_size_z = 1) in;
+
+layout(binding = 0) readonly  buffer GradH  { float DH[]; };
+layout(binding = 1) readonly  buffer GateG  { float G[];  };
+layout(binding = 2) readonly  buffer GateV  { float V[];  };
+layout(binding = 3) readonly  buffer GateD  { float D[];  };
+layout(binding = 4) readonly  buffer State  { float H[];  };
+layout(binding = 5) writeonly buffer GradG  { float DG[]; };
+layout(binding = 6) writeonly buffer GradV  { float DV[]; };
+layout(binding = 7) writeonly buffer GradD  { float DD[]; };
+
+layout(push_constant) uniform PushConstants {
+    uint seq_len;
+    uint hidden_dim;
+} params;
+
+float sigmoid(float x) {
+    return 1.0 / (1.0 + exp(-x));
+}
+
+float sigmoid_grad(float s) {
+    return s * (1.0 - s);
+}
+
+void main() {
+    uint d = gl_GlobalInvocationID.x;  // hidden dim index
+    uint b = gl_WorkGroupID.y;         // batch index
+
+    if (d >= params.hidden_dim) return;
+
+    uint stride_t = params.hidden_dim;
+    uint base     = b * params.seq_len * params.hidden_dim + d;
+
+    float dh_next = 0.0;
+    
+    // Reverse time loop
+    for (int t = int(params.seq_len) - 1; t >= 0; --t) {
+        uint idx = base + uint(t) * stride_t;
+        
+        float g_t = G[idx];
+        float v_t = V[idx];
+        float d_t = D[idx];
+        
+        float sig_g = sigmoid(g_t);
+        float tanh_v = tanh(v_t);
+        float sig_d = sigmoid(d_t);
+        
+        float x_scan_t = sig_g * tanh_v;
+        float a_t      = 0.05 + 0.9 * sig_d;
+        
+        // Gradient from output + gradient from next time step
+        float dh_total = DH[idx] + dh_next;
+        
+        // 1. Grad w.r.t x_scan
+        float d_x_scan = dh_total;
+        DG[idx] = d_x_scan * sigmoid_grad(sig_g) * tanh_v;
+        DV[idx] = d_x_scan * sig_g * (1.0 - tanh_v * tanh_v);
+        
+        // 2. Grad w.r.t a_t
+        float h_prev = (t > 0) ? H[idx - stride_t] : 0.0;
+        float d_a_t = dh_total * h_prev;
+        DD[idx] = d_a_t * 0.9 * sigmoid_grad(sig_d);
+        
+        // 3. Propagate to previous step
+        dh_next = dh_total * a_t;
+    }
+}
diff --git a/shaders/mingru-forward.glsl b/shaders/mingru-forward.glsl
new file mode 100644
index 0000000..d756e40
--- /dev/null
+++ b/shaders/mingru-forward.glsl
@@ -0,0 +1,56 @@
+#version 450
+
+/*
+ * MinGRU Fused Activation + Causal Scan (forward)
+ *
+ * Fuses the following computations:
+ *   x_scan = sigmoid(g) * tanh(v)
+ *   a      = 0.05 + 0.9 * sigmoid(d)
+ *   h_t    = a_t * h_{t-1} + x_scan_t
+ *
+ * Inputs: G, V, D (B, S, D)
+ * Output: H (B, S, D)
+ *
+ * Strategy: one thread per (batch, hidden_dim) pair, sequential time loop.
+ */
+
+layout(local_size_x = 64, local_size_y = 1, local_size_z = 1) in;
+
+layout(binding = 0) readonly  buffer GateG  { float G[]; };
+layout(binding = 1) readonly  buffer GateV  { float V[]; };
+layout(binding = 2) readonly  buffer GateD  { float D[]; };
+layout(binding = 3) writeonly buffer Output { float H[]; };
+
+layout(push_constant) uniform PushConstants {
+    uint seq_len;
+    uint hidden_dim;
+} params;
+
+float sigmoid(float x) {
+    return 1.0 / (1.0 + exp(-x));
+}
+
+void main() {
+    uint d = gl_GlobalInvocationID.x;  // hidden dim index
+    uint b = gl_WorkGroupID.y;         // batch index
+
+    if (d >= params.hidden_dim) return;
+
+    uint stride_t = params.hidden_dim;
+    uint base     = b * params.seq_len * params.hidden_dim + d;
+
+    float h = 0.0;
+    for (uint t = 0u; t < params.seq_len; ++t) {
+        uint idx = base + t * stride_t;
+        
+        float g_t = G[idx];
+        float v_t = V[idx];
+        float d_t = D[idx];
+        
+        float x_scan_t = sigmoid(g_t) * tanh(v_t);
+        float a_t      = 0.05 + 0.9 * sigmoid(d_t);
+        
+        h = a_t * h + x_scan_t;
+        H[idx] = h;
+    }
+}
diff --git a/shaders/moe-layer-fused-vec4.glsl b/shaders/moe-layer-fused-vec4.glsl
index 153f33c..9d1fb4f 100644
--- a/shaders/moe-layer-fused-vec4.glsl
+++ b/shaders/moe-layer-fused-vec4.glsl
@@ -61,40 +61,34 @@ void main() {
         barrier();
 
         // Accumulate for all 4 experts
-        // Each iteration: load 4 floats from input (via tileX), multiply with expert weight vec4
-        [[unroll]]
-        for (uint k = 0; k < 16; k++) {
+        uint k_limit = min(16u, d_vec - k_base);
+        for (uint k = 0; k < k_limit; k++) {
             vec4 xv = tileX[ty][k];
-            uint k_global = k_base + k;  // vec4 index in K dimension
-
-            // For each expert: W[col_out_vec4, k_global_vec4]
-            // col_vec gives us the output vec4 column
-            // We need 4 loads per expert (one per component of xv)
-            // ew index: expert * ew_stride + (col_vec*4 + component) * d_vec + k_global
+            uint k_global = k_base + k;
 
             // Expert 0
-            acc0 += xv.x * ew[0 * ew_stride + (col_vec * 4 + 0) * d_vec + k_global];
-            acc0 += xv.y * ew[0 * ew_stride + (col_vec * 4 + 1) * d_vec + k_global];
-            acc0 += xv.z * ew[0 * ew_stride + (col_vec * 4 + 2) * d_vec + k_global];
-            acc0 += xv.w * ew[0 * ew_stride + (col_vec * 4 + 3) * d_vec + k_global];
+            acc0.x += dot(xv, ew[0 * ew_stride + (col_vec * 4 + 0) * d_vec + k_global]);
+            acc0.y += dot(xv, ew[0 * ew_stride + (col_vec * 4 + 1) * d_vec + k_global]);
+            acc0.z += dot(xv, ew[0 * ew_stride + (col_vec * 4 + 2) * d_vec + k_global]);
+            acc0.w += dot(xv, ew[0 * ew_stride + (col_vec * 4 + 3) * d_vec + k_global]);
 
             // Expert 1
-            acc1 += xv.x * ew[1 * ew_stride + (col_vec * 4 + 0) * d_vec + k_global];
-            acc1 += xv.y * ew[1 * ew_stride + (col_vec * 4 + 1) * d_vec + k_global];
-            acc1 += xv.z * ew[1 * ew_stride + (col_vec * 4 + 2) * d_vec + k_global];
-            acc1 += xv.w * ew[1 * ew_stride + (col_vec * 4 + 3) * d_vec + k_global];
+            acc1.x += dot(xv, ew[1 * ew_stride + (col_vec * 4 + 0) * d_vec + k_global]);
+            acc1.y += dot(xv, ew[1 * ew_stride + (col_vec * 4 + 1) * d_vec + k_global]);
+            acc1.z += dot(xv, ew[1 * ew_stride + (col_vec * 4 + 2) * d_vec + k_global]);
+            acc1.w += dot(xv, ew[1 * ew_stride + (col_vec * 4 + 3) * d_vec + k_global]);
 
             // Expert 2
-            acc2 += xv.x * ew[2 * ew_stride + (col_vec * 4 + 0) * d_vec + k_global];
-            acc2 += xv.y * ew[2 * ew_stride + (col_vec * 4 + 1) * d_vec + k_global];
-            acc2 += xv.z * ew[2 * ew_stride + (col_vec * 4 + 2) * d_vec + k_global];
-            acc2 += xv.w * ew[2 * ew_stride + (col_vec * 4 + 3) * d_vec + k_global];
+            acc2.x += dot(xv, ew[2 * ew_stride + (col_vec * 4 + 0) * d_vec + k_global]);
+            acc2.y += dot(xv, ew[2 * ew_stride + (col_vec * 4 + 1) * d_vec + k_global]);
+            acc2.z += dot(xv, ew[2 * ew_stride + (col_vec * 4 + 2) * d_vec + k_global]);
+            acc2.w += dot(xv, ew[2 * ew_stride + (col_vec * 4 + 3) * d_vec + k_global]);
 
             // Expert 3
-            acc3 += xv.x * ew[3 * ew_stride + (col_vec * 4 + 0) * d_vec + k_global];
-            acc3 += xv.y * ew[3 * ew_stride + (col_vec * 4 + 1) * d_vec + k_global];
-            acc3 += xv.z * ew[3 * ew_stride + (col_vec * 4 + 2) * d_vec + k_global];
-            acc3 += xv.w * ew[3 * ew_stride + (col_vec * 4 + 3) * d_vec + k_global];
+            acc3.x += dot(xv, ew[3 * ew_stride + (col_vec * 4 + 0) * d_vec + k_global]);
+            acc3.y += dot(xv, ew[3 * ew_stride + (col_vec * 4 + 1) * d_vec + k_global]);
+            acc3.z += dot(xv, ew[3 * ew_stride + (col_vec * 4 + 2) * d_vec + k_global]);
+            acc3.w += dot(xv, ew[3 * ew_stride + (col_vec * 4 + 3) * d_vec + k_global]);
         }
 
         barrier();
diff --git a/shaders/spv/bandit-solve.spv b/shaders/spv/bandit-solve.spv
new file mode 100644
index 0000000000000000000000000000000000000000..ef058f45291636be0707466f1d89f6441a6169cb
GIT binary patch
literal 10552
zcmZ9R37B0~m4$CoLjnntfFeRjKu9!5gEC1Zp%_vLgh8PJHCn!;s*)m=s!&4!5fTgt
z8dSi!aX_3AF)fi%)3(}!+U*45(CyUyIrpU9?TEww-**=|zDv%x*IIj@z4tlyp8IY{
z*UTekRn?4YPPJFHYerRH`&BbhDzx6(_OH5d)iIM(gU1|y!m$SIU3JxQ#_U5(54M}J
zu{AQL<50%F=xX~hPGcDB=;FVb*iS>ct39j!RRjI!pWnagtbw(gHVsTpT{Sv1Fgh|e
zG%z?aF|>ASWb=@5vx~Tqv9+VqgJnPu5oP_JY8Jg$)rQf5b*<^i$&uFBqT%C~@Ta2J
zu4)f_8>icNPw-fcyV-%N8XOrO#t_$C9gH0ro1AL%+4Z{CjSlpWj<0Ert{mGuzP2?r
zGCsEQ%sRfeIs$va^yK<8#+lR_o0^2XJL+Cz1FeaTh`s!$=6;L~SfMqxc4+d6SoddS
zYG|UI?~V@+jZU?&_I4z8Q){ASKG)=pIj8pZRHtCq3{6fAj0|20tm9caYaURp`Kj=!
z@u}A6z*s$h8GJ(>+f}W=I@P?-2e<dCr@9Dy?)2%?!^1-pz`9>GuXCqYwA?7?TwE*d
zx~su!$EWMfu<rr*c})tR5V_ZR4ClH&FR?e`iUx1Nj?}oj+K!!^-Z-#<E{wYw-tN7-
zx*g0qTbtLl>))$yboaV<!s~s*+RuF*{K0m->1zMO9sXS%{1N!Zk^0Wo@sBoqb8EEj
z?J;<I`+>eEdh4nlhqvQ+dU+VizGimtJv;bbf5yA2!{O~ZUDaZ6`~G!T&jDZZ#D4eG
zoU+wLt%-F*Q<u~|o<NM3`_TuUoEqQM<~`MNxa(UtI^pfD<NMK4>tgT~5a+HI*H2iR
zuW@d%-pk?RYc8u}C&A@<r#tx79sJr3z71|q19k15>Sp-V`iY^*_2Z+1O`mt7wfpR;
zJ`TQ+b>->x461plFCT5K^St>y-QVc_tjTxT9L6Dxete!=&*usvbFO2fIbF?nQZ(nN
z%`UXAMw^SZ)`i$!hV!g-5!RR$C}OXJ80HK&r<d`bJN@PoFJO3uAKs=le<`@E<vC2P
zoXOM*FKe}kPc5;vW-zQJFKay;M_J2fGPT5BPi45S@UoWAr+#yb7l7T*@UqrU{ADfg
zacbp$r&f4b%X^<%;sw-kzP03Ktxv*zHjLk&j_hdx(Z-9P46>K`_2}kTsj7$C0@muY
zAdbG68u9}eT+0rGyT|ioT=U`9GG6^D@TWD{n)-cCXE4;4G~8!c&HT=r$M7=#Fs#0|
z-u_(@XSDn8uAYwO@1}cYUb(+PYW8^)c0MC@<O>^aokd_{&3gd5vlweX#vRA-N`EJS
zw>I4R&trW47b}0B{aFh4I)wS>V~uf+buPfVKkA3F|2b3hz@8boaes;R9;vw=xo1XA
z|D_E!w|R12%;R~G8}~A-bJWZuZ!y%;?|N`mZC#f2ZH3KX$X)-9j52-){F*~=IV$tN
z250@3+eglleRx*n_HjJc9BTF<_pBtZb#8^{Ik^q&{mA+}H{KibdM@PVy$@>+HS@|n
z2Wt8sYOr&&zE7Z?20xnYK8KzYwXI;si9Gwx?`C+})2~r_u-5Py_uI?+81DB?$^FI&
zZ`(iTe&57zzGWSJMZtY${LV?de02vOF1Y!&6x?~+3$EX9lH}9g-ofwf;5$3`eI5M4
z4*qZl-&JtyKT>e(KU#48j}=_M-zH_hk9Tk%*wXL!Ny+^_DY@S#;nwr}q~w01l)SIt
z>V9{We!n@wwSIS$+;5MP`|VM3zdcGm*}<nfxZfXTyx$)s_xq#det(3!UcWu$eLU5N
zVdpb^56@$q$}{eHS-_ajSjq|Td6&m`I9Sd3zB`}6@O`_Gk(g&T`aQ(>K0TV@JoR6Z
z^BAnxZ>gv6SqwGLn)vtJRIys>JR58s-^r=-9I(25dJg6B9S>H!yXoOXu$u2<dpH^E
zWe@sJVyIbHoF3H7@40r5#7nTg`^BE;r49Bh8}l1-oQ5@*_LtN+9eW1DOaGZz{o3?=
z7T6r&%fYT;N3({0urccPE$?HP+g#$zT?sZ<_U~+P=Y2W{P5pZEd*4?voTr{V=YqZ8
zTbmgFK4hG_>-T-7miQNd%QajAH>Qtw?xollGA?F#AN4uUcm0bP`s~-|^TiC`ede={
z+?dpP3An7Y242=#3vV&3qc3#^!TM5X2<$u6eAba0lRE3bWt|bY_heJk_hn$Uo9Nqh
zY+$TssHes#c$i@>YsigDjg8>kE7v~8uqXBOJ>KZyn`&QGUDwpT9Ij@ZHGD4BQey&K
z)|iC5zv{_31y&EA2K%f(M2*GR%?xAIJwsPwy?hq+UBOWESrn)CRp7Gr%i-2mPpzxL
z>h^9;dFH<Y?0kKvVC9~n)Y8g5U)I)U?loZN=J~xAthSJ0K7DHCne{yB+k)NN_^!j6
zTkCn=hP|HQ<=h*v`n9S3DzG_x4i;f=VjRi1k&&2JH+s(aYv9gPcVFeNWLVGqVtd<O
z+cv%#ocGRan>ej~z8-rE!^=Kz#hOQ(9&Q7hBm50upYincMzAsJ_9TBD!`$W)XYQN8
zWv(~Fy=Qkd&(K@I#;E%Yy$$PSUVU$6sF_!6&-O1@Po1}et&=nM4zOoT-I!kNI~nSk
z^Db~X=MK2fp?c=L8+-@j2KqI}oecA+C(nDpt|_(O3%0g;^1KhM9{zr?&vo*C0BnqU
z&hQ7p*3*|-9|D&>-vzgpdUAglte!b{gUkLt0(Xvj=G+5TPwkI_&7&Ueufgg&7<s>a
z3~ZnJd=78NswMBo!LC!^POLn>`@zQRyALaWF1y@|eSk5C;T(O&+>2Gux*h_Td+`al
z_fI`FJ_%NL{=-;#e18K@{as*r>VFDsedp+N{)5<0F*5&e!S)pXX|OTbug`$h%KiE*
z+<E#k@9)6d8JYL@U^Qc{t52<b_B{j6KM4B|4EG`Lw0~^0g;?k7Q*(aa2cFf`{~XvF
zd9QySthS!vnfxcLmuFJn7Z_h<cm~Dk<DbFhbM{5}Fhf1Hz64g!TE7fdvsNExY!>z_
zjLfrtxpDSyFV?lbzDKb08vH2sYYl#^(Vg>kuyeG&1HXy=7Q;*bzhL!ivzC7an<M<&
z;A0ti2Yv@^jJo?G{|3X{<`QS_cfn<@@4?-tyaT@vHs*T__xs<mUgp*JZwxi_itX9{
z<?5;PL$GzSk3RytkLt$sVt>p~&zzrt%Q-)Vdxq3A=VxH`ysQ2LY##OG`A=|p@Ba&K
zZS~~&Z?Jm!|A3b;lK1CeW7P9}`~qw}eW~@o;IilcgIh~Ix&I%mo;kk+m;L<;?i}^Z
z`88NQwSNOPk9xG<g4K60@(%nR*gp07O#T3?mfF7um$m-@x3+p}{}HSnK4Zr2_ojcR
zmB-fwwuZH4g5`N{b%W>NbB@03Z4cNQ`qNi0xZKBCaQjkEt=VAp%-I86&Y1)Ec~Q@t
zxnOns^Y7d8`1S^;cmM7!Pw)GH?cF*0()+$(`_P~Jupihp>9fw`%u`F9CxO+%_lNs_
zc%b?2H~?;px@YdmSTE0<z5^L*o-uLqJOylCYno54?;!9&VE0C!?<KisHF>n<+5HwV
znfugcZr<Ss!_^ix`OK^4{JhV6*JS?F@L993d50bX_g<=}_d~(z*~58YwesD27(DY_
zhuk>p=H086UypTvwCQ6$v0LC-#{#%o)}c?$`PVh`w_&YyIQl%Wz9Ycq*80vq5_=TG
zOaH>guTAYmU~_~&16;ndp9wcc-TN$mI>X%75@+twU~{>ji>Uc5@R3;8k(gu9)bsb{
zzW_T=Ju%0E4`xpG<2bl+>aN-UzoeG<6TxcXCxO$)Eb^QT_x`9G(+hqsSUtU-0=Cy1
z8OgH*O+9~4eI8gX@32$B=26ez&6k2tU>rvt`?6m(W4#C75BE)*I?KTJoAsUsR?Gd@
zr&iu$_ut%oSnq$<bvpc1c)m-{fU7M<^UR(F_VQlpJCmViPhxW}$L5=$ADriFMH8p>
z`8peW4#UgdRyBTY)^;w~9O37I%jfHSxH0PXBwxuew>^n7_X2R4>-lhhBl1n~0=O~i
zuJt0UmwEMF$WSw{*q-fQuAVxVfUT4F!lmHV<WV=q=jVlB_3#(fc=xmMVz@Et?&-x?
zwbXbCxcq&4Dcl<B$vFU44}V#Wch_jajZwG8YOGq~*MhB^nuFkST|;nxhtxA?7_6S(
zk#%76s3&GU*jnKu;PRW~GPp77d2en2n@eBjje^skd%6*B-pm;T8>1d=9IRe`OKgIh
zU!VK12CJ4j6X3GnDY*R_I|-I2b~D)d`uzXK^8D6b0rt1nIr_3kSAwmfKY6YKXKnt@
zy&PWd{VU+^y?W+c16H^8)mV9aTfph-TChBQZ3WwxbM&RJ>%jJ*Kl}Geu>I<@&gEFO
z)VaRKyZH@pW0Lb#U}MyszYVLF`8R@>7yKr$F?0D_iud@{VE(k<wE+F*agM(7OnNrW
z>;An4?Ed8)xgD&QcceZw=dZwerq9M^{%gU$ck(WO9b9c2zg712da#<m>vK`mZh`Zs
z{&!dXeZ<~|eFMYaid(T+_Zu5MbKeB#Pd!&(>bx0jUj3Q-mKyKgqqoBOQ~!qQD|>od
z<2wYuak;O5)x_yf54RVw`V;$huzl!v?{CJcrJr|z%X|1vxG}p}|6=OC3v7(K@7Z@_
zy?oE=yMv+TJrG-?54)8Z?@xSM`B_b@*4R6-`OSGx<J0<^^FHkR8D7r)K;zfuUVjj5
zj_?nG%io;4;Kr!iv;4gbbKA2xb3Y6=m-pUpiMzqRr`5Ax9|5cHZ1(3Kuv&g|cYwXD
zrSGE*HEW5pKUs77Fvc~yUSqZC>tkU1%6YgKtd{ejPtEz+L-S_-17N?g!XJctkNl2#
z2>USOeum#M#@eHrasIo`$qfIk*K^{#$7?p@B;wqsJqo-h*#75Y{Wo9zdoi@x!@a@I
v3Ev0oyqueT!N#cDi}TeIzaLmF{7DVZduxBVG3wC{1gjsw_yhgPUDuxgVbb)f

literal 0
HcmV?d00001

diff --git a/shaders/spv/eggroll-generate.spv b/shaders/spv/eggroll-generate.spv
new file mode 100644
index 0000000000000000000000000000000000000000..78d3d6ccefc6e53f80d261411c45ea1129c02fcd
GIT binary patch
literal 5148
zcmZ9OX_s786^3u8t2!YANgxRzBz6cWYb6E(BoHIeA%RY$H9;0pL@g^_)!k*PtJ>=7
zB)A+R1_VV$2M`CM;DCs6zyU>LR1`IipIm(R2l&NdEr;j1b$2|gZr1MezVF#*?|t?;
z_f`hyt(%`^1KFZ%N%rTg_bkump=4-7`8Yau%h<-*Zf)b0n=jMj%xo}s)MqI^WyTUV
zU2U|SxD8u|uC^Q-!SvMz`8SX8B&3ur%tps5qkHy@j@?ihpP8x5cJFA`E6ql$Ua2)Y
z_3>`wU|qijiC?2N-khtY4rM&j{AF@4B*)D7WM!&4J9Ww2rfpE_EN5ph&erR-%E4;0
zrwvhSmhEpJu1wE0oApl5+n7rW-=1G7J4@cJb}5NSrR-eBL+wtjH$RxI2Xr>|<~D$5
zs-5aIW0^f)>fGhMxhwkSw!kOyb%U9OP85FEfxA=nZk5p(I~Y4t?Hum|H^^M3H}-q7
zSs87%_g9;{TL;_Y)o!ER+PyPhH<Z1DvD@xeo0WRAK3#8hXI(dxRnYg&%}(uTx7b!L
z=clReQ>(P+x{RK%n&(%m^v-ywSnpZ3Ds<sMy+hd3zTOb~%y3#OsWm32d;2M6j(Lyr
zddk^*;k`(eM(waQmb0U1Mb){eb|2bgzS&Bi!rnZJ=8<|XkAeT+`%-qSj~|D#vm#z8
z`#${E>*ppW>Ycn+xzDYYnRc67V*KZOQXc;VxY3FlOWAMW`;zr?pMA;tQ#~mgr9RJV
z5q1GKN^E;;A9oQwdcO|t6PmqOvxlL%Mr}c&*>|<YiRKzL@45NE$2f$ko8SGqZWl`I
z{k)u)PjlD%=x;BaH<oxU<`ewF9?ki$!D%jg6S<;Kkt=wb%f3Y}vAOJpx#VfCKf&#*
z{%6xs`?Hp8<`b`EjkOG8KErT6ez~cyh1*N9`YKl1$6@Ro=9VzZdvQyA2eVw$cYP6i
z1^Br`4{r#*3SPcx-!s9_hkNe9SA#u=;O^%yf4hHK@QdNb2+n6BTY2jC`PRM}Y;J3E
z-f=6IWk>b|AA!BR^reyDJDtw56TxqU{P(XfZ*+fe2D^9rW&F1=4q)or3VvImxnAG5
zVm|uc&Zxio8Y=THi&N|Mvy{CP-EXlz#+FwxHP2~3<1l7CbIHdsA9K|h^)+_PPl8kb
z18~o31%Eq<-^al2G4}8XSij((2d8nKgnLHjeTvb%?qfAke3!&)z`i?j{eHk`Of~l>
z_gztQ{)GZZ9N&|O<9i_2@3)1YnsMab`?TIa!bh+Tbi=dqJy3HW+7`Ym`nv}o_x=x*
zGNUoQL;jvP2KP53<$jw}ezcF@mvHapqX~E2V}1NsANQM_#y?T;?NsT#dK>25^S)g}
z&7S+)G4*TNk@d^<uQB=?UB$dJ;XhI6;WJhEOeQ`Ju=)|=nB!fT>(pai6KrhnSHzwM
zs~;`a`5z(Is#~A^R15z$*qS5e47fk$yV2B-6Vv<a@2l(7|4z&~MxTGt59j=?R`YDd
z|6~mA7`YFE%^my@*!rF=@*D>1qi&w}F#4FsxjQg5^N9bQ4dhrYV!jWY?(hBZ{`2?%
zntJr$Na2&7#|P2W<2>#JyH5S?qSqe+o6k9W?Oj!iTJ8d;wcHKwujRvN>QT!*g-=?`
zy=dxD%SXVjQ@^*U<)dKpIcF_L8Py{0{a|zZ4T}060ILUo5Ny4X=OM5@>c;e4Qw#rx
z!TLuH9|x=XU3<DX(@%iaeSbXDPciy<rp|p5`z+>}iX--?!R9ls@34F;F_$ntjxEE~
zZ$?|p_!&&y$2EQj)Vz!4G`@Kv{^!8Pzq9Dy6JRyJTdqIG_yiU?zW_F;dgS~fSbYGC
zoN8%Kb9)9)F@6d244%ZS!@9qWsR#cG*xK(Z_Vrb;ntqW(E%xy=*t3pv{u<aE<5>7S
z16Ggs`RicUse2~hVD#}!oO>4g31-j45$BuWG}pJ_<~or0d>gDD-=pt<U8f##o&)=?
z#69~iSU+|5c$`r!{C@~mliRZ&VfJV{U&<F4e~dkkxo3Tip{Ac_;r`r<dy1Gp1*dyC
z3GeUQ&(PH4j{F?#I`!!HFTnjhco9uKdhkoIYt<wFufS;!UV`hVZv7`1)x!UGV72JM
z@4;yg{s2FP*#muzp{8Hj1AF0j^J>iB=OOq)%x3|173=0Ro`Ko3MU3&=d=}Wb;O7=R
zYCIe6y4d$hu-XbN&iWj%`YOyCjj0wf&I79je?`Gh7PVdgS34hzm}|i5tFiEVCD>Tb
zMXX`4v0p4=tp)2hj781s!0H!b*5@A8BF05vwaD`-u-e5~_`DjdPvp4-te^US=&3yV
z@AqsO=5r<%{a*^U|H~Pp-|N9?|2OpUOZ)g03EvFf(#N;;@$35dj)KR&UIVu-`(kdn
z-$(DzM$CJp?!2|C#oEiju8lLh9IUnp)8AUvBHoo?<EcCE-qa%ARbX?>6yJoa!D{zV
zkKc&bVrpA4*SmMMSpPb(F=PETV6|9(Em$qq+pC_|`vz@?8#BJs*Mmneb@SOvHS<}|
z4VW<&bAs|wYyk5vICmqqm`*yk3v<pptzYEW4c>`4AHJ^#>+3ys-rSy>dgQ(dtQLF>
zY<&^q4Paw<|D20_Zv?y6`B=LLoW|M<Ph;H-H`Wr&xrp^9uxp*)%NaR;3uX@Id@tm_
G7ykp{<mi$B

literal 0
HcmV?d00001

diff --git a/shaders/spv/eggroll-update.spv b/shaders/spv/eggroll-update.spv
new file mode 100644
index 0000000000000000000000000000000000000000..4a8e5c3be248a330ec027fab6c2868e5c0a80038
GIT binary patch
literal 4776
zcmZ9N*LPG^6o)UQpkhJAt{93Pu_0nXjS6Elih=|cbsT4gFfy5m$s`dg*s%BBdwX#C
z?4!^AJJz*a%kR7QZgW;n)?Vkgf4iP@_nGu9UcDsC7G+DbBeEZ}VjZ0=hRNUt^Sv^<
zeRSP)ud#0Zr5EaPWY(8E>T?u61ML0CM6K1)uoPJaFL!i~)vb~d*+=#)`xT`>J1nb=
zRx4Y#Rz^2h>ywk!>E6C}v)XQTn$<>Ys#))~W}EsQlK8bc_4Z67br`@Stv^7GL#WY0
z20->R-mX^K-3Myzk<M(lUhB2Gosk=Idtct$gE=0|PGG-nW_r){-OhBc*6B^7dqR0v
zquQP6u?Odw8r9<5!Fj%3ce1)S_bYOGW1Z?;cWQ5Qs>rz{&zbk#oND#RQJ-qoraA8*
zf7bI}Cvsb(S+DIw@6S$xo2*UMCP?Br*P^!?59hY^;JIpdsx_`{Fx!B>v)LNo)4OhF
z_wMEtDr|qwi+3XC*r>uX|0ec{|8opv*P!2G4`m9^DCf#~c5@8pjCdg146e<NR~yZC
zuU6VC?B0j=ZS2KORBaumKf43&j_%}$x;4~YBb`R8-kgT%%f<>S$GgD0=Ze^S!NhK9
z@nMWrcNJ$ZVygv}$JW6!G-F+^JKK?*P2IJlI@#^E_36vF&U}d<0?n4Oe#fySR^2t0
z#Lg5{Uh5z@zmw`jR-yJ%bmdf}LT<mgvvVWfV%O?o`=4{(<eZ!EGe*vt53aA|4o^5^
z^z$u-pED-69I>ZM*#{AQ?a3K3m;Pdx{x1EUot3#Zudhn<tHEhLXD9N-9Hsf3BlCGq
z^Q))%wxg%{oRcD7F+-@?iHQBi49({+W=OlaohNG*XD#%!);-wLTFzC}iW!Sqp{KQ+
zxu_+!miKLK^|V$4J+0*&My;61s1<rz%NdPYVrwl%tfijT@`oU;<=jTCnBk}udRohw
zj#^@C8E-B1wAK&k&bYr@$I_8Kt;Ab@@o~i1%MjukLSMqJ$e)0IXo-!{ei-{AME=TB
zw}#w#=*Bts>iQp1V)?N9f629+E}Z@2>F9X&A!G$F$@iy!D%uO5{`~yb*Uuij56>v)
znNDUOLhQks>Zc$sd-Bc4xx&5%PJiu}uzLsAJB{9am*N%R4eaXrUB>P`%Grnd#*)*1
zMTsMi?=kZD{?zrmmfbvZ=20I;<m}IwEr=`ny%nt8{<gDwSN7+-Q#bDpc75c`t3Fn8
z+V3o}vF7p3MSs32b^Y#RH;<fo)O|xy-}e)7z7KWdc9%YK#;N-rjEi%$z|NNSeH)R-
z*;hADkKGtK^Qh01T-?u_=ySiFcX8x>54|5T{(W}8x4Faq1$dy;J^%NJzs+m8Nqv7P
zIeF)K1K##vPM1CZ1!E3-a$fu&;2yg9QhjZrUjkmgK;N`L-<;^?sVva9CA#_izZ~_{
z>kD-Mf2Q_>r9R9le5XeuzGct5i8FaGM<Mc8b7Ie@9{$IG_4hr8|FK|s{XM^W*p366
z!+77|X^8LEw;4VwO8zH&mV-}6jFbPKp5%rQ`9G<#irw`OwjuVFh@9U>9C=rR?I&uV
z0k-xUBz(>U%SY|Az{bh{O}@zM{yR5mFJ~k6;vDF2P5U~R-DO|;oP)^Om-ydoQI6%J
z{`uhae%7Hc?C}CP`Ddu;_qh-;PCoKn1oo`^OP`Cu`pNrUoI|<rzZ@(#Oh$jRu0;GD
z^Sfx%&$n|GqRkx6u6pFS4xHw=9(@=whqlOZ16Z3moOgAxv%aOo6?SLJJHL_LJ9Gbo
zK5k;a8F6VJW!LT=z1#veM||t8VDIr(Bz$fI%l}-?+3jHC<o#yqBZ&3PFOJxq;3EHE
z{u_E1`WWI_wT0i^U~Qgn8@qbg?gvK>@4SZin`(~x5&gXL2M}%M*j4J0V-I>dFAt)7
z&K43rd%^NCFKw`K^5HW9w!fH{4p=|=n29cU9I-#`(cdIkoBh?<)g$jLco`DkVGg{o
zzlY)EqrZJ%<K!dHBjB{ZN740@kNzG5`#-_{v`2rBgSFY;L+t8ddjh;G(Vql+hOqAk
z8}lqP;<q?}=(8UQ?kTW&v_;(0VCVTj8TSlWPG9@bCg=P*%g&d(@xJM25oaU5$8#mO
zhTV8=a_ReUPNV+wU~7c_LXPKqei2<CdGj4)my7x@f!CJ0=YARSy+^)Rz{bS+UIptT
zAK&9OaQudt&pLAYMxNKf_IWs`w$2;KBBUSD_DlIT-vVoU6Y;n89d?)RRNLFgXNdPG
zj&r;V_8iXN`|KYe&fj}T^zdQHN8cZz4<pWz@!|I|SX+GePr!1<N9?CLo{#m+a{BtM
z?AspgHG2FUoc8!7x;=h@MD4G@@=@pO92a#y2Z!G`U~SRkw_rKrBlf!-&&S%MoW5y~
K_UiwrjmUrA(|d~m

literal 0
HcmV?d00001

diff --git a/shaders/spv/fnn-layernorm.spv b/shaders/spv/fnn-layernorm.spv
index 79339f91d84877fcb6de11107f0c1fa02350763f..842dddeaeeadf5abe002c54ebdb746fb002f753e 100644
GIT binary patch
delta 95
zcmZp%I%CDn%%sfDz`)4B&A>a6yU?A5fs4W2C*IxP-`&SGKDnSEzPO|^CpA7NGcPqh
gC9^0sxg@hJm4ShUfdffhW?phmX$q2pjn$np0GMVRZ2$lO

delta 23
ecmX?O)ndiX%%sfDz`)4B&A>5{yKv)?4jBM9=><6e

diff --git a/shaders/spv/gqa-attention.spv b/shaders/spv/gqa-attention.spv
index c7368299d07da3f0a2921c00212b8066c8e08d67..8b4a5f141deea97576648d2a1e6ba67ad72227db 100644
GIT binary patch
literal 10204
zcmZvh2Y6m(8HP{WBvdF%T0oH6A&P<p6;MH-P%vN%rBrZ%KWP%1NSd@wQVK3gnIbBP
zxD{7Hz`ggvfqNou#l82yh4+2_^R(Y}F3-iw`@GNhu5X?H5N6F>yi--psCKD#t!|xB
z)z6;QOqdF;uh#u5R<BqxIW@H8@FNb>VYg~l?WfP~`1GQCkaYv2;|}bC>;W&gXN|S3
zQV}_e>{az~jGk)es((eNf91;l6(@BD*RStPPF*lI+!-4kAMOl|ZX6z*8r?Lk-|WI~
zbbN4ZdZ={h#iOj>OO4so7@QcRx7l?+YsWhMV-srz#!eaEG%+|ZH99eV%8B^sYi}DT
z&Ik8YbHP&+Qv+k24cNWa-q@#4PmU~`7@wS)te90_%|Tad2Bro_I+LRp(qnk%I6l3u
zv!OFGJTNo~zf<k+oaN8k)C^!J#?{oDIj;k5=bh8wz~BfgGVH>-()QzePYw=@QFc4m
z2VOriFe&Gp_C@<Rha=J5UPp&E*IZ9^G`icPK7G|vY<gR}ablWnsHX(qQ}uUw+ryq!
zt-v0dn5yw<Vnn|uqBnGQ<R8I4udugbubLj-I6CZ_^i<kDs}S>ET3g+IuL3V0zF?VC
zmv-KAKFd4xiqtVzcPVghbv<};aAM=|_L_awHn`P;8{MVV4zYc8E_t8YAJY0ab*Vbn
zN5Jj%x(#l}di7Md*FN=f6Vp@OfxT{Eb7#|lXKq$?C-xvBz6)(_{r({491L$>UyuC}
zJAVHHclWQS+Kq!WI=-ocZ|yf1yX)6m9Sv^xw-jzie|^<S*#B=omv{MQKYOc{*xhwo
zQy(7tJzK7+dk#4Ltp%Uo%wrvR)AqIQt**pAYhY}8xY;%LOwQ-5V$ZH>IM?Dj@Wk{~
zokjcg*ej=})=y8lPkps*JU(!pp@FG^dM&m!Ir@q5U8CF=>8E$^hj;B{JjFhXyJ|aU
zxSaPZe#Xf8-Uv6V;pP;aG5Yz=h+l8R`R)kkebmo;XrC9O<&3w_t!VR~3?uf@*ZA0r
zYqsm}{YWnH!tG-{_1#%i*v|o%wY)p2m3x$0vCCTCtJD%(%QbTz+GVXbV3)PFVRviw
z*7pyyUI(@D-ZS%c*P&~d`L3W)na?wn-gBPPd+f4z&sTaEFQnGYrnYuj>vh;=Eze(i
z7yInU-BWq)7Q*S{T(rx4w_tk~?}O|`RqHOqTYvF9Vyw3S@mYY)k8dsV`(WP-EjGsS
zozbMN`J)@#8gd6?>+AXS(SKL8WAYjIH&||Ovd%*<K<1Ot`=MW3^pP{)K4^Q=*ZSJ7
zublI7t_u+JTTgpG#K-vk(V0`m=fjo$uA%kjvPuV{<98_7a}s+Q*mX4Ta<pq_ua2uv
zMSS9aCfId6fPY_%)@MF=D_Yw;m!Qol=lrz2U#W9>gN-$hcPn|kJKE-XF4`D5^Jsfl
z<c#y4ByJm6+qfIi`p6ll?H!TJJZ=H^BKqHo?ymigd4Ch`?wRwxoORfJ21Iqyak2Nr
zzUOD(S)%PaAB>&8yl?5t`=o81=b-hGvoCG$PvX2giSw>#8}|mZK61usdr#z2|7L98
zpNG(mbMfBDDW26MnXUfry^nkN4;a_LobJ2tX?1M#mA3EV(mt|f`~6dnFKyZVh3#2e
zQP{@$?Ni44{ZrZ_E&KYG?Kej0e_PAGy|Ar+M`0UxXJI>jSIhQ0qs;GjMr{54)+lYi
zH)5;(-Y9LqIZAtJ%l3Pt9ADnD{m#g^_5H?(t@b-3w&Q+l#8&&gQQCexXdln1@SV3C
zvI{Z?IfgUhIo}<TKb8~ZdC`vly}|l>-r~O(SYCh6leYf8!~DMRz300v{s%OCeD2ry
z_<oDe0<iog<gurPh;a)L>v&G(l4CL0I*X9xxIb9_W^x>eegGopT>nmvgU~+zWZsTF
z5P2Kooe?L`gTT%!_JhIJe`}NXV6Z;&=6wj-$Gnamg2<UyoIFdwu5adW7}z=Z{*KQ>
z!Sbo~FtBm*catx9)qiDYo#(?5>pBPht!ZCJpndF1pTiM3`x2+-Bf!o#eLWIvU*-Nh
z3S0iNW`B+X8z=An_}-99&PRjGoX23da~@m!^X_bN9*1q5yg7aM$fd92!R;I;)Z;sR
zPHcRZq0`GrVEOd^7_f2j)>(>{i~q@BYsWqXyc9|NW5N2!8{dzX6R$v@+ThdBa}f7!
zCE9gY|Bd}vg+2rEaeOt}adqlG4s4Fh|17ZcKNE@1<H7PdFHZm)C-1&%pN?41{Nltu
z3GBWl|C7P(^*tL-KKJq*uyOK<dkVPSR|if$ap!`Kl~4Tvu<M*WYryS1gK+Z6GXyqH
z{-WmG41>=_982z}f?d1#tOe^Q?>_lEBp3ftaJd#w!?u_5Zk~rNpI*km#>r<6>%hj9
z=WiTaK5-LZW91XK9^9V$1~~b|Z3G)DpS~x-<vV2xyIp@8PCj`yfsK<-{qw=?`kUe8
z6L$gFSoy5$g<$(~EImCP?43yNXMo$ep9v?Q+|L3VC!gHU2Akip<h}@8?&}t8{p8)(
z5wu+VF9W;R$MdUlIr<9ZQe;2GG5zMDuS6V6-1ETZO5F3oS0lzbmbe#y9lMmXXr5~j
zbIHf&TCnehEsf6$!E*ZMogwFY;0(0)RGnU~1DA7t5w_fX#CXT#%J<AF?8LtqT%PTh
zV7nj2$LFPB`RvEbz{bgEA72hO?ocFguK>#@?v-F;<>T`z@X<)}yc*oja|4`w^1KFY
z+zm+1!)w9jcPzPI2cC_@=k;Ly<XxNV(Q@&BBUnz`{kj=(Z|v<>^qUZSy9J5Qn;SlR
z{1$BE<a0jW3cd;Pd|1QUa{9V2N1)wTwe~@c{Wf&g<?Uc=FGAAqJHYb!rg<k=ZcoJD
z_;;gyeAhenF65vY-CE-0c@KDx!hSD!E|TAk_ks11Pt5zlu5D_604z5Lxsmlc5dA^K
zSjX(=!)PD-aqL5goO2f^_ea6@levEk?A+%g@%cDdKEJ!40DlybcYQyCmW%%<!DY@*
zVYhRB8csgn9G?LjCvVQ%&~nN7S+I4|=jXufoS%o2&)NL~*f{ybeGzP2d3U~qEuXkA
zgN>C>{jY%SDS5sMZs++LoP6?p9c-L@?!`C2=6B3_-j0?N-+}&SgYQJUzn;-=q1`vN
z-z?uje;4s_{CjA})#>;9U~{D3AAsBa{t!++XYWT~<9>*EZnVFRSkL_8<o_|)-edm+
zY`x6$r(k{Lb2onmz6se6aopH>=$|8wxdwMNcE)~zEf@QjVAtvW&AI;-SRZ-M{cq4d
z_V3uQ5jp!8C(m!e=FPfmyO!})YrD?Is*UYK{|+hV`um3S&X~_JxpMDZL&yGrKDEJr
zM9)F=`xDwaYWMgr=)WR9j{gnqxH^6O9c+&5@jt-(B8MXJxf?8>J^m-yIC<Ad`_G8=
z%r8#tzrp1m{|DQ8+2j9$^^wmW-viDbJ8mxbxSGM=bP9V0w)?o1eRO;#wm$N6SY^3c
z+UWh8ao6u(4WAx+a4381#V&j7!`4SWz3c=wPkNq>ou2i#j+}mpxfj@&*gIppms^_t
zcfpp^FZ(R#-noyitvY?rVXW+PS8TbQA;;v(v*8}4{vM23e-8ic=~~?zn}6!xGspZJ
z+7(T2dx8BMn?CmD-%jMj{@o;Ja30t`)t<q9(EB1j_HmzPT%CFB2R28};QrwD8N4r?
ze9qtjVB_RHgW7u|*0a7i`R9Yn{k<Qy^>PLmfc25j+AIV+$L#MSaQ0XK_$>xImhXxC
zgXN4*?1A7i)-{vU*EMl{>{*?j9{?_Ud?2=5_SP{u<Fn?@UHikVwfWTA?`~|rC9=j3
z0=veGkkouIoP53!4gt#@jQCz$g7$H}9eW5OXDxB^917k8zu1Ri&&AH(Jrr9XdGkIT
z?PFfY9)`%7SDZYDgJ<KHIUIrQ9L_}Ib0nO6YCQsMoV;t1yz2bT<&j|PItTr&X<tX7
zee6r0M<H_dB~HypgPm{sItJUm+^hH;t3Q(OpX0#B$$K9BTcce3j|Z1IPrz>HTm~nf
z@1GOF#>ty=DZ1vk!@mC>gWb;24=11APi}mc6}_JVC!gLQ3pP&PIwzs!()$XqwPT+O
z)+h0&f%TC$-oKm5#s74$>ye&Tf!lqb0VkjDq}5>K<P-NeuyN&Y*_m+ii8~8ytbFP}
z9&G=~^8|1^&lBO~ljlib<K**Rc{14ijyX^N9xNw58=c?qbHI6jJ_YRgQv3cq7d?RZ
zcz)M3<LdM~2sTIh9Rj!e9fp(7y?83vIC;;vb_cPZ^~K3Q0=D<qqhRZ0o=*eoBcFHP
zdEmVB95>eAm@%+puEAQgcJhvc%YC1~ZqH*qoP5@O1K2qE%zq=;xbh57!pSFY3T&)=
z;-<mImG6^HaPo;eA8f3A`rZsK*Z%_ScKr+C<df&=VB_Rd{~6$R{b$0-C+=BbW975{
z&j#C<W9jK4u=gstw}9KZFNTv(?yX?s<dgdnu=yQJ?n}YGhvRb@wtn*N>pHZY{_gqZ
zVD~!l&jss~vvM`~D#UMk#}fBEuw(gceLmP+^6_~A*t@i)`A)e8ET?bonVfgWd*s<x
zr<ZHN<yn3qwp@N^9g{OYchftP_!oi8GkZO@>s-G3UkoRob$$uhIQi_)OTq2^c^RC1
z;$99mRzCG#0bYtE&nv<0Jg<V2Po7tUjg!wF-T*egW6Av*aJkQ~#nw;WwY?547ylc<
za@y|uO<?yX`}{`mHpG3_*Bo;CxxPoC-5<5~lEzkR=Q~ENeGpoI^?#}v{6CEu)&Bs1
CS+YL>

literal 9812
zcma)=d7M^d8HPU?W}raD1b2xgEyNHP+|dYS2^5J!t#lk_CK(-OfSEzmOi0{Hi#99U
z%=X<D+ZVEZF>TLQ+tl{5+$yu{`o43++xhiJryigCx!-4dxAPsQZS;(>jgC=`@r`kf
z*Ntj4pWPdy8^ZC8j;3C;Y~`}qL&H6@kDNP4hg}<OO+S5hYfNagqsJg?yZQzk7?13Y
zT!vhQ+=N_$^YzF?a_YM~GO-f#wDG^u=vy(`@hJ1PGd7N~?!kV>#x?Vw*WbCQe{gkI
z|B``?gWX-jeS-r_PR2)H^KKZtu$gBPczAHQtG{zSc6(z_?9)ev)+`tt7#bdG&`n2^
zgKn(u8tz`xIn;M??@r#{21eF)uJ2sa+to9K_t>Vty~<y(u^PZmE>}nI&Yr%tz#Y7E
z>h9`Z)7#nK>q2!@{kVQZ-Cg~Zg=uT99kAK23*PFhuV+(}8`GGJZuO&2N8>nb`Z#aH
z;K;hFefTkr`7Pd7nt2yu_Y4j<@nSKe-%9lQ&Yk&JV_#6%mtwCN>D|!R>-@(ww0%|}
z_Uk_TxV~4Qm-b$?z-h`kM>(IRoz2-dV>}l=#%x0mbq{Xn-BGinaU<Ny?hWq9N{860
zW-fW3raz?hJzqZN`UtwdUY~^9xn5%$+nYW^&HkMKZP;tOHg#_7@_e;5ZpZFM#CM{t
zt=~Oj_Plq~y5`uu*zvm$Y(o9oIW&C(8$0oB`i;kK`L#D@f$ROvf!o<%M`JGb|Ju*v
zTYR;j?TwSLTkE#E%h}lPGP$bmso?Z?2Kd6Nzq7#`cdT`L<09-;UHv1y)vmc`az3ky
zJ@XFxILEEv!I9x+7VTGHFCQ6RH!|Eh@7g~2z;*U?4R<yB^Bv%`h#21!%KlBeZO6S@
zjHmb1XGTjk!Wk~-T?*%2l=B@CuC3xG6r3^o`F@CBd&T*lu&3vtI}m*rv7VlF^Dl<U
zx%b^>d~9?2=<i){++5;mh)?Y4EwgEF1(&t1z)mf(Pin<3Yk7xKOKdII$6DHDtv6zq
zwQj_2)oO2ueRk#^)4WsWYpp}eF7s`oP?^v3lHPN6(tGTk`P-Vm2kG5&Wi8|FUAwIH
za_q8}XRB4Ky?O2k`>)<TW7FW;s(jkXw+E5NPGi(@@nmY6e=6cL6?-gNk>3mZF%>q(
z@yDV`+vJb0Y|paXENtUEdp`Q_f_6+k<NgN9?MWw-(NmEroMO+uesyX2jG>=aUHz=B
z?ONKSbJ+(y6*0H9wD(1P>}5Z6=9BR$aQaVTMO>@!Gr^vL*z>@ynR!k@yGHiqxOx%d
z6aVF4*X#iP>)q043fQ}&ZJy_&T`M`~qwU?1b9_sMjWv(=CV9LU+WK9IHb%}o+E-Pa
zao&N%-3Zn;?oDXpZbXdJz6p`bJl+a!NA!Oiy0zA=arf!ni0h)i_Ir?VqjuWw#r8Kh
z>-0_V!=oqP5t~mip3Nu4HullGe>~g1y=&>)yQFO&7o+V_&c3z1J95T(ZxZL7(Khat
zXno|2)Ao+YrT-hSeNP_3Y@F+BvE>xc?NO|T^Yv`_xW^B{xJKsmT=+g#$2MPS`_3)x
zIW>E3&GtK|^q*hYr+^n0wtlX6>F;+=X|Jx?+iJGo5~aW25v9Gou&wWRL^<wvL~O_X
zmMHCe3S0i(!q(q!iqhZjir8wuD@xmMi_-SHqO|?4DDC5Gw%-#Ox4z#JvDJQ0#CF_o
zir8wuD@xmM1nv2p3g3UbBEBO%XY)8C-jm%B`4c%oo)_)-KMt(F=PmwwfaUe~JZbCi
zJI(J1--EvE;(tKJ$LH~tkMFzqOa;qtC67H#LyVh>SjTfJ7ylVxYsY>9Sf87TpN>8d
z(MSG4;-852`3G}$>>xzW`yx)BCxKmq^m;JZ`S=cw&n&QfY8?VLPX1x?C9nE^R^NV}
zj99lF(chZ(btu}$zVw-m$k~@TH4g(j-}H4j*uKg&JOW$(%4!Xd1RE#s8qPt>CFfD#
zGUw6Q^_<7R$zN0DJQi%6yg7Y8$fd92!Sx&`z{$tw#L8zLI=!3(mQU|b0UOui+nWEr
zl8gUS!Pbtw0PMRd@h5}zk+;wJXgTph^r8wcMtc|Bw<T!TUHt(2u@t=w@p1fAwBzd3
zJq>J*%<Xir^Iwj{X9ZY3=jG{O<K*3U?WZBuGru^o&j7n`$^T4neSKHK$>;8z0X9xP
zac6?-eVqj-pSWj%jg?RRXM<hm<arLbp66^h`Q$kVY@Gb&>fCgK&F@%pp9^;F;?o7z
z?_9)vT8Wm6e>b>XiymxyDeq=4wtRYdF4#Ev%;7w+apn12gDs!9KCrR!i8~)$pZf)H
z@`>vQ8!Ml_*Mi3($uj`1*B^wFPo8yP<Kz>!9$c@#0Zu+~Ltta&v#!Hn`*JKjjexxq
z$-NO=&wU}Bd~$CB8z-OK7lF<1SaM$sF8B2kZ2jcj*VSmb_-_Wg*YkPvZ$ZBRxeVDC
z*^KBn8GSk8SmLe*n=5hGfUiP~b1ZQ$1Uq&GXVE+_Ld+!}pKHOs7q(PB*Ma5q%{xQR
z_rNl=_f(x;UJNeh{1R-rDTwio$(8S!rPzsoDY!h_FT-{}jE~RD!SdOUSAdO^&py5q
zY}`yFao2<86Za~xvGVbGHFz$PJg))Q^V|R@pFFPx8z-Oh@H(*h9ZT-lgU2E9c>`EK
zdDmteS}y)?2Fq!?UvEL&8+&^j`t69ly%mYiJ1RbV{7!7+<a0jW1-=RKd|1QUa{9V2
zhoaqA^<C6{H(GfQ@(X--N52<IpYH=tEbRA#Cn0&y-wf7AJ~1BvyB6<aF4NH;MC2wQ
zZ?CuyfsJ*{Z-iUWKK@oX_F+WMUd74%QLz1F4?hNWoys%xacuegPJRMxoV@Gt5wu)#
zehOUX{4{nw=V##L^NsLXuyOL{{3Kc~IX?%sPWrqRT+jJ=IQg8lFMy4cPuv&5#+7IN
zOW5*>`!d*A`PBak*q)N-tKfQ`uffSD&)31m$>$t@18jcBoac75ocK2MH!FNQ+Wqy6
z-GO%B)P7@p8~q)`$MNr?9apE{?}5#ce!mZ{_xl4l`JBBUf{l~++-QFbv7Y(G$^Rqp
z_QL)#*m{}gPr&-f=PvyeoV(<>xhA83hB)RL+*#Qf`#H8;?7P6O(<iEP{|m4_cOjnp
zU!i^M-?3jJa`rDyo?nB_n|0TAE#s@!cAbq?8{2{Y4N}ha?uzryn9nh}a_?M2$L>Kd
zs_?z&?D22G)=|61zeoQ8@iEUI(T=Or$DhFF$R7V0T;Jorz{zKi{|Yuv-Zj$x9b!H6
zi<AFv;O&L|cd+%c$M=Kvk<T7K0L~sep7nkZ>{#rF!0zMa?4xJkVMHJK39Pc*Kaf$#
zeu(3)-+gHL^!QKk_QL)bxa{!}Y<=WY``=*mq~}M$=~;j4$my3D8!;yKC~Ws~OV$5q
zY&re1&vNda`{>%L({~$VWuIfP<#L7`lQTYN!#zs<v5Z-N0{>QYtsaBT|C|4&bj-g)
zU0wC|Sg?Pm(#PKXdxV_WzeVH>P5|4d+B3K-dN;(!J|<S<>da$zusL!D9|x|V!9C#Q
za|S1Yjg$8bYVU$r&-&uzpA6nk{n&eATQ6sDFR(uHS)0AV&N2JD4><d)fBg0ZJC@)7
z{lId@Cw6~u8S9$K>Fb)fKK86mj|YIu9;aZ-Wp5pmGd^qX+_i6EuI5w!Ki?CNCvIY~
zK2xzLVP~zUVe2FB`*8-^$8~pXIwEIHapv#@@HqUkuLokgugj7690VtyT2BNUC+}R6
zSDn9UJPB-F=cm6l?dxE)kA3Mg6OpqoacUj{cE0KB$=LSg+Qw%#oP54l4h0)0@BYm~
z%f<gNaGCRP?0U{4;N<hYawOO|d2{+VJGu0A6u6$_XgK-!98>wsD|$Z`PCmUK2R2UL
zI{qzCF1?=sws!1!V0{vQB3K`J<Ne#AT>PH`c0JP5d~m(*r#g=0yJi8{xF*j##`p8d
z*v8E)=5h+0eBu^@jg?RRMPU0+{l(yVo+WVd$@4U@aq@W&ECrk2G3V*uMCHWG(D}_h
z6`c3oX<*Nn+V|b*=oN^M=lAK=xH|o=1e+uMJ_B6u_nC0=xfiRz#>soWwU;B-v%Wa_
z&jj0h?6bhu%RHY2)<-_?sAq%oj&j^se-oYqcFZ+61FfCB=YY$7@5HXp<6JoTta}&O
zIQh(fHQ2cF40prHC$0x<tbF2n!N!&Eljp+8C+<A3vGVDA4Y*wYKJ0q^^Wo%^=K`>C
z@~PhsuGe1+C!e?hu(9%4|3R>QIhLN*fxTDBy&hc8y#Y=>xre~U$tU+P*!+$q_Xybc
zaC|mm>nHENo{g5%-#xz&>|Q7Sd0>5VRxSl!g6xa0V~Kk{*s=T;UIsRoe0(;8y-QoF
z?}{y8Iel}_<h(oHBhR)vy}STip5@E2<?_4en4Iyso8FPcUjZ)9?3LKAbNTMS3Qj)j
zd^OlO`Rva%;QIc&5KcaEF9I7YpZeE==OD>*9k`z7#c=Y;^AfOe^4Y^}VDmec+%E-}
z`}{I&{p4NSt!TOUzX~j;?Y_Sn?A~ObUjx1#ai8@yhn#+{@4;yINBu}+6n~o^)%XvI
CacfTi

diff --git a/shaders/spv/loss-cosine.spv b/shaders/spv/loss-cosine.spv
new file mode 100644
index 0000000000000000000000000000000000000000..5d403dc819791cdaca923a64c5ffae7f27c1b05b
GIT binary patch
literal 3024
zcmZ9NYjadZ5QfiYlMo4Vk(<}BA&3_+Mg>F>NC>(_SB(;Hcv&}rC9BzNOcp=*2}`Zg
zKV$hD{88SjtnzuznYN}fsjhzC?w;<RKC_eh$jqK%yjDyW6U9zZtwY5~Q3FmE<E3u4
zZnkE3hPP+Wou4yee^D<3jX6;4EymEJNWatD)G>)1MlK?YNEbOsE@KWM^N4$uI)5YR
z-yvf}<ax&MP2lSxV<7Y1-Do#A2CJQorOj^#Yn@?lu(@=-^pBRgm+$SYL#Z}ia`9?s
zxVGNj>3w%cdlhHx+r55S(_Xha+nqiGux3NwR@Ki*eVc>r{)-i#fe$l&3O?v|ckT?U
zz0bNAG0!>l7Q}O1054y==P1e^<gR7JSZC!DUquhoz6J0~womR_L5y|2E^FLEm%S$5
zMwh)NZeOh|m)zAt%vClAZj#GcE034FUe40*bc0C0q03pg!sbl1jUwhaj~@S@*UK4H
zIjVW!Djr7MAM=Qu%`_AJ=5jvMh%30?#wDLe=e3+u)QXu!t>AgBMdG8D*jhEj-15BE
z8a%J%9HUmu^bu^HEBFlD<++@*eshbh<^JGN>o8XB)9k6In4|2mb^~!W;Cs-D_T%se
z5_XUNz33XE{Zit7TWx3H?%RjBjDHZVPx}<y?=4pJKZG`ycJs;o4QaE#Bj^TV4)e>8
zA};qILr0HCIH9vR#tElNe-(2A?3uKgLp_bSBIjwaHJ)Ivcg>h7uy;vrt(VcBO`E;S
zy-V8kzm~9j%`=aVJPTmCao5o9(Pkd`VzNblpTpZ*zs#9u4IFvA19J251eJNTnMdAD
zw#ZXHV8#8ba%av{RQ3`48+Z*li`O}BBgSY~E^zNg(4&aUd+-+)-)U<)SKn2&+*vnv
z@sqpwOvc@JY8Ut2%k%m6<=i(d=e|`r_pOpI(53fpKjIyA=9kkP4kY^(PGtY`@Erte
zbHDfNIO3i3-bIYRZ|%Pl<DGjHai8`-$?03?`iFY@9z(P_JMq6vU98O>8tCbSomXII
zC62mJg7e;<g4>(-H)5U!YyXkn{N~Rf?$d59=dDfbtewl>^l}DmPwGGD`#JP1;?n;-
zTE9AK&4JAkvw8u%yC44D721DGvw8{aKJCs&eipHw`Nfg{6|nsVe-&)K`{`_#z{Y4_
z;I#e*FC+dg{a*Ur>+k1EiK}yarz&3kF0RA#I<Ld?I&Z*@(H?c0;6=nb`lHSbus-MO
zU6qG#32g1)Z-R~aiSyXwTZl2*Bc=szAm68$x53(sjk}{Q;@<)1HQr4;YAnNz(H?u=
z1AFhH#`|Dx##%$4wurw8w(sC8iARkO;Kpc=m=D3;=cw@!Sevod(5KD2=DqVSsNL^9
z{us%>$tTHn8ts04+VZ>Xor?OOf<4DRvN`L|kQ#CV(HDJv0oLamY~EXFZIS0ou)Ri}
z4mk4Yi#)4feUYaP))wcv3!X^aetJkF<6nWT9d*A3n<Hkt0X9ba&*^UT!RFETL$Ymx
Y*AabjcL(4u;@!0m&#BE=-=>SmfA*)kW&i*H

literal 0
HcmV?d00001

diff --git a/shaders/spv/loss-cross-entropy.spv b/shaders/spv/loss-cross-entropy.spv
index 0cdaab97e51ae2c29f894330fdd7be143c8e4027..9393817dcefff2da539231bc03f6565e80708e25 100644
GIT binary patch
delta 95
zcmaE0vBHv@nMs+Qfq{{Mn}K&CccD8A0~dq4PrSRozq^lXd~!iSd~r!-PHKEkW?pK1
hN@h`Na!F=cDgy%x0|%12%)I2B(i9{G8>^p60|2cR9Q^<Q

delta 23
ecmZ2s`M`pknMs+Qfq{{Mn}K5@cj3k(Pox1nvIWTi

diff --git a/shaders/spv/loss-mse.spv b/shaders/spv/loss-mse.spv
new file mode 100644
index 0000000000000000000000000000000000000000..ec4412153d28eed8ea5020c6b9247114bcbec59a
GIT binary patch
literal 1748
zcmYk7*-lhJ5Qcl01!R;(Hdj0&xFCodAc~k^Oh%Hqm_+W)C{ZT?#t8TV#@F#7d?}5I
ziQm`fbU1A)Revpibypq6>d?Y)XjDQojD+owpUE&3DwxgCh`QZ*+gUw6*<W2-e`v;7
zsK!Kd#=~f+qie`vuYY8qiA*7j$O^KCOu%K%BqFJ`N|k>@=wE<38D*Y2u@Pc@q>d%;
zr-OIxgTedW!S2zw!H3>Se{i(>I>u{}yL)>485q08Uf5nrZtwJ^_qBI;EUtzOykEp_
zqPwq7KcZr-*waPKU5qH_xre=1$`yO|5OaOA$DWVTol>sY(?QI2Hl8-QzE8OpaW%fj
z*}Ne$y=4LHF~5awAkM4}mv_$dYtaUVONjO9J!kd#n~cll`{eT^oNB~N_{+U~bLy4e
zpL!)+?&VBUFKv5O5V^(WUXQ@#Ud}A_O7pvn&vzwU?&VC4%dKrM>l04Brts=-F}rG!
zGeeENGsKgDhtZ1uIq<o{w#N7<x`OE6DzJOhw+y!KJmN9`0@|4Vc{;n>yk{+3#Fj^&
zTw=dleco*vogs-^JcD@To<*noP4hbEFiVg57|(NVVEZ0@*NL?X+q*a$v0Tp7d+YNq
zV!so8#%~vP;#mS~%i}j7Hg6eijXrtAD}~Sg?mN}FPqB4RiX45`iQT7MX|B()L*)!_
z<q-ZxoWl#SIr^0iz8QD!-;Bo{{=wsKm_3|}zd35Lv&ss*LzcT6L)@?T*e1u_jU)PB
z!f3rX#U`-zS?_-45O?a{QjUKc`hSw+&aNQV>HiI<zX_hd^fPu9(dXT@|1kt@eTnlH
zcHXxUcXbEs{_JbaJm-EFF_!A?W0&hz!S2gCW2x=|wz2QrSswp$kW0UF$k6%{?>e@;
nseS`HE8(XF{!#F4g3Zyt!<7Bro*{k%-bFt9=rh+DY$E>wL0nK@

literal 0
HcmV?d00001

diff --git a/shaders/spv/mingru-backward.spv b/shaders/spv/mingru-backward.spv
new file mode 100644
index 0000000000000000000000000000000000000000..8b99cee93375d14e9a38362f26fc2e67ad87affb
GIT binary patch
literal 6080
zcmZ9Oi<gvT9mijo-Q_NlnwJ6>sK7Lo5;X|{T^o=sOiH^l3_HW_#4@w)4$B$_h>BEJ
zbhFGNyAfT~in1&#Gb#;@?ic$%x}8&}&*z=z7w?&8&+q)c-{1Xx-sgR0OVgLm$g*kK
zoNQk9x2&@kWYe)^*!pr^9^5jxVxnDJapkHjj5sSR<$=b`&t_!3=pJNOwb9hE1X+%p
zO}_R8$U4M$rNrNK^wW@@Y<5;2tduuzE)U*V85$d_OtkM9tye}H&3dKQ7_Set8<Tb8
zW)|Wa&7slVwPHXo5ycsLnQAsYCK|)LT8-NB9V=I3DP^;;O(DI^J@1UaGCW@G1m(U`
zHdkN57o%%Ao|!+}@Mxtx+S*<n-PoLL4OQEXR&(P(id}}@p5wlJ4~V_3HNLYv-r7B8
zP%nG(D*QL^o*22I)tqQon{E5_;nD7zsNY^0tv9iCV%@WmMy*zFvLm~!(UV<{ZLB(8
z-9@s`daZfw@dlgH2Ietq(A%pM>|Td&K-Wep&H7Xue<|ApH&}cdx>1|T@mBCKW$d#J
zT&}k3WwdWo?vk75v%18?=*g7V0GoF!+B~^SZtTvSb#Mz@OL@10&2vA^le=Pn-7A-~
z?LqT?EB2N9Uh_Rkd@q{)9jQ!q{QKa>*OGrf`b>Opb`U;QnHZ`zV-HK&A#Bxrw%+W1
zF#FeTwX37Ryyu6|WzLR!>%4N;00y7)NQZ)Zvj@PnN~eQnXMPZEe(bN@HGskVhdMNm
zJqkWEZ%=j%Zf@+c+%<r~+~XaZ=biwMRK~{ZX)k^N-_mBI(atS*`5fjxnX}G}C&9If
zyU^j!qU{^+NbVZIVD707&HJ7P$INB=EP>BKUW&+<Cw@`ROZhi29lU|;_#T$RU19Tk
z(AI-kqk``HKQHBHv;^OPZyVZm0b>3(32SLbk>5GP`mN=8UX0iyxHG%tBj{o;&vo>Q
zGakKy7khc`qnFrTKCiXq#a?6ZVlTgi=oQ~Z^a@_=<+l>O#P%}ZUh-nE55kMRJjc;1
z&UEw&UhL&Lk6vPXx$Gq`_WBgO*vm5?z2f{|h|TvEyx7ZcLcg`e_VPC<c(K=)u@`$C
zgGVp1D|!Vl_VOEwUSfM$&tCFkuP2hPb1qByHx<3&`-(jbUhL&J7kenSSDbNqvDY(j
z=ZIc@gV9UuisuSm>~$*neGaj`W+1_fy<WgR2eIBcoYv{+#dNcu_{AV+>CdGnuVXE3
zi>W^|VQrVfwa-Vg?7-Ud;0r<hQdU2F5!zVo=fnFGwx9mR=xI65vek(@uQuzO7td<^
z%aTuf#4k^_h`%K9MZ|mW7^|4S0zC`SZob^#Uv18R1-c)J{_>THoBwLCvDQ169b1LA
zuW@S;SM1Bi4$b@C1a=>cTgV>AJ+}zF4V&EhRkZJ68{&NO?T9x0wS?Vw>x`hq)@h*S
z#=RSDjyCJay_2+=H-?Tp?;E*!<7i{FnJ4#t(H75jANcv_2G;~X4BxS1$6D*g-Qzso
zEpqFA7;O!0)|DSgHuK^hG4Da_a`Qf&Vzikj_nwI7h&#c&W7y^9eI><cGf#dz+3fcO
zIG*3{S8m=9Q;atA<bJQw?-_99Jqwnb_p216%{;l^V(gpe<*&#(<T5JsqhCO@U6SM~
zZa(9^2V8z5|HR^bXidMRixJOJ@MT^6+AhAPz|GrG;5UIc6}a{N-!bZ|w|4R2F5c?m
z{vTJ&pX%a!yZF8?zQ2nf?Ba*Ixc|o$`}u!akss~iC%X9KUHoJhKb`n`-hy|}%aJ9B
zchVZ(iSP9li1zDvW4<4G#J>`}9Pu4T{H0*+#xFz5!*?0j8s>Y~yau@(@eYcZE0g_E
zV!VH@Ld?_t4{Bb6cKw_A^j(c;^DK$~lTFL9w&=4O+}-DO*t9#R=Sm(kTnBdc$X^FG
ze=QO*>%r@gdzjOGx*jo4d*s~!?(RE)O?%|s2sT%H)P6nKeL9e8m%+wqcV5rEHnC@Z
zBN9Ca!QHdI0h{(a*)#9xHzL{&QeVC~*?bSy^t;jaFZT3iw0o=mJNdVuw;(S4Z$|4^
zJHPebf>`6R^bT)LHuul>CVvxREpx^3>~GESnObjyTg%zq=eHx;BK{p<-(T$KJHf_i
zkNtZW*t+_BKJNi-QDX?KZ9R8a4P8gJBhIVOxIXj_M4vUbCLT3L;l&!e;5!j(=!+Un
zus&-HqvcVf4KCK$4fprS8v3HfBv_v{T4;Ir?f^TRzA3c)wY&%Ce-APn(XM|_vPJHl
zaA%rJwDIpnrXlAc`pnsj)*d+rz|Np=KUyCB?gHCSyZ(J>ZIOF7*cpP~1GfIXY2JIm
z#%MSHVD38;|30`iBmVv1!-)2~QjHIQ??d!i;}BY#Jr|-sf)w}sqwph$d#*2L`xsbX
z@Q;K2_M*=xz{Y5|&;4j^5&ucBHhmAE<uSu&z|Ih{p9LEe{Bz(vh`C46^4Q~t!SfL9
zu@9dITjOCQYJ34)+}kh0jnf|I{!8G85TD(d?5EAxnDwjR;;dhT7iaxC+*xCmZ-9-_
z9<w|Gc9!6eCLTGD!Hv;=cY2TC1kXqGMclW**4G!$@NMvM#Ak3;pFx|k_Va%F4zdY(
zgxagn-%U1i{EhiO+T~rP?|aD8h<BAZ_Toq2*bC3nj}h-8?^XFv5M#8*d{2R&MC_$M
z_TZ=Brx53T94+^Lbr$>DKYSaze8xnbpMlLc_5@lUzMq3VgTa3RHYWD-mtbSGn|~6m
z&3K>ZIV7I95Bxl0OyvJM+585h$8W&<5bK>r%j4|+7VO#89yNXkwvN8ov)_YHA?}$o
zSWBC+(dQ4~;<Nn`eh7)We*zn$-F&}YZSL_Fw0o?!o@eCGh-V~zBma_YE79ib(^mYA
zyan$6AJ-uMzv~{&MqD$ItI3;zo`u+N4m##PJK6Ws-@FBgwz!L51fGVx1ko4w&N*Pe
z3;l;v&vTPa-+$>NFV5tiyNWZ-g*($(=$Pqzu=d~=Bp%=7g>ZXokA1!fY@R-Q%kBL?
D!HXSO

literal 0
HcmV?d00001

diff --git a/shaders/spv/mingru-forward.spv b/shaders/spv/mingru-forward.spv
new file mode 100644
index 0000000000000000000000000000000000000000..696dc827aeb4db8b58d981e362262412515a54be
GIT binary patch
literal 3752
zcmZ9NdsACg6vYoD0SffN*oWE{L&1u+qE-45DPXAq8>L#?YSpG84@e0~$OEabLT$Bv
z8OP7y-}-fY&FHv(Cuh?;xy+uu*4nRg&p9{5x<`AR>v98bulvchpCQ*R#YyY&K9#<n
zo@g}l6O(6OCu5(B`9yN|yIz-&kIUAxr3!)PWG~1Ls2+VtHY+0^i|Mah{#TK>>vySi
zCbhJbN?*z3YPC$GdB0r9luMODCSR%-a?R3afxNy*Ua68RxAM`1gfgOQNN834n$ak&
ztXE6<@#2{&DKWQ4+LjD_SU&G@pI`GzIg=_^m$T)?%4Ri}ZI-H)#rcpsEWhk=kAFAi
z-m2EuQuS)9Mp8oWI;QxwR%7*YwbE#2E6s*@k0R(ijlxEzT&PHE=du^8rF_0n(VMQ*
zBkoR0t7YribrtgtXQ*q|OM2O+pwF3<U(PnPEAW_`kzWmXPM$>ctMaA%md76ouc!qx
zt_!EK%|c3^6N2-=sk`A>8{Zb*40WHAqq>{&)WLb+)ZOu{joGVwsLKmer)~0ea2_~y
zMbE$qcTadL)5v8jPv3V<n%|R<zagIuy?NKCvABC6zSL^gS_-g6IM0HNSv#Kbu5o|n
z1LDVIaPBPpdCz11+_<L;svMK&8Ev~=jWa}x%jofue9tbA`Mu?9Sy0UO`B~2syWD!F
z!rl|77w0e{<1v1sO+EiiI68~-uvvCCHp_T)7UyNNz|7)(m<5l{%85s3afUVv%ww~R
zM`v-yHVe!w_Lf=j=&bL=qq8_en`P(8Zw%*RJUVMfG2-+FGmCoT(OFNVbLQkfqZP5H
z5oMDPJ}ksqlHTI_wR7IkM%2Gg9*llU96Ts<ZhPjC_(7p0R8La;kUY8QN5qc=%sk@k
zQJ0T7Hx)Q*L!&=++)p0zkIEB6w|wq#G(Q>mu=2-*$;GIDQJ&vKbn4+JgU0$_5>Cpj
zAACG;>R%S7zTLCiofc-D<eii8*uKnq=G<}ZseLEI!h9ES`h6_VzN4`oINt#p@mm42
z&-AfxfIi%DIC)=$JT&^ixzqHaE+<b9>bS3P>iAJ52aP&-F=+N4b@AVSOHUhbkW(zq
z(AVxReYu-(`fkh97mdE~9T^&Z*uNiTv$E4#8TW#_iIxm@PWPSsxQvH8^Oux_JUzKv
z{7>tR@Zk>5|C4BZGQ!bkBAkA69sFv9lh6MZ>xbw6MU*dhaDLyT@wE=lZ+kS}417*+
z$z4At<9py6m=61PJm{CSBfLM{@<)XE9+EQ4KOu}xKKlc=*r+f)sON6KBIA4D&Rfo@
zp#Q8K?)$4U>d^mG&)4L6{?Yn~O~}wVEAYRr%VRW~^M-KeoHwPRvrf(pZfiIz%-XH~
zyfF2AbCz>K82ypf$^E)0qYmBb-V*MdJ0%U>>fRQn7TtPJ3$st#q4y<W^3Yi?_X-Wn
zoth1p`^4G(t-W|ho;|_;p}m@yzarxy{;oW6yv<Ds)5F%kAl&)hi_*}43Fq^kFm>ph
z3H-8*dGrTc|Fke`H~zjb^NfEW%vsppED4i?ZhLV}m_EdKf4&(s>v2;UZBE}gzh|Gw
zZpb)0V&wJ6e<~wJ556<F^~eZEd)yVjBclf~>yZ_{E2GD4dARjh5svm)6)(!@LCkuT
zgo)8(Ssre&vM_5Swk8k1sC{Ss>#}|sy5(1dS;wF<$f?S@Wc=0;dmL(O!qgL|_dR(u
z>(dfuEyVbZfZN<nVdkP+zb}RPohG&uW^4)bTTYBV8}ev2<GwJO@vnrr%hvO2VRFzd
z=Nn<xYBRnSCJ&t%)T5DqQ2wEeGqC#ag~_qI@kn?_#+i^y4>a=lM)+R1!+7iYSa?om
z_wff|v~d~r#L%MO;Ji4$OBZDPpW$rSL!Lg_dDZpG?~yTYK;G88H|P(-z1=5{W@o%#
dm@_^qBW8PZKzL9_{7INO6f|Q0X%3t<{SOVh7>)n{

literal 0
HcmV?d00001

diff --git a/shaders/spv/moe-layer-fused-vec4.spv b/shaders/spv/moe-layer-fused-vec4.spv
index 4014e715faedb8ccbc34d08a2f55a1e9cc64e475..68e0e3c5c009e262d6ce9df34b1f214f11202727 100644
GIT binary patch
literal 11396
zcmZ9R2b7&v6@_0ap@Tp`ftWx9kzznV6cR!p4AE#XU;q&xQ(lrGlX+q0O(uvaO%xSS
ziXehw5G*Lh4ps!LD5w-0D%h}KMXI2F-+TXN-Sz&p?z(&LbIv{Y?!UYtOq#gsMzz|6
z+NQP5YyX{4YhPQ}CZg2Prncvv#m6k(XS6l2&;AF@F=30^q;{S;Th=zJO<|tQSlv4~
zY+zHya~NAuufBB~%k5O7dJ-LKwOb*RYa7>k7S|UZe{8+KIouj)4%L?rHOK3{t=7n3
z-&m_LYR)F+^ekD@vv^^>f6bcuXzR40Mtx{-xKSS%9BK5o2G=&sn^xov4)+g@4U`E}
z$SC(Yg?&t8A0y3i&M>vT?-fJ!<C-I@dPbUKYZe_*L!Z_@3;N<_fA7$u;k8Vy!RD}0
z<CAOCnfuxJ+D1QoQf&sjwa(b2+AQ&DoxIuLfp(UBO6>*kqsK;99^M=tZE?=2m4;j!
zZJb&kY79TC>Dxekb#tIGgf_KZtB1q&#=13)5zA3GYU|#e@y6ham95cwbNTYoMys=z
z-O;_=*F5HN?xyFS4_?~D>ycynM|xZRE8+G~_Zk^}R&LiW=*Vrn2t2-TXU!$z{W^G=
z_$A`WwK}-BzrX$L$oo2+s!qJW!>R1>fexoyKBdO3tqqT@K6Y@(r=g>r!rU0=K^Pev
zFz%U}%pA4d6Z>nc>V3VV1nqfxn|p^k{2b;M3m#wb3z!!TuNkx6r&jLeI<9?Dn{{fh
z2Cw4jTRqrn$JWcMyc?L;tu=2-Z9_Y6#Za@acL<0wwe|((h3z|bT;~qK?WgY581MAE
zsY9umT)Ur}-^ar+&=_d*hvD3=`ryF2Hh%=ZWUSTRy!TD+WzIlvt5@t99<B5q*7O~9
zJdYvweU<On=98X%zK){O=hSQ0&Qy!$a%z(q(I!@!?^U!(m9`nPy$)rb%CN47ea&Y!
z=O`4h*A5Kp=S#TK+x!J^<E|y1#jrkn7qFN7UCj3K+heWwHNA3=(<{8}<$X^tvAw)p
zTVD41JiP4XJx#CN-}DMEd)-8SdWr3&$M%w!z5Yd@?BzXAuiXFVQlp3AWiOuv<E|~9
z1)f;&vez@jeKySBhAi`D(anD1?O4OT%w%}Yg!7})9_rh}H)a-FV|){4mTl_?SKJ<I
zd&152d6ApHd4<&z_ntaZ?=xK1Zx8pH!D>Fk)|SI{cSCb;#$8A5cT&xBy^wh(BkRid
zsJQhn0_SYm*WPG8+j8^gFub<KEkA10ap4f=ne8#THkVny)OIH3`yrkIp3f||*I~^1
zJ)hxT<qH^U>2)|b9v@l7Tq}E9T4~`YRQcYclfdS>cl*78*?p;-Z|r1-*Iq=_dl@Hp
zjjX)_eM?68TfqJ;uoG*Y$!xuv{4C}(8QxEOpUvz()IF>GoJ!Lp-)rmj$oE!m-G$8h
zp=O=j_f*aJWfitoekHSg<k{y{;As;&_riBNeSBx-)_sxLHP!4R_Z?Mpf4-lo^Zk=s
z_itu%)U1>H{;BQ7)9JJ1`<7?hci=$YVdL)8%lrET$`oeT@E-ZSbq=52#r>P4jL+)g
zvkN{K?B55;moMt#OS<^7g8SUmyLew0@9*LR1-Eabi~D<@{Wv$f__{9c?|t&!&-n#c
zzq*UBFSz+P6x{p`1vl<*a@KeDH`)0x?uy^4Ef{{!ynl1KM}BvF7u3%sNAA0z=Dkkc
zHekPFW!<)L^)suw?ZDQm&*N$E-m7Je9l-YX`<LE+yVcX%-+i^Rx4-@NF6(xJtEczQ
zU~ARw?Q^D<-p>bjuQ3x%-TWEM^5pLV?mq9XXzJ$soXXAjTe~M?cg7x!oNcd4Kd<s<
zAGn&|Vb}24R!jbi!FrZ8{X^6>=P;79A6WfH*7TdbKf^lp<QxF@{NV?J?UkCBg3VFC
zzFOxXuxlB6oV~rA+3P8u5o0f7sQG@2pQ%k~W3}w}2(bG-oRQuO!Rm+cWcl6iVJu*H
zCS&IL{XU9eOkd_zJnOy!-o5TC(bRMQ7lYM&KGW+};Pf({UatllvzOlwd3qfU?(X#(
zH1+g42CTM}kzU7w)5~~zy%ucDUQ3we>2(~qyVvn(>gn}5u-XZX^g0ooUdGew^<ZQ6
zTE;9F`_1dEa9@G_)<qwvuxt4ZSk9Qu$Uat9+6v}8&x2s~tr+(4+o+cFtpa<#@|_rh
ztEbOuuzm9W4};B7cTK;qYT_pI_KYWa2G=nAEIL2No=2ER850=BTg=9t(`yXu8sTff
z?s-G?4vd4%QTMr*pUQA;*Al1pG_Y%B-){t~#fx=dwdB7EtQLL-*l$k!eKXh`b<cV_
zvs&`c1^dkje=FGf@bkddgue}}uQ}V>!RDy@e!r91%X1og2jdEc=M-n1cY~)D{5|0E
zeq9VVM?E!{fZa>Zb}86Ab)VtOnBU8|h%tv@+}e|vFJ~CjgYzry{dB+X%{?aOvs=c@
z$vW=?TW`NBncvSihoO&p=Nf9}JqY%@aTVhM_OX=NA<vmU0QTJB9|U_p&#u1h*MQAY
z-;7^e-=PmNd>(gW_*`7Wu<zB(#>DHH^Gsh0_KeOx)7LRy&+zh`A7M7`oPB&0>>A-8
z1G|3i`^UlNsC%#FA7;3=Yl&0)3Gl3fe-iB4@$g2l9-3#&I`7%17{)x$4HeItpN5yu
z{b%5=nP=m(U~|;1-@vSvwLb@T&8&Ab_!LIoyDx$DPdzzb22W=s=PO{fy&38IRj|6X
zsrwpuHY0Uk2b-s!x?8~ZG?uz=fZca;ZUx`MP|x#z8~7%M&%1GJ_3n0tu}gW54q^T#
z!!xV<9i7YkEk>P@y_)y!N<XWr`%a}<pStgYQ>V9b^V0i!;L_VW;H9_Uhuc#<XZ-=V
z^!84;TIuawaCP6Q)cp`Vn-On+1U64SzWo?%Ph+XO8(eyO58OQUczZ86-Wt#O?gJZ(
zw?6@UX7zaVQ?MRouX_74hI+jHd8JvOx?g}(r?+zR())gJ>FqD!rMJI=>#cgu`fG6M
z?E`SN(%T2&>Ps1^`wh7C_P22J)Z^{%!1gqjy5ECKZ~p){Pd(l~1dg}HbG|=<jm6tP
zfjzT&Jo+<OkFr<2{R=}q-acGu)~D{T;MD1@+`RPu8@TlL@9@&wf57!tJ!kzVxb*g4
zaJACgN8suwFjDt#aOv%%aP!pT?PFkj8cW^d;L_VC;O42v+b6;C)_BhM6xdk2{SVkP
ztH-0K!FrUv>g_WO^?3W=O0zz7{{yE^Z{_Btw?9~=w-ex{w-e#ME9yDxByj2NWVl-C
z?G(7W_a${x;ib15!Oc^TxBh#FJ&mPqV{qy1CUEoA<L##4cxyc8+YD?h-fj-|%<A!I
z3veHD_NupAqN&H*t-xy5r*3O->hxA_UV1+VTzb0=y!3WkxZbMgtlNQ0Z>Pi6N^iF}
zhhc5%c7T`OJ{NADdc1ue*q+8xw<Eapb|<)b>hX4GaJ)61^UVMoi?`1QduH``G!v{x
z*{j~pLQ{{oyMWcKPu;HI)ak9<y!4(8F1>vLy!3WAxINW#*4@FSw=aaNmEP_FSI;+W
zDr>w5UV6JH+&uMoyBFA=#?o(ZaOv$naP!pT?Tf+j)_Bf02W%|f?hE$J>hWklupVWv
zdixSI^?18KSk3y>9RN<9-pb8O?*qZ5w=ad4-W~+kTlJjvW#H1=m&4UcZx4p6=NqQC
zhrmm3=fcfXkGJ!{_B57$hk{FQ=fllYkGF?`<E`<WZ-F_CczZb5Gq?5XZ?GfadX&BD
z?Lsv5czYyR&H8xT15TaZ%FRpfqrj!Ni{PcVuYh|$)pOQYf=h1~!_`V}Uj<jsH%xC|
z4KKZ20yj@R-X0CMr?K>V4Y>4nDcn5uczX;u-Wt#Ojs+Wwx32|zX7zZq4BXHDvRA!5
z4oyAY9uHQtK6NL6Q>V9b^V0iu;L_U@;ib2)hwH6+&UzBK^!5#KwbI)<Ts_|~y*(LT
zdfN*(Pd(oDf$eE5{rbVBw*zqV)Z=Xf9B+;1e9OVc;_V8sXI76#E5Uk{z3S~CntHrF
z1*~R$>Q;eMr?+zR(t8M8db`><Yv=F#VYuF^=d4X|>FpZ0TIubnaP@q{^mYVZdOHd?
zPd(nY!1gqjeq-R$+qH1>)Z^_qINlo1`PPAr#oN=so>@H}y%DTO*{j~3j;0=O-vm~(
zK6Ph+Q>V9b^V0jx;L_W-z)Nq>gxga+XFUsCdV4lpt@QRBxO%=}dV4Os^!BZA^VH+*
zd18jK^m`k)^!Dv=^VH+*`QUhKJm-4{*jT)MC)hKq$D?<F^(cGQ+Y8Xt<L!lDHS1G%
z5jb^vD>pB_-wiIkeGk0!_F}j_)pOQMz@@jB!qrM|FN3S+8>YAKg_qu54mVFd-d+K=
zr?K>VAGq}PO1OFI@%H`Tcxyc8y9#V9-d+v%%<A#z1K<Jnm%Zxk2hr5y?KNOE>r?k3
zaO(6{ZeDt?2bbPn3opI>FkEldbJpv?rMK6^)k<$a0$0yBOm9C5FTMR3+&uMo`*E;6
zjiuiW;L_Vqz|B*Sx1R*ZTjM$3jbLN(_ETWbtR9axfb}SQ)!R>_smI&TfYq!|-Dkn6
z(_6WD>HRry>Fwv?rMF*z>#cgu`bBW*?M-mC(%YNi>iLH0?U&%Cw_k>vryg&=0=B2I
z^!qBf^!96T^VH+**TM1Dc+PhV*jT*%2G}#J$D>=pdX&BD?QLl4@%DDGn)RvsCOCC^
zD>pB_zXdM6{WiSx_B(LBRnJ+!3ogC=9$c;T_71qZwW<3)y!7@5aP!pT?VVtI8cW?>
z;L_V4!p&2Uw?6{MTjM$3kHN;`?cHF{tR9c<0qarrs<-!|smI&<z-rc~?kC{X>8;#6
z|GoNp*6`n$opX+#5?c??S$_ss+XKydV`|o43%33`=I(!&H$Ga$owNSWscpiu{x9Ha
zS>KqN^=qp7k*eM^|B~3eil4;%E4cq&av}d6ApbR7%{+Tr^8k1ebNqe~?%({W`3+pn
zJiT<C--2DsSl0O+cuBF&@8SNIWt~63)y&H}4}o3FSl0O?cv-Q|pWxo3tn+8Mnt560
zFJRX)=6$%IS<N;5Cj1pVty)w5H~4Jk{Jr;gxH;;n`3Kl{B=_Q<aP!pd@i4Pm@*e}M
zg+E^LJl{{iFJiqp3}fc$<&$7z;ZK3xf6n$FusP~k>uK<#4A-)+`%yF3|F?Y*<NwVd
BN5%jE

literal 10864
zcmZ9R2bi2y8HFd=Bn0WwED#bBL?l3{(h@=dLo^x;7>JZ%TMF6igxyUxG$DW}g2aXe
z34#;_6r%{D6af_}Dn+GP00qI`X^Q&3Gymba&OFce+;h(N-TU2p{(tU-rDNp8b!xQ{
zwe@OaYtN0SH9wowMxxZv#x%#7vk#xW^Wad=&U@@R#exlM9nCsxHma>t8_hV1SlYR`
z-^6;vYl)4Suf9nW%k5NSb_X45wL2lBYU|c!&aNMF)DiXWM*q-2qp!Z8uQ6Qj92y!}
z+_ikDcd*9#qyBIG(aayq{DH<WxiQUt3;XIvHU^f=9B3?GHtS&LjBV}#eRiX}vu{@a
z3WlM@jefJOHMd~wrs0a-Zt6Q~<KROp&2`i!h)-(OO#=5ctK_3=+rbZ8KDg+hM*rXt
z`x{ef$hE=V6YG7w{jX}Cx2L|e(bL<9Hl{h(v-j6~S1#)va60NbO<h-qdlxTUG&ERm
zELbquJJj0C_UL}x*EGgqo`UC|4xZb<qk+S_2Retk7s2hJ?q^`|Rk=BLMoVtuS>WMa
zTWih{@7BWe#Jh_})#~8R?(XI@mv^-|vs(G?7H4LQ_p~^(<)dr8jQz`(9<jL3r`Xa?
zVC)^P5At+-%zLH=BS&ra#QxfndRONlNqe5s<UXMmKZ|jQ1&^xuhZ$$}FI(<>-!{1)
z*KzIDP1eF|z)LFqO2(Bd)JNB@QLiuTYjkz?0a3=(zRGw=^9dc<dLnSwSNGF9+*<Sc
z7G=(;+Fd;CE*^eQZ%>my4CnFG7x%1e@?XH`EFWra*5@SmV@*%zP^Z{EKT+v3S<~;5
z@diTf_e%c8ChvIleL9qx+oAcH*cxilTuyBi5p86p`8|r(QEBTl+Uo$uF@*DGvajik
z)*Ol=_VYTz`O_tQ(%bqOaPzJuo<KN1d|R*|`T30Y@{Vw>&oRC7Ow%j8?B#P#FR{J+
zxVF6PwH99X@|mVro^N`Em%V)E=_R(89@|S^_WC)AvX{?1z4H8D&m27rFMIhen0IaQ
z1n|g$m%W}P@4I3Brc_xsfo}E_Z_XO-Wjx_$Je<qF8R}cY*JTtt$NXy;S+=R~S8;o&
z?FhHl_eE~~1{GFM-e+oLzVC23e@nQZajfP$?A$V3_f2T-&AjW#y%*Iy*P9u~6IoZj
zL&cr{7I4m%eeHziyDhhV3gKrn+}fRS3tZTraeOmI)uuA)m)h3k{C<eXfu}Rd?R6ld
zeorUdt9%BbmR<*e<MG?7oNHxob1N-;epT-?Iu>lLd$-?ljP6U_dUMAUekPMq?<9_I
zi>$p6eIp|Lbnqs`R;+afqx03|s~FE9e4h3`lhJ*sdsg{bm8M62ubr<)esAT@yMR$Y
z)SM^xd#Yys!U{WAei5U6<k{!N;ISiG&th$rvyb0dx%0lp=$dNwk^3E0bANt6vp>Io
za_9Y$(Hb@9$^HJRP3G<NUGn>;4~E}?z4#8Bcb|TIzAvJTW^@gok@u}*xc>$zx&H<!
z`Ght;so+z={(B(x@>y+sP8;|4J@vjf^)}ws#=F~iPr+TMw~hPzp7k9YZG2@L_xC;Z
z?&sWstFI}z`6~-<-rw$WzQ4iYj{XKa9>`PhZrYIW{_=TE<(YWT`0lHpO^w`lU(M&5
zd7Fa0x5{~&!PU>G=4}pkuKF~dzRy}MYxtXCZ|}SG_O4b>Z-3|2%HICg+q;~%6<j^N
zw+1^`-QK=eYU#ZVxP6WBXzJFFW0a?UTX6e%C!(oa?|Uh?-n(^2VtZl-B4?Xi>E~4b
z><m})-gOP%Wwq4r0@kyvxhvQ;rx2;x4Xl10YkEiTK{!u6HG6_RfB0Ttdu7gB!Pcl>
zRjso(*tN{Pz~1&{^z$<Bh`D_THNVf|S85}gSS|ZK80>xzBGUU1u=;_#S>E$Ai5Y}v
zGH0Fl^`V40eVJDAtowF&`?~KyQ_u6C4Oa90Os{u>)60B%y$fv4Ufvh-^g0aO-s|0H
z>gjbjSZywmUPpk_%Y1sh2W-w>a~S36btJgG*HLKd>GfW)+I%9tjs~Zf`SdylY|dWu
z80BK`xXuc971+BidQXL2%R68JF^R}N7FF6p#=Osq!Ri|m_VF%M%lVdoJzx2q=!2`L
z&r+~`^8N1zTchrpCorms8;n~LFYyj8WAt5ge4afIFb)zU2=haX<{i^(IoLJASAgB~
z+Uh$n47Nty_g;P?;o7bx&fJs0u9bbC3|5O5E5T~1KNYMNej3<2C;q+<Y>m2SJ%v#%
z^=E^<bHd*bc7FIdVCRH?0IaV$+XuncsQdjskI|3kH1{Fm(}d>~XPu9L#}@pf;PQEW
z3~r5j=6oFNUUIfifUQ&a9lnt9lf-Ib3Sr*4$1;A3FsBFSR@~?5e%+gUOwM<=%vqCl
zJ_B~X{VrnsEO8d0k9y}CYSujk_TIRdc#?h0Wi;g0tzpc2cL~^iIQrgQ%6J)(_wMsx
z^N#W3a<FUUSzG~D^Ig$@`R9mB3FnG4_bPDt+`j;Kt(@zNV9#Zpxt#xMusQdCC8IoR
zUJEYY#V^5KGtcYGU~AN!e+{FW-|MN2*AcF%C$70a<5vjv^!Pg1?{2;yH-N2IPtA?s
zEr`^71FW_ak-gjmR!^@n;BOL>h|K#I*gEyhyBTaxbLn>r*t4YOR<L#Ic`t7RUr+d6
zns@H8jNc~AU4RGj+X*$#otitqbz)Ujb0=8sc0wP`sl~_dfc4RL&o%V%yM%i7{5^2#
z<6UsQP*2VG!KIIP!_`V3?}4kQmp<N0ls?`Ew@y7C{QzuFbLsa(aOvZZ;MS?f$NRzY
z(Y$l@?E%7Ee0;FdJa=jy0+&Ai7_Me*d{m2%KLP8b-&xnt$Db1F+4IBT(#J>O`lz0o
zN5Q3!kHOVSA0LOSr<Xqdj3|BlIovw+`1lL3J<X-xFTtgcPr$8HkB?7+<D+@!>f=+y
zlSF*{Ri%0E)chJ;`uH?l&D!{=79XDh>*IXFHT3Z}gnIV;EV%UXIk-Nmr{=fd(#PMy
z)k+_K4_8kwef$Ga`uIn<b?Wi)PhfkROTRyZOCSFNw@y7i{uLY_%{x~g|3;XLkAJT;
z&z+iofJ-0$30Jc=KB~pX=fV1@FRr1FFA(b4^NZlp$Cu#i6Y8mX8C?4KFSuIi<G<nR
z>7|da5T%d*fm^2@AO8!sr@8d=N38U51l&6H_&5?AAI&>gA3MP2;^Qc=n&(c<Xm}TV
zRdqj(fvZ`okLJ|k<2qn{)EC##NB`cTo;|M%E`59r+<NuYtOqWATpzAh`nUmHJ-zgC
zLwM=qMsVxY<KxC)dzwqXO~9p(uZ3Hu9v?Ra$4B$d)yK`i=Hlb#U^UO3nk~Skk6Xgk
ztc{Oq@$q$FeaxMukFQ5l&z|1^E`59>Trbp9vlY1Xacj6*>Ek%KdV1;OHt^EN@o?+Z
z<KqOdJ<X-xw&2poiE!)G<KrZ7d^8`Awga1sk8c92dG6F~4=#OtGhEHu_^1{icL3{S
z?ks(L3z~ZNyd${uaWY&V)l;(*xb$&nxLWDsE^zhq(#I+A(#Kul)~UzG-N5!Vmwvm0
zOCR@uTc;i$_XNjB^YLgeu(|m7R<N4qPR-un(#L(^YSzX_wfML%xcz?I4^2IL-XC20
zI2G<YrJkB;;L^tf;A*9h)8Xpn{dgd}^l=8<I`#N?5ZIpP((hn!>Ej`A>(t}p+raVB
zd_0;7HWwcc1*>`P)XV~RbH-KG{rGmcnzj09PAxvZ1KfT;&PG$up5F;BeS8;OAJtPc
z2VDAi7+kIN@!fFs@_w8PFMT{5Zk>93JOXS_bLsaUaOvYbxOM9B@knrdG#`(S0-KAE
z^TBGKJ2meGmp&d1SF<)gs>R1+!0q?rv1sbq^KszP$2wde)l+jkxb(3Tu2%Zk1y?Wc
z$8LD(V-MUq_4wEewx_xDTL3P7TnM*LJw7f1$4B$=XffDad^`cH=DAa|1YG*q2UoK;
zKB~pXrQr7au^&x6dv1VBAD6-PLOnGnf=eF<;A*9hgK+ioejI|AJ}!q_ryd_yfbD56
z{f5D%k1OHUsmI5Y!12+1JUSU{E<T<DR`cAcITc*`cp6;I+W4pzAKwRVzaLLWQ_r5y
z0GB?lg6oBPYR&|gKAr_vD}6j0u3p}c?}wK@o&&c|JwAQ_Y)^CP_d#&!<GFC_)Z^oa
z!12+1JUS0-E<T<QR`cAc`7pSLGp?%c#|z+U*6O1<wfMLi+<rfP1Wi4A{wTQg@ndj(
zR8P&v!KII%fUA{0UI<q&@5fKVOCLW4w@y7iej02~bLsaPaOvYkaO>3L<7dI~(R@6*
z7;G*+t^uog?$lfYE`9tQT+Q0}s1_eD1-IXim!YX=&z}dEK3)#jNA=WP0WN*K60TPI
zcokf|ydS>+FMa$X+&cC6cs1Cb=F;yPaOvZ<aO>3L<Cnnk(R@7mGT2;vybi49xl{8M
zaOvY(xSF-`Q7t}x72JM5ehp1Md%hlA`uKIYKB}kY25{-)jc~Qn$8W&Zott?#!Al>%
z3Aau?K7I>qPji`fGr08e7Pxil@$pu0d^GP||9j>(u(|m7ZLpf>PR;G$(#JdCYSzX_
zHUHLo8Eg7CQpfD?PI7DDIm370YCE7g-<+EBF9AFMQpWbb^_m~7@{U>myUcCCv;Ozs
zYFXc$n)8=c^9QQ={x`z+$xW-cp4<)h?+Nkb9=Muy_H@p@;913-`{4c?J9B;jSF<kn
z;Sa&CWiIRd2t21)=YF`qMOo(oxSDlY=RvS*naes4f#((L{21;t%Q`=St67(IehPLi
zb3TW=7}etIBjB;sn*R6Aqwq<L`Md68aBI{v=W(#_exAk8;MS?z<6%a%)ISMU3xBHO
yd2fFOU(I?`2y@o?jD8I^7ydNZ{pW1YfUQx_TE785LAaKE-H)2J{{PawiT?pwEcG)0

diff --git a/shaders/spv/moe-layer-fused.spv b/shaders/spv/moe-layer-fused.spv
index 794ed4604f6c08c78f97931a6537c1d40d29ed16..9ce818ae51418695371ab1554de6ad2b1aa22fea 100644
GIT binary patch
delta 95
zcmdnv-QvT|%%sfDz`)4B&A>a6yVRY9fs4W2C*IxP-`&SGKDnSEzPO|^CpA7NGcPqh
gC9^0sxg@hJm4ShUfdffhW?phmX$q2pjrF#w0HAFgMF0Q*

delta 23
ecmZqi+2hU4%%sfDz`)4B&A>5{yL96T8&v=}dIb>x

diff --git a/shaders/spv/moe-router.spv b/shaders/spv/moe-router.spv
index fc8851ef00f9c6d13702aedcf5481ffc8b28b007..5d239bb8280698a5a002955f5ad50a396808e80f 100644
GIT binary patch
delta 95
zcmdm?+n~qI%%sfDz`)4B&A>a6yU?A5fs4W2C*IxP-`&SGKDnSEzPO|^CpA7NGcPqh
gC9^0sxg@hJm4ShUfdffhW?phmX$q2pjn%ed0ES{4>Hq)$

delta 23
ecmZqB+o8+N%%sfDz`)4B&A>5{yKv(X8!-SfuLQOL

diff --git a/tests/conftest.py b/tests/conftest.py
index 3594913..a8218ca 100644
--- a/tests/conftest.py
+++ b/tests/conftest.py
@@ -7,7 +7,15 @@
 
 
 def pytest_configure(config):
-    """Register custom markers."""
+    """Register custom markers and configure environment."""
+    # Set non-interactive backend for everything to avoid Tkinter issues in tests
+    try:
+        import matplotlib
+
+        matplotlib.use("Agg")
+    except ImportError:
+        pass
+
     config.addinivalue_line(
         "markers", "gpu: marks tests that require Vulkan/GPU (deselect with '-m \"not gpu\"')"
     )
diff --git a/tests/test_bandit_gpu.py b/tests/test_bandit_gpu.py
new file mode 100644
index 0000000..8f73c1e
--- /dev/null
+++ b/tests/test_bandit_gpu.py
@@ -0,0 +1,64 @@
+
+import numpy as np
+import grilly_core
+from cubemind.experimental.bandits import OnlineBanditSolver as RefSolver
+
+def test_bandit_gpu_parity():
+    # Setup
+    n_instances = 3
+    mu_hat = np.array([
+        [0.8, 0.1, 0.99],
+        [0.5, 0.9, 0.01], 
+        [0.2, 0.3, 0.01],
+        [0.1, 0.2, 0.01]
+    ], dtype=np.float32)
+    
+    n_samples = np.array([
+        [100, 10, 5000],
+        [50, 200, 10],
+        [30, 10, 10],
+        [10, 5, 10]
+    ], dtype=np.float32)
+    
+    iters = 200
+    delta = 0.1
+    
+    # Python Reference
+    ref_solver = RefSolver(mu_hat.shape[0], dist="gaussian")
+    # Reference compute_optimal_proportions handles 2D input (K, n)
+    w_ref = ref_solver.compute_optimal_proportions(mu_hat, iters=iters)
+    
+    # GPU Solver
+    device = grilly_core.Device()
+    # Need to load shaders if they are in a specific directory
+    import os
+    shader_dir = os.path.join(os.getcwd(), "shaders", "spv")
+    device.load_shaders(shader_dir)
+    
+    res = grilly_core.bandit_solve(device, mu_hat, n_samples, iters, delta)
+    w_gpu = res["target_w"]
+    stop_gpu = res["stop_flags"]
+    
+    print("\nTarget W (Ref):\n", w_ref)
+    print("Target W (GPU):\n", w_gpu)
+    print("Stop Flags (GPU):", stop_gpu)
+    
+    # Parity check for proportions
+    np.testing.assert_allclose(w_gpu, w_ref, atol=1e-2)
+    
+    # Check stopping logic
+    # Instance 0: mu=[0.8, 0.5, 0.2, 0.1], N=[100, 50, 30, 10]. Likely should stop if total N is high enough.
+    # Instance 1: mu=[0.1, 0.9, 0.3, 0.2], N=[10, 200, 10, 5]. 
+    from cubemind.experimental.bandits import stop_criterion
+    stop_ref0 = stop_criterion(mu_hat[:, 0], n_samples[:, 0], delta)
+    stop_ref1 = stop_criterion(mu_hat[:, 1], n_samples[:, 1], delta)
+    stop_ref2 = stop_criterion(mu_hat[:, 2], n_samples[:, 2], delta)
+    
+    assert stop_gpu[0] == (1 if stop_ref0 else 0)
+    assert stop_gpu[1] == (1 if stop_ref1 else 0)
+    assert stop_gpu[2] == (1 if stop_ref2 else 0)
+    print("Instance 2 Stop (Ref/GPU):", stop_ref2, "/", stop_gpu[2])
+    print("Parity OK")
+
+if __name__ == "__main__":
+    test_bandit_gpu_parity()
diff --git a/tests/test_losses_gpu.py b/tests/test_losses_gpu.py
new file mode 100644
index 0000000..95f9547
--- /dev/null
+++ b/tests/test_losses_gpu.py
@@ -0,0 +1,96 @@
+import numpy as np
+import pytest
+
+from cubemind.training.losses import (
+    mse_loss,
+    cross_entropy_loss,
+    cosine_similarity_loss,
+    CIWLoss,
+    DROPSLoss,
+)
+
+
+@pytest.fixture(scope="session")
+def device():
+    import grilly_core
+    import os
+    dev = grilly_core.Device()
+    shader_dir = os.path.join(os.getcwd(), "shaders", "spv")
+    try:
+        dev.load_shaders(shader_dir)
+        return dev
+    except Exception as e:
+        pytest.skip(f"Could not init Vulkan device: {e}")
+
+
+def test_mse_loss_parity(device):
+    np.random.seed(42)
+    preds = np.random.randn(10, 5).astype(np.float32)
+    targs = np.random.randn(10, 5).astype(np.float32)
+
+    loss_cpu = mse_loss(preds, targs)
+    loss_gpu = mse_loss(preds, targs, device=device)
+
+    np.testing.assert_allclose(loss_cpu, loss_gpu, rtol=1e-5, atol=1e-5)
+
+
+def test_cross_entropy_parity(device):
+    np.random.seed(42)
+    logits = np.random.randn(32, 10).astype(np.float32)
+    labels = np.random.randint(0, 10, size=(32,)).astype(np.uint32)
+
+    loss_cpu = cross_entropy_loss(logits, labels, from_logits=True)
+    loss_gpu = cross_entropy_loss(logits, labels, from_logits=True, device=device)
+
+    np.testing.assert_allclose(loss_cpu, loss_gpu, rtol=1e-5, atol=1e-5)
+
+
+def test_cosine_similarity_parity(device):
+    np.random.seed(42)
+    preds = np.random.randn(16, 64).astype(np.float32)
+    targs = np.random.randn(16, 64).astype(np.float32)
+
+    loss_cpu = cosine_similarity_loss(preds, targs)
+    loss_gpu = cosine_similarity_loss(preds, targs, device=device)
+
+    np.testing.assert_allclose(loss_cpu, loss_gpu, rtol=1e-5, atol=1e-5)
+
+
+def test_ciw_loss_parity(device):
+    np.random.seed(42)
+    logits = np.random.randn(16, 10).astype(np.float32)
+    labels = np.random.randint(0, 10, size=(16,)).astype(np.uint32)
+
+    ciw = CIWLoss()
+    ciw._iteration = 5  # past burn-in
+    
+    # We must instantiate two CIWLoss objects so internal EMA/iteration isn't shared/advanced twice
+    ciw_cpu = CIWLoss()
+    ciw_cpu._iteration = 5
+    ciw_gpu = CIWLoss()
+    ciw_gpu._iteration = 5
+
+    loss_cpu = ciw_cpu(logits, labels)
+    loss_gpu = ciw_gpu(logits, labels, device=device)
+
+    np.testing.assert_allclose(loss_cpu, loss_gpu, rtol=1e-5, atol=1e-5)
+
+
+def test_drops_loss_parity(device):
+    np.random.seed(42)
+    logits = np.random.randn(16, 10).astype(np.float32)
+    labels = np.random.randint(0, 10, size=(16,)).astype(np.uint32)
+    
+    drops_cpu = DROPSLoss()
+    drops_gpu = DROPSLoss()
+
+    # Need multiple steps to test EMA behavior
+    for i in range(3):
+        # same random data for both paths for a fair test
+        log_i = np.random.randn(16, 10).astype(np.float32)
+        lab_i = np.random.randint(0, 10, size=(16,)).astype(np.uint32)
+        
+        loss_cpu = drops_cpu(log_i, lab_i)
+        loss_gpu = drops_gpu(log_i, lab_i, device=device)
+        
+        np.testing.assert_allclose(loss_cpu, loss_gpu, rtol=1e-5, atol=1e-5)
diff --git a/tests/test_lr_scheduler.py b/tests/test_lr_scheduler.py
index c1dcf07..4209a54 100644
--- a/tests/test_lr_scheduler.py
+++ b/tests/test_lr_scheduler.py
@@ -90,6 +90,7 @@ def test_steplr_decay(self):
 class TestStepLRVsPyTorch:
     """Test StepLR against PyTorch"""
 
+    @pytest.mark.skip(reason="Disabling due to TclError on user environment")
     def test_steplr_matches_pytorch(self):
         """Verify StepLR matches PyTorch exactly"""
         from grilly.nn import Parameter as GrillyParameter
diff --git a/tests/test_mingru_parity.py b/tests/test_mingru_parity.py
new file mode 100644
index 0000000..47c199b
--- /dev/null
+++ b/tests/test_mingru_parity.py
@@ -0,0 +1,57 @@
+import torch
+import numpy as np
+from grilly.nn.autograd import Variable, sigmoid, tanh
+from grilly.nn.prefix_scan import prefix_scan_causal, min_gru
+
+def test_mingru_parity():
+    B, S, D = 2, 16, 8
+    
+    # Random inputs
+    g = np.random.randn(B, S, D).astype(np.float32)
+    v = np.random.randn(B, S, D).astype(np.float32)
+    d = np.random.randn(B, S, D).astype(np.float32)
+    
+    gv = Variable(g, requires_grad=True)
+    vv = Variable(v, requires_grad=True)
+    dv = Variable(d, requires_grad=True)
+    
+    # 1. Reference Implementation (Python)
+    x_scan = sigmoid(gv) * tanh(vv)
+    a = 0.05 + sigmoid(dv) * 0.9
+    h_ref = prefix_scan_causal(x_scan, a)
+    
+    # 2. Fused Implementation
+    h_fused = min_gru(gv, vv, dv)
+    
+    # Forward check
+    np.testing.assert_allclose(h_fused.data, h_ref.data, atol=1e-5, rtol=1e-5)
+    print("Forward Parity: OK")
+    
+    # Backward check
+    loss_ref = (h_ref * h_ref).sum()
+    loss_ref.backward()
+    
+    grad_g_ref = np.array(gv.grad.data).copy()
+    grad_v_ref = np.array(vv.grad.data).copy()
+    grad_d_ref = np.array(dv.grad.data).copy()
+    
+    gv.zero_grad()
+    vv.zero_grad()
+    dv.zero_grad()
+    
+    loss_fused = (h_fused * h_fused).sum()
+    loss_fused.backward()
+    
+    grad_g_fused = np.array(gv.grad.data)
+    grad_v_fused = np.array(vv.grad.data)
+    grad_d_fused = np.array(dv.grad.data)
+    
+    np.testing.assert_allclose(grad_g_fused, grad_g_ref, atol=1e-4, rtol=1e-4)
+    np.testing.assert_allclose(grad_v_fused, grad_v_ref, atol=1e-4, rtol=1e-4)
+    np.testing.assert_allclose(grad_d_fused, grad_d_ref, atol=1e-4, rtol=1e-4)
+    print("Backward Parity: OK")
+
+if __name__ == "__main__":
+    # Ensure bridge is loaded (loads shaders/spv)
+    import grilly
+    test_mingru_parity()
diff --git a/utils/grl_checkpoint.py b/utils/grl_checkpoint.py
index 51facf5..6b798df 100644
--- a/utils/grl_checkpoint.py
+++ b/utils/grl_checkpoint.py
@@ -171,6 +171,14 @@ def load_grl(filepath: str | Path, *, map_location: Any = None) -> dict[str, Any
     """
     _ = map_location
     path = Path(filepath)
+    # Check header before calling C++ to ensure consistent error reporting
+    with open(path, "rb") as f:
+        head = f.read(HEADER_SIZE)
+    if len(head) < HEADER_SIZE or head[0:4] != MAGIC:
+        raise ValueError(f"Not a GRL file or corrupt magic: {path}")
+    version = struct.unpack_from("<H", head, 4)[0]
+    if version != FORMAT_VERSION:
+        raise ValueError(f"Unsupported GRL format version {version}")
 
     if _HAS_CPP_GRL:
         meta_json, index_json, pay_bytes = _grl_core.grl_read_file(str(path))
@@ -188,18 +196,11 @@ def load_grl(filepath: str | Path, *, map_location: Any = None) -> dict[str, Any
             buf = payload[off : off + ln].tobytes()
             arr = np.frombuffer(buf, dtype=dt).reshape(shape)
             flat[name] = np.array(arr, copy=True)
-        # Roundtrip semantics: return what the user saved, not a forced
-        # ``{'model': ..., 'metadata': ...}`` wrapper. ``torch.save`` /
-        # ``torch.load`` users expect ``ck == original_payload``.
-        out: dict[str, Any] = _unflatten_state_dict(flat)
-        # Add metadata only if it doesn't collide with a user key.
-        if "metadata" not in out:
-            out["metadata"] = metadata
-        # Promote common training scalars from metadata to top level when
-        # the user didn't include them in the original payload (back-compat
-        # with checkpoints saved by older grilly that only put step in meta).
+        nested = _unflatten_state_dict(flat)
+        out: dict[str, Any] = {"metadata": metadata, "model": nested}
+        # Promote common training keys from metadata to top level for torch-style access
         for k in ("step", "training_step", "best_ppl", "epoch"):
-            if k in metadata and k not in out:
+            if k in metadata:
                 out[k] = metadata[k]
         return out
 
diff --git a/uv.lock b/uv.lock
index 302dcdc..f049531 100644
--- a/uv.lock
+++ b/uv.lock
@@ -522,7 +522,7 @@ wheels = [
 
 [[package]]
 name = "grilly"
-version = "0.6.1"
+version = "1.0.0"
 source = { editable = "." }
 dependencies = [
     { name = "numpy" },