diff --git a/benchmarks/cpp/CMakeLists.txt b/benchmarks/cpp/CMakeLists.txt
index 82d5ffce9d..f15497aa70 100644
--- a/benchmarks/cpp/CMakeLists.txt
+++ b/benchmarks/cpp/CMakeLists.txt
@@ -9,3 +9,4 @@ build_benchmark(single_ops.cpp)
 build_benchmark(irregular_strides.cpp)
 build_benchmark(compare_devices.cpp)
 build_benchmark(autograd.cpp)
+build_benchmark(bench_mla_nope_scores.cpp)
diff --git a/benchmarks/cpp/bench_mla_nope_scores.cpp b/benchmarks/cpp/bench_mla_nope_scores.cpp
new file mode 100644
index 0000000000..9aa7998684
--- /dev/null
+++ b/benchmarks/cpp/bench_mla_nope_scores.cpp
@@ -0,0 +1,104 @@
+#include <chrono>
+#include <iomanip>
+#include <iostream>
+#include <string>
+#include <vector>
+#include <functional>
+
+#include "mlx/fast.h"
+#include "mlx/ops.h"
+#include "mlx/random.h"
+#include "mlx/transforms.h"
+
+namespace mx = mlx::core;
+namespace fast = mlx::core::fast;
+
+static double now_ms() {
+  using clock = std::chrono::steady_clock;
+  return std::chrono::duration<double, std::milli>(
+             clock::now().time_since_epoch())
+      .count();
+}
+
+static double bench_once(const std::function<mx::array()>& fn, int iters = 20, int warmup = 5) {
+  for (int i = 0; i < warmup; ++i) {
+    auto y = fn();
+    mx::eval(y);
+  }
+
+  double t0 = now_ms();
+  for (int i = 0; i < iters; ++i) {
+    auto y = fn();
+    mx::eval(y);
+  }
+  double t1 = now_ms();
+
+  return (t1 - t0) / iters;
+}
+
+static void run_case(int B, int H, int S, int D, float scale) {
+  auto q_nope = mx::random::normal({B, H, D}, mx::float16);
+  auto latent = mx::random::normal({B, S, D}, mx::float16);
+
+  auto quant_result = mx::quantize(latent, 64, 4);
+  auto k_packed = quant_result[0];
+  auto k_scales = quant_result[1];
+  auto k_biases = quant_result[2];
+
+  // Candidate: our MLA primitive
+  auto mla_fn = [&]() {
+    return fast::mla_nope_scores(q_nope, k_packed, k_scales, k_biases, scale);
+  };
+
+  // Baseline: dequantize + matmul
+  auto ref_fn = [&]() {
+    auto latent_deq = mx::dequantize(k_packed, k_scales, k_biases, 64, 4);
+    auto qf = mx::astype(q_nope, mx::float32);
+    auto kf = mx::transpose(mx::astype(latent_deq, mx::float32), {0, 2, 1});
+    return mx::multiply(mx::matmul(qf, kf), mx::array(scale));
+  };
+
+  // Correctness check
+  auto out_mla = mla_fn();
+  auto out_ref = ref_fn();
+  mx::eval(out_mla);
+  mx::eval(out_ref);
+
+  auto diff = mx::abs(mx::astype(out_mla, mx::float32) - out_ref);
+  float max_abs = mx::max(diff).item<float>();
+
+  // Benchmark
+  double mla_ms = bench_once(mla_fn);
+  double ref_ms = bench_once(ref_fn);
+  double speedup = ref_ms / mla_ms;
+
+  std::cout
+      << "B=" << B
+      << " H=" << H
+      << " S=" << std::setw(6) << S
+      << " D=" << D
+      << " | mla=" << std::fixed << std::setprecision(3) << mla_ms << "ms"
+      << " | ref=" << ref_ms << "ms"
+      << " | speedup=" << speedup << "x"
+      << " | max_abs=" << std::scientific << max_abs
+      << "\n";
+}
+
+int main() {
+  constexpr int B = 1;
+  constexpr int H = 32;
+  constexpr int D = 256;
+  constexpr float scale = 0.125f;
+
+  std::vector<int> seqs = {1, 8, 16, 64, 256, 1024, 8192, 32768};
+
+  std::cout << "=== MLA Nope Scores Benchmark ===\n";
+  std::cout << "Candidate: fast::mla_nope_scores\n";
+  std::cout << "Baseline : dequantize + matmul\n\n";
+
+  for (int S : seqs) {
+    run_case(B, H, S, D, scale);
+  }
+
+  return 0;
+}
diff --git a/mlx/backend/metal/CMakeLists.txt b/mlx/backend/metal/CMakeLists.txt
index 67c69579ad..32dbea635b 100644
--- a/mlx/backend/metal/CMakeLists.txt
+++ b/mlx/backend/metal/CMakeLists.txt
@@ -120,6 +120,9 @@ target_sources(
           ${CMAKE_CURRENT_SOURCE_DIR}/logsumexp.cpp
           ${CMAKE_CURRENT_SOURCE_DIR}/matmul.cpp
           ${CMAKE_CURRENT_SOURCE_DIR}/scaled_dot_product_attention.cpp
+          ${CMAKE_CURRENT_SOURCE_DIR}/mla_nope_scores.cpp
+          ${CMAKE_CURRENT_SOURCE_DIR}/mla_fused_sdpa.cpp
+          ${CMAKE_CURRENT_SOURCE_DIR}/mla_quantize_store.cpp
           ${CMAKE_CURRENT_SOURCE_DIR}/metal.cpp
           ${CMAKE_CURRENT_SOURCE_DIR}/primitives.cpp
           ${CMAKE_CURRENT_SOURCE_DIR}/quantized.cpp
diff --git a/mlx/backend/metal/kernels/CMakeLists.txt b/mlx/backend/metal/kernels/CMakeLists.txt
index 8d3d8a1953..9d1fa1a829 100644
--- a/mlx/backend/metal/kernels/CMakeLists.txt
+++ b/mlx/backend/metal/kernels/CMakeLists.txt
@@ -54,6 +54,9 @@ build_kernel(random)
 build_kernel(rms_norm)
 build_kernel(rope)
 build_kernel(scaled_dot_product_attention sdpa_vector.h)
+build_kernel(mla_nope_scores)
+build_kernel(mla_fused_sdpa)
+build_kernel(mla_quantize_store)
 if(MLX_METAL_VERSION GREATER_EQUAL 320)
   build_kernel(fence)
 endif()
diff --git a/mlx/backend/metal/kernels/mla_fused_sdpa.metal b/mlx/backend/metal/kernels/mla_fused_sdpa.metal
new file mode 100644
index 0000000000..40d9dd2ff1
--- /dev/null
+++ b/mlx/backend/metal/kernels/mla_fused_sdpa.metal
@@ -0,0 +1,477 @@
+// Copyright © 2026 Apple Inc. (sdpa_vector.h base) + MLA modifications
+
+// Fused quantized MLA SDPA for decode (L==1).
+// Based on sdpa_vector.h with:
+//   - INT4 affine dequant replacing fp16 key loads
+//   - Split nope/rope scoring
+//   - Latent reuse for value accumulation (dequant once, use twice)
+//   - Shared latent across heads (H_TILE heads per threadgroup)
+//
+// Replaces 5+ separate kernel dispatches with one fused kernel.
+// All intermediates stay in registers/threadgroup memory.
+
+#include <metal_stdlib>
+using namespace metal;
+
+// MLA dimensions (Mistral Small 4)
+constant uint MLA_D       = 256;  // kv_lora_rank (nope scoring + value dim)
+constant uint MLA_RD      = 64;   // qk_rope_head_dim
+constant uint MLA_GS      = 64;   // quantization group size
+constant uint MLA_NGROUPS = 4;    // MLA_D / MLA_GS
+constant uint MLA_WORDS   = 32;   // MLA_D / 8 (8 values per uint32 at 4-bit)
+
+// Thread organization
+// BN = 32 simdgroups process KV positions in parallel (same as sdpa_vector)
+// BD = 32 threads per simdgroup
+// Each thread handles 8 nope dims (256/32) and 2 rope dims (64/32)
+// H_TILE heads share the same dequanted latent via threadgroup memory
+constant uint BN = 32;
+constant uint BD = 32;
+
+template <typename T>
+[[kernel]] void mla_fused_sdpa(
+    const device T*        q_nope      [[buffer(0)]],   // [B, H, 256] post-embed_q, NOT pre-scaled
+    const device T*        q_pe        [[buffer(1)]],   // [B, H, 64] NOT pre-scaled
+    const device uint32_t* lat_packed  [[buffer(2)]],   // [B, S, 32] INT4 packed latent (shared)
+    const device T*        lat_scales  [[buffer(3)]],   // [B, S, 4] per-group scales
+    const device T*        lat_biases  [[buffer(4)]],   // [B, S, 4] per-group biases
+    const device T*        k_pe        [[buffer(5)]],   // [B, S, 64] fp16 RoPE keys (shared)
+    device T*              out         [[buffer(6)]],   // [B, H, 256] latent attention output
+    const constant uint&   B           [[buffer(7)]],
+    const constant uint&   H           [[buffer(8)]],
+    const constant uint&   S           [[buffer(9)]],
+    const constant float&  scale       [[buffer(10)]],  // attention scale, applied at query load
+    uint3  tid       [[threadgroup_position_in_grid]],
+    uint   simd_gid  [[simdgroup_index_in_threadgroup]],
+    uint   simd_lid  [[thread_index_in_simdgroup]]) {
+
+    // tid.x = head index (one per head, not head-tiled for v1)
+    // tid.y = batch index
+    const uint head_idx = tid.x;
+    const uint batch_idx = tid.y;
+
+    if (head_idx >= H || batch_idx >= B) return;
+
+    typedef float U;
+
+    // --- Load query into registers with scale applied (sdpa_vector.h pattern) ---
+    // Scale applied once at load, not per KV position
+    // 8 nope dims per thread (256 / 32 = 8)
+    thread U q_n[8];
+    const device T* q_nope_ptr = q_nope + (batch_idx * H + head_idx) * MLA_D;
+    for (uint i = 0; i < 8; i++) {
+        q_n[i] = static_cast<U>(scale) * static_cast<U>(q_nope_ptr[simd_lid * 8 + i]);
+    }
+
+    // 2 rope dims per thread (64 / 32 = 2)
+    thread U q_r[2];
+    const device T* q_pe_ptr = q_pe + (batch_idx * H + head_idx) * MLA_RD;
+    for (uint i = 0; i < 2; i++) {
+        q_r[i] = static_cast<U>(scale) * static_cast<U>(q_pe_ptr[simd_lid * 2 + i]);
+    }
+
+    // --- Output accumulator (256 latent dims, 8 per thread) ---
+    thread U o[8] = {0, 0, 0, 0, 0, 0, 0, 0};
+
+    // --- Online softmax state ---
+    U max_score = -1e20f;
+    U sum_exp_score = 0;
+
+    // --- Threadgroup memory for cross-simdgroup reduction ---
+    threadgroup U tg_max[BN];
+    threadgroup U tg_sum[BN];
+    threadgroup U tg_out[BN * BD];  // BN simdgroups × 32 threads for output transpose
+
+    // --- Base pointers for this batch (latent is shared across heads) ---
+    const uint lat_base = batch_idx * S;
+    const uint kpe_base = batch_idx * S * MLA_RD;
+
+    // --- Main loop: process KV positions distributed across simdgroups ---
+    // Each simdgroup handles positions: simd_gid, simd_gid + BN, simd_gid + 2*BN, ...
+    for (uint s = simd_gid; s < S; s += BN) {
+
+        // 1. DEQUANT latent[s] — one uint32 word per thread = 8 values
+        //    Thread simd_lid reads word simd_lid (32 words = 256 values)
+        uint word = lat_packed[(lat_base + s) * MLA_WORDS + simd_lid];
+        uint group = simd_lid / 8;  // 8 words per group, 4 groups total
+        U scale = static_cast<U>(lat_scales[(lat_base + s) * MLA_NGROUPS + group]);
+        U bias  = static_cast<U>(lat_biases[(lat_base + s) * MLA_NGROUPS + group]);
+
+        thread U lat[8];
+        for (uint i = 0; i < 8; i++) {
+            uint raw = (word >> (i * 4)) & 0xFu;
+            lat[i] = static_cast<U>(raw) * scale + bias;
+        }
+
+        // 2. NOPE SCORE — dot(q_nope, dequanted_latent) via simd_sum
+        U nope_partial = 0;
+        for (uint i = 0; i < 8; i++) {
+            nope_partial += q_n[i] * lat[i];
+        }
+        U nope_score = simd_sum(nope_partial);
+
+        // 3. ROPE SCORE — dot(q_pe, k_pe[s]) via simd_sum
+        U rope_partial = 0;
+        for (uint i = 0; i < 2; i++) {
+            uint elem = simd_lid * 2 + i;
+            rope_partial += q_r[i] * static_cast<U>(k_pe[kpe_base + s * MLA_RD + elem]);
+        }
+        U rope_score = simd_sum(rope_partial);
+
+        // 4. COMBINED SCORE + ONLINE SOFTMAX
+        U score = nope_score + rope_score;
+        U new_max = max(max_score, score);
+        U factor = fast::exp(max_score - new_max);
+        U exp_score = fast::exp(score - new_max);
+
+        max_score = new_max;
+        sum_exp_score = sum_exp_score * factor + exp_score;
+
+        // 5. ACCUMULATE VALUE — reuse dequanted latent (no re-read!)
+        for (uint i = 0; i < 8; i++) {
+            o[i] = o[i] * factor + exp_score * lat[i];
+        }
+    }
+
+    // --- Cross-simdgroup reduction (same pattern as sdpa_vector.h) ---
+
+    // Store per-simdgroup state
+    if (simd_lid == 0) {
+        tg_max[simd_gid] = max_score;
+        tg_sum[simd_gid] = sum_exp_score;
+    }
+    threadgroup_barrier(mem_flags::mem_threadgroup);
+
+    // Find global max and compute correction factors
+    max_score = tg_max[simd_lid];
+    U new_max = simd_max(max_score);
+    U factor = fast::exp(max_score - new_max);
+    sum_exp_score = simd_sum(tg_sum[simd_lid] * factor);
+
+    // Aggregate outputs across simdgroups
+    // Each thread has 8 output dims. We need to combine across BN simdgroups.
+    // Use the sdpa_vector transpose trick: each iteration handles one of the 8 dims.
+    for (uint i = 0; i < 8; i++) {
+        tg_out[simd_lid * BD + simd_gid] = o[i];
+        threadgroup_barrier(mem_flags::mem_threadgroup);
+        o[i] = simd_sum(tg_out[simd_gid * BD + simd_lid] * factor);
+        o[i] = sum_exp_score == 0 ? o[i] : (o[i] / sum_exp_score);
+        threadgroup_barrier(mem_flags::mem_threadgroup);
+    }
+
+    // --- Write output ---
+    // Output: [B, H, 256] — each head's latent attention result
+    if (simd_lid == 0) {
+        device T* out_ptr = out + (batch_idx * H + head_idx) * MLA_D;
+        for (uint i = 0; i < 8; i++) {
+            out_ptr[simd_gid * 8 + i] = static_cast<T>(o[i]);
+        }
+    }
+}
+
+// =============================================================================
+// V2: Fused SDPA + direct cache update (eliminates SliceUpdate copy)
+//
+// Same SDPA logic as v1, plus:
+//   - Quantizes new token in-kernel → threadgroup memory (source of truth)
+//   - Writes quantized data to cache at position S (persistence only)
+//   - SDPA loop reads new token from threadgroup memory, NOT from cache
+//   - Cache buffers are read+write (non-const) for direct append
+//
+// Contract: decode only, B=1, exact MLA dims, append exactly 1 token.
+// =============================================================================
+
+template <typename T>
+[[kernel]] void mla_fused_sdpa_v2(
+    const device T*        q_nope      [[buffer(0)]],   // [B, H, 256]
+    const device T*        q_pe        [[buffer(1)]],   // [B, H, 64]
+    device uint32_t*       cache_packed [[buffer(2)]],   // [B, S_alloc, 32] read+write
+    device T*              cache_scales [[buffer(3)]],   // [B, S_alloc, 4]  read+write
+    device T*              cache_biases [[buffer(4)]],   // [B, S_alloc, 4]  read+write
+    device T*              cache_kpe    [[buffer(5)]],   // [B, S_alloc, 64] read+write
+    const device T*        new_latent   [[buffer(6)]],   // [B, 1, 256] raw fp16
+    const device T*        new_kpe      [[buffer(7)]],   // [B, 1, 64]  fp16
+    device T*              out          [[buffer(8)]],   // [B, H, 256]
+    const constant uint&   B            [[buffer(9)]],
+    const constant uint&   H            [[buffer(10)]],
+    const constant uint&   S            [[buffer(11)]],  // current occupancy (0..S-1 valid)
+    const constant uint&   S_alloc      [[buffer(12)]],  // allocated cache dimension
+    const constant float&  attn_scale   [[buffer(13)]],
+    uint3  tid       [[threadgroup_position_in_grid]],
+    uint   simd_gid  [[simdgroup_index_in_threadgroup]],
+    uint   simd_lid  [[thread_index_in_simdgroup]]) {
+
+    const uint head_idx = tid.x;
+    const uint batch_idx = tid.y;
+    if (head_idx >= H || batch_idx >= B) return;
+
+    typedef float U;
+
+    // --- Threadgroup memory: new token (quantized, kept here for SDPA) ---
+    threadgroup uint32_t tg_new_packed[MLA_WORDS];     // 32 words = 256 values
+    threadgroup U        tg_new_scales[MLA_NGROUPS];   // 4 group scales (float)
+    threadgroup U        tg_new_biases[MLA_NGROUPS];   // 4 group biases (float)
+    threadgroup U        tg_new_kpe[MLA_RD];           // 64 RoPE values (float)
+
+    // --- Existing threadgroup memory for cross-simdgroup reduction ---
+    // Padding on tg_out avoids 32-way bank conflicts during transpose
+    // (stride 32 with 32 banks = all threads hit same bank on transposed read)
+    threadgroup U tg_max[BN];
+    threadgroup U tg_sum[BN];
+    threadgroup U tg_out[BN * (BD + 1)];  // stride 33 avoids bank conflicts in transpose
+
+    const uint cache_base = batch_idx * S_alloc;
+
+    // =================================================================
+    // PHASE 1: Quantize new token → threadgroup memory + cache persist
+    // Simdgroup 0 handles quantize (32 threads, 8 values each — proven pattern)
+    // =================================================================
+
+    if (simd_gid == 0) {
+        // --- Quantize new_latent (same pattern as mla_quantize_store) ---
+        const device T* lat_ptr = new_latent + batch_idx * MLA_D;
+        float vals[8];
+        #pragma clang loop unroll(full)
+        for (uint i = 0; i < 8; i++) {
+            vals[i] = static_cast<float>(lat_ptr[simd_lid * 8 + i]);
+        }
+
+        // Per-group min/max via simd_shuffle_xor (groups of 8 threads)
+        float local_min = vals[0], local_max = vals[0];
+        #pragma clang loop unroll(full)
+        for (uint i = 1; i < 8; i++) {
+            local_min = min(local_min, vals[i]);
+            local_max = max(local_max, vals[i]);
+        }
+        for (uint delta = 1; delta <= 4; delta <<= 1) {
+            float other_min = simd_shuffle_xor(local_min, static_cast<ushort>(delta));
+            float other_max = simd_shuffle_xor(local_max, static_cast<ushort>(delta));
+            local_min = min(local_min, other_min);
+            local_max = max(local_max, other_max);
+        }
+
+        float scale_val = (local_max - local_min) / 15.0f;
+        float inv_scale = (scale_val > 0.0f) ? (1.0f / scale_val) : 0.0f;
+        float bias_val = local_min;
+
+        // Quantize and pack
+        uint packed_word = 0;
+        #pragma clang loop unroll(full)
+        for (uint i = 0; i < 8; i++) {
+            float normalized = (vals[i] - bias_val) * inv_scale;
+            uint q = static_cast<uint>(clamp(rint(normalized), 0.0f, 15.0f));
+            packed_word |= (q << (i * 4));
+        }
+
+        // Write to threadgroup memory (source of truth for SDPA)
+        tg_new_packed[simd_lid] = packed_word;
+        uint group = simd_lid / 8;
+        if ((simd_lid & 7) == 0) {
+            tg_new_scales[group] = scale_val;
+            tg_new_biases[group] = bias_val;
+        }
+
+        // Write to cache for persistence — only head 0 writes (all heads compute
+        // identical results since latent is shared, avoid redundant writes)
+        if (head_idx == 0) {
+            cache_packed[(cache_base + S) * MLA_WORDS + simd_lid] = packed_word;
+            if ((simd_lid & 7) == 0) {
+                cache_scales[(cache_base + S) * MLA_NGROUPS + group] = static_cast<T>(scale_val);
+                cache_biases[(cache_base + S) * MLA_NGROUPS + group] = static_cast<T>(bias_val);
+            }
+        }
+
+        // Copy new_kpe to threadgroup memory + cache (2 values per thread)
+        const device T* kpe_ptr = new_kpe + batch_idx * MLA_RD;
+        #pragma clang loop unroll(full)
+        for (uint i = 0; i < 2; i++) {
+            uint elem = simd_lid * 2 + i;
+            U val = static_cast<U>(kpe_ptr[elem]);
+            tg_new_kpe[elem] = val;
+            if (head_idx == 0) {
+                cache_kpe[(cache_base + S) * MLA_RD + elem] = static_cast<T>(val);
+            }
+        }
+    }
+
+    threadgroup_barrier(mem_flags::mem_threadgroup);
+
+    // =================================================================
+    // PHASE 2: Load queries with scale (same as v1)
+    // =================================================================
+
+    thread U q_n[8];
+    const device T* q_nope_ptr = q_nope + (batch_idx * H + head_idx) * MLA_D;
+    #pragma clang loop unroll(full)
+    for (uint i = 0; i < 8; i++) {
+        q_n[i] = static_cast<U>(attn_scale) * static_cast<U>(q_nope_ptr[simd_lid * 8 + i]);
+    }
+
+    thread U q_r[2];
+    const device T* q_pe_ptr = q_pe + (batch_idx * H + head_idx) * MLA_RD;
+    #pragma clang loop unroll(full)
+    for (uint i = 0; i < 2; i++) {
+        q_r[i] = static_cast<U>(attn_scale) * static_cast<U>(q_pe_ptr[simd_lid * 2 + i]);
+    }
+
+    // Output accumulator + online softmax state
+    thread U o[8] = {0, 0, 0, 0, 0, 0, 0, 0};
+    U max_score = -1e20f;
+    U sum_exp_score = 0;
+
+    // =================================================================
+    // PHASE 3: SDPA loop over positions 0..S (S inclusive = new token)
+    // 0..S-1: read from cache (device memory)
+    // S: read from threadgroup memory (new token, NOT reread from cache)
+    // =================================================================
+
+    const uint total_S = S + 1;
+
+    for (uint s = simd_gid; s < total_S; s += BN) {
+
+        thread U lat[8];
+        U rope_partial = 0;
+
+        if (s < S) {
+            // --- Existing cache entry: read from device memory ---
+            uint word = cache_packed[(cache_base + s) * MLA_WORDS + simd_lid];
+            uint group = simd_lid / 8;
+            U sc = static_cast<U>(cache_scales[(cache_base + s) * MLA_NGROUPS + group]);
+            U bi = static_cast<U>(cache_biases[(cache_base + s) * MLA_NGROUPS + group]);
+
+            #pragma clang loop unroll(full)
+            for (uint i = 0; i < 8; i++) {
+                uint raw = (word >> (i * 4)) & 0xFu;
+                lat[i] = static_cast<U>(raw) * sc + bi;
+            }
+
+            #pragma clang loop unroll(full)
+            for (uint i = 0; i < 2; i++) {
+                uint elem = simd_lid * 2 + i;
+                rope_partial += q_r[i] * static_cast<U>(cache_kpe[(cache_base + s) * MLA_RD + elem]);
+            }
+        } else {
+            // --- New token: read from threadgroup memory ---
+            uint word = tg_new_packed[simd_lid];
+            uint group = simd_lid / 8;
+            U sc = tg_new_scales[group];
+            U bi = tg_new_biases[group];
+
+            #pragma clang loop unroll(full)
+            for (uint i = 0; i < 8; i++) {
+                uint raw = (word >> (i * 4)) & 0xFu;
+                lat[i] = static_cast<U>(raw) * sc + bi;
+            }
+
+            #pragma clang loop unroll(full)
+            for (uint i = 0; i < 2; i++) {
+                uint elem = simd_lid * 2 + i;
+                rope_partial += q_r[i] * tg_new_kpe[elem];
+            }
+        }
+
+        // Nope score via simd_sum
+        U nope_partial = 0;
+        #pragma clang loop unroll(full)
+        for (uint i = 0; i < 8; i++) {
+            nope_partial += q_n[i] * lat[i];
+        }
+        U nope_score = simd_sum(nope_partial);
+        U rope_score = simd_sum(rope_partial);
+
+        // Online softmax
+        U score = nope_score + rope_score;
+        U new_max = max(max_score, score);
+        U factor = fast::exp(max_score - new_max);
+        U exp_score = fast::exp(score - new_max);
+
+        max_score = new_max;
+        sum_exp_score = sum_exp_score * factor + exp_score;
+
+        // Value accumulation (reuse dequanted latent)
+        #pragma clang loop unroll(full)
+        for (uint i = 0; i < 8; i++) {
+            o[i] = o[i] * factor + exp_score * lat[i];
+        }
+    }
+
+    // =================================================================
+    // PHASE 4: Cross-simdgroup reduction (identical to v1)
+    // =================================================================
+
+    if (simd_lid == 0) {
+        tg_max[simd_gid] = max_score;
+        tg_sum[simd_gid] = sum_exp_score;
+    }
+    threadgroup_barrier(mem_flags::mem_threadgroup);
+
+    max_score = tg_max[simd_lid];
+    U new_max = simd_max(max_score);
+    U factor = fast::exp(max_score - new_max);
+    sum_exp_score = simd_sum(tg_sum[simd_lid] * factor);
+
+    // Padded stride for bank-conflict-free transpose
+    const uint TG_STRIDE = BD + 1;  // 33 instead of 32
+
+    #pragma clang loop unroll(full)
+    for (uint i = 0; i < 8; i++) {
+        tg_out[simd_lid * TG_STRIDE + simd_gid] = o[i];
+        threadgroup_barrier(mem_flags::mem_threadgroup);
+        o[i] = simd_sum(tg_out[simd_gid * TG_STRIDE + simd_lid] * factor);
+        o[i] = sum_exp_score == 0 ? o[i] : (o[i] / sum_exp_score);
+        threadgroup_barrier(mem_flags::mem_threadgroup);
+    }
+
+    // Write attention output
+    if (simd_lid == 0) {
+        device T* out_ptr = out + (batch_idx * H + head_idx) * MLA_D;
+        #pragma clang loop unroll(full)
+        for (uint i = 0; i < 8; i++) {
+            out_ptr[simd_gid * 8 + i] = static_cast<T>(o[i]);
+        }
+    }
+}
+
+// =============================================================================
+// V1 Entry points (kept for backward compatibility)
+// =============================================================================
+
+// Entry points
+template [[host_name("mla_fused_sdpa_f16")]]
+[[kernel]] void mla_fused_sdpa<half>(
+    const device half*, const device half*,
+    const device uint32_t*, const device half*, const device half*,
+    const device half*, device half*,
+    const constant uint&, const constant uint&, const constant uint&,
+    const constant float&,
+    uint3, uint, uint);
+
+template [[host_name("mla_fused_sdpa_bf16")]]
+[[kernel]] void mla_fused_sdpa<bfloat>(
+    const device bfloat*, const device bfloat*,
+    const device uint32_t*, const device bfloat*, const device bfloat*,
+    const device bfloat*, device bfloat*,
+    const constant uint&, const constant uint&, const constant uint&,
+    const constant float&,
+    uint3, uint, uint);
+
+// V2 Entry points
+template [[host_name("mla_fused_sdpa_v2_f16")]]
+[[kernel]] void mla_fused_sdpa_v2<half>(
+    const device half*, const device half*,
+    device uint32_t*, device half*, device half*, device half*,
+    const device half*, const device half*,
+    device half*,
+    const constant uint&, const constant uint&, const constant uint&,
+    const constant uint&, const constant float&,
+    uint3, uint, uint);
+
+template [[host_name("mla_fused_sdpa_v2_bf16")]]
+[[kernel]] void mla_fused_sdpa_v2<bfloat>(
+    const device bfloat*, const device bfloat*,
+    device uint32_t*, device bfloat*, device bfloat*, device bfloat*,
+    const device bfloat*, const device bfloat*,
+    device bfloat*,
+    const constant uint&, const constant uint&, const constant uint&,
+    const constant uint&, const constant float&,
+    uint3, uint, uint);
diff --git a/mlx/backend/metal/kernels/mla_nope_scores.metal b/mlx/backend/metal/kernels/mla_nope_scores.metal
new file mode 100644
index 0000000000..c37008e2f6
--- /dev/null
+++ b/mlx/backend/metal/kernels/mla_nope_scores.metal
@@ -0,0 +1,203 @@
+#include <metal_stdlib>
+using namespace metal;
+
+// -----------------------------------------------------------------------------
+// MLA shared-latent nope score kernel
+//
+// Computes:
+//   scores[b, h, s] = scale * sum_{k=0..255}( q_nope[b,h,k] * dequant(k_latent[b,s,k]) )
+//
+// Inputs:
+//   q_nope      : [B, H, 256]           half or bfloat
+//   k_packed    : [B, S, 32]            uint32 packed INT4 (8 vals/word, 32 words total)
+//   k_scales    : [B, S, 4]             float32 scale per 64-dim group
+//   k_biases    : [B, S, 4]             float32 bias  per 64-dim group
+//
+// Output:
+//   out_scores  : [B, H, S]             float32
+//
+// Quantization:
+//   D = 256, group_size = 64, 4 groups total
+//   each 64-dim group uses 8 uint32 words
+//   each uint32 packs 8 x 4-bit values
+//
+// Tiling strategy:
+//   - one threadgroup handles one (batch, seq_position, head_tile)
+//   - latent for that seq position is dequantized once per 64-dim group
+//   - reused across H_TILE heads in the threadgroup
+//
+// Recommended host dispatch:
+//   threadsPerThreadgroup = MTLSizeMake(32, H_TILE, 1)
+//   threadgroupsPerGrid   = MTLSizeMake(ceil_div(H, H_TILE), S, B)
+//
+// Notes:
+//   - This is the correct V1 external-extension kernel.
+//   - It is intentionally narrow: scores only.
+//   - It uses tiled/shared memory and simdgroup reduction.
+//   - If this proves a win, the next step is MLX-core/upstream integration.
+// -----------------------------------------------------------------------------
+
+constant uint MLA_D                = 256;
+constant uint MLA_GROUP_SIZE       = 64;
+constant uint MLA_NUM_GROUPS       = 4;
+constant uint MLA_WORDS_PER_GROUP  = 8;   // 64 dims / 8 vals per word
+constant uint MLA_TOTAL_WORDS      = 32;  // 256 dims / 8 vals per word
+constant uint MLA_H_TILE           = 8;   // 8 heads per threadgroup (256 threads total)
+
+// ----------------------------- Helpers ----------------------------------------
+
+inline uint unpack_int4(uint packed_word, uint nibble_idx) {
+    return (packed_word >> (nibble_idx * 4)) & 0xFu;
+}
+
+inline float dequant_int4_affine(uint q, float scale, float bias) {
+    return fma((float)q, scale, bias);
+}
+
+// q_nope dtype-generic load helper
+template <typename T>
+inline float load_q(device const T* q_ptr, uint idx) {
+    return float(q_ptr[idx]);
+}
+
+// -------------------------- Core kernel body ----------------------------------
+
+template <typename T>
+inline void mla_nope_scores_shared_latent_impl(
+    device const T*        q_nope,      // [B,H,256]
+    device const uint*     k_packed,    // [B,S,32]
+    device const half*     k_scales,    // [B,S,4] float16
+    device const half*     k_biases,    // [B,S,4] float16
+    device float*          out_scores,  // [B,H,S]
+    constant uint&         B,
+    constant uint&         H,
+    constant uint&         S,
+    constant float&        score_scale,
+    threadgroup float*     k_tile,      // [MLA_GROUP_SIZE] shared memory
+    ushort3                tid,         // thread_position_in_threadgroup
+    uint3                  tgid         // threadgroup_position_in_grid
+) {
+    // Threadgroup maps:
+    //   tgid.x = head tile index
+    //   tgid.y = seq position
+    //   tgid.z = batch index
+    //
+    // Thread position maps:
+    //   tid.x = lane within simdgroup [0..31]
+    //   tid.y = head row within tile [0..MLA_H_TILE-1]
+
+    const uint lane   = tid.x;               // 0..31
+    const uint h_tile = tgid.x;
+    const uint s_idx  = tgid.y;
+    const uint b_idx  = tgid.z;
+    const uint h_idx  = h_tile * MLA_H_TILE + tid.y;
+
+    if (b_idx >= B || s_idx >= S) {
+        return;
+    }
+
+    float acc = 0.0f;
+
+    // Base pointers for this (b, s)
+    const uint packed_base = ((b_idx * S) + s_idx) * MLA_TOTAL_WORDS;   // 32 words
+    const uint q_base      = ((b_idx * H) + h_idx) * MLA_D;
+
+    // Process 4 x 64-dim groups
+    for (uint g = 0; g < MLA_NUM_GROUPS; ++g) {
+        // Dequantize latent once for this sequence position and group.
+        // Only tid.y == 0 participates in the load/dequant work.
+        if (tid.y == 0) {
+            const float scale = float(k_scales[((b_idx * S) + s_idx) * MLA_NUM_GROUPS + g]);
+            const float bias  = float(k_biases[((b_idx * S) + s_idx) * MLA_NUM_GROUPS + g]);
+
+            // 32 lanes dequantize 2 values each => 64 values total
+            const uint d0 = lane;        // 0..31
+            const uint d1 = lane + 32;   // 32..63
+
+            // map dim within group -> packed word + nibble
+            const uint word_idx0   = packed_base + g * MLA_WORDS_PER_GROUP + (d0 >> 3);
+            const uint nibble_idx0 = d0 & 7;
+            const uint word0       = k_packed[word_idx0];
+            const uint qv0         = unpack_int4(word0, nibble_idx0);
+            k_tile[d0]             = dequant_int4_affine(qv0, scale, bias);
+
+            const uint word_idx1   = packed_base + g * MLA_WORDS_PER_GROUP + (d1 >> 3);
+            const uint nibble_idx1 = d1 & 7;
+            const uint word1       = k_packed[word_idx1];
+            const uint qv1         = unpack_int4(word1, nibble_idx1);
+            k_tile[d1]             = dequant_int4_affine(qv1, scale, bias);
+        }
+
+        threadgroup_barrier(mem_flags::mem_threadgroup);
+
+        // Each head row computes dot product against the shared 64-dim tile.
+        if (h_idx < H) {
+            const uint q_group_base = q_base + g * MLA_GROUP_SIZE;
+
+            // 32 lanes each handle 2 q*k products
+            const float q0 = load_q(q_nope, q_group_base + lane);
+            const float q1 = load_q(q_nope, q_group_base + lane + 32);
+
+            float partial = q0 * k_tile[lane] + q1 * k_tile[lane + 32];
+
+            // Reduce across the 32 lanes for this head row.
+            float sum64 = simd_sum(partial);
+
+            // lane 0 writes the per-group contribution into acc
+            if (lane == 0) {
+                acc += sum64;
+            }
+        }
+
+        threadgroup_barrier(mem_flags::mem_threadgroup);
+    }
+
+    // Final write: one thread per (b,h,s)
+    if (h_idx < H && lane == 0) {
+        out_scores[((b_idx * H) + h_idx) * S + s_idx] = acc * score_scale;
+    }
+}
+
+// ---------------------------- Entry points ------------------------------------
+
+// half input
+kernel void mla_nope_scores_shared_latent_f16(
+    device const half*     q_nope      [[buffer(0)]],
+    device const uint*     k_packed    [[buffer(1)]],
+    device const half*     k_scales    [[buffer(2)]],
+    device const half*     k_biases    [[buffer(3)]],
+    device float*          out_scores  [[buffer(4)]],
+    constant uint&         B           [[buffer(5)]],
+    constant uint&         H           [[buffer(6)]],
+    constant uint&         S           [[buffer(7)]],
+    constant float&        score_scale [[buffer(8)]],
+    ushort3                tid         [[thread_position_in_threadgroup]],
+    uint3                  tgid        [[threadgroup_position_in_grid]]
+) {
+    threadgroup float k_tile[MLA_GROUP_SIZE];
+    mla_nope_scores_shared_latent_impl(
+        q_nope, k_packed, k_scales, k_biases, out_scores,
+        B, H, S, score_scale, k_tile, tid, tgid
+    );
+}
+
+// bfloat16 input
+kernel void mla_nope_scores_shared_latent_bf16(
+    device const bfloat*   q_nope      [[buffer(0)]],
+    device const uint*     k_packed    [[buffer(1)]],
+    device const half*     k_scales    [[buffer(2)]],
+    device const half*     k_biases    [[buffer(3)]],
+    device float*          out_scores  [[buffer(4)]],
+    constant uint&         B           [[buffer(5)]],
+    constant uint&         H           [[buffer(6)]],
+    constant uint&         S           [[buffer(7)]],
+    constant float&        score_scale [[buffer(8)]],
+    ushort3                tid         [[thread_position_in_threadgroup]],
+    uint3                  tgid        [[threadgroup_position_in_grid]]
+) {
+    threadgroup float k_tile[MLA_GROUP_SIZE];
+    mla_nope_scores_shared_latent_impl(
+        q_nope, k_packed, k_scales, k_biases, out_scores,
+        B, H, S, score_scale, k_tile, tid, tgid
+    );
+}
diff --git a/mlx/backend/metal/kernels/mla_quantize_store.metal b/mlx/backend/metal/kernels/mla_quantize_store.metal
new file mode 100644
index 0000000000..e2bca3b574
--- /dev/null
+++ b/mlx/backend/metal/kernels/mla_quantize_store.metal
@@ -0,0 +1,88 @@
+// Fused INT4 affine quantization for MLA latent cache.
+// Replaces mx.quantize multi-dispatch overhead with a single kernel.
+// Optimized for MLA dimensions: 256 latent, group_size=64, 4-bit.
+//
+// One simdgroup (32 threads) per 256-dim vector.
+// Each thread handles 8 values. 4 groups of 64 values each.
+// Per-group min/max reduction via simd_shuffle_xor (stays within group of 8).
+
+#include <metal_stdlib>
+using namespace metal;
+
+constant uint MLA_D       = 256;  // latent dimension
+constant uint MLA_GS      = 64;   // quantization group size
+constant uint MLA_NGROUPS = 4;    // MLA_D / MLA_GS
+constant uint MLA_WORDS   = 32;   // MLA_D / 8 (8 values per uint32 at 4-bit)
+
+template <typename T>
+[[kernel]] void mla_quantize_store(
+    const device T*        input   [[buffer(0)]],   // [N, 256] fp16 latent vectors
+    device uint32_t*       packed  [[buffer(1)]],   // [N, 32] output packed
+    device T*              scales  [[buffer(2)]],   // [N, 4] output scales
+    device T*              biases  [[buffer(3)]],   // [N, 4] output biases
+    const constant uint&   N       [[buffer(4)]],   // total vectors (B * L)
+    uint3  tid       [[threadgroup_position_in_grid]],
+    uint   simd_lid  [[thread_index_in_simdgroup]]) {
+
+    const uint vec_idx = tid.x;
+    if (vec_idx >= N) return;
+
+    // Read 8 values for this thread (256 / 32 = 8)
+    const device T* src = input + vec_idx * MLA_D;
+    float vals[8];
+    for (uint i = 0; i < 8; i++) {
+        vals[i] = static_cast<float>(src[simd_lid * 8 + i]);
+    }
+
+    // Per-thread local min/max across 8 values
+    float local_min = vals[0], local_max = vals[0];
+    for (uint i = 1; i < 8; i++) {
+        local_min = min(local_min, vals[i]);
+        local_max = max(local_max, vals[i]);
+    }
+
+    // Reduce min/max across 8 threads in group via simd_shuffle_xor
+    // Groups of 8 threads: XOR with 1, 2, 4 stays within group boundaries
+    for (uint delta = 1; delta <= 4; delta <<= 1) {
+        float other_min = simd_shuffle_xor(local_min, static_cast<ushort>(delta));
+        float other_max = simd_shuffle_xor(local_max, static_cast<ushort>(delta));
+        local_min = min(local_min, other_min);
+        local_max = max(local_max, other_max);
+    }
+
+    // All 8 threads in group now have the same min/max
+    float scale_val = (local_max - local_min) / 15.0f;
+    float inv_scale = (scale_val > 0.0f) ? (1.0f / scale_val) : 0.0f;
+    float bias_val = local_min;
+
+    // Quantize and pack 8 values into one uint32
+    uint packed_word = 0;
+    for (uint i = 0; i < 8; i++) {
+        float normalized = (vals[i] - bias_val) * inv_scale;
+        uint q = static_cast<uint>(clamp(rint(normalized), 0.0f, 15.0f));
+        packed_word |= (q << (i * 4));
+    }
+
+    // Write packed word
+    packed[vec_idx * MLA_WORDS + simd_lid] = packed_word;
+
+    // Write scale/bias (one thread per group — first thread in each group of 8)
+    uint group = simd_lid / 8;
+    if ((simd_lid & 7) == 0) {
+        scales[vec_idx * MLA_NGROUPS + group] = static_cast<T>(scale_val);
+        biases[vec_idx * MLA_NGROUPS + group] = static_cast<T>(bias_val);
+    }
+}
+
+// Entry points
+template [[host_name("mla_quantize_store_f16")]]
+[[kernel]] void mla_quantize_store<half>(
+    const device half*, device uint32_t*, device half*, device half*,
+    const constant uint&,
+    uint3, uint);
+
+template [[host_name("mla_quantize_store_bf16")]]
+[[kernel]] void mla_quantize_store<bfloat>(
+    const device bfloat*, device uint32_t*, device bfloat*, device bfloat*,
+    const constant uint&,
+    uint3, uint);
diff --git a/mlx/backend/metal/mla_fused_sdpa.cpp b/mlx/backend/metal/mla_fused_sdpa.cpp
new file mode 100644
index 0000000000..149779361f
--- /dev/null
+++ b/mlx/backend/metal/mla_fused_sdpa.cpp
@@ -0,0 +1,137 @@
+// Fused quantized MLA SDPA — Metal GPU dispatch
+// Based on scaled_dot_product_attention.cpp dispatch pattern
+
+#include "mlx/backend/metal/device.h"
+#include "mlx/backend/metal/utils.h"
+#include "mlx/fast_primitives.h"
+
+namespace mlx::core::fast {
+
+void MLAFusedSDPA::eval_gpu(
+    const std::vector<array>& inputs,
+    std::vector<array>& outputs) {
+  auto& q_nope    = inputs[0];  // [B, H, 256]
+  auto& q_pe      = inputs[1];  // [B, H, 64]
+  auto& lat_packed = inputs[2]; // [B, S, 32]
+  auto& lat_scales = inputs[3]; // [B, S, 4]
+  auto& lat_biases = inputs[4]; // [B, S, 4]
+  auto& k_pe      = inputs[5];  // [B, S, 64]
+  auto& out       = outputs[0]; // [B, H, 256]
+
+  const uint32_t B = static_cast<uint32_t>(q_nope.shape(0));
+  const uint32_t H = static_cast<uint32_t>(q_nope.shape(1));
+  const uint32_t S = static_cast<uint32_t>(lat_packed.shape(1));
+
+  out.set_data(allocator::malloc(out.nbytes()));
+
+  std::string kname;
+  if (q_nope.dtype() == float16) {
+    kname = "mla_fused_sdpa_f16";
+  } else if (q_nope.dtype() == bfloat16) {
+    kname = "mla_fused_sdpa_bf16";
+  } else {
+    throw std::runtime_error(
+        "MLAFusedSDPA: q_nope must be float16 or bfloat16");
+  }
+
+  auto& s = stream();
+  auto& d = metal::device(s.device);
+  auto kernel = d.get_kernel(kname);
+
+  auto& enc = metal::get_command_encoder(s);
+  enc.set_compute_pipeline_state(kernel);
+
+  enc.set_input_array(q_nope, 0);
+  enc.set_input_array(q_pe, 1);
+  enc.set_input_array(lat_packed, 2);
+  enc.set_input_array(lat_scales, 3);
+  enc.set_input_array(lat_biases, 4);
+  enc.set_input_array(k_pe, 5);
+  enc.set_output_array(out, 6);
+
+  enc.set_bytes(B, 7);
+  enc.set_bytes(H, 8);
+  enc.set_bytes(S, 9);
+  enc.set_bytes(scale_, 10);
+
+  // One threadgroup per (head, batch)
+  // BN=32 simdgroups × BD=32 threads = 1024 threads per threadgroup
+  // Grid: (H, B, 1) — one threadgroup per head per batch
+  // Group: (1024, 1, 1) — flat, simdgroup_index handles the rest
+  enc.dispatch_threadgroups(
+      MTL::Size::Make(H, B, 1),
+      MTL::Size::Make(1024, 1, 1));
+}
+
+// V2: Fused SDPA + direct cache update (eliminates SliceUpdate)
+void MLAFusedSDPAWithCacheUpdate::eval_gpu(
+    const std::vector<array>& inputs,
+    std::vector<array>& outputs) {
+  auto& q_nope      = inputs[0];  // [B, H, 256]
+  auto& q_pe        = inputs[1];  // [B, H, 64]
+  auto& cache_packed = inputs[2]; // [B, S_alloc, 32]
+  auto& cache_scales = inputs[3]; // [B, S_alloc, 4]
+  auto& cache_biases = inputs[4]; // [B, S_alloc, 4]
+  auto& cache_kpe    = inputs[5]; // [B, S_alloc, 64]
+  auto& new_latent   = inputs[6]; // [B, 1, 256]
+  auto& new_kpe      = inputs[7]; // [B, 1, 64]
+
+  auto& sdpa_out     = outputs[0]; // [B, H, 256] — new allocation
+  auto& out_packed   = outputs[1]; // [B, S_alloc, 32] — aliased to cache_packed
+  auto& out_scales   = outputs[2]; // [B, S_alloc, 4]  — aliased to cache_scales
+  auto& out_biases   = outputs[3]; // [B, S_alloc, 4]  — aliased to cache_biases
+  auto& out_kpe      = outputs[4]; // [B, S_alloc, 64] — aliased to cache_kpe
+
+  const uint32_t B = static_cast<uint32_t>(q_nope.shape(0));
+  const uint32_t H = static_cast<uint32_t>(q_nope.shape(1));
+  const uint32_t S_alloc = static_cast<uint32_t>(cache_packed.shape(1));
+
+  // SDPA output — new allocation
+  sdpa_out.set_data(allocator::malloc(sdpa_out.nbytes()));
+
+  // Cache outputs — alias to input buffers (zero-copy, eliminates SliceUpdate)
+  out_packed.copy_shared_buffer(cache_packed);
+  out_scales.copy_shared_buffer(cache_scales);
+  out_biases.copy_shared_buffer(cache_biases);
+  out_kpe.copy_shared_buffer(cache_kpe);
+
+  std::string kname;
+  if (q_nope.dtype() == float16) {
+    kname = "mla_fused_sdpa_v2_f16";
+  } else if (q_nope.dtype() == bfloat16) {
+    kname = "mla_fused_sdpa_v2_bf16";
+  } else {
+    throw std::runtime_error(
+        "MLAFusedSDPAWithCacheUpdate: q_nope must be float16 or bfloat16");
+  }
+
+  auto& s = stream();
+  auto& d = metal::device(s.device);
+  auto kernel = d.get_kernel(kname);
+
+  auto& enc = metal::get_command_encoder(s);
+  enc.set_compute_pipeline_state(kernel);
+
+  enc.set_input_array(q_nope, 0);
+  enc.set_input_array(q_pe, 1);
+  // Cache arrays: set as OUTPUT (write tracking for barriers)
+  enc.set_output_array(out_packed, 2);
+  enc.set_output_array(out_scales, 3);
+  enc.set_output_array(out_biases, 4);
+  enc.set_output_array(out_kpe, 5);
+  enc.set_input_array(new_latent, 6);
+  enc.set_input_array(new_kpe, 7);
+  enc.set_output_array(sdpa_out, 8);
+
+  enc.set_bytes(B, 9);
+  enc.set_bytes(H, 10);
+  enc.set_bytes(seq_offset_, 11);   // S: current occupancy
+  enc.set_bytes(S_alloc, 12);
+  enc.set_bytes(scale_, 13);
+
+  enc.dispatch_threadgroups(
+      MTL::Size::Make(H, B, 1),
+      MTL::Size::Make(1024, 1, 1));
+}
+
+}  // namespace mlx::core::fast
diff --git a/mlx/backend/metal/mla_nope_scores.cpp b/mlx/backend/metal/mla_nope_scores.cpp
new file mode 100644
index 0000000000..fda09846a2
--- /dev/null
+++ b/mlx/backend/metal/mla_nope_scores.cpp
@@ -0,0 +1,67 @@
+// MLA shared-latent nope score — Metal GPU dispatch
+// Following the pattern from scaled_dot_product_attention.cpp
+
+#include "mlx/backend/metal/device.h"
+#include "mlx/backend/metal/utils.h"
+#include "mlx/fast_primitives.h"
+
+namespace mlx::core::fast {
+
+void MLANopeScores::eval_gpu(
+    const std::vector<array>& inputs,
+    std::vector<array>& outputs) {
+  auto& q_nope   = inputs[0];  // [B, H, 256]
+  auto& k_packed = inputs[1];  // [B, S, 32]
+  auto& k_scales = inputs[2];  // [B, S, 4]
+  auto& k_biases = inputs[3];  // [B, S, 4]
+  auto& out      = outputs[0]; // [B, H, S]
+
+  const uint32_t B = static_cast<uint32_t>(q_nope.shape(0));
+  const uint32_t H = static_cast<uint32_t>(q_nope.shape(1));
+  const uint32_t S = static_cast<uint32_t>(k_packed.shape(1));
+
+  out.set_data(allocator::malloc(out.nbytes()));
+
+  // Select kernel based on dtype
+  std::string kname;
+  if (q_nope.dtype() == float16) {
+    kname = "mla_nope_scores_shared_latent_f16";
+  } else if (q_nope.dtype() == bfloat16) {
+    kname = "mla_nope_scores_shared_latent_bf16";
+  } else {
+    throw std::runtime_error(
+        "MLANopeScores: q_nope must be float16 or bfloat16");
+  }
+
+  auto& s = stream();
+  auto& d = metal::device(s.device);
+
+  // The kernel is compiled into MLX's metallib
+  auto kernel = d.get_kernel(kname);
+
+  auto& enc = metal::get_command_encoder(s);
+  enc.set_compute_pipeline_state(kernel);
+
+  enc.set_input_array(q_nope, 0);
+  enc.set_input_array(k_packed, 1);
+  enc.set_input_array(k_scales, 2);
+  enc.set_input_array(k_biases, 3);
+  enc.set_output_array(out, 4);
+
+  enc.set_bytes(B, 5);
+  enc.set_bytes(H, 6);
+  enc.set_bytes(S, 7);
+  enc.set_bytes(scale_, 8);
+
+  constexpr size_t H_TILE = 8;
+  auto ceil_div = [](size_t x, size_t y) { return (x + y - 1) / y; };
+
+  enc.dispatch_threadgroups(
+      MTL::Size::Make(
+          ceil_div(static_cast<size_t>(H), H_TILE),
+          static_cast<size_t>(S),
+          static_cast<size_t>(B)),
+      MTL::Size::Make(32, H_TILE, 1));
+}
+
+}  // namespace mlx::core::fast
diff --git a/mlx/backend/metal/mla_quantize_store.cpp b/mlx/backend/metal/mla_quantize_store.cpp
new file mode 100644
index 0000000000..2fa1c323bc
--- /dev/null
+++ b/mlx/backend/metal/mla_quantize_store.cpp
@@ -0,0 +1,57 @@
+// Fused MLA quantize-on-store — Metal GPU dispatch
+
+#include "mlx/backend/metal/device.h"
+#include "mlx/backend/metal/utils.h"
+#include "mlx/fast_primitives.h"
+
+namespace mlx::core::fast {
+
+void MLAQuantizeStore::eval_gpu(
+    const std::vector<array>& inputs,
+    std::vector<array>& outputs) {
+  auto& input      = inputs[0];   // [..., 256]
+  auto& packed     = outputs[0];  // [..., 32]
+  auto& out_scales = outputs[1];  // [..., 4]
+  auto& out_biases = outputs[2];  // [..., 4]
+
+  // N = total vectors = product of all dims except last
+  uint32_t N = 1;
+  for (int i = 0; i < input.ndim() - 1; i++) {
+    N *= static_cast<uint32_t>(input.shape(i));
+  }
+
+  packed.set_data(allocator::malloc(packed.nbytes()));
+  out_scales.set_data(allocator::malloc(out_scales.nbytes()));
+  out_biases.set_data(allocator::malloc(out_biases.nbytes()));
+
+  std::string kname;
+  if (input.dtype() == float16) {
+    kname = "mla_quantize_store_f16";
+  } else if (input.dtype() == bfloat16) {
+    kname = "mla_quantize_store_bf16";
+  } else {
+    throw std::runtime_error(
+        "MLAQuantizeStore: input must be float16 or bfloat16");
+  }
+
+  auto& s = stream();
+  auto& d = metal::device(s.device);
+  auto kernel = d.get_kernel(kname);
+
+  auto& enc = metal::get_command_encoder(s);
+  enc.set_compute_pipeline_state(kernel);
+
+  enc.set_input_array(input, 0);
+  enc.set_output_array(packed, 1);
+  enc.set_output_array(out_scales, 2);
+  enc.set_output_array(out_biases, 3);
+
+  enc.set_bytes(N, 4);
+
+  // One threadgroup (32 threads = 1 simdgroup) per vector
+  enc.dispatch_threadgroups(
+      MTL::Size::Make(N, 1, 1),
+      MTL::Size::Make(32, 1, 1));
+}
+
+}  // namespace mlx::core::fast
diff --git a/mlx/fast.cpp b/mlx/fast.cpp
index a668fe9abd..8f81eafb58 100644
--- a/mlx/fast.cpp
+++ b/mlx/fast.cpp
@@ -955,4 +955,216 @@ bool ConvertFP8::is_equivalent(const Primitive& other) const {
   return to_fp8_ == a_other.to_fp8_;
 }
 
+array mla_nope_scores(
+    const array& q_nope,
+    const array& k_packed,
+    const array& k_scales,
+    const array& k_biases,
+    float scale,
+    StreamOrDevice s) {
+
+  if (q_nope.ndim() != 3) {
+    throw std::invalid_argument("q_nope must be [B, H, 256]");
+  }
+  if (k_packed.ndim() != 3) {
+    throw std::invalid_argument("k_packed must be [B, S, 32]");
+  }
+  if (q_nope.shape(2) != 256) {
+    throw std::invalid_argument("q_nope last dim must be 256");
+  }
+  if (k_packed.shape(2) != 32) {
+    throw std::invalid_argument("k_packed last dim must be 32 (INT4 packed)");
+  }
+
+  auto B = q_nope.shape(0);
+  auto H = q_nope.shape(1);
+  auto S = k_packed.shape(1);
+
+  auto stream = to_stream(s);
+
+  // Fallback: dequant then matmul (for transforms + CPU)
+  auto fallback = [scale](std::vector<array> inputs) -> std::vector<array> {
+    auto& q = inputs[0];
+    auto& pk = inputs[1];
+    auto& sc = inputs[2];
+    auto& bi = inputs[3];
+    auto latent = dequantize(pk, sc, bi, 64, 4);
+    auto q_f32 = astype(q, float32);
+    auto lat_f32 = astype(latent, float32);
+    auto scores = matmul(q_f32, transpose(lat_f32, {0, 2, 1}));
+    return {multiply(array(scale), scores)};
+  };
+
+  auto out = array(
+      {B, H, S},
+      float32,
+      std::make_shared<MLANopeScores>(stream, fallback, scale),
+      {q_nope, k_packed, k_scales, k_biases});
+
+  return out;
+}
+
+array mla_fused_sdpa(
+    const array& q_nope,
+    const array& q_pe,
+    const array& lat_packed,
+    const array& lat_scales,
+    const array& lat_biases,
+    const array& k_pe,
+    float scale,
+    StreamOrDevice s) {
+
+  auto B = q_nope.shape(0);
+  auto H = q_nope.shape(1);
+  auto S = lat_packed.shape(1);
+
+  auto stream = to_stream(s);
+
+  // Fallback: dequant + standard attention (for transforms + CPU)
+  auto fallback = [scale](std::vector<array> inputs) -> std::vector<array> {
+    auto& qn = inputs[0];  // [B, H, 256]
+    auto& qp = inputs[1];  // [B, H, 64]
+    auto& pk = inputs[2];  // [B, S, 32]
+    auto& sc = inputs[3];  // [B, S, 4]
+    auto& bi = inputs[4];  // [B, S, 4]
+    auto& kp = inputs[5];  // [B, S, 64]
+
+    // Dequant latent
+    auto lat = dequantize(pk, sc, bi, 64, 4);
+    auto lat_f = astype(lat, float32);
+
+    // Nope scores
+    auto qn_f = astype(qn, float32);
+    auto nope = matmul(qn_f, transpose(lat_f, {0, 2, 1}));
+
+    // Rope scores
+    auto qp_f = astype(qp, float32);
+    auto kp_f = astype(kp, float32);
+    // kp is [B, S, 64], need [B, 64, S] for matmul
+    auto rope = matmul(qp_f, transpose(kp_f, {0, 2, 1}));
+
+    // Combined scores + softmax
+    auto scores = add(nope, rope);
+    auto weights = softmax(scores, -1);
+
+    // Value aggregation
+    auto output = matmul(weights, lat_f);
+    return {astype(output, qn.dtype())};
+  };
+
+  auto out = array(
+      {B, H, 256},
+      q_nope.dtype(),
+      std::make_shared<MLAFusedSDPA>(stream, fallback, scale),
+      {q_nope, q_pe, lat_packed, lat_scales, lat_biases, k_pe});
+
+  return out;
+}
+
+std::vector<array> mla_quantize_store(
+    const array& input,
+    StreamOrDevice s) {
+
+  auto stream = to_stream(s);
+
+  // Fallback: use standard quantize (for transforms + CPU)
+  auto fallback = [](std::vector<array> inputs) -> std::vector<array> {
+    return quantize(inputs[0], 64, 4);
+  };
+
+  // Output shapes: same leading dims, last dim changes
+  // packed: [..., 32] (256/8), scales: [..., 4] (256/64), biases: [..., 4]
+  auto shape = input.shape();
+  auto packed_shape = shape;
+  packed_shape.back() = 256 / 8;  // 32
+  auto scale_shape = shape;
+  scale_shape.back() = 256 / 64;  // 4
+
+  auto outputs = array::make_arrays(
+      {packed_shape, scale_shape, scale_shape},
+      {uint32, input.dtype(), input.dtype()},
+      std::make_shared<MLAQuantizeStore>(stream, fallback),
+      {input});
+
+  return outputs;
+}
+
+std::vector<array> mla_fused_sdpa_v2(
+    const array& q_nope,
+    const array& q_pe,
+    const array& cache_packed,
+    const array& cache_scales,
+    const array& cache_biases,
+    const array& cache_kpe,
+    const array& new_latent,
+    const array& new_kpe,
+    float scale,
+    uint32_t seq_offset,
+    StreamOrDevice s) {
+
+  auto stream = to_stream(s);
+
+  auto B = q_nope.shape(0);
+  auto H = q_nope.shape(1);
+
+  // Fallback: dequant + standard attention + quantize (for transforms + CPU)
+  auto fallback = [scale, seq_offset](
+      std::vector<array> inputs) -> std::vector<array> {
+    auto& qn = inputs[0];   // [B, H, 256]
+    auto& qp = inputs[1];   // [B, H, 64]
+    auto& cp = inputs[2];   // [B, S_alloc, 32]
+    auto& cs = inputs[3];   // [B, S_alloc, 4]
+    auto& cb = inputs[4];   // [B, S_alloc, 4]
+    auto& ck = inputs[5];   // [B, S_alloc, 64]
+    auto& nl = inputs[6];   // [B, 1, 256]
+    auto& nk = inputs[7];   // [B, 1, 64]
+
+    // Quantize new latent
+    auto q_data = quantize(nl, 64, 4);
+
+    // Dequant existing cache (0..seq_offset-1) + new token
+    auto S = static_cast<int>(seq_offset);
+    // For simplicity, just return the inputs unchanged as cache outputs
+    // (fallback is for graph transforms, not perf)
+    auto lat = dequantize(cp, cs, cb, 64, 4);
+    auto lat_f = astype(lat, float32);
+    auto qn_f = astype(qn, float32);
+    auto nope = matmul(qn_f, transpose(lat_f, {0, 2, 1}));
+    auto qp_f = astype(qp, float32);
+    auto ck_f = astype(ck, float32);
+    auto rope = matmul(qp_f, transpose(ck_f, {0, 2, 1}));
+    auto scores = add(nope, rope);
+    auto weights = softmax(scores, -1);
+    auto output = matmul(weights, lat_f);
+    auto sdpa_out = astype(output, qn.dtype());
+
+    return {sdpa_out, cp, cs, cb, ck};
+  };
+
+  // Output shapes:
+  // [0] sdpa_out: [B, H, 256]
+  // [1-4] cache arrays: same shape as inputs (aliased in eval_gpu)
+  auto outputs = array::make_arrays(
+      {
+        {B, H, 256},
+        cache_packed.shape(),
+        cache_scales.shape(),
+        cache_biases.shape(),
+        cache_kpe.shape()
+      },
+      {
+        q_nope.dtype(),
+        uint32,
+        q_nope.dtype(),
+        q_nope.dtype(),
+        q_nope.dtype()
+      },
+      std::make_shared<MLAFusedSDPAWithCacheUpdate>(
+          stream, fallback, scale, seq_offset),
+      {q_nope, q_pe, cache_packed, cache_scales, cache_biases,
+       cache_kpe, new_latent, new_kpe});
+
+  return outputs;
+}
+
 } // namespace mlx::core::fast
diff --git a/mlx/fast.h b/mlx/fast.h
index 1183aba8fe..3bc5acb470 100644
--- a/mlx/fast.h
+++ b/mlx/fast.h
@@ -100,4 +100,64 @@ MLX_API std::vector<array> precompiled_cuda_kernel(
     bool ensure_row_contiguous = false,
     StreamOrDevice s = {});
 
+/** MLA shared-latent nope scoring — first-class MLA primitive.
+ *
+ * Computes: scores[b,h,s] = scale * dot(q_nope[b,h,:], dequant(latent[b,s,:]))
+ * Latent is shared across all heads (no broadcast).
+ * INT4 affine dequant in-kernel.
+ */
+MLX_API array mla_nope_scores(
+    const array& q_nope,    // [B, H, 256] float16/bfloat16
+    const array& k_packed,  // [B, S, 32]  uint32 (INT4 packed)
+    const array& k_scales,  // [B, S, 4]   float32
+    const array& k_biases,  // [B, S, 4]   float32
+    float scale,
+    StreamOrDevice s = {});
+
+/** Fused quantized MLA SDPA for decode (L==1).
+ *
+ * Single kernel fusing: INT4 dequant + split nope/rope scoring +
+ * online softmax + value accumulation. Replaces 5+ separate dispatches.
+ * Output is latent attention result (pre-unembed).
+ */
+MLX_API array mla_fused_sdpa(
+    const array& q_nope,      // [B, H, 256] pre-scaled, post-embed_q
+    const array& q_pe,        // [B, H, 64]  pre-scaled
+    const array& lat_packed,  // [B, S, 32]  uint32 INT4 packed latent
+    const array& lat_scales,  // [B, S, 4]   fp16 scales
+    const array& lat_biases,  // [B, S, 4]   fp16 biases
+    const array& k_pe,        // [B, S, 64]  fp16 RoPE keys
+    float scale,
+    StreamOrDevice s = {});
+
+/**
+ * Fused INT4 affine quantization for MLA latent cache.
+ * Single kernel replacing mx.quantize multi-dispatch overhead
+ * for MLA dimensions (256 latent, group_size=64, 4-bit).
+ */
+MLX_API std::vector<array> mla_quantize_store(
+    const array& input,  // [..., 256] fp16 latent
+    StreamOrDevice s = {});
+
+/**
+ * Fused SDPA + direct cache update for MLA decode.
+ * Combines attention computation with in-place cache append,
+ * eliminating SliceUpdate full-cache copies.
+ *
+ * Returns: (sdpa_output, updated_packed, updated_scales, updated_biases, updated_kpe)
+ * Cache outputs are aliased to input buffers — zero-copy append.
+ */
+MLX_API std::vector<array> mla_fused_sdpa_v2(
+    const array& q_nope,       // [B, H, 256]
+    const array& q_pe,         // [B, H, 64]
+    const array& cache_packed, // [B, S_alloc, 32]
+    const array& cache_scales, // [B, S_alloc, 4]
+    const array& cache_biases, // [B, S_alloc, 4]
+    const array& cache_kpe,    // [B, S_alloc, 64]
+    const array& new_latent,   // [B, 1, 256]
+    const array& new_kpe,      // [B, 1, 64]
+    float scale,
+    uint32_t seq_offset,       // S: current cache occupancy
+    StreamOrDevice s = {});
+
 } // namespace mlx::core::fast
diff --git a/mlx/fast_primitives.h b/mlx/fast_primitives.h
index 4434830875..b01bd922b6 100644
--- a/mlx/fast_primitives.h
+++ b/mlx/fast_primitives.h
@@ -424,4 +424,107 @@ class CustomKernel : public Primitive {
   int shared_memory_;
 };
 
+class MLANopeScores : public Custom {
+ public:
+  MLANopeScores(
+      Stream stream,
+      std::function<std::vector<array>(std::vector<array>)> fallback,
+      float scale)
+      : Custom(stream, std::move(fallback)), scale_(scale) {}
+
+  void eval_cpu(const std::vector<array>& inputs, std::vector<array>& outputs)
+      override {
+    throw std::runtime_error("NYI");
+  }
+  void eval_gpu(const std::vector<array>& inputs, std::vector<array>& outputs)
+      override;
+
+  DEFINE_NAME(MLANopeScores)
+
+  bool is_equivalent(const Primitive& other) const override {
+    auto& o = static_cast<const MLANopeScores&>(other);
+    return scale_ == o.scale_;
+  }
+
+ private:
+  float scale_;
+};
+
+class MLAFusedSDPA : public Custom {
+ public:
+  MLAFusedSDPA(
+      Stream stream,
+      std::function<std::vector<array>(std::vector<array>)> fallback,
+      float scale)
+      : Custom(stream, std::move(fallback)), scale_(scale) {}
+
+  void eval_cpu(const std::vector<array>& inputs, std::vector<array>& outputs)
+      override {
+    throw std::runtime_error("NYI");
+  }
+  void eval_gpu(const std::vector<array>& inputs, std::vector<array>& outputs)
+      override;
+
+  DEFINE_NAME(MLAFusedSDPA)
+
+  bool is_equivalent(const Primitive& other) const override {
+    auto& o = static_cast<const MLAFusedSDPA&>(other);
+    return scale_ == o.scale_;
+  }
+
+ private:
+  float scale_;
+};
+
+class MLAQuantizeStore : public Custom {
+ public:
+  MLAQuantizeStore(
+      Stream stream,
+      std::function<std::vector<array>(std::vector<array>)> fallback)
+      : Custom(stream, std::move(fallback)) {}
+
+  void eval_cpu(const std::vector<array>& inputs, std::vector<array>& outputs)
+      override {
+    throw std::runtime_error("NYI");
+  }
+  void eval_gpu(const std::vector<array>& inputs, std::vector<array>& outputs)
+      override;
+
+  DEFINE_NAME(MLAQuantizeStore)
+
+  bool is_equivalent(const Primitive& other) const override {
+    return true;
+  }
+};
+
+class MLAFusedSDPAWithCacheUpdate : public Custom {
+ public:
+  MLAFusedSDPAWithCacheUpdate(
+      Stream stream,
+      std::function<std::vector<array>(std::vector<array>)> fallback,
+      float scale,
+      uint32_t seq_offset)
+      : Custom(stream, std::move(fallback)),
+        scale_(scale),
+        seq_offset_(seq_offset) {}
+
+  void eval_cpu(const std::vector<array>& inputs, std::vector<array>& outputs)
+      override {
+    throw std::runtime_error("NYI");
+  }
+  void eval_gpu(const std::vector<array>& inputs, std::vector<array>& outputs)
+      override;
+
+  DEFINE_NAME(MLAFusedSDPAWithCacheUpdate)
+
+  bool is_equivalent(const Primitive& other) const override {
+    auto& o = static_cast<const MLAFusedSDPAWithCacheUpdate&>(other);
+    return scale_ == o.scale_ && seq_offset_ == o.seq_offset_;
+  }
+
+ private:
+  float scale_;
+  uint32_t seq_offset_;
+};
+
 } // namespace mlx::core::fast
diff --git a/pybuild.log b/pybuild.log
new file mode 100644
index 0000000000..e995079554
--- /dev/null
+++ b/pybuild.log
@@ -0,0 +1,810 @@
+Using pip 26.0 from /opt/homebrew/lib/python3.12/site-packages/pip (python 3.12)
+Obtaining file:///Users/producerguy/Documents/Projects/forge/mlx-mla
+  Installing build dependencies: started
+  Running command installing build dependencies
+  Using pip 26.0 from /opt/homebrew/Cellar/python@3.12/3.12.13/lib/python3.12/site-packages/pip (python 3.12)
+  Collecting setuptools>=80
+    Obtaining dependency information for setuptools>=80 from https://files.pythonhosted.org/packages/9d/76/f789f7a86709c6b087c5a2f52f911838cad707cc613162401badc665acfe/setuptools-82.0.1-py3-none-any.whl.metadata
+    Using cached setuptools-82.0.1-py3-none-any.whl.metadata (6.5 kB)
+  Collecting cmake>=3.25
+    Obtaining dependency information for cmake>=3.25 from https://files.pythonhosted.org/packages/43/07/05be57c389f8f0c3d0d7b878685ec1eed863b77787d65584c9399e294531/cmake-4.3.1-py3-none-macosx_10_10_universal2.whl.metadata
+    Using cached cmake-4.3.1-py3-none-macosx_10_10_universal2.whl.metadata (6.5 kB)
+  Collecting typing_extensions
+    Obtaining dependency information for typing_extensions from https://files.pythonhosted.org/packages/18/67/36e9267722cc04a6b9f15c7f3441c2363321a3ea07da7ae0c0707beb2a9c/typing_extensions-4.15.0-py3-none-any.whl.metadata
+    Using cached typing_extensions-4.15.0-py3-none-any.whl.metadata (3.3 kB)
+  Using cached setuptools-82.0.1-py3-none-any.whl (1.0 MB)
+  Using cached cmake-4.3.1-py3-none-macosx_10_10_universal2.whl (52.6 MB)
+  Using cached typing_extensions-4.15.0-py3-none-any.whl (44 kB)
+  Installing collected packages: typing_extensions, setuptools, cmake
+    Creating /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-build-env-51sd32tr/overlay/bin
+    changing mode of /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-build-env-51sd32tr/overlay/bin/ccmake to 755
+    changing mode of /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-build-env-51sd32tr/overlay/bin/cmake to 755
+    changing mode of /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-build-env-51sd32tr/overlay/bin/cpack to 755
+    changing mode of /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-build-env-51sd32tr/overlay/bin/ctest to 755
+
+  Successfully installed cmake-4.3.1 setuptools-82.0.1 typing_extensions-4.15.0
+  Installing build dependencies: finished with status 'done'
+  Checking if build backend supports build_editable: started
+  Running command Checking if build backend supports build_editable
+  Checking if build backend supports build_editable: finished with status 'done'
+  Getting requirements to build editable: started
+  Running command Getting requirements to build editable
+  running egg_info
+  writing python/mlx.egg-info/PKG-INFO
+  writing dependency_links to python/mlx.egg-info/dependency_links.txt
+  writing entry points to python/mlx.egg-info/entry_points.txt
+  writing requirements to python/mlx.egg-info/requires.txt
+  writing top-level names to python/mlx.egg-info/top_level.txt
+  reading manifest file 'python/mlx.egg-info/SOURCES.txt'
+  reading manifest template 'MANIFEST.in'
+  adding license file 'LICENSE'
+  writing manifest file 'python/mlx.egg-info/SOURCES.txt'
+  Getting requirements to build editable: finished with status 'done'
+  Preparing editable metadata (pyproject.toml): started
+  Running command Preparing editable metadata (pyproject.toml)
+  running dist_info
+  creating /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-modern-metadata-jfg2_nnl/mlx.egg-info
+  writing /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-modern-metadata-jfg2_nnl/mlx.egg-info/PKG-INFO
+  writing dependency_links to /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-modern-metadata-jfg2_nnl/mlx.egg-info/dependency_links.txt
+  writing entry points to /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-modern-metadata-jfg2_nnl/mlx.egg-info/entry_points.txt
+  writing requirements to /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-modern-metadata-jfg2_nnl/mlx.egg-info/requires.txt
+  writing top-level names to /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-modern-metadata-jfg2_nnl/mlx.egg-info/top_level.txt
+  writing manifest file '/private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-modern-metadata-jfg2_nnl/mlx.egg-info/SOURCES.txt'
+  reading manifest file '/private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-modern-metadata-jfg2_nnl/mlx.egg-info/SOURCES.txt'
+  reading manifest template 'MANIFEST.in'
+  adding license file 'LICENSE'
+  writing manifest file '/private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-modern-metadata-jfg2_nnl/mlx.egg-info/SOURCES.txt'
+  creating '/private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-modern-metadata-jfg2_nnl/mlx-0.31.2.dev20260401+2ffafe07.dist-info'
+  Preparing editable metadata (pyproject.toml): finished with status 'done'
+Building wheels for collected packages: mlx
+  Building editable for mlx (pyproject.toml): started
+  Running command Building editable for mlx (pyproject.toml)
+  running editable_wheel
+  creating /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4/tmpm32w75sg/.tmp-c8_rtiuz/mlx.egg-info
+  writing /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4/tmpm32w75sg/.tmp-c8_rtiuz/mlx.egg-info/PKG-INFO
+  writing dependency_links to /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4/tmpm32w75sg/.tmp-c8_rtiuz/mlx.egg-info/dependency_links.txt
+  writing entry points to /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4/tmpm32w75sg/.tmp-c8_rtiuz/mlx.egg-info/entry_points.txt
+  writing requirements to /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4/tmpm32w75sg/.tmp-c8_rtiuz/mlx.egg-info/requires.txt
+  writing top-level names to /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4/tmpm32w75sg/.tmp-c8_rtiuz/mlx.egg-info/top_level.txt
+  writing manifest file '/private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4/tmpm32w75sg/.tmp-c8_rtiuz/mlx.egg-info/SOURCES.txt'
+  reading manifest file '/private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4/tmpm32w75sg/.tmp-c8_rtiuz/mlx.egg-info/SOURCES.txt'
+  reading manifest template 'MANIFEST.in'
+  adding license file 'LICENSE'
+  writing manifest file '/private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4/tmpm32w75sg/.tmp-c8_rtiuz/mlx.egg-info/SOURCES.txt'
+  creating '/private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4/tmpm32w75sg/.tmp-c8_rtiuz/mlx-0.31.2.dev20260401+2ffafe07.dist-info'
+  creating /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4/tmpm32w75sg/.tmp-c8_rtiuz/mlx-0.31.2.dev20260401+2ffafe07.dist-info/WHEEL
+  running build_py
+  running build_ext
+  -- The C compiler identification is AppleClang 21.0.0.21000099
+  -- The CXX compiler identification is AppleClang 21.0.0.21000099
+  -- Detecting C compiler ABI info
+  -- Detecting C compiler ABI info - done
+  -- Check for working C compiler: /usr/bin/cc - skipped
+  -- Detecting C compile features
+  -- Detecting C compile features - done
+  -- Detecting CXX compiler ABI info
+  -- Detecting CXX compiler ABI info - done
+  -- Check for working CXX compiler: /usr/bin/c++ - skipped
+  -- Detecting CXX compile features
+  -- Detecting CXX compile features - done
+  -- Building MLX for arm64 processor on Darwin
+  -- Metal found /Applications/Xcode.app/Contents/Developer/Platforms/MacOSX.platform/Developer/SDKs/MacOSX.sdk/System/Library/Frameworks/Metal.framework
+  -- Building with macOS SDK version 26.4
+  -- Accelerate found /Applications/Xcode.app/Contents/Developer/Platforms/MacOSX.platform/Developer/SDKs/MacOSX.sdk/System/Library/Frameworks/Accelerate.framework
+  -- Downloading json
+  -- Using the multi-header code from /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpoz7157c4.build-temp/mlx.core/_deps/json-src/include/
+  -- Downloading gguflib
+  -- {fmt} version: 12.1.0
+  -- Build type: Release
+  -- Performing Test HAS_NULLPTR_WARNING
+  -- Performing Test HAS_NULLPTR_WARNING - Success
+  -- Building Python bindings.
+  -- Found Python: /tmp/hf-download/bin/python3.12 (found suitable version "3.12.13", minimum required is "3.10") found components: Interpreter Development.Module
+  -- Configuring done (8.4s)
+  -- Generating done (0.1s)
+  -- Build files have been written to: /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpoz7157c4.build-temp/mlx.core
+  [  1%] Building CXX object python/src/CMakeFiles/nanobind-static.dir/__/__/_deps/nanobind-src/src/nb_internals.cpp.o
+  [  1%] Building CXX object python/src/CMakeFiles/nanobind-static.dir/__/__/_deps/nanobind-src/src/nb_func.cpp.o
+  [  1%] Generating jit/reduce_utils.cpp
+  [  2%] Generating jit/utils.cpp
+  [  3%] Generating compiled_preamble.cpp
+  [  4%] Generating jit/scatter.cpp
+  [  5%] Generating jit/masked_scatter.cpp
+  [  5%] Generating jit/unary_ops.cpp
+  [  6%] Generating jit/gather.cpp
+  [  7%] Generating jit/ternary_ops.cpp
+  [  7%] Generating jit/binary_ops.cpp
+  [  7%] Generating jit/scatter_axis.cpp
+  [  7%] Generating jit/gather_front.cpp
+  [  7%] Generating jit/hadamard.cpp
+  [  7%] Building CXX object mlx/CMakeFiles/mlx_version.dir/version.cpp.o
+  [  7%] Generating jit/gather_axis.cpp
+  [  8%] Building C object mlx/io/CMakeFiles/gguflib.dir/__/__/_deps/gguflib-src/fp16.c.o
+  [  9%] Building arg_reduce.air
+  [  9%] Built target masked_scatter
+  [  9%] Built target reduce_utils
+  [  9%] Built target cpu_compiled_preamble
+  [  9%] Built target gather
+  [  9%] Built target mlx_version
+  [ 10%] Building CXX object python/src/CMakeFiles/nanobind-static.dir/__/__/_deps/nanobind-src/src/nb_type.cpp.o
+  [ 10%] Building steel_attention_nax.air
+  [ 10%] Building C object mlx/io/CMakeFiles/gguflib.dir/__/__/_deps/gguflib-src/gguflib.c.o
+  [ 10%] Built target ternary_ops
+  [ 10%] Built target scatter
+  [ 10%] Building fp_quantized_nax.air
+  [ 10%] Building CXX object python/src/CMakeFiles/nanobind-static.dir/__/__/_deps/nanobind-src/src/nb_enum.cpp.o
+  [ 10%] Built target gather_front
+  [ 11%] Building quantized_nax.air
+  [ 12%] Building CXX object python/src/CMakeFiles/nanobind-static.dir/__/__/_deps/nanobind-src/src/nb_ndarray.cpp.o
+  [ 12%] Built target hadamard
+  [ 12%] Built target gather_axis
+  [ 12%] Building CXX object python/src/CMakeFiles/nanobind-static.dir/__/__/_deps/nanobind-src/src/nb_static_property.cpp.o
+  [ 12%] Built target binary_ops
+  [ 12%] Building steel_gemm_splitk_nax.air
+  [ 12%] Built target scatter_axis
+  [ 12%] Building steel_gemm_gather_nax.air
+  [ 13%] Building CXX object python/src/CMakeFiles/nanobind-static.dir/__/__/_deps/nanobind-src/src/nb_ft.cpp.o
+  [ 13%] Building steel_gemm_fused_nax.air
+  [ 13%] Building CXX object python/src/CMakeFiles/nanobind-static.dir/__/__/_deps/nanobind-src/src/common.cpp.o
+  [ 13%] Building CXX object python/src/CMakeFiles/nanobind-static.dir/__/__/_deps/nanobind-src/src/error.cpp.o
+  [ 13%] Built target utils
+  [ 14%] Building CXX object python/src/CMakeFiles/nanobind-static.dir/__/__/_deps/nanobind-src/src/trampoline.cpp.o
+  [ 15%] Building steel_attention.air
+  [ 16%] Linking C static library libgguflib.a
+  [ 16%] Building gemv_masked.air
+  [ 16%] Building CXX object python/src/CMakeFiles/nanobind-static.dir/__/__/_deps/nanobind-src/src/implicit.cpp.o
+  [ 16%] Built target unary_ops
+  [ 16%] Building steel_gemm_segmented.air
+  [ 17%] Building steel_gemm_splitk.air
+  [ 18%] Building steel_gemm_masked.air
+  [ 19%] Building steel_gemm_gather.air
+  [ 20%] Building steel_gemm_fused.air
+  [ 20%] Built target gguflib
+  [ 20%] Building steel_conv_general.air
+  [ 20%] Building steel_conv_3d.air
+  [ 21%] Building steel_conv.air
+  [ 22%] Building unary.air
+  [ 22%] Building ternary.air
+  [ 23%] Linking CXX static library libnanobind-static.a
+  [ 23%] Building sort.air
+  ranlib: warning: 'libnanobind-static.a(nb_ft.cpp.o)' has no symbols
+  [ 23%] Building logsumexp.air
+  ranlib: warning: 'libnanobind-static.a(nb_ft.cpp.o)' has no symbols
+  [ 23%] Built target nanobind-static
+  [ 24%] Building softmax.air
+  [ 24%] Building scan.air
+  [ 24%] Building fp_quantized.air
+  [ 24%] Building quantized.air
+  [ 24%] Building reduce.air
+  [ 25%] Building fft.air
+  [ 26%] Building copy.air
+  [ 27%] Building binary_two.air
+  [ 27%] Building binary.air
+  [ 27%] Building arange.air
+  [ 27%] Building fence.air
+  [ 28%] Building scaled_dot_product_attention.air
+  [ 29%] Building mla_nope_scores.air
+  [ 29%] Building rope.air
+  [ 30%] Building rms_norm.air
+  [ 30%] Building random.air
+  [ 31%] Building layer_norm.air
+  [ 32%] Building gemv.air
+  [ 32%] Building conv.air
+  [ 33%] Building mlx.metallib
+  [ 33%] Built target mlx-metallib
+  [ 33%] Building CXX object CMakeFiles/mlx.dir/mlx/array.cpp.o
+  [ 34%] Building CXX object CMakeFiles/mlx.dir/mlx/compile.cpp.o
+  [ 35%] Building CXX object CMakeFiles/mlx.dir/mlx/linalg.cpp.o
+  [ 36%] Building CXX object CMakeFiles/mlx.dir/mlx/transforms.cpp.o
+  [ 37%] Building CXX object CMakeFiles/mlx.dir/mlx/dtype.cpp.o
+  [ 37%] Building CXX object CMakeFiles/mlx.dir/mlx/primitives.cpp.o
+  [ 37%] Building CXX object CMakeFiles/mlx.dir/mlx/fast.cpp.o
+  [ 37%] Building CXX object CMakeFiles/mlx.dir/mlx/utils.cpp.o
+  [ 37%] Building CXX object CMakeFiles/mlx.dir/mlx/stream.cpp.o
+  [ 38%] Building CXX object CMakeFiles/mlx.dir/mlx/fft.cpp.o
+  [ 39%] Building CXX object CMakeFiles/mlx.dir/mlx/random.cpp.o
+  [ 40%] Building CXX object CMakeFiles/mlx.dir/mlx/einsum.cpp.o
+  [ 40%] Building CXX object CMakeFiles/mlx.dir/mlx/device.cpp.o
+  [ 41%] Building CXX object CMakeFiles/mlx.dir/mlx/graph_utils.cpp.o
+  [ 41%] Building CXX object CMakeFiles/mlx.dir/mlx/scheduler.cpp.o
+  [ 41%] Building CXX object CMakeFiles/mlx.dir/mlx/dtype_utils.cpp.o
+  [ 41%] Building CXX object CMakeFiles/mlx.dir/mlx/ops.cpp.o
+  [ 41%] Building CXX object CMakeFiles/mlx.dir/mlx/export.cpp.o
+  [ 41%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/common/broadcasting.cpp.o
+  [ 42%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/common/compiled.cpp.o
+  [ 42%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/common/common.cpp.o
+  [ 43%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/common/load.cpp.o
+  [ 44%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/common/slicing.cpp.o
+  [ 44%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/common/reduce.cpp.o
+  [ 44%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/common/utils.cpp.o
+  [ 44%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/device_info.cpp.o
+  [ 45%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/arg_reduce.cpp.o
+  [ 45%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/binary.cpp.o
+  [ 46%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/conv.cpp.o
+  [ 46%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/copy.cpp.o
+  [ 47%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/distributed.cpp.o
+  [ 47%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/eig.cpp.o
+  [ 48%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/eigh.cpp.o
+  [ 48%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/encoder.cpp.o
+  [ 48%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/fft.cpp.o
+  [ 49%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/hadamard.cpp.o
+  [ 49%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/matmul.cpp.o
+  [ 50%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/gemms/cblas.cpp.o
+  [ 50%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/masked_mm.cpp.o
+  [ 51%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/primitives.cpp.o
+  [ 51%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/quantized.cpp.o
+  [ 52%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/reduce.cpp.o
+  [ 52%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/scan.cpp.o
+  [ 53%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/select.cpp.o
+  [ 53%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/softmax.cpp.o
+  [ 53%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/logsumexp.cpp.o
+  [ 54%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/sort.cpp.o
+  [ 54%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/threefry.cpp.o
+  [ 55%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/indexing.cpp.o
+  [ 55%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/luf.cpp.o
+  [ 56%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/qrf.cpp.o
+  [ 56%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/svd.cpp.o
+  [ 57%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/inverse.cpp.o
+  [ 57%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/cholesky.cpp.o
+  [ 57%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/unary.cpp.o
+  [ 58%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/eval.cpp.o
+  [ 58%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/compiled_preamble.cpp.o
+  [ 59%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/gemms/bnns.cpp.o
+  [ 59%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/compiled.cpp.o
+  [ 60%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cpu/jit_compiler.cpp.o
+  [ 60%] Building CXX object CMakeFiles/mlx.dir/mlx/distributed/primitives.cpp.o
+  [ 61%] Building CXX object CMakeFiles/mlx.dir/mlx/distributed/ops.cpp.o
+  [ 61%] Building CXX object CMakeFiles/mlx.dir/mlx/distributed/distributed.cpp.o
+  [ 62%] Building CXX object CMakeFiles/mlx.dir/mlx/distributed/utils.cpp.o
+  [ 62%] Building CXX object CMakeFiles/mlx.dir/mlx/distributed/mpi/mpi.cpp.o
+  [ 62%] Building CXX object CMakeFiles/mlx.dir/mlx/distributed/ring/ring.cpp.o
+  [ 63%] Building CXX object CMakeFiles/mlx.dir/mlx/distributed/nccl/no_nccl.cpp.o
+  [ 63%] Building CXX object CMakeFiles/mlx.dir/mlx/distributed/jaccl/jaccl.cpp.o
+  [ 64%] Building CXX object CMakeFiles/mlx.dir/mlx/distributed/jaccl/utils.cpp.o
+  [ 65%] Building CXX object CMakeFiles/mlx.dir/mlx/distributed/jaccl/ring.cpp.o
+  [ 65%] Building CXX object CMakeFiles/mlx.dir/mlx/distributed/jaccl/mesh.cpp.o
+  [ 65%] Building CXX object CMakeFiles/mlx.dir/mlx/io/load.cpp.o
+  [ 66%] Building CXX object CMakeFiles/mlx.dir/mlx/io/safetensors.cpp.o
+  [ 66%] Building CXX object CMakeFiles/mlx.dir/mlx/io/gguf.cpp.o
+  [ 67%] Building CXX object CMakeFiles/mlx.dir/mlx/io/gguf_quants.cpp.o
+  [ 67%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/jit/utils.cpp.o
+  [ 67%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/jit/unary_ops.cpp.o
+  [ 68%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/jit/binary_ops.cpp.o
+  [ 68%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/jit/ternary_ops.cpp.o
+  [ 69%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/jit/reduce_utils.cpp.o
+  [ 69%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/jit/scatter.cpp.o
+  [ 70%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/jit/masked_scatter.cpp.o
+  [ 70%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/jit/gather.cpp.o
+  [ 71%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/jit/gather_front.cpp.o
+  [ 71%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/jit/gather_axis.cpp.o
+  [ 71%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/jit/scatter_axis.cpp.o
+  [ 72%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/jit/hadamard.cpp.o
+  [ 72%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/nojit_kernels.cpp.o
+  [ 73%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/allocator.cpp.o
+  [ 73%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/binary.cpp.o
+  [ 74%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/device_info.cpp.o
+  [ 74%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/compiled.cpp.o
+  [ 75%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/conv.cpp.o
+  [ 75%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/copy.cpp.o
+  [ 76%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/custom_kernel.cpp.o
+  [ 76%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/distributed.cpp.o
+  [ 76%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/device.cpp.o
+  [ 77%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/event.cpp.o
+  [ 77%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/eval.cpp.o
+  [ 78%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/fence.cpp.o
+  [ 78%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/fft.cpp.o
+  [ 79%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/hadamard.cpp.o
+  [ 79%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/indexing.cpp.o
+  [ 80%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/logsumexp.cpp.o
+  [ 80%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/matmul.cpp.o
+  [ 80%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/scaled_dot_product_attention.cpp.o
+  [ 81%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/mla_nope_scores.cpp.o
+  [ 81%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/metal.cpp.o
+  [ 82%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/primitives.cpp.o
+  [ 82%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/quantized.cpp.o
+  [ 83%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/normalization.cpp.o
+  [ 83%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/rope.cpp.o
+  [ 84%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/scan.cpp.o
+  [ 84%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/slicing.cpp.o
+  [ 85%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/softmax.cpp.o
+  [ 85%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/sort.cpp.o
+  [ 85%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/reduce.cpp.o
+  [ 86%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/ternary.cpp.o
+  [ 86%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/unary.cpp.o
+  [ 87%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/resident.cpp.o
+  [ 87%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/metal/utils.cpp.o
+  [ 88%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/cuda/no_cuda.cpp.o
+  [ 88%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/gpu/copy.cpp.o
+  [ 89%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/gpu/primitives.cpp.o
+  [ 89%] Building CXX object CMakeFiles/mlx.dir/mlx/backend/gpu/slicing.cpp.o
+  [ 89%] Linking CXX shared library libmlx.dylib
+  [ 89%] Built target mlx
+  [ 89%] Building CXX object python/src/CMakeFiles/core.dir/mlx.cpp.o
+  [ 90%] Building CXX object python/src/CMakeFiles/core.dir/array.cpp.o
+  [ 90%] Building CXX object python/src/CMakeFiles/core.dir/random.cpp.o
+  [ 91%] Building CXX object python/src/CMakeFiles/core.dir/device.cpp.o
+  [ 91%] Building CXX object python/src/CMakeFiles/core.dir/stream.cpp.o
+  [ 92%] Building CXX object python/src/CMakeFiles/core.dir/fft.cpp.o
+  [ 92%] Building CXX object python/src/CMakeFiles/core.dir/convert.cpp.o
+  [ 92%] Building CXX object python/src/CMakeFiles/core.dir/cuda.cpp.o
+  [ 92%] Building CXX object python/src/CMakeFiles/core.dir/distributed.cpp.o
+  [ 92%] Building CXX object python/src/CMakeFiles/core.dir/fast.cpp.o
+  [ 92%] Building CXX object python/src/CMakeFiles/core.dir/indexing.cpp.o
+  [ 93%] Building CXX object python/src/CMakeFiles/core.dir/export.cpp.o
+  [ 94%] Building CXX object python/src/CMakeFiles/core.dir/memory.cpp.o
+  [ 95%] Building CXX object python/src/CMakeFiles/core.dir/ops.cpp.o
+  [ 95%] Building CXX object python/src/CMakeFiles/core.dir/load.cpp.o
+  [ 95%] Building CXX object python/src/CMakeFiles/core.dir/mlx_func.cpp.o
+  [ 96%] Building CXX object python/src/CMakeFiles/core.dir/metal.cpp.o
+  [ 97%] Building CXX object python/src/CMakeFiles/core.dir/transforms.cpp.o
+  [ 98%] Building CXX object python/src/CMakeFiles/core.dir/linalg.cpp.o
+  [ 98%] Building CXX object python/src/CMakeFiles/core.dir/constants.cpp.o
+  [100%] Building CXX object python/src/CMakeFiles/core.dir/utils.cpp.o
+  [100%] Building CXX object python/src/CMakeFiles/core.dir/trees.cpp.o
+  [100%] Linking CXX shared module /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/core.cpython-312-darwin.so
+  [100%] Built target core
+  Install the project...
+  -- Install configuration: "Release"
+  copying /var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/core.cpython-312-darwin.so -> python/mlx
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4LibraryDescriptor.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4MachineLearningCommandEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4CommandQueue.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4LinkingDescriptor.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLTypes.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLResourceStateCommandEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLIndirectCommandEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLGPUAddress.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4Archive.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLComputePipeline.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLFunctionHandle.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4MeshRenderPipeline.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLDrawable.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLDynamicLibrary.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4FunctionDescriptor.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLComputePass.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4LibraryFunctionDescriptor.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLFunctionConstantValues.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLPipeline.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4StitchedFunctionDescriptor.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4CompilerTask.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLRenderCommandEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLTextureViewPool.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLTensor.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLResidencySet.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLBlitCommandEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLCaptureManager.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLCommandEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/Metal.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLStageInputOutputDescriptor.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4CommandAllocator.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLAccelerationStructureTypes.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLParallelRenderCommandEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4CommitFeedback.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4TileRenderPipeline.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4BinaryFunction.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLRasterizationRate.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4ArgumentTable.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLLinkedFunctions.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLTexture.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLDataType.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4SpecializedFunctionDescriptor.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLSampler.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLDepthStencil.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4CommandBuffer.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4Counters.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLArgumentEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLIntersectionFunctionTable.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLVisibleFunctionTable.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4CommandEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLPrivate.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLVersion.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLResource.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLAccelerationStructure.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLDevice.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLArgument.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLFunctionLog.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4RenderPipeline.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLBuffer.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLRenderPass.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLHeap.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLVertexDescriptor.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4BinaryFunctionDescriptor.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4ComputeCommandEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLIOCommandBuffer.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLFunctionStitching.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLLogState.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLLibrary.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLPixelFormat.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4ComputePipeline.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLResourceViewPool.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLAllocation.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4RenderPass.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4MachineLearningPipeline.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLFence.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4PipelineDataSetSerializer.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLIndirectCommandBuffer.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLRenderPipeline.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLCommandQueue.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLFunctionDescriptor.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLAccelerationStructureCommandEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLBlitPass.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4AccelerationStructure.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLEvent.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4PipelineState.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLBinaryArchive.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4Compiler.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLIOCommandQueue.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLCaptureScope.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLComputeCommandEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLIOCompressor.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLHeaderBridge.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTL4RenderCommandEncoder.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLCounters.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLDefines.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLResourceStatePass.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Metal/MTLCommandBuffer.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Metal
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSString.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSDictionary.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSLock.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSProcessInfo.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSSharedPtr.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSError.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSObjCRuntime.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSObject.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSNotification.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSPrivate.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSURL.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSSet.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSAutoreleasePool.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSRange.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSTypes.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSData.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSNumber.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/Foundation.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSDate.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSDefines.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSBundle.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSEnumerator.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/Foundation/NSArray.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/Foundation
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/README.md -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/QuartzCore
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/QuartzCore/CAMetalLayer.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/QuartzCore
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/QuartzCore/QuartzCore.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/QuartzCore
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/QuartzCore/CAPrivate.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/QuartzCore
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/QuartzCore/CAMetalDrawable.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/QuartzCore
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/QuartzCore/CADefines.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/QuartzCore
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/MetalFX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/MetalFX/MTL4FXSpatialScaler.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/MetalFX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/MetalFX/MTL4FXFrameInterpolator.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/MetalFX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/MetalFX/MTL4FXTemporalScaler.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/MetalFX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/MetalFX/MTLFXFrameInterpolator.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/MetalFX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/MetalFX/MTLFXDefines.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/MetalFX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/MetalFX/MetalFX.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/MetalFX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/MetalFX/MTLFXTemporalDenoisedScaler.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/MetalFX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/MetalFX/MTLFXSpatialScaler.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/MetalFX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/MetalFX/MTLFXTemporalScaler.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/MetalFX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/MetalFX/MTL4FXTemporalDenoisedScaler.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/MetalFX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/MetalFX/MTLFXPrivate.hpp -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/MetalFX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/LICENSE.txt -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/SingleHeader
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/metal_cpp/SingleHeader/MakeSingleHeader.py -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/metal_cpp/SingleHeader
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/fast.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/fft.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/mlx.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/fast_primitives.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/version.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/types
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/types/bf16.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/types
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/types/limits.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/types
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/types/half_types.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/types
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/types/fp16.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/types
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/types/complex.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/types
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/export.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/device.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/fence.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/transforms_impl.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/threadpool.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/small_vector.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/event.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/jaccl
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/jaccl/utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/jaccl
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/jaccl/ring_impl.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/jaccl
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/jaccl/ring.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/jaccl
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/jaccl/mesh.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/jaccl
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/jaccl/mesh_impl.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/jaccl
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/jaccl/jaccl.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/jaccl
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/nccl
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/nccl/nccl.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/nccl
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/mpi
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/mpi/mpi.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/mpi
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/mpi/mpi_declarations.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/mpi
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/distributed.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/reduction_ops.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/ops.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/ring
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/ring/ring.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed/ring
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/primitives.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/distributed/distributed_impl.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/distributed
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/scheduler.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/einsum.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/io
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/io/load.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/io
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/io/gguf.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/io
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/stream.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/gpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/gpu/eval.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/gpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/gpu/device_info.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/gpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/gpu/scan.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/gpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/gpu/slicing.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/gpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/gpu/copy.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/gpu
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/matmul.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/softmax.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/fft.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/bf16.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/fp_quantized_nax.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/unary_ops.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/utils
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/utils/type_traits.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/utils
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/utils/integral_constant.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/utils
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/conv
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/conv/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv_general.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/conv/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/conv/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/conv/kernels/steel_conv_3d.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/conv/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/conv/params.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/conv
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/conv/loader.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/conv
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/conv/loaders
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/conv/loaders/loader_general.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/conv/loaders
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/conv/loaders/loader_channel_n.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/conv/loaders
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/conv/loaders/loader_channel_l.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/conv/loaders
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/conv/conv.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/conv
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/defines.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk_nax.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_splitk.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather_nax.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_segmented.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_gather.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_masked.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels/steel_gemm_fused_nax.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/gemm.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/params.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/gemm_nax.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/loader.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/nax.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/mma.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/gemm/transforms.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/gemm
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/attn
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/attn/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/attn/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/attn/kernels/steel_attention_nax.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/attn/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/attn/attn.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/attn
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/attn/params.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/attn
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/attn/loader.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/attn
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/attn/nax.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/attn
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/attn/mma.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/attn
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/steel/attn/transforms.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/steel/attn
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/binary_two.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/logsumexp.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/fp8.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/quantized_nax.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/bf16_math.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/reduce_utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/logging.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/gemv_masked.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/cexpf.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/binary_ops.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/defines.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/quantized.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/quantized_utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/expm1f.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/reduction
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/reduction/reduce_col.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/reduction
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/reduction/reduce_init.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/reduction
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/reduction/reduce_row.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/reduction
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/reduction/ops.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/reduction
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/reduction/reduce_all.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/reduction
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/hadamard.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/reduce.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/erf.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/fft
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/fft/readwrite.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/fft
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/fft/radix.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/fft
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/fp4.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/indexing
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/indexing/gather.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/indexing
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/indexing/gather_axis.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/indexing
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/indexing/masked_scatter.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/indexing
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/indexing/scatter.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/indexing
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/indexing/indexing.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/indexing
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/indexing/gather_front.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/indexing
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/indexing/scatter_axis.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels/indexing
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/sort.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/arange.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/ternary.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/sdpa_vector.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/unary.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/fp_quantized.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/complex.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/ternary_ops.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/binary.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/scan.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/copy.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/kernels/atomic.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/kernels
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/device.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/allocator.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/jit
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/jit/indexing.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/jit
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/jit/includes.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal/jit
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/reduce.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/metal.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/resident.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/ternary.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/unary.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/metal/binary.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/metal
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu/gemms
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/gemms/simd_gemm.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu/gemms
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/gemm.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/compiled_preamble.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/unary_ops.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/binary_two.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu/simd
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/simd/type.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu/simd
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/simd/base_simd.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu/simd
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/simd/neon_fp16_simd.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu/simd
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/simd/simd.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu/simd
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/simd/math.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu/simd
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/simd/accelerate_simd.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu/simd
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/simd/accelerate_fp16_simd.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu/simd
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/threefry.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/binary_ops.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/eval.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/encoder.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/arange.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/ternary.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/jit_compiler.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/unary.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/device_info.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/lapack.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/binary.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/slicing.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cpu/copy.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cpu
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/unary
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/gemms
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/gemms/grouped_gemm.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/gemms
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/gemms/gemv.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/gemms
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/gemms/cublas_gemm.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/gemms
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/gemms/block_mask.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/gemms
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/device.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/event.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/steel
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/reduce
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/lru_cache.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/quantized
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/quantized/qmm
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/quantized/qmm/qmm.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/quantized/qmm
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/quantized/cublas_qqmm.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/quantized
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/quantized/quantized.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/quantized
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/quantized/quantized_utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/quantized
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/quantized/qqmm_utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/quantized
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/quantized/qqmm_impl.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/quantized
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/cudnn_utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/conv
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/conv/conv.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/conv
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/worker.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/allocator.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/cuda.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/jit_module.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/copy
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/device
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/device/config.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/device
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda/binary
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/cuda_utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/cuda/cublas_utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/cuda
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/no_gpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/no_gpu/apple_memory.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/no_gpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/no_gpu/linux_memory.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/no_gpu
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/matmul.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/compiled.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/broadcasting.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/quantized.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/buffer_cache.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/hadamard.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/reduce.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/ternary.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/unary.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/binary.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/slicing.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/backend/common/copy.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/common
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/backend/no_cpu
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/api.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/dtype_utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/compile_impl.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/compile.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/allocator.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/io.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/array.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/linalg.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/memory.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/ops.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/3rdparty
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/3rdparty/pocketfft.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx/3rdparty
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/export_impl.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/dtype.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/primitives.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/transforms.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/graph_utils.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/include/mlx/random.h -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/include/mlx
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/core.cpython-312-darwin.so -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/lib
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/lib/libmlx.dylib -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/lib
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/lib/mlx.metallib -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/lib
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/share
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/share/cmake
+  creating /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/share/cmake/MLX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/share/cmake/MLX/MLXTargets.cmake -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/share/cmake/MLX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/share/cmake/MLX/extension.cmake -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/share/cmake/MLX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/share/cmake/MLX/FindCUDNN.cmake -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/share/cmake/MLX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/share/cmake/MLX/Findnvpl.cmake -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/share/cmake/MLX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/share/cmake/MLX/MLXTargets-release.cmake -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/share/cmake/MLX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/share/cmake/MLX/MLXConfig.cmake -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/share/cmake/MLX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/share/cmake/MLX/MLXConfigVersion.cmake -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/share/cmake/MLX
+  copying /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpv2sn0pfr.build-lib/mlx/share/cmake/MLX/FindNCCL.cmake -> /Users/producerguy/Documents/Projects/forge/mlx-mla/python/mlx/share/cmake/MLX
+  -- Install configuration: "Release"
+  running egg_info
+  creating /var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpoz7157c4.build-temp/mlx.egg-info
+  writing /var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpoz7157c4.build-temp/mlx.egg-info/PKG-INFO
+  writing dependency_links to /var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpoz7157c4.build-temp/mlx.egg-info/dependency_links.txt
+  writing entry points to /var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpoz7157c4.build-temp/mlx.egg-info/entry_points.txt
+  writing requirements to /var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpoz7157c4.build-temp/mlx.egg-info/requires.txt
+  writing top-level names to /var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpoz7157c4.build-temp/mlx.egg-info/top_level.txt
+  writing manifest file '/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpoz7157c4.build-temp/mlx.egg-info/SOURCES.txt'
+  reading manifest file '/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpoz7157c4.build-temp/mlx.egg-info/SOURCES.txt'
+  reading manifest template 'MANIFEST.in'
+  adding license file 'LICENSE'
+  writing manifest file '/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpoz7157c4.build-temp/mlx.egg-info/SOURCES.txt'
+
+          Editable install will be performed using .pth file to extend `sys.path` with:
+          ['python']
+
+  Options like `package-data`, `include/exclude-package-data` or
+  `packages.find.exclude/include` may have no effect.
+
+  adding '__editable__.mlx-0.31.2.dev20260401+2ffafe07.pth'
+  creating '/private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4/tmpm32w75sg/.tmp-c8_rtiuz/mlx-0.31.2.dev20260401+2ffafe07-0.editable-cp312-cp312-macosx_26_0_arm64.whl' and adding '/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/tmpdq54mzqbmlx-0.31.2.dev20260401+2ffafe07-0.editable-cp312-cp312-macosx_26_0_arm64.whl' to it
+  adding 'mlx-0.31.2.dev20260401+2ffafe07.dist-info/licenses/LICENSE'
+  adding 'mlx-0.31.2.dev20260401+2ffafe07.dist-info/METADATA'
+  adding 'mlx-0.31.2.dev20260401+2ffafe07.dist-info/WHEEL'
+  adding 'mlx-0.31.2.dev20260401+2ffafe07.dist-info/entry_points.txt'
+  adding 'mlx-0.31.2.dev20260401+2ffafe07.dist-info/top_level.txt'
+  adding 'mlx-0.31.2.dev20260401+2ffafe07.dist-info/RECORD'
+  Building editable for mlx (pyproject.toml): finished with status 'done'
+  Created wheel for mlx: filename=mlx-0.31.2.dev20260401+2ffafe07-0.editable-cp312-cp312-macosx_26_0_arm64.whl size=4762 sha256=5b3e34c55c5548601ac68971bfbb139fd4401022698f493f6873e94eb05f5e73
+  Stored in directory: /private/var/folders/zb/nt1w4wmd52s0wvb2w59c5x3w0000gn/T/pip-ephem-wheel-cache-1fg9lq29/wheels/b5/9b/56/4c5265fb1eb41888f966eb6a619dfcb37ff162c2c577cf37d4
+Successfully built mlx
+Installing collected packages: mlx
+  changing mode of /opt/homebrew/bin/mlx.distributed_config to 755
+  changing mode of /opt/homebrew/bin/mlx.launch to 755
+Successfully installed mlx-0.31.2.dev20260401+2ffafe07
diff --git a/python/src/fast.cpp b/python/src/fast.cpp
index 1a43d89d9b..aff44f7855 100644
--- a/python/src/fast.cpp
+++ b/python/src/fast.cpp
@@ -624,4 +624,160 @@ void init_fast(nb::module_& parent_module) {
            before the kernel runs. Default: ``False``.
         stream (mx.stream, optional): Stream to run the kernel on. Default: ``None``.
       )pbdoc");
+
+  m.def(
+      "mla_nope_scores",
+      [](const mx::array& q_nope,
+         const mx::array& k_packed,
+         const mx::array& k_scales,
+         const mx::array& k_biases,
+         float scale,
+         mx::StreamOrDevice s) {
+        return mx::fast::mla_nope_scores(
+            q_nope, k_packed, k_scales, k_biases, scale, s);
+      },
+      "q_nope"_a,
+      "k_packed"_a,
+      "k_scales"_a,
+      "k_biases"_a,
+      "scale"_a,
+      nb::kw_only(),
+      "stream"_a = nb::none(),
+      R"pbdoc(
+      MLA shared-latent nope scores.
+
+      Computes scores[b,h,s] = scale * dot(q_nope[b,h,:], dequant(latent[b,s,:]))
+      with latent shared across all heads. INT4 affine dequant in-kernel.
+
+      Args:
+        q_nope (array): [B, H, 256] float16/bfloat16 — absorbed query.
+        k_packed (array): [B, S, 32] uint32 — INT4 packed latent.
+        k_scales (array): [B, S, 4] float32 — per-group scales.
+        k_biases (array): [B, S, 4] float32 — per-group biases.
+        scale (float): MLA attention scale.
+        stream (mx.stream, optional): Stream. Default: ``None``.
+
+      Returns:
+        array: [B, H, S] float32 nope scores.
+      )pbdoc");
+
+  m.def(
+      "mla_fused_sdpa",
+      [](const mx::array& q_nope,
+         const mx::array& q_pe,
+         const mx::array& lat_packed,
+         const mx::array& lat_scales,
+         const mx::array& lat_biases,
+         const mx::array& k_pe,
+         float scale,
+         mx::StreamOrDevice s) {
+        return mx::fast::mla_fused_sdpa(
+            q_nope, q_pe, lat_packed, lat_scales, lat_biases, k_pe, scale, s);
+      },
+      "q_nope"_a,
+      "q_pe"_a,
+      "lat_packed"_a,
+      "lat_scales"_a,
+      "lat_biases"_a,
+      "k_pe"_a,
+      "scale"_a,
+      nb::kw_only(),
+      "stream"_a = nb::none(),
+      R"pbdoc(
+      Fused quantized MLA SDPA for decode.
+
+      Single kernel fusing INT4 dequant + split nope/rope scoring +
+      online softmax + value accumulation.
+
+      Args:
+        q_nope (array): [B, H, 256] pre-scaled absorbed query.
+        q_pe (array): [B, H, 64] pre-scaled RoPE query.
+        lat_packed (array): [B, S, 32] uint32 INT4 packed latent.
+        lat_scales (array): [B, S, 4] fp16 scales.
+        lat_biases (array): [B, S, 4] fp16 biases.
+        k_pe (array): [B, S, 64] fp16 RoPE keys.
+        scale (float): attention scale (unused, pre-applied to queries).
+        stream (mx.stream, optional): Stream. Default: None.
+
+      Returns:
+        array: [B, H, 256] latent attention output (pre-unembed).
+      )pbdoc");
+
+  m.def(
+      "mla_quantize_store",
+      [](const mx::array& input,
+         mx::StreamOrDevice s) {
+        return mx::fast::mla_quantize_store(input, s);
+      },
+      "input"_a,
+      nb::kw_only(),
+      "stream"_a = nb::none(),
+      R"pbdoc(
+      Fused INT4 affine quantization for MLA latent cache.
+
+      Single kernel replacing mx.quantize for MLA dimensions
+      (256 latent, group_size=64, 4-bit).
+
+      Args:
+        input (array): [..., 256] fp16 latent vectors.
+        stream (mx.stream, optional): Stream. Default: None.
+
+      Returns:
+        tuple: (packed, scales, biases) matching mx.quantize output format.
+      )pbdoc");
+
+  m.def(
+      "mla_fused_sdpa_v2",
+      [](const mx::array& q_nope,
+         const mx::array& q_pe,
+         const mx::array& cache_packed,
+         const mx::array& cache_scales,
+         const mx::array& cache_biases,
+         const mx::array& cache_kpe,
+         const mx::array& new_latent,
+         const mx::array& new_kpe,
+         float scale,
+         uint32_t seq_offset,
+         mx::StreamOrDevice s) {
+        return mx::fast::mla_fused_sdpa_v2(
+            q_nope, q_pe,
+            cache_packed, cache_scales, cache_biases, cache_kpe,
+            new_latent, new_kpe,
+            scale, seq_offset, s);
+      },
+      "q_nope"_a,
+      "q_pe"_a,
+      "cache_packed"_a,
+      "cache_scales"_a,
+      "cache_biases"_a,
+      "cache_kpe"_a,
+      "new_latent"_a,
+      "new_kpe"_a,
+      "scale"_a,
+      "seq_offset"_a,
+      nb::kw_only(),
+      "stream"_a = nb::none(),
+      R"pbdoc(
+      Fused SDPA + direct cache update for MLA decode.
+
+      Combines attention computation with in-place cache append,
+      eliminating SliceUpdate full-cache copies. New token is quantized
+      in-kernel and written directly to cache buffers.
+
+      Args:
+        q_nope (array): [B, H, 256] absorbed query.
+        q_pe (array): [B, H, 64] RoPE query.
+        cache_packed (array): [B, S_alloc, 32] existing INT4 packed cache.
+        cache_scales (array): [B, S_alloc, 4] existing scales.
+        cache_biases (array): [B, S_alloc, 4] existing biases.
+        cache_kpe (array): [B, S_alloc, 64] existing RoPE keys.
+        new_latent (array): [B, 1, 256] new token's raw latent.
+        new_kpe (array): [B, 1, 64] new token's RoPE key.
+        scale (float): attention scale.
+        seq_offset (int): current cache occupancy (positions 0..S-1 valid).
+        stream (mx.stream, optional): Stream. Default: None.
+
+      Returns:
+        tuple: (sdpa_out, updated_packed, updated_scales, updated_biases, updated_kpe)
+      )pbdoc");
 }