array2d
diff --git a/‎numpy/core.h‎
Lines changed: 51 additions & 196 deletions b/‎numpy/core.h‎
Lines changed: 51 additions & 196 deletions
@@ -53,272 +53,144 @@ inline void full_like(T* dst, size_t n, T fill_value) {
 
 // ============================================================================
 // Element-wise math — T in → T out
-// All unrolled 4x to reduce loop overhead on small arrays.
-// ============================================================================
+//
+// NUMPY_UNROLL4 macro: 4x loop unrolling to reduce branch overhead.
+// All calls are inlined → identical codegen to hand-written unrolled loops.
+// ============================================================================
+
+#define NUMPY_UNROLL4(dst_i, body)       \
+    do { size_t _i = 0;                  \
+        for (; _i + 3 < n; _i += 4) {    \
+            size_t dst_i = _i + 0; body; \
+            dst_i = _i + 1; body;        \
+            dst_i = _i + 2; body;        \
+            dst_i = _i + 3; body;        \
+        }                                \
+        for (; _i < n; ++_i) {           \
+            size_t dst_i = _i; body;     \
+        }                                \
+    } while(0)
 
 /// numpy.sqrt(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void sqrt(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = std::sqrt(src[i+0]);
-        dst[i+1] = std::sqrt(src[i+1]);
-        dst[i+2] = std::sqrt(src[i+2]);
-        dst[i+3] = std::sqrt(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = std::sqrt(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = std::sqrt(src[i]));
 }
 
 /// numpy.abs(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void abs(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = std::abs(src[i+0]);
-        dst[i+1] = std::abs(src[i+1]);
-        dst[i+2] = std::abs(src[i+2]);
-        dst[i+3] = std::abs(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = std::abs(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = std::abs(src[i]));
 }
 
 /// numpy.exp(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void exp(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = svml::exp(src[i+0]);
-        dst[i+1] = svml::exp(src[i+1]);
-        dst[i+2] = svml::exp(src[i+2]);
-        dst[i+3] = svml::exp(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = svml::exp(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = svml::exp(src[i]));
 }
 
 /// numpy.log(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void log(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = svml::log(src[i+0]);
-        dst[i+1] = svml::log(src[i+1]);
-        dst[i+2] = svml::log(src[i+2]);
-        dst[i+3] = svml::log(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = svml::log(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = svml::log(src[i]));
 }
 
 /// numpy.sin(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void sin(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = svml::sin(src[i+0]);
-        dst[i+1] = svml::sin(src[i+1]);
-        dst[i+2] = svml::sin(src[i+2]);
-        dst[i+3] = svml::sin(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = svml::sin(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = svml::sin(src[i]));
 }
 
 /// numpy.cos(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void cos(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = svml::cos(src[i+0]);
-        dst[i+1] = svml::cos(src[i+1]);
-        dst[i+2] = svml::cos(src[i+2]);
-        dst[i+3] = svml::cos(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = svml::cos(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = svml::cos(src[i]));
 }
 
 /// numpy.tan(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void tan(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = svml::tan(src[i+0]);
-        dst[i+1] = svml::tan(src[i+1]);
-        dst[i+2] = svml::tan(src[i+2]);
-        dst[i+3] = svml::tan(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = svml::tan(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = svml::tan(src[i]));
 }
 
 /// numpy.power(x1, x2, /, out=None, *, where=True, ...)
 template<typename T>
 inline void power(const T* src, T* dst, size_t n, T exponent) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = svml::pow(src[i+0], exponent);
-        dst[i+1] = svml::pow(src[i+1], exponent);
-        dst[i+2] = svml::pow(src[i+2], exponent);
-        dst[i+3] = svml::pow(src[i+3], exponent);
-    }
-    for (; i < n; ++i) dst[i] = svml::pow(src[i], exponent);
+    NUMPY_UNROLL4(i, dst[i] = svml::pow(src[i], exponent));
 }
 
 /// numpy.clip(a, a_min, a_max, out=None, **kwargs)
 template<typename T>
 inline void clip(const T* src, T* dst, size_t n, T min_val, T max_val) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = std::max(min_val, std::min(max_val, src[i+0]));
-        dst[i+1] = std::max(min_val, std::min(max_val, src[i+1]));
-        dst[i+2] = std::max(min_val, std::min(max_val, src[i+2]));
-        dst[i+3] = std::max(min_val, std::min(max_val, src[i+3]));
-    }
-    for (; i < n; ++i)
-        dst[i] = std::max(min_val, std::min(max_val, src[i]));
+    NUMPY_UNROLL4(i, dst[i] = std::max(min_val, std::min(max_val, src[i])));
 }
 
 /// numpy.log10(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void log10(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = svml::log10(src[i+0]);
-        dst[i+1] = svml::log10(src[i+1]);
-        dst[i+2] = svml::log10(src[i+2]);
-        dst[i+3] = svml::log10(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = svml::log10(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = svml::log10(src[i]));
 }
 
 /// numpy.log2(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void log2(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = svml::log2(src[i+0]);
-        dst[i+1] = svml::log2(src[i+1]);
-        dst[i+2] = svml::log2(src[i+2]);
-        dst[i+3] = svml::log2(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = svml::log2(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = svml::log2(src[i]));
 }
 
 /// numpy.arcsin(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void arcsin(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = svml::asin(src[i+0]);
-        dst[i+1] = svml::asin(src[i+1]);
-        dst[i+2] = svml::asin(src[i+2]);
-        dst[i+3] = svml::asin(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = svml::asin(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = svml::asin(src[i]));
 }
 
 /// numpy.arccos(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void arccos(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = svml::acos(src[i+0]);
-        dst[i+1] = svml::acos(src[i+1]);
-        dst[i+2] = svml::acos(src[i+2]);
-        dst[i+3] = svml::acos(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = svml::acos(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = svml::acos(src[i]));
 }
 
 /// numpy.arctan(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void arctan(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = svml::atan(src[i+0]);
-        dst[i+1] = svml::atan(src[i+1]);
-        dst[i+2] = svml::atan(src[i+2]);
-        dst[i+3] = svml::atan(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = svml::atan(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = svml::atan(src[i]));
 }
 
 /// numpy.round(a, decimals=0, out=None)
 template<typename T>
 inline void round(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = std::round(src[i+0]);
-        dst[i+1] = std::round(src[i+1]);
-        dst[i+2] = std::round(src[i+2]);
-        dst[i+3] = std::round(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = std::round(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = std::round(src[i]));
 }
 
 /// numpy.floor(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void floor(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = std::floor(src[i+0]);
-        dst[i+1] = std::floor(src[i+1]);
-        dst[i+2] = std::floor(src[i+2]);
-        dst[i+3] = std::floor(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = std::floor(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = std::floor(src[i]));
 }
 
 /// numpy.ceil(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void ceil(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = std::ceil(src[i+0]);
-        dst[i+1] = std::ceil(src[i+1]);
-        dst[i+2] = std::ceil(src[i+2]);
-        dst[i+3] = std::ceil(src[i+3]);
-    }
-    for (; i < n; ++i) dst[i] = std::ceil(src[i]);
+    NUMPY_UNROLL4(i, dst[i] = std::ceil(src[i]));
 }
 
 /// numpy.degrees(x, /, out=None, *, where=True, ...)
-//  Must use native-type division to match numpy's compute path:
-//  numpy does float32(180.0) / float32(pi), NOT float32(double(180) / double(pi)).
 template<typename T>
 inline void degrees(const T* src, T* dst, size_t n) {
     T factor = T(180.0) / T(M_PI);
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = src[i+0] * factor;
-        dst[i+1] = src[i+1] * factor;
-        dst[i+2] = src[i+2] * factor;
-        dst[i+3] = src[i+3] * factor;
-    }
-    for (; i < n; ++i) dst[i] = src[i] * factor;
+    NUMPY_UNROLL4(i, dst[i] = src[i] * factor);
 }
 
 /// numpy.radians(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void radians(const T* src, T* dst, size_t n) {
     T factor = T(M_PI) / T(180.0);
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = src[i+0] * factor;
-        dst[i+1] = src[i+1] * factor;
-        dst[i+2] = src[i+2] * factor;
-        dst[i+3] = src[i+3] * factor;
-    }
-    for (; i < n; ++i) dst[i] = src[i] * factor;
+    NUMPY_UNROLL4(i, dst[i] = src[i] * factor);
 }
 
 /// numpy.sign(x, /, out=None, *, where=True, ...)
 template<typename T>
 inline void sign(const T* src, T* dst, size_t n) {
-    size_t i = 0;
-    for (; i + 3 < n; i += 4) {
-        dst[i+0] = T((src[i+0] > T(0)) - (src[i+0] < T(0)));
-        dst[i+1] = T((src[i+1] > T(0)) - (src[i+1] < T(0)));
-        dst[i+2] = T((src[i+2] > T(0)) - (src[i+2] < T(0)));
-        dst[i+3] = T((src[i+3] > T(0)) - (src[i+3] < T(0)));
-    }
-    for (; i < n; ++i) dst[i] = T((src[i] > T(0)) - (src[i] < T(0)));
+    NUMPY_UNROLL4(i, dst[i] = T((src[i] > T(0)) - (src[i] < T(0))));
 }
 
 // ============================================================================
@@ -931,43 +803,26 @@ inline void mean_axis(const T* src, T* dst, const ptrdiff_t* shape, int ndim, in
 // norm, dot — used by linalg
 // ============================================================================
 
-/// squared L2 norm (internal helper for linalg.norm)
-//  Stack allocation for n ≤ NUMPY_SMALL_STACK (128).
+/// squared L2 norm / dot — stack allocation for n ≤ 128
 template<typename T>
 inline T norm_sq(const T* data, size_t n) {
-    T stack_buf[NUMPY_SMALL_STACK];
-    T* squares;
-    std::vector<T> heap_buf;
-    if (n <= NUMPY_SMALL_STACK) {
-        squares = stack_buf;
-    } else {
-        heap_buf.resize(n);
-        squares = heap_buf.data();
-    }
-    for (size_t i = 0; i < n; ++i) {
-        T v = data[i];
-        squares[i] = v * v;
-    }
-    return pairwise_sum(squares, n);
+    T buf[NUMPY_SMALL_STACK];
+    T* squares = (n <= NUMPY_SMALL_STACK) ? buf : new T[n];
+    for (size_t i = 0; i < n; ++i) squares[i] = data[i] * data[i];
+    T result = pairwise_sum(squares, n);
+    if (n > NUMPY_SMALL_STACK) delete[] squares;
+    return result;
 }
 
-/// numpy.dot(a, b, out=None) — 1D vector dot product (pairwise sum)
-//  Matches numpy's np.sum(a * b) bit-exactly.
-//  Stack allocation for n ≤ NUMPY_SMALL_STACK (128).
+/// numpy.dot(a, b, out=None) — pairwise sum, matches np.sum(a*b)
 template<typename T>
 inline T dot(const T* a, const T* b, size_t n) {
-    T stack_buf[NUMPY_SMALL_STACK];
-    T* products;
-    std::vector<T> heap_buf;
-    if (n <= NUMPY_SMALL_STACK) {
-        products = stack_buf;
-    } else {
-        heap_buf.resize(n);
-        products = heap_buf.data();
-    }
-    for (size_t i = 0; i < n; ++i)
-        products[i] = a[i] * b[i];
-    return pairwise_sum(products, n);
+    T buf[NUMPY_SMALL_STACK];
+    T* prods = (n <= NUMPY_SMALL_STACK) ? buf : new T[n];
+    for (size_t i = 0; i < n; ++i) prods[i] = a[i] * b[i];
+    T result = pairwise_sum(prods, n);
+    if (n > NUMPY_SMALL_STACK) delete[] prods;
+    return result;
 }
 
 /// numpy.linalg.norm(x, ord=None, axis=N, keepdims=False) — N-D