d4/d6a/mul__toom32_8c_source.html

/**

 *  Copyright (C) 2026 HJimmyK(Jericho Knox)

 *

 *  This file is part of LAMMP.

 *

 *  LAMMP is free software: you can redistribute it and/or modify it under

 *  the terms of the GNU Lesser General Public License (LGPL) as published

 *   by the Free Software Foundation; either version 3 of the License, or

 *  (at your option) any later version.

 *

 *  This program is distributed WITHOUT ANY WARRANTY.

 *

 *  See <https://www.gnu.org/licenses/>.

 */


#include "../../../include/lammp/impl/mparam.h"

#include "../../../include/lammp/impl/tmp_alloc.h"

#include "../../../include/lammp/lmmpn.h"


#if MUL_TOOM33_THRESHOLD < MUL_TOOM44_THRESHOLD


#define lmmp_mul_n_(dst, numa, numb, n)                      \

    if ((n) < MUL_TOOM22_THRESHOLD)                          \

        lmmp_mul_basecase_((dst), (numa), (n), (numb), (n)); \

    else if ((n) < MUL_TOOM33_THRESHOLD)                     \

        lmmp_mul_toom22_((dst), (numa), (n), (numb), (n));   \

    else                                                     \

        lmmp_mul_toom33_((dst), (numa), (n), (numb), (n))


#endif


/*

Evaluate in: -1, 0, +1, +inf


<-s-><--n--><--n-->

|a2-|---a1-|---a0-|

      |-b1-|---b0-|

      <-t--><--n-->


v0  =  a0       * b0     #   A(0)*B(0)

v1  = (a0+a1+a2)*(b0+b1) #   A(1)*B(1)      ah  <= 2  bh <= 1

vm1 = (a0-a1+a2)*(b0-b1) #  A(-1)*B(-1)    |ah| <= 1  bh = 0

vinf=        a2 *    b1  # A(inf)*B(inf)

*/


void lmmp_mul_toom32_(mp_ptr restrict dst, mp_srcptr restrict numa, mp_size_t na, mp_srcptr restrict numb, mp_size_t nb) {

    lmmp_param_assert(nb >= 12);

    lmmp_param_assert(4 * na >= 5 * nb);

    lmmp_param_assert(5 * na <= 9 * nb);

    TEMP_S_DECL;

    mp_size_t n = 1 + (2 * na >= 3 * nb ? (na - 1) / 3 : (nb - 1) >> 1), s = na - 2 * n, t = nb - n;

    int vm1_neg;

    mp_limb_t cy, hi;

    mp_limb_t* restrict tp = SALLOC_TYPE(4 * n + 2, mp_limb_t);


#define a0 numa

#define a1 (numa + n)

#define a2 (numa + 2 * n)

#define b0 numb

#define b1 (numb + n)

    // nb>=12, so that s+t>=n+2

#define bm1 (dst)              //[dst,n]

#define bp1 (dst + n)          //[dst+n,n+1]

#define ap1 (dst + 2 * n + 1)  //[dst+2*n+1,n+1]

#define am1 (dst + 3 * n + 2)  //[dst+3*n+2,n]:hi

#define v1 (tp)                //[tp,2*n+1]

#define vm1 (tp + 2 * n + 1)   //[tp+2*n+1,2*n+1]

#define r0 (dst)

#define r1 (dst + n)

#define r2 (dst + 2 * n)

#define r3 (dst + 3 * n)


    // ap1=a0+a1+a3, am1=a0-a1+a3

    ap1[n] = lmmp_add_(ap1, a0, n, a2, s);

    if (ap1[n] == 0 && lmmp_cmp_(ap1, a1, n) < 0) {

        ap1[n] = lmmp_add_n_sub_n_(ap1, am1, a1, ap1, n) >> 1;

        hi = 0;

        vm1_neg = 1;

    } else {

        cy = lmmp_add_n_sub_n_(ap1, am1, ap1, a1, n);

        hi = ap1[n] - (cy & 1);

        ap1[n] += (cy >> 1);

        vm1_neg = 0;

    }


    // bp1=b0+b1, bm1=b0-b1

    if (t == n) {

        if (lmmp_cmp_(b0, b1, n) < 0) {

            bp1[n] = lmmp_add_n_sub_n_(bp1, bm1, b1, b0, n) >> 1;

            vm1_neg ^= 1;

        } else {

            bp1[n] = lmmp_add_n_sub_n_(bp1, bm1, b0, b1, n) >> 1;

        }

    } else {

        if (lmmp_zero_q_(b0 + t, n - t) && lmmp_cmp_(b0, b1, t) < 0) {

            cy = lmmp_add_n_sub_n_(bp1, bm1, b1, b0, t);

            lmmp_zero(bm1 + t, n - t);

            vm1_neg ^= 1;

        } else {

            cy = lmmp_add_n_sub_n_(bp1, bm1, b0, b1, t);

            lmmp_sub_1_(bm1 + t, b0 + t, n - t, cy & 1);

        }

        bp1[n] = lmmp_add_1_(bp1 + t, b0 + t, n - t, cy >> 1);

    }


    // v1=ap1*bp1

    lmmp_mul_n_(v1, ap1, bp1, n + 1);


    // vm=am1*bm1

    lmmp_mul_n_(vm1, am1, bm1, n);

    if (hi)

        hi = lmmp_add_n_(vm1 + n, vm1 + n, bm1, n);

    vm1[2 * n] = hi;


    // r0=a0*b0

    // r3=a2*b1

    lmmp_mul_n_(r0, a0, b0, n);

    if (s > t)

        lmmp_mul_(r3, a2, s, b1, t);

    else

        lmmp_mul_(r3, b1, t, a2, s);


    // v1=(v1+vm1)/2, (=a0*b0+a2*b0+a1*b1)

    // vm1=v1-vm1, (=a1*b0+a0*b1+a2*b1)

    if (vm1_neg) {

        lmmp_shr1sub_n_(v1, v1, vm1, 2 * n + 1);

        lmmp_add_n_(vm1, v1, vm1, 2 * n + 1);

    } else {

        lmmp_shr1add_n_(v1, v1, vm1, 2 * n + 1);

        lmmp_sub_n_(vm1, v1, vm1, 2 * n + 1);

    }


    // vm1-=r3, (=r1)

    // v1-=r0, (=r2)

    lmmp_sub_(vm1, vm1, 2 * n + 1, r3, s + t);

    v1[2 * n] -= lmmp_sub_n_(v1, v1, r0, 2 * n);


    // r=r0+vm1*B+v1*B^2+r3*B^4

    cy = vm1[2 * n] + lmmp_add_(r1, vm1, 2 * n, r1, n);

    lmmp_add_(r2, r2, n + s + t, v1, 2 * n + 1);

    lmmp_inc_1(r3, cy);

    TEMP_S_FREE;

}


mp_ptr
mp_limb_t * mp_ptr
Definition lmmp.h:80

lmmp_zero
#define lmmp_zero(dst, n)
Definition lmmp.h:391

mp_size_t
uint64_t mp_size_t
Definition lmmp.h:77

mp_srcptr
const mp_limb_t * mp_srcptr
Definition lmmp.h:81

mp_limb_t
uint64_t mp_limb_t
Definition lmmp.h:76

lmmp_param_assert
#define lmmp_param_assert(x)
Definition lmmp.h:423

lmmp_add_
static mp_limb_t lmmp_add_(mp_ptr dst, mp_srcptr numa, mp_size_t na, mp_srcptr numb, mp_size_t nb)
大数加法静态内联函数 [dst,na]=[numa,na]+[numb,nb]
Definition lmmpn.h:1050

lmmp_shr1add_n_
mp_limb_t lmmp_shr1add_n_(mp_ptr dst, mp_srcptr numa, mp_srcptr numb, mp_size_t n)
加法后右移1位 [dst,n] = ([numa,n] + [numb,n]) >> 1
Definition shr.c:62

lmmp_cmp_
static int lmmp_cmp_(mp_srcptr numa, mp_srcptr numb, mp_size_t n)
大数比较函数（内联）
Definition lmmpn.h:996

lmmp_add_1_
static mp_limb_t lmmp_add_1_(mp_ptr dst, mp_srcptr numa, mp_size_t na, mp_limb_t x)
大数加单精度数静态内联函数 [dst,na]=[numa,na]+x
Definition lmmpn.h:1103

lmmp_mul_
void lmmp_mul_(mp_ptr dst, mp_srcptr numa, mp_size_t na, mp_srcptr numb, mp_size_t nb)
不等长大数乘法操作 [dst,na+nb] = [numa,na] * [numb,nb]

lmmp_sub_
static mp_limb_t lmmp_sub_(mp_ptr dst, mp_srcptr numa, mp_size_t na, mp_srcptr numb, mp_size_t nb)
大数减法静态内联函数 [dst,na]=[numa,na]-[numb,nb]
Definition lmmpn.h:1064

lmmp_add_n_sub_n_
mp_limb_t lmmp_add_n_sub_n_(mp_ptr dsta, mp_ptr dstb, mp_srcptr numa, mp_srcptr numb, mp_size_t n)
同时执行n位加法和减法 ([dsta,n],[dstb,n]) = ([numa,n]+[numb,n],[numa,n]-[numb,n])
Definition add_n_sub_n.c:20

lmmp_sub_1_
static mp_limb_t lmmp_sub_1_(mp_ptr dst, mp_srcptr numa, mp_size_t na, mp_limb_t x)
大数减单精度数静态内联函数 [dst,na]=[numa,na]-x
Definition lmmpn.h:1114

lmmp_sub_n_
mp_limb_t lmmp_sub_n_(mp_ptr dst, mp_srcptr numa, mp_srcptr numb, mp_size_t n)
无借位的n位减法 [dst,n] = [numa,n] - [numb,n]
Definition sub_n.c:80

lmmp_shr1sub_n_
mp_limb_t lmmp_shr1sub_n_(mp_ptr dst, mp_srcptr numa, mp_srcptr numb, mp_size_t n)
减法后右移1位 [dst,n] = ([numa,n] - [numb,n]) >> 1
Definition shr.c:116

lmmp_inc_1
#define lmmp_inc_1(p, inc)
大数加指定值宏（预期无进位）
Definition lmmpn.h:950

lmmp_add_n_
mp_limb_t lmmp_add_n_(mp_ptr dst, mp_srcptr numa, mp_srcptr numb, mp_size_t n)
无进位的n位加法 [dst,n] = [numa,n] + [numb,n]
Definition add_n.c:81

lmmp_zero_q_
static int lmmp_zero_q_(mp_srcptr p, mp_size_t n)
大数判零函数（内联）
Definition lmmpn.h:1019

r2
#define r2

b0
#define b0

lmmp_mul_n_
#define lmmp_mul_n_(dst, numa, numb, n)
Copyright (C) 2026 HJimmyK(Jericho Knox)
Definition mul_toom32.c:22

b1
#define b1

am1
#define am1

ap1
#define ap1

bp1
#define bp1

vm1
#define vm1

r1
#define r1

bm1
#define bm1

a2
#define a2

a0
#define a0

a1
#define a1

lmmp_mul_toom32_
void lmmp_mul_toom32_(mp_ptr restrict dst, mp_srcptr restrict numa, mp_size_t na, mp_srcptr restrict numb, mp_size_t nb)
Definition mul_toom32.c:45

v1
#define v1

r3
#define r3

r0
#define r0

t
#define t

numb
#define numb

tp
#define tp

s
#define s

n
#define n

SALLOC_TYPE
#define SALLOC_TYPE(n, type)
Definition tmp_alloc.h:144

TEMP_S_DECL
#define TEMP_S_DECL
Definition tmp_alloc.h:133

TEMP_S_FREE
#define TEMP_S_FREE
Definition tmp_alloc.h:166