10 years ago · 22c091eb3f
--- a/configure.ac
+++ b/configure.ac
@@ -191,6 +191,7 @@ AC_FUNC_ERROR_AT_LINE
 
															 AC_FUNC_MALLOC
														
 
															 AC_FUNC_STRTOD
														
 
															 AC_CHECK_FUNCS([floor memset pow sqrt strtol strtoul])
														
 
															+AX_CHECK_SVML
														
 
															 # Path for precomputed data files.
														
 
															 AC_ARG_WITH(precomp-dir,
														
--- a/examples/src/fmm_cheb.cpp
+++ b/examples/src/fmm_cheb.cpp
@@ -190,7 +190,7 @@ void fn_input_t5(const Real_t* coord, int n, Real_t* out){
 
															     const Real_t* c=&coord[i*COORD_DIM];
														
 
															     {
														
 
															       Real_t r_2=(c[0]-0.5)*(c[0]-0.5)+(c[1]-0.5)*(c[1]-0.5)+(c[2]-0.5)*(c[2]-0.5);
														
 
															-      out[i*dof+0]=((2*a*r_2+3)*2*a*exp(a*r_2)+mu*mu*exp(a*r_2))/4.0/M_PI;
														
 
															+      out[i*dof+0]=((2*a*r_2+3)*2*a*exp(a*r_2)+mu*mu*exp(a*r_2));
														
 
															       out[i*dof+1]=0;
														
 
															     }
														
 
															   }
														
--- a/include/intrin_wrapper.hpp
+++ b/include/intrin_wrapper.hpp
@@ -83,6 +83,16 @@ inline T rinv_single_intrin(const T& r2){
 
															   return 0;
														
 
															 }
														
 
															+template <class T>
														
 
															+inline T sin_intrin(const T& t){
														
 
															+  return sin(t);
														
 
															+}
														
 
															+
														
 
															+template <class T>
														
 
															+inline T cos_intrin(const T& t){
														
 
															+  return cos(t);
														
 
															+}
														
 
															+
														
 
															 #ifdef __SSE3__
														
@@ -226,6 +236,52 @@ inline __m128d rinv_single_intrin(const __m128d& r2){
 
															   #undef PD2PS
														
 
															   #undef PS2PD
														
 
															 }
														
 
															+
														
 
															+#ifdef PVFMM_HAVE_INTEL_SVML
														
 
															+template <>
														
 
															+inline __m128 sin_intrin(const __m128& t){
														
 
															+  return _mm_sin_ps(t);
														
 
															+}
														
 
															+
														
 
															+template <>
														
 
															+inline __m128 cos_intrin(const __m128& t){
														
 
															+  return _mm_cos_ps(t);
														
 
															+}
														
 
															+
														
 
															+template <>
														
 
															+inline __m128d sin_intrin(const __m128d& t){
														
 
															+  return _mm_sin_pd(t);
														
 
															+}
														
 
															+
														
 
															+template <>
														
 
															+inline __m128d cos_intrin(const __m128d& t){
														
 
															+  return _mm_cos_pd(t);
														
 
															+}
														
 
															+#else
														
 
															+template <>
														
 
															+inline __m128 sin_intrin(const __m128& t_){
														
 
															+  union{float e[4];__m128 d;} t; store_intrin(t.e, t_);
														
 
															+  return _mm_set_ps(sin(t.e[3]),sin(t.e[2]),sin(t.e[1]),sin(t.e[0]));
														
 
															+}
														
 
															+
														
 
															+template <>
														
 
															+inline __m128 cos_intrin(const __m128& t_){
														
 
															+  union{float e[4];__m128 d;} t; store_intrin(t.e, t_);
														
 
															+  return _mm_set_ps(cos(t.e[3]),cos(t.e[2]),cos(t.e[1]),cos(t.e[0]));
														
 
															+}
														
 
															+
														
 
															+template <>
														
 
															+inline __m128d sin_intrin(const __m128d& t_){
														
 
															+  union{double e[2];__m128d d;} t; store_intrin(t.e, t_);
														
 
															+  return _mm_set_pd(sin(t.e[1]),sin(t.e[0]));
														
 
															+}
														
 
															+
														
 
															+template <>
														
 
															+inline __m128d cos_intrin(const __m128d& t_){
														
 
															+  union{double e[2];__m128d d;} t; store_intrin(t.e, t_);
														
 
															+  return _mm_set_pd(cos(t.e[1]),cos(t.e[0]));
														
 
															+}
														
 
															+#endif
														
 
															 #endif
														
@@ -372,6 +428,52 @@ inline __m256d rinv_single_intrin(const __m256d& r2){
 
															   #undef PD2PS
														
 
															   #undef PS2PD
														
 
															 }
														
 
															+
														
 
															+#ifdef PVFMM_HAVE_INTEL_SVML
														
 
															+template <>
														
 
															+inline __m256 sin_intrin(const __m256& t){
														
 
															+  return _mm256_sin_ps(t);
														
 
															+}
														
 
															+
														
 
															+template <>
														
 
															+inline __m256 cos_intrin(const __m256& t){
														
 
															+  return _mm256_cos_ps(t);
														
 
															+}
														
 
															+
														
 
															+template <>
														
 
															+inline __m256d sin_intrin(const __m256d& t){
														
 
															+  return _mm256_sin_pd(t);
														
 
															+}
														
 
															+
														
 
															+template <>
														
 
															+inline __m256d cos_intrin(const __m256d& t){
														
 
															+  return _mm256_cos_pd(t);
														
 
															+}
														
 
															+#else
														
 
															+template <>
														
 
															+inline __m256 sin_intrin(const __m256& t_){
														
 
															+  union{float e[8];__m256 d;} t; store_intrin(t.e, t_);//t.d=t_;
														
 
															+  return _mm256_set_ps(sin(t.e[7]),sin(t.e[6]),sin(t.e[5]),sin(t.e[4]),sin(t.e[3]),sin(t.e[2]),sin(t.e[1]),sin(t.e[0]));
														
 
															+}
														
 
															+
														
 
															+template <>
														
 
															+inline __m256 cos_intrin(const __m256& t_){
														
 
															+  union{float e[8];__m256 d;} t; store_intrin(t.e, t_);//t.d=t_;
														
 
															+  return _mm256_set_ps(cos(t.e[7]),cos(t.e[6]),cos(t.e[5]),cos(t.e[4]),cos(t.e[3]),cos(t.e[2]),cos(t.e[1]),cos(t.e[0]));
														
 
															+}
														
 
															+
														
 
															+template <>
														
 
															+inline __m256d sin_intrin(const __m256d& t_){
														
 
															+  union{double e[4];__m256d d;} t; store_intrin(t.e, t_);//t.d=t_;
														
 
															+  return _mm256_set_pd(sin(t.e[3]),sin(t.e[2]),sin(t.e[1]),sin(t.e[0]));
														
 
															+}
														
 
															+
														
 
															+template <>
														
 
															+inline __m256d cos_intrin(const __m256d& t_){
														
 
															+  union{double e[4];__m256d d;} t; store_intrin(t.e, t_);//t.d=t_;
														
 
															+  return _mm256_set_pd(cos(t.e[3]),cos(t.e[2]),cos(t.e[1]),cos(t.e[0]));
														
 
															+}
														
 
															+#endif
														
 
															 #endif
														
--- a/include/kernel.txx
+++ b/include/kernel.txx
@@ -1167,43 +1167,128 @@ template<> const Kernel<double>& LaplaceKernel<double>::gradient(){
 
															  * \brief Green's function for the Stokes's equation. Kernel tensor
														
 
															  * dimension = 3x3.
														
 
															  */
														
 
															-template <class T>
														
 
															-void stokes_vel(T* r_src, int src_cnt, T* v_src_, int dof, T* r_trg, int trg_cnt, T* k_out, mem::MemoryManager* mem_mgr){
														
 
															-#ifndef __MIC__
														
 
															-  Profile::Add_FLOP((long long)trg_cnt*(long long)src_cnt*(28*dof));
														
 
															-#endif
														
 
															+template <class Real_t, class Vec_t=Real_t, Vec_t (*RINV_INTRIN)(Vec_t)=rinv_intrin0<Vec_t> >
														
 
															+void stokes_vel_uKernel(Matrix<Real_t>& src_coord, Matrix<Real_t>& src_value, Matrix<Real_t>& trg_coord, Matrix<Real_t>& trg_value){
														
 
															+  #define SRC_BLK 1000
														
 
															+  size_t VecLen=sizeof(Vec_t)/sizeof(Real_t);
														
 
															-  const T mu=1.0;
														
 
															-  const T OOEPMU = 1.0/(8.0*const_pi<T>()*mu);
														
 
															-  for(int t=0;t<trg_cnt;t++){
														
 
															-    for(int i=0;i<dof;i++){
														
 
															-      T p[3]={0,0,0};
														
 
															-      for(int s=0;s<src_cnt;s++){
														
 
															-        T dR[3]={r_trg[3*t  ]-r_src[3*s  ],
														
 
															-                 r_trg[3*t+1]-r_src[3*s+1],
														
 
															-                 r_trg[3*t+2]-r_src[3*s+2]};
														
 
															-        T R = (dR[0]*dR[0]+dR[1]*dR[1]+dR[2]*dR[2]);
														
 
															-        if (R!=0){
														
 
															-          T invR2=1.0/R;
														
 
															-          T invR=sqrt(invR2);
														
 
															-          T v_src[3]={v_src_[(s*dof+i)*3  ],
														
 
															-                      v_src_[(s*dof+i)*3+1],
														
 
															-                      v_src_[(s*dof+i)*3+2]};
														
 
															-          T inner_prod=(v_src[0]*dR[0] +
														
 
															-                        v_src[1]*dR[1] +
														
 
															-                        v_src[2]*dR[2])* invR2;
														
 
															-          p[0] += (v_src[0] + dR[0]*inner_prod)*invR;
														
 
															-          p[1] += (v_src[1] + dR[1]*inner_prod)*invR;
														
 
															-          p[2] += (v_src[2] + dR[2]*inner_prod)*invR;
														
 
															-        }
														
 
															+  //// Number of newton iterations
														
 
															+  size_t NWTN_ITER=0;
														
 
															+  if(RINV_INTRIN==(Vec_t (*)(Vec_t))rinv_intrin0<Vec_t,Real_t>) NWTN_ITER=0;
														
 
															+  if(RINV_INTRIN==(Vec_t (*)(Vec_t))rinv_intrin1<Vec_t,Real_t>) NWTN_ITER=1;
														
 
															+  if(RINV_INTRIN==(Vec_t (*)(Vec_t))rinv_intrin2<Vec_t,Real_t>) NWTN_ITER=2;
														
 
															+  if(RINV_INTRIN==(Vec_t (*)(Vec_t))rinv_intrin3<Vec_t,Real_t>) NWTN_ITER=3;
														
 
															+
														
 
															+  Real_t nwtn_scal=1; // scaling factor for newton iterations
														
 
															+  for(int i=0;i<NWTN_ITER;i++){
														
 
															+    nwtn_scal=2*nwtn_scal*nwtn_scal*nwtn_scal;
														
 
															+  }
														
 
															+  const Real_t OOEP = 1.0/(8*nwtn_scal*const_pi<Real_t>());
														
 
															+  Vec_t inv_nwrn_scal2=set_intrin<Vec_t,Real_t>(1.0/(nwtn_scal*nwtn_scal));
														
 
															+
														
 
															+  size_t src_cnt_=src_coord.Dim(1);
														
 
															+  size_t trg_cnt_=trg_coord.Dim(1);
														
 
															+  for(size_t sblk=0;sblk<src_cnt_;sblk+=SRC_BLK){
														
 
															+    size_t src_cnt=src_cnt_-sblk;
														
 
															+    if(src_cnt>SRC_BLK) src_cnt=SRC_BLK;
														
 
															+    for(size_t t=0;t<trg_cnt_;t+=VecLen){
														
 
															+      Vec_t tx=load_intrin<Vec_t>(&trg_coord[0][t]);
														
 
															+      Vec_t ty=load_intrin<Vec_t>(&trg_coord[1][t]);
														
 
															+      Vec_t tz=load_intrin<Vec_t>(&trg_coord[2][t]);
														
 
															+
														
 
															+      Vec_t tvx=zero_intrin<Vec_t>();
														
 
															+      Vec_t tvy=zero_intrin<Vec_t>();
														
 
															+      Vec_t tvz=zero_intrin<Vec_t>();
														
 
															+      for(size_t s=sblk;s<sblk+src_cnt;s++){
														
 
															+        Vec_t dx=sub_intrin(tx,bcast_intrin<Vec_t>(&src_coord[0][s]));
														
 
															+        Vec_t dy=sub_intrin(ty,bcast_intrin<Vec_t>(&src_coord[1][s]));
														
 
															+        Vec_t dz=sub_intrin(tz,bcast_intrin<Vec_t>(&src_coord[2][s]));
														
 
															+
														
 
															+        Vec_t svx=             bcast_intrin<Vec_t>(&src_value[0][s]) ;
														
 
															+        Vec_t svy=             bcast_intrin<Vec_t>(&src_value[1][s]) ;
														
 
															+        Vec_t svz=             bcast_intrin<Vec_t>(&src_value[2][s]) ;
														
 
															+
														
 
															+        Vec_t r2=        mul_intrin(dx,dx) ;
														
 
															+        r2=add_intrin(r2,mul_intrin(dy,dy));
														
 
															+        r2=add_intrin(r2,mul_intrin(dz,dz));
														
 
															+
														
 
															+        Vec_t rinv=RINV_INTRIN(r2);
														
 
															+        Vec_t rinv2=mul_intrin(mul_intrin(rinv,rinv),inv_nwrn_scal2);
														
 
															+
														
 
															+        Vec_t inner_prod=                mul_intrin(svx,dx) ;
														
 
															+        inner_prod=add_intrin(inner_prod,mul_intrin(svy,dy));
														
 
															+        inner_prod=add_intrin(inner_prod,mul_intrin(svz,dz));
														
 
															+        inner_prod=mul_intrin(inner_prod,rinv2);
														
 
															+
														
 
															+        tvx=add_intrin(tvx,mul_intrin(rinv,add_intrin(svx,mul_intrin(dx,inner_prod))));
														
 
															+        tvy=add_intrin(tvy,mul_intrin(rinv,add_intrin(svy,mul_intrin(dy,inner_prod))));
														
 
															+        tvz=add_intrin(tvz,mul_intrin(rinv,add_intrin(svz,mul_intrin(dz,inner_prod))));
														
 
															       }
														
 
															-      k_out[(t*dof+i)*3+0] += p[0]*OOEPMU;
														
 
															-      k_out[(t*dof+i)*3+1] += p[1]*OOEPMU;
														
 
															-      k_out[(t*dof+i)*3+2] += p[2]*OOEPMU;
														
 
															+      Vec_t ooep=set_intrin<Vec_t,Real_t>(OOEP);
														
 
															+
														
 
															+      tvx=add_intrin(mul_intrin(tvx,ooep),load_intrin<Vec_t>(&trg_value[0][t]));
														
 
															+      tvy=add_intrin(mul_intrin(tvy,ooep),load_intrin<Vec_t>(&trg_value[1][t]));
														
 
															+      tvz=add_intrin(mul_intrin(tvz,ooep),load_intrin<Vec_t>(&trg_value[2][t]));
														
 
															+
														
 
															+      store_intrin(&trg_value[0][t],tvx);
														
 
															+      store_intrin(&trg_value[1][t],tvy);
														
 
															+      store_intrin(&trg_value[2][t],tvz);
														
 
															     }
														
 
															   }
														
 
															+
														
 
															+  { // Add FLOPS
														
 
															+    #ifndef __MIC__
														
 
															+    Profile::Add_FLOP((long long)trg_cnt_*(long long)src_cnt_*(29+4*(NWTN_ITER)));
														
 
															+    #endif
														
 
															+  }
														
 
															+  #undef SRC_BLK
														
 
															+}
														
 
															+
														
 
															+template <class T, int newton_iter=0>
														
 
															+void stokes_vel(T* r_src, int src_cnt, T* v_src, int dof, T* r_trg, int trg_cnt, T* v_trg, mem::MemoryManager* mem_mgr){
														
 
															+  #define STK_KER_NWTN(nwtn) if(newton_iter==nwtn) \
														
 
															+        generic_kernel<Real_t, 3, 3, stokes_vel_uKernel<Real_t,Vec_t, rinv_intrin##nwtn<Vec_t,Real_t> > > \
														
 
															+            ((Real_t*)r_src, src_cnt, (Real_t*)v_src, dof, (Real_t*)r_trg, trg_cnt, (Real_t*)v_trg, mem_mgr)
														
 
															+  #define STOKES_KERNEL STK_KER_NWTN(0); STK_KER_NWTN(1); STK_KER_NWTN(2); STK_KER_NWTN(3);
														
 
															+
														
 
															+  if(mem::TypeTraits<T>::ID()==mem::TypeTraits<float>::ID()){
														
 
															+    typedef float Real_t;
														
 
															+    #if defined __MIC__
														
 
															+      #define Vec_t Real_t
														
 
															+    #elif defined __AVX__
														
 
															+      #define Vec_t __m256
														
 
															+    #elif defined __SSE3__
														
 
															+      #define Vec_t __m128
														
 
															+    #else
														
 
															+      #define Vec_t Real_t
														
 
															+    #endif
														
 
															+    STOKES_KERNEL;
														
 
															+    #undef Vec_t
														
 
															+  }else if(mem::TypeTraits<T>::ID()==mem::TypeTraits<double>::ID()){
														
 
															+    typedef double Real_t;
														
 
															+    #if defined __MIC__
														
 
															+      #define Vec_t Real_t
														
 
															+    #elif defined __AVX__
														
 
															+      #define Vec_t __m256d
														
 
															+    #elif defined __SSE3__
														
 
															+      #define Vec_t __m128d
														
 
															+    #else
														
 
															+      #define Vec_t Real_t
														
 
															+    #endif
														
 
															+    STOKES_KERNEL;
														
 
															+    #undef Vec_t
														
 
															+  }else{
														
 
															+    typedef T Real_t;
														
 
															+    #define Vec_t Real_t
														
 
															+    STOKES_KERNEL;
														
 
															+    #undef Vec_t
														
 
															+  }
														
 
															+
														
 
															+  #undef STK_KER_NWTN
														
 
															+  #undef STOKES_KERNEL
														
 
															 }
														
 
															+
														
 
															 template <class T>
														
 
															 void stokes_sym_dip(T* r_src, int src_cnt, T* v_src, int dof, T* r_trg, int trg_cnt, T* k_out, mem::MemoryManager* mem_mgr){
														
 
															 #ifndef __MIC__
														
@@ -1387,168 +1472,6 @@ namespace
 
															 #define SIMD_LEN (int)(IDEAL_ALIGNMENT / sizeof(double))
														
 
															 #define DECL_SIMD_ALIGNED  __declspec(align(IDEAL_ALIGNMENT))
														
 
															-  void stokesDirectVecSSE(
														
 
															-      const int ns,
														
 
															-      const int nt,
														
 
															-      const double *sx,
														
 
															-      const double *sy,
														
 
															-      const double *sz,
														
 
															-      const double *tx,
														
 
															-      const double *ty,
														
 
															-      const double *tz,
														
 
															-      const double *srcDen,
														
 
															-      double *trgVal,
														
 
															-      const double cof )
														
 
															-  {
														
 
															-    if ( size_t(sx)%IDEAL_ALIGNMENT || size_t(sy)%IDEAL_ALIGNMENT || size_t(sz)%IDEAL_ALIGNMENT )
														
 
															-      abort();
														
 
															-    double mu = cof;
														
 
															-
														
 
															-    double OOEP = 1.0/(8.0*const_pi<double>());
														
 
															-    __m128d tempx;
														
 
															-    __m128d tempy;
														
 
															-    __m128d tempz;
														
 
															-    double oomeu = 1/mu;
														
 
															-
														
 
															-    double aux_arr[3*SIMD_LEN+1];
														
 
															-    double *tempvalx;
														
 
															-    double *tempvaly;
														
 
															-    double *tempvalz;
														
 
															-    if (size_t(aux_arr)%IDEAL_ALIGNMENT)  // if aux_arr is misaligned
														
 
															-    {
														
 
															-      tempvalx = aux_arr + 1;
														
 
															-      if (size_t(tempvalx)%IDEAL_ALIGNMENT)
														
 
															-        abort();
														
 
															-    }
														
 
															-    else
														
 
															-      tempvalx = aux_arr;
														
 
															-    tempvaly=tempvalx+SIMD_LEN;
														
 
															-    tempvalz=tempvaly+SIMD_LEN;
														
 
															-
														
 
															-
														
 
															-    /*! One over eight pi */
														
 
															-    __m128d ooep = _mm_set1_pd (OOEP);
														
 
															-    __m128d half = _mm_set1_pd (0.5);
														
 
															-    __m128d opf = _mm_set1_pd (1.5);
														
 
															-    __m128d zero = _mm_setzero_pd ();
														
 
															-    __m128d oomu = _mm_set1_pd (1/mu);
														
 
															-
														
 
															-    // loop over sources
														
 
															-    int i = 0;
														
 
															-    for (; i < nt; i++) {
														
 
															-      tempx = _mm_setzero_pd();
														
 
															-      tempy = _mm_setzero_pd();
														
 
															-      tempz = _mm_setzero_pd();
														
 
															-
														
 
															-      __m128d txi = _mm_load1_pd (&tx[i]);
														
 
															-      __m128d tyi = _mm_load1_pd (&ty[i]);
														
 
															-      __m128d tzi = _mm_load1_pd (&tz[i]);
														
 
															-      int j = 0;
														
 
															-      // Load and calculate in groups of SIMD_LEN
														
 
															-      for (; j + SIMD_LEN <= ns; j+=SIMD_LEN) {
														
 
															-        __m128d sxj = _mm_load_pd (&sx[j]);
														
 
															-        __m128d syj = _mm_load_pd (&sy[j]);
														
 
															-        __m128d szj = _mm_load_pd (&sz[j]);
														
 
															-        __m128d sdenx = _mm_set_pd (srcDen[(j+1)*3],   srcDen[j*3]);
														
 
															-        __m128d sdeny = _mm_set_pd (srcDen[(j+1)*3+1], srcDen[j*3+1]);
														
 
															-        __m128d sdenz = _mm_set_pd (srcDen[(j+1)*3+2], srcDen[j*3+2]);
														
 
															-
														
 
															-        __m128d dX, dY, dZ;
														
 
															-        __m128d dR2;
														
 
															-        __m128d S;
														
 
															-
														
 
															-        dX = _mm_sub_pd(txi , sxj);
														
 
															-        dY = _mm_sub_pd(tyi , syj);
														
 
															-        dZ = _mm_sub_pd(tzi , szj);
														
 
															-
														
 
															-        sxj = _mm_mul_pd(dX, dX);
														
 
															-        syj = _mm_mul_pd(dY, dY);
														
 
															-        szj = _mm_mul_pd(dZ, dZ);
														
 
															-
														
 
															-        dR2 = _mm_add_pd(sxj, syj);
														
 
															-        dR2 = _mm_add_pd(szj, dR2);
														
 
															-        __m128d temp = _mm_cmpeq_pd (dR2, zero);
														
 
															-
														
 
															-        __m128d xhalf = _mm_mul_pd (half, dR2);
														
 
															-        __m128 dR2_s  =  _mm_cvtpd_ps(dR2);
														
 
															-        __m128 S_s    = _mm_rsqrt_ps(dR2_s);
														
 
															-        __m128d S_d   = _mm_cvtps_pd(S_s);
														
 
															-        // To handle the condition when src and trg coincide
														
 
															-        S_d = _mm_andnot_pd (temp, S_d);
														
 
															-
														
 
															-        S = _mm_mul_pd (S_d, S_d);
														
 
															-        S = _mm_mul_pd (S, xhalf);
														
 
															-        S = _mm_sub_pd (opf, S);
														
 
															-        S = _mm_mul_pd (S, S_d);
														
 
															-
														
 
															-        __m128d dotx = _mm_mul_pd (dX, sdenx);
														
 
															-        __m128d doty = _mm_mul_pd (dY, sdeny);
														
 
															-        __m128d dotz = _mm_mul_pd (dZ, sdenz);
														
 
															-
														
 
															-        __m128d dot_sum = _mm_add_pd (dotx, doty);
														
 
															-        dot_sum = _mm_add_pd (dot_sum, dotz);
														
 
															-
														
 
															-        dot_sum = _mm_mul_pd (dot_sum, S);
														
 
															-        dot_sum = _mm_mul_pd (dot_sum, S);
														
 
															-        dotx = _mm_mul_pd (dot_sum, dX);
														
 
															-        doty = _mm_mul_pd (dot_sum, dY);
														
 
															-        dotz = _mm_mul_pd (dot_sum, dZ);
														
 
															-
														
 
															-        sdenx = _mm_add_pd (sdenx, dotx);
														
 
															-        sdeny = _mm_add_pd (sdeny, doty);
														
 
															-        sdenz = _mm_add_pd (sdenz, dotz);
														
 
															-
														
 
															-        sdenx = _mm_mul_pd (sdenx, S);
														
 
															-        sdeny = _mm_mul_pd (sdeny, S);
														
 
															-        sdenz = _mm_mul_pd (sdenz, S);
														
 
															-
														
 
															-        tempx = _mm_add_pd (sdenx, tempx);
														
 
															-        tempy = _mm_add_pd (sdeny, tempy);
														
 
															-        tempz = _mm_add_pd (sdenz, tempz);
														
 
															-
														
 
															-      }
														
 
															-      tempx = _mm_mul_pd (tempx, ooep);
														
 
															-      tempy = _mm_mul_pd (tempy, ooep);
														
 
															-      tempz = _mm_mul_pd (tempz, ooep);
														
 
															-
														
 
															-      tempx = _mm_mul_pd (tempx, oomu);
														
 
															-      tempy = _mm_mul_pd (tempy, oomu);
														
 
															-      tempz = _mm_mul_pd (tempz, oomu);
														
 
															-
														
 
															-      _mm_store_pd(tempvalx, tempx);
														
 
															-      _mm_store_pd(tempvaly, tempy);
														
 
															-      _mm_store_pd(tempvalz, tempz);
														
 
															-      for (int k = 0; k < SIMD_LEN; k++) {
														
 
															-        trgVal[i*3]   += tempvalx[k];
														
 
															-        trgVal[i*3+1] += tempvaly[k];
														
 
															-        trgVal[i*3+2] += tempvalz[k];
														
 
															-      }
														
 
															-
														
 
															-      for (; j < ns; j++) {
														
 
															-        double x = tx[i] - sx[j];
														
 
															-        double y = ty[i] - sy[j];
														
 
															-        double z = tz[i] - sz[j];
														
 
															-        double r2 = x*x + y*y + z*z;
														
 
															-        double r = sqrt(r2);
														
 
															-        double invdr;
														
 
															-        if (r == 0)
														
 
															-          invdr = 0;
														
 
															-        else
														
 
															-          invdr = 1/r;
														
 
															-        double dot = (x*srcDen[j*3] + y*srcDen[j*3+1] + z*srcDen[j*3+2]) * invdr * invdr;
														
 
															-        double denx = srcDen[j*3] + dot*x;
														
 
															-        double deny = srcDen[j*3+1] + dot*y;
														
 
															-        double denz = srcDen[j*3+2] + dot*z;
														
 
															-
														
 
															-        trgVal[i*3] += denx*invdr*OOEP*oomeu;
														
 
															-        trgVal[i*3+1] += deny*invdr*OOEP*oomeu;
														
 
															-        trgVal[i*3+2] += denz*invdr*OOEP*oomeu;
														
 
															-      }
														
 
															-    }
														
 
															-
														
 
															-    return;
														
 
															-  }
														
 
															-
														
 
															   void stokesPressureSSE(
														
 
															       const int ns,
														
 
															       const int nt,
														
@@ -2052,34 +1975,6 @@ namespace
 
															 #define X(s,k) (s)[(k)*COORD_DIM]
														
 
															 #define Y(s,k) (s)[(k)*COORD_DIM+1]
														
 
															 #define Z(s,k) (s)[(k)*COORD_DIM+2]
														
 
															-  void stokesDirectSSEShuffle(const int ns, const int nt, double const src[], double const trg[], double const den[], double pot[], const double kernel_coef, mem::MemoryManager* mem_mgr=NULL)
														
 
															-  {
														
 
															-
														
 
															-    std::vector<double> xs(ns+1);   std::vector<double> xt(nt);
														
 
															-    std::vector<double> ys(ns+1);   std::vector<double> yt(nt);
														
 
															-    std::vector<double> zs(ns+1);   std::vector<double> zt(nt);
														
 
															-
														
 
															-    int x_shift = size_t(&xs[0]) % IDEAL_ALIGNMENT ? 1:0;
														
 
															-    int y_shift = size_t(&ys[0]) % IDEAL_ALIGNMENT ? 1:0;
														
 
															-    int z_shift = size_t(&zs[0]) % IDEAL_ALIGNMENT ? 1:0;
														
 
															-
														
 
															-    //1. reshuffle memory
														
 
															-    for (int k =0;k<ns;k++){
														
 
															-      xs[k+x_shift]=X(src,k);
														
 
															-      ys[k+y_shift]=Y(src,k);
														
 
															-      zs[k+z_shift]=Z(src,k);
														
 
															-    }
														
 
															-    for (int k=0;k<nt;k++){
														
 
															-      xt[k]=X(trg,k);
														
 
															-      yt[k]=Y(trg,k);
														
 
															-      zt[k]=Z(trg,k);
														
 
															-    }
														
 
															-
														
 
															-    //2. perform caclulation
														
 
															-    stokesDirectVecSSE(ns,nt,&xs[x_shift],&ys[y_shift],&zs[z_shift],&xt[0],&yt[0],&zt[0],den,pot,kernel_coef);
														
 
															-    return;
														
 
															-  }
														
 
															-
														
 
															   void stokesPressureSSEShuffle(const int ns, const int nt, double const src[], double const trg[], double const den[], double pot[], mem::MemoryManager* mem_mgr=NULL)
														
 
															   {
														
 
															     std::vector<double> xs(ns+1);   std::vector<double> xt(nt);
														
@@ -2168,14 +2063,6 @@ namespace
 
															 #undef DECL_SIMD_ALIGNED
														
 
															 }
														
 
															-template <>
														
 
															-void stokes_vel<double>(double* r_src, int src_cnt, double* v_src_, int dof, double* r_trg, int trg_cnt, double* k_out, mem::MemoryManager* mem_mgr){
														
 
															-  Profile::Add_FLOP((long long)trg_cnt*(long long)src_cnt*(28*dof));
														
 
															-
														
 
															-  const double mu=1.0;
														
 
															-  stokesDirectSSEShuffle(src_cnt, trg_cnt, r_src, r_trg, v_src_, k_out, mu, mem_mgr);
														
 
															-}
														
 
															-
														
 
															 template <>
														
 
															 void stokes_press<double>(double* r_src, int src_cnt, double* v_src_, int dof, double* r_trg, int trg_cnt, double* k_out, mem::MemoryManager* mem_mgr){
														
 
															   Profile::Add_FLOP((long long)trg_cnt*(long long)src_cnt*(17*dof));
														
@@ -2202,7 +2089,7 @@ void stokes_grad<double>(double* r_src, int src_cnt, double* v_src_, int dof, do
 
															 #endif
														
 
															 template<class T> const Kernel<T>& StokesKernel<T>::velocity(){
														
 
															-  static Kernel<T> ker=BuildKernel<T, stokes_vel, stokes_sym_dip>("stokes_vel"   , 3, std::pair<int,int>(3,3));
														
 
															+  static Kernel<T> ker=BuildKernel<T, stokes_vel<T,1>, stokes_sym_dip>("stokes_vel"   , 3, std::pair<int,int>(3,3));
														
 
															   return ker;
														
 
															 }
														
 
															 template<class T> const Kernel<T>& StokesKernel<T>::pressure(){
														
@@ -2218,49 +2105,139 @@ template<class T> const Kernel<T>& StokesKernel<T>::vel_grad(){
 
															   return ker;
														
 
															 }
														
 
															+template<> const Kernel<double>& StokesKernel<double>::velocity(){
														
 
															+  typedef double T;
														
 
															+  static Kernel<T> ker=BuildKernel<T, stokes_vel<T,2>, stokes_sym_dip>("stokes_vel"   , 3, std::pair<int,int>(3,3));
														
 
															+  return ker;
														
 
															+}
														
 
															+
														
 
															 ////////////////////////////////////////////////////////////////////////////////
														
 
															 ////////                  BIOT-SAVART KERNEL                            ////////
														
 
															 ////////////////////////////////////////////////////////////////////////////////
														
 
															-template <class T>
														
 
															-void biot_savart(T* r_src, int src_cnt, T* v_src_, int dof, T* r_trg, int trg_cnt, T* k_out, mem::MemoryManager* mem_mgr){
														
 
															-#ifndef __MIC__
														
 
															-  Profile::Add_FLOP((long long)trg_cnt*(long long)src_cnt*(26*dof));
														
 
															-#endif
														
 
															+template <class Real_t, class Vec_t=Real_t, Vec_t (*RINV_INTRIN)(Vec_t)=rinv_intrin0<Vec_t> >
														
 
															+void biot_savart_uKernel(Matrix<Real_t>& src_coord, Matrix<Real_t>& src_value, Matrix<Real_t>& trg_coord, Matrix<Real_t>& trg_value){
														
 
															+  #define SRC_BLK 1000
														
 
															+  size_t VecLen=sizeof(Vec_t)/sizeof(Real_t);
														
 
															-  const T OOFP = -1.0/(4.0*const_pi<T>());
														
 
															-  for(int t=0;t<trg_cnt;t++){
														
 
															-    for(int i=0;i<dof;i++){
														
 
															-      T p[3]={0,0,0};
														
 
															-      for(int s=0;s<src_cnt;s++){
														
 
															-        T dR[3]={r_trg[3*t  ]-r_src[3*s  ],
														
 
															-                 r_trg[3*t+1]-r_src[3*s+1],
														
 
															-                 r_trg[3*t+2]-r_src[3*s+2]};
														
 
															-        T R2 = (dR[0]*dR[0]+dR[1]*dR[1]+dR[2]*dR[2]);
														
 
															-        if (R2!=0){
														
 
															-          T invR2=1.0/R2;
														
 
															-          T invR=sqrt(invR2);
														
 
															-          T invR3=invR*invR2;
														
 
															+  //// Number of newton iterations
														
 
															+  size_t NWTN_ITER=0;
														
 
															+  if(RINV_INTRIN==(Vec_t (*)(Vec_t))rinv_intrin0<Vec_t,Real_t>) NWTN_ITER=0;
														
 
															+  if(RINV_INTRIN==(Vec_t (*)(Vec_t))rinv_intrin1<Vec_t,Real_t>) NWTN_ITER=1;
														
 
															+  if(RINV_INTRIN==(Vec_t (*)(Vec_t))rinv_intrin2<Vec_t,Real_t>) NWTN_ITER=2;
														
 
															+  if(RINV_INTRIN==(Vec_t (*)(Vec_t))rinv_intrin3<Vec_t,Real_t>) NWTN_ITER=3;
														
 
															-          T v_src[3]={v_src_[(s*dof+i)*3  ],
														
 
															-                      v_src_[(s*dof+i)*3+1],
														
 
															-                      v_src_[(s*dof+i)*3+2]};
														
 
															+  Real_t nwtn_scal=1; // scaling factor for newton iterations
														
 
															+  for(int i=0;i<NWTN_ITER;i++){
														
 
															+    nwtn_scal=2*nwtn_scal*nwtn_scal*nwtn_scal;
														
 
															+  }
														
 
															+  const Real_t OOFP = 1.0/(4*nwtn_scal*nwtn_scal*nwtn_scal*const_pi<Real_t>());
														
 
															-          p[0] -= (v_src[1]*dR[2]-v_src[2]*dR[1])*invR3;
														
 
															-          p[1] -= (v_src[2]*dR[0]-v_src[0]*dR[2])*invR3;
														
 
															-          p[2] -= (v_src[0]*dR[1]-v_src[1]*dR[0])*invR3;
														
 
															-        }
														
 
															+  size_t src_cnt_=src_coord.Dim(1);
														
 
															+  size_t trg_cnt_=trg_coord.Dim(1);
														
 
															+  for(size_t sblk=0;sblk<src_cnt_;sblk+=SRC_BLK){
														
 
															+    size_t src_cnt=src_cnt_-sblk;
														
 
															+    if(src_cnt>SRC_BLK) src_cnt=SRC_BLK;
														
 
															+    for(size_t t=0;t<trg_cnt_;t+=VecLen){
														
 
															+      Vec_t tx=load_intrin<Vec_t>(&trg_coord[0][t]);
														
 
															+      Vec_t ty=load_intrin<Vec_t>(&trg_coord[1][t]);
														
 
															+      Vec_t tz=load_intrin<Vec_t>(&trg_coord[2][t]);
														
 
															+
														
 
															+      Vec_t tvx=zero_intrin<Vec_t>();
														
 
															+      Vec_t tvy=zero_intrin<Vec_t>();
														
 
															+      Vec_t tvz=zero_intrin<Vec_t>();
														
 
															+      for(size_t s=sblk;s<sblk+src_cnt;s++){
														
 
															+        Vec_t dx=sub_intrin(tx,bcast_intrin<Vec_t>(&src_coord[0][s]));
														
 
															+        Vec_t dy=sub_intrin(ty,bcast_intrin<Vec_t>(&src_coord[1][s]));
														
 
															+        Vec_t dz=sub_intrin(tz,bcast_intrin<Vec_t>(&src_coord[2][s]));
														
 
															+
														
 
															+        Vec_t svx=             bcast_intrin<Vec_t>(&src_value[0][s]) ;
														
 
															+        Vec_t svy=             bcast_intrin<Vec_t>(&src_value[1][s]) ;
														
 
															+        Vec_t svz=             bcast_intrin<Vec_t>(&src_value[2][s]) ;
														
 
															+
														
 
															+        Vec_t r2=        mul_intrin(dx,dx) ;
														
 
															+        r2=add_intrin(r2,mul_intrin(dy,dy));
														
 
															+        r2=add_intrin(r2,mul_intrin(dz,dz));
														
 
															+
														
 
															+        Vec_t rinv=RINV_INTRIN(r2);
														
 
															+        Vec_t rinv3=mul_intrin(mul_intrin(rinv,rinv),rinv);
														
 
															+
														
 
															+        tvx=sub_intrin(tvx,mul_intrin(rinv3,sub_intrin(mul_intrin(svy,dz),mul_intrin(svz,dy))));
														
 
															+        tvy=sub_intrin(tvy,mul_intrin(rinv3,sub_intrin(mul_intrin(svz,dx),mul_intrin(svx,dz))));
														
 
															+        tvz=sub_intrin(tvz,mul_intrin(rinv3,sub_intrin(mul_intrin(svx,dy),mul_intrin(svy,dx))));
														
 
															       }
														
 
															-      k_out[(t*dof+i)*3+0] += p[0]*OOFP;
														
 
															-      k_out[(t*dof+i)*3+1] += p[1]*OOFP;
														
 
															-      k_out[(t*dof+i)*3+2] += p[2]*OOFP;
														
 
															+      Vec_t oofp=set_intrin<Vec_t,Real_t>(OOFP);
														
 
															+
														
 
															+      tvx=add_intrin(mul_intrin(tvx,oofp),load_intrin<Vec_t>(&trg_value[0][t]));
														
 
															+      tvy=add_intrin(mul_intrin(tvy,oofp),load_intrin<Vec_t>(&trg_value[1][t]));
														
 
															+      tvz=add_intrin(mul_intrin(tvz,oofp),load_intrin<Vec_t>(&trg_value[2][t]));
														
 
															+
														
 
															+      store_intrin(&trg_value[0][t],tvx);
														
 
															+      store_intrin(&trg_value[1][t],tvy);
														
 
															+      store_intrin(&trg_value[2][t],tvz);
														
 
															     }
														
 
															   }
														
 
															+
														
 
															+  { // Add FLOPS
														
 
															+    #ifndef __MIC__
														
 
															+    Profile::Add_FLOP((long long)trg_cnt_*(long long)src_cnt_*(29+4*(NWTN_ITER)));
														
 
															+    #endif
														
 
															+  }
														
 
															+  #undef SRC_BLK
														
 
															+}
														
 
															+
														
 
															+template <class T, int newton_iter=0>
														
 
															+void biot_savart(T* r_src, int src_cnt, T* v_src, int dof, T* r_trg, int trg_cnt, T* v_trg, mem::MemoryManager* mem_mgr){
														
 
															+  #define BS_KER_NWTN(nwtn) if(newton_iter==nwtn) \
														
 
															+        generic_kernel<Real_t, 3, 3, biot_savart_uKernel<Real_t,Vec_t, rinv_intrin##nwtn<Vec_t,Real_t> > > \
														
 
															+            ((Real_t*)r_src, src_cnt, (Real_t*)v_src, dof, (Real_t*)r_trg, trg_cnt, (Real_t*)v_trg, mem_mgr)
														
 
															+  #define BIOTSAVART_KERNEL BS_KER_NWTN(0); BS_KER_NWTN(1); BS_KER_NWTN(2); BS_KER_NWTN(3);
														
 
															+
														
 
															+  if(mem::TypeTraits<T>::ID()==mem::TypeTraits<float>::ID()){
														
 
															+    typedef float Real_t;
														
 
															+    #if defined __MIC__
														
 
															+      #define Vec_t Real_t
														
 
															+    #elif defined __AVX__
														
 
															+      #define Vec_t __m256
														
 
															+    #elif defined __SSE3__
														
 
															+      #define Vec_t __m128
														
 
															+    #else
														
 
															+      #define Vec_t Real_t
														
 
															+    #endif
														
 
															+    BIOTSAVART_KERNEL;
														
 
															+    #undef Vec_t
														
 
															+  }else if(mem::TypeTraits<T>::ID()==mem::TypeTraits<double>::ID()){
														
 
															+    typedef double Real_t;
														
 
															+    #if defined __MIC__
														
 
															+      #define Vec_t Real_t
														
 
															+    #elif defined __AVX__
														
 
															+      #define Vec_t __m256d
														
 
															+    #elif defined __SSE3__
														
 
															+      #define Vec_t __m128d
														
 
															+    #else
														
 
															+      #define Vec_t Real_t
														
 
															+    #endif
														
 
															+    BIOTSAVART_KERNEL;
														
 
															+    #undef Vec_t
														
 
															+  }else{
														
 
															+    typedef T Real_t;
														
 
															+    #define Vec_t Real_t
														
 
															+    BIOTSAVART_KERNEL;
														
 
															+    #undef Vec_t
														
 
															+  }
														
 
															+
														
 
															+  #undef BS_KER_NWTN
														
 
															+  #undef BIOTSAVART_KERNEL
														
 
															 }
														
 
															 template<class T> const Kernel<T>& BiotSavartKernel<T>::potential(){
														
 
															-  static Kernel<T> ker=BuildKernel<T, biot_savart>("biot_savart", 3, std::pair<int,int>(3,3));
														
 
															+  static Kernel<T> ker=BuildKernel<T, biot_savart<T,1> >("biot_savart", 3, std::pair<int,int>(3,3));
														
 
															+  return ker;
														
 
															+}
														
 
															+template<> const Kernel<double>& BiotSavartKernel<double>::potential(){
														
 
															+  typedef double T;
														
 
															+  static Kernel<T> ker=BuildKernel<T, biot_savart<T,2> >("biot_savart", 3, std::pair<int,int>(3,3));
														
 
															   return ker;
														
 
															 }
														
@@ -2273,37 +2250,127 @@ template<class T> const Kernel<T>& BiotSavartKernel<T>::potential(){
 
															  * \brief Green's function for the Helmholtz's equation. Kernel tensor
														
 
															  * dimension = 2x2.
														
 
															  */
														
 
															-template <class T>
														
 
															-void helmholtz_poten(T* r_src, int src_cnt, T* v_src, int dof, T* r_trg, int trg_cnt, T* k_out, mem::MemoryManager* mem_mgr){
														
 
															-#ifndef __MIC__
														
 
															-  Profile::Add_FLOP((long long)trg_cnt*(long long)src_cnt*(24*dof));
														
 
															-#endif
														
 
															+template <class Real_t, class Vec_t=Real_t, Vec_t (*RINV_INTRIN)(Vec_t)=rinv_intrin0<Vec_t> >
														
 
															+void helmholtz_poten_uKernel(Matrix<Real_t>& src_coord, Matrix<Real_t>& src_value, Matrix<Real_t>& trg_coord, Matrix<Real_t>& trg_value){
														
 
															-  const T mu = (20.0*const_pi<T>());
														
 
															-  for(int t=0;t<trg_cnt;t++){
														
 
															-    for(int i=0;i<dof;i++){
														
 
															-      T p[2]={0,0};
														
 
															-      for(int s=0;s<src_cnt;s++){
														
 
															-        T dX_reg=r_trg[3*t  ]-r_src[3*s  ];
														
 
															-        T dY_reg=r_trg[3*t+1]-r_src[3*s+1];
														
 
															-        T dZ_reg=r_trg[3*t+2]-r_src[3*s+2];
														
 
															-        T R = (dX_reg*dX_reg+dY_reg*dY_reg+dZ_reg*dZ_reg);
														
 
															-        if (R!=0){
														
 
															-          R = sqrt(R);
														
 
															-          T invR=1.0/R;
														
 
															-          T G[2]={(T)cos(mu*R)*invR, (T)sin(mu*R)*invR};
														
 
															-          p[0] += v_src[(s*dof+i)*2+0]*G[0] - v_src[(s*dof+i)*2+1]*G[1];
														
 
															-          p[1] += v_src[(s*dof+i)*2+0]*G[1] + v_src[(s*dof+i)*2+1]*G[0];
														
 
															-        }
														
 
															+  #define SRC_BLK 1000
														
 
															+  size_t VecLen=sizeof(Vec_t)/sizeof(Real_t);
														
 
															+
														
 
															+  //// Number of newton iterations
														
 
															+  size_t NWTN_ITER=0;
														
 
															+  if(RINV_INTRIN==(Vec_t (*)(Vec_t))rinv_intrin0<Vec_t,Real_t>) NWTN_ITER=0;
														
 
															+  if(RINV_INTRIN==(Vec_t (*)(Vec_t))rinv_intrin1<Vec_t,Real_t>) NWTN_ITER=1;
														
 
															+  if(RINV_INTRIN==(Vec_t (*)(Vec_t))rinv_intrin2<Vec_t,Real_t>) NWTN_ITER=2;
														
 
															+  if(RINV_INTRIN==(Vec_t (*)(Vec_t))rinv_intrin3<Vec_t,Real_t>) NWTN_ITER=3;
														
 
															+
														
 
															+  Real_t nwtn_scal=1; // scaling factor for newton iterations
														
 
															+  for(int i=0;i<NWTN_ITER;i++){
														
 
															+    nwtn_scal=2*nwtn_scal*nwtn_scal*nwtn_scal;
														
 
															+  }
														
 
															+  const Real_t OOFP = 1.0/(4*nwtn_scal*const_pi<Real_t>());
														
 
															+  const Vec_t mu = set_intrin<Vec_t,Real_t>(20.0*const_pi<Real_t>()/nwtn_scal);
														
 
															+
														
 
															+  size_t src_cnt_=src_coord.Dim(1);
														
 
															+  size_t trg_cnt_=trg_coord.Dim(1);
														
 
															+  for(size_t sblk=0;sblk<src_cnt_;sblk+=SRC_BLK){
														
 
															+    size_t src_cnt=src_cnt_-sblk;
														
 
															+    if(src_cnt>SRC_BLK) src_cnt=SRC_BLK;
														
 
															+    for(size_t t=0;t<trg_cnt_;t+=VecLen){
														
 
															+      Vec_t tx=load_intrin<Vec_t>(&trg_coord[0][t]);
														
 
															+      Vec_t ty=load_intrin<Vec_t>(&trg_coord[1][t]);
														
 
															+      Vec_t tz=load_intrin<Vec_t>(&trg_coord[2][t]);
														
 
															+
														
 
															+      Vec_t tvx=zero_intrin<Vec_t>();
														
 
															+      Vec_t tvy=zero_intrin<Vec_t>();
														
 
															+      for(size_t s=sblk;s<sblk+src_cnt;s++){
														
 
															+        Vec_t dx=sub_intrin(tx,bcast_intrin<Vec_t>(&src_coord[0][s]));
														
 
															+        Vec_t dy=sub_intrin(ty,bcast_intrin<Vec_t>(&src_coord[1][s]));
														
 
															+        Vec_t dz=sub_intrin(tz,bcast_intrin<Vec_t>(&src_coord[2][s]));
														
 
															+
														
 
															+        Vec_t svx=             bcast_intrin<Vec_t>(&src_value[0][s]) ;
														
 
															+        Vec_t svy=             bcast_intrin<Vec_t>(&src_value[1][s]) ;
														
 
															+
														
 
															+        Vec_t r2=        mul_intrin(dx,dx) ;
														
 
															+        r2=add_intrin(r2,mul_intrin(dy,dy));
														
 
															+        r2=add_intrin(r2,mul_intrin(dz,dz));
														
 
															+        Vec_t rinv=RINV_INTRIN(r2);
														
 
															+
														
 
															+        Vec_t mu_r=mul_intrin(mu,mul_intrin(r2,rinv));
														
 
															+        Vec_t G0=mul_intrin(cos_intrin(mu_r),rinv);
														
 
															+        Vec_t G1=mul_intrin(sin_intrin(mu_r),rinv);
														
 
															+
														
 
															+        tvx=add_intrin(tvx,sub_intrin(mul_intrin(svx,G0),mul_intrin(svy,G1)));
														
 
															+        tvy=add_intrin(tvy,add_intrin(mul_intrin(svx,G1),mul_intrin(svy,G0)));
														
 
															       }
														
 
															-      k_out[(t*dof+i)*2+0] += p[0];
														
 
															-      k_out[(t*dof+i)*2+1] += p[1];
														
 
															+      Vec_t oofp=set_intrin<Vec_t,Real_t>(OOFP);
														
 
															+
														
 
															+      tvx=add_intrin(mul_intrin(tvx,oofp),load_intrin<Vec_t>(&trg_value[0][t]));
														
 
															+      tvy=add_intrin(mul_intrin(tvy,oofp),load_intrin<Vec_t>(&trg_value[1][t]));
														
 
															+
														
 
															+      store_intrin(&trg_value[0][t],tvx);
														
 
															+      store_intrin(&trg_value[1][t],tvy);
														
 
															     }
														
 
															   }
														
 
															+
														
 
															+  { // Add FLOPS
														
 
															+    #ifndef __MIC__
														
 
															+    Profile::Add_FLOP((long long)trg_cnt_*(long long)src_cnt_*(24+4*(NWTN_ITER)));
														
 
															+    #endif
														
 
															+  }
														
 
															+  #undef SRC_BLK
														
 
															+}
														
 
															+
														
 
															+template <class T, int newton_iter=0>
														
 
															+void helmholtz_poten(T* r_src, int src_cnt, T* v_src, int dof, T* r_trg, int trg_cnt, T* v_trg, mem::MemoryManager* mem_mgr){
														
 
															+  #define HELM_KER_NWTN(nwtn) if(newton_iter==nwtn) \
														
 
															+        generic_kernel<Real_t, 2, 2, helmholtz_poten_uKernel<Real_t,Vec_t, rinv_intrin##nwtn<Vec_t,Real_t> > > \
														
 
															+            ((Real_t*)r_src, src_cnt, (Real_t*)v_src, dof, (Real_t*)r_trg, trg_cnt, (Real_t*)v_trg, mem_mgr)
														
 
															+  #define HELMHOLTZ_KERNEL HELM_KER_NWTN(0); HELM_KER_NWTN(1); HELM_KER_NWTN(2); HELM_KER_NWTN(3);
														
 
															+
														
 
															+  if(mem::TypeTraits<T>::ID()==mem::TypeTraits<float>::ID()){
														
 
															+    typedef float Real_t;
														
 
															+    #if defined __MIC__
														
 
															+      #define Vec_t Real_t
														
 
															+    #elif defined __AVX__
														
 
															+      #define Vec_t __m256
														
 
															+    #elif defined __SSE3__
														
 
															+      #define Vec_t __m128
														
 
															+    #else
														
 
															+      #define Vec_t Real_t
														
 
															+    #endif
														
 
															+    HELMHOLTZ_KERNEL;
														
 
															+    #undef Vec_t
														
 
															+  }else if(mem::TypeTraits<T>::ID()==mem::TypeTraits<double>::ID()){
														
 
															+    typedef double Real_t;
														
 
															+    #if defined __MIC__
														
 
															+      #define Vec_t Real_t
														
 
															+    #elif defined __AVX__
														
 
															+      #define Vec_t __m256d
														
 
															+    #elif defined __SSE3__
														
 
															+      #define Vec_t __m128d
														
 
															+    #else
														
 
															+      #define Vec_t Real_t
														
 
															+    #endif
														
 
															+    HELMHOLTZ_KERNEL;
														
 
															+    #undef Vec_t
														
 
															+  }else{
														
 
															+    typedef T Real_t;
														
 
															+    #define Vec_t Real_t
														
 
															+    HELMHOLTZ_KERNEL;
														
 
															+    #undef Vec_t
														
 
															+  }
														
 
															+
														
 
															+  #undef HELM_KER_NWTN
														
 
															+  #undef HELMHOLTZ_KERNEL
														
 
															 }
														
 
															 template<class T> const Kernel<T>& HelmholtzKernel<T>::potential(){
														
 
															-  static Kernel<T> ker=BuildKernel<T, helmholtz_poten>("helmholtz"     , 3, std::pair<int,int>(2,2));
														
 
															+  static Kernel<T> ker=BuildKernel<T, helmholtz_poten<T,1> >("helmholtz"     , 3, std::pair<int,int>(2,2));
														
 
															+  return ker;
														
 
															+}
														
 
															+template<> const Kernel<double>& HelmholtzKernel<double>::potential(){
														
 
															+  typedef double T;
														
 
															+  static Kernel<T> ker=BuildKernel<T, helmholtz_poten<T,3> >("helmholtz"     , 3, std::pair<int,int>(2,2));
														
 
															   return ker;
														
 
															 }
														
--- a/m4/ax_check_svml.m4
+++ b/m4/ax_check_svml.m4
@@ -0,0 +1,17 @@
 
															+
														
 
															+AC_DEFUN([AX_CHECK_SVML],
														
 
															+    ## Check for Intel Short Vector Math Library support. If found define 
														
 
															+    ## HAVE_INTEL_SVML.
														
 
															+
														
 
															+    [AC_MSG_CHECKING([for Intel SVML])
														
 
															+
														
 
															+    cv_have_svml=no
														
 
															+    #AC_LINK_IFELSE([AC_LANG_PROGRAM([[]], [[_mm256_sin_ps(0);]])],[cv_have_svml=yes], [])
														
 
															+    AC_TRY_LINK_FUNC(_mm256_sin_ps, [cv_have_svml=yes], [])
														
 
															+
														
 
															+    if test "$cv_have_svml" = yes; then
														
 
															+        AC_MSG_RESULT($cv_have_svml)
														
 
															+        AC_DEFINE(HAVE_INTEL_SVML,1,[Define if SVL library is available])
														
 
															+    fi
														
 
															+])
														
 
															+