%!s(int64=11) %!d(string=hai) anos · deacf73ca2
--- a/INSTALL
+++ b/INSTALL
@@ -154,9 +154,6 @@ operates.
 
															 `CXXFLAGS=-DUSE_SSE'
														
 
															      To use SSE optimized imlementation of kernel functions.
														
 
															-`CXXFLAGS=-Qoption,cpp,--extended_float_type'
														
 
															-     To use quadruple precision with Intel compiler.
														
 
															-
														
 
															 `configure' also accepts some other, not widely useful, options.  Run
														
 
															 `configure --help' for more details.
														
--- a/configure.ac
+++ b/configure.ac
@@ -60,6 +60,8 @@ DX_PS_FEATURE(OFF)
 
															 DX_INIT_DOXYGEN($PACKAGE_NAME, Doxyfile, doc/doxygen)
														
 
															+CHECK_QUAD_PRECISION
														
 
															+
														
 
															 # Check for math libs
														
 
															 AC_CHECK_LIB([m],[cos])
														
 
															 AC_CHECK_LIB([imf],[cos])
														
--- a/examples/include/utils.txx
+++ b/examples/include/utils.txx
@@ -83,7 +83,7 @@ void CheckFMMOutput(pvfmm::FMM_Tree<FMM_Mat_t>* mytree, pvfmm::Kernel<typename F
 
															   for(int i=0;i<np;i++){
														
 
															     size_t a=(i*glb_trg_cnt)/np;
														
 
															     size_t b=((i+1)*glb_trg_cnt)/np;
														
 
															-    mykernel->ker_poten(&src_coord[0], src_cnt, &src_value[0], dof, &glb_trg_coord[a*3], b-a, &trg_poten_dir[a*trg_dof  ]);
														
 
															+    mykernel->ker_poten(&src_coord[0], src_cnt, &src_value[0], dof, &glb_trg_coord[a*3], b-a, &trg_poten_dir[a*trg_dof  ],NULL);
														
 
															   }
														
 
															   MPI_Allreduce(&trg_poten_dir[0], &glb_trg_poten_dir[0], trg_poten_dir.size(), pvfmm::par::Mpi_datatype<Real_t>::value(), pvfmm::par::Mpi_datatype<Real_t>::sum(), c1);
														
 
															   pvfmm::Profile::Toc();
														
--- a/examples/src/example1.cpp
+++ b/examples/src/example1.cpp
@@ -7,17 +7,18 @@
 
															 typedef std::vector<double> vec;
														
 
															-void nbody(vec& src_coord, vec& src_value,
														
 
															-           vec& trg_coord, vec& trg_value,
														
 
															+void nbody(vec&  src_coord, vec&  src_value,
														
 
															+           vec& surf_coord, vec& surf_value,
														
 
															+           vec&  trg_coord, vec&  trg_value,
														
 
															 					 const pvfmm::Kernel<double>& kernel_fn, MPI_Comm& comm){
														
 
															   int np, rank;
														
 
															   MPI_Comm_size(comm, &np);
														
 
															   MPI_Comm_rank(comm, &rank);
														
 
															-  long long n_src_glb=0, n_src=src_coord.size()/COORD_DIM;
														
 
															-  long long n_trg_glb=0, n_trg=trg_coord.size()/COORD_DIM;
														
 
															-  MPI_Allreduce(&n_src, &n_src_glb, 1, MPI_LONG_LONG, MPI_SUM, comm);
														
 
															-  MPI_Allreduce(&n_trg, &n_trg_glb, 1, MPI_LONG_LONG, MPI_SUM, comm);
														
 
															+  long long  n_src =  src_coord.size()/COORD_DIM;
														
 
															+  long long n_surf = surf_coord.size()/COORD_DIM;
														
 
															+  long long n_trg_glb=0, n_trg = trg_coord.size()/COORD_DIM;
														
 
															+  MPI_Allreduce(&n_trg , & n_trg_glb, 1, MPI_LONG_LONG, MPI_SUM, comm);
														
 
															   vec glb_trg_coord(n_trg_glb*COORD_DIM);
														
 
															   vec glb_trg_value(n_trg_glb*kernel_fn.ker_dim[1],0);
														
@@ -39,8 +40,14 @@ void nbody(vec& src_coord, vec& src_value,
 
															     for(int i=0;i<omp_p;i++){
														
 
															       size_t a=( i   *n_trg_glb)/omp_p;
														
 
															       size_t b=((i+1)*n_trg_glb)/omp_p;
														
 
															+
														
 
															+      if(kernel_fn.ker_poten!=NULL)
														
 
															       kernel_fn.ker_poten(&    src_coord[0]            , n_src, &src_value[0], 1,
														
 
															                           &glb_trg_coord[0]+a*COORD_DIM,   b-a, &glb_trg_value_[0]+a*kernel_fn.ker_dim[1],NULL);
														
 
															+
														
 
															+      if(kernel_fn.dbl_layer_poten!=NULL)
														
 
															+      kernel_fn.dbl_layer_poten(&   surf_coord[0]            , n_surf, &surf_value[0], 1,
														
 
															+                                &glb_trg_coord[0]+a*COORD_DIM,    b-a, &glb_trg_value_[0]+a*kernel_fn.ker_dim[1],NULL);
														
 
															     }
														
 
															     MPI_Allreduce(&glb_trg_value_[0], &glb_trg_value[0], glb_trg_value.size(), MPI_DOUBLE, MPI_SUM, comm);
														
 
															   }
														
@@ -56,18 +63,22 @@ void fmm_test(size_t N, int mult_order, MPI_Comm comm){
 
															   const pvfmm::Kernel<double>& kernel_fn_aux=pvfmm::laplace_potn_d;
														
 
															   // Create target and source vectors.
														
 
															-  vec trg_coord=point_distrib<double>(RandUnif,N,comm);
														
 
															-  vec src_coord=point_distrib<double>(RandUnif,N,comm);
														
 
															-  size_t n_src=src_coord.size()/COORD_DIM;
														
 
															-  size_t n_trg=trg_coord.size()/COORD_DIM;
														
 
															+  vec  trg_coord=point_distrib<double>(RandUnif,N,comm);
														
 
															+  vec  src_coord=point_distrib<double>(RandUnif,N,comm);
														
 
															+  vec surf_coord=point_distrib<double>(RandUnif,0,comm);
														
 
															+  size_t n_trg = trg_coord.size()/COORD_DIM;
														
 
															+  size_t n_src = src_coord.size()/COORD_DIM;
														
 
															+  size_t n_surf=surf_coord.size()/COORD_DIM;
														
 
															   // Set source charges.
														
 
															-  vec src_value(n_src*kernel_fn.ker_dim[0]);
														
 
															-  for(size_t i=0;i<src_value.size();i++) src_value[i]=drand48();
														
 
															+  vec  src_value( n_src* kernel_fn.ker_dim[0]);
														
 
															+  vec surf_value(n_surf*(kernel_fn.ker_dim[0]+COORD_DIM));
														
 
															+  for(size_t i=0;i< src_value.size();i++)  src_value[i]=drand48();
														
 
															+  for(size_t i=0;i<surf_value.size();i++) surf_value[i]=drand48();
														
 
															   // Construct tree.
														
 
															   size_t max_pts=300;
														
 
															-  pvfmm::PtFMM_Tree* tree=PtFMM_CreateTree(src_coord, src_value, trg_coord, comm, max_pts, pvfmm::FreeSpace);
														
 
															+  pvfmm::PtFMM_Tree* tree=PtFMM_CreateTree(src_coord, src_value, surf_coord, surf_value, trg_coord, comm, max_pts, pvfmm::FreeSpace);
														
 
															   // Load matrices.
														
 
															   pvfmm::PtFMM matrices;
														
@@ -82,15 +93,16 @@ void fmm_test(size_t N, int mult_order, MPI_Comm comm){
 
															   // Re-run FMM
														
 
															   tree->ClearFMMData();
														
 
															-  for(size_t i=0;i<src_value.size();i++) src_value[i]=drand48();
														
 
															-  PtFMM_Evaluate(tree, trg_value, n_trg, &src_value);
														
 
															+  for(size_t i=0;i< src_value.size();i++)  src_value[i]=drand48();
														
 
															+  for(size_t i=0;i<surf_value.size();i++) surf_value[i]=drand48();
														
 
															+  PtFMM_Evaluate(tree, trg_value, n_trg, &src_value, &surf_value);
														
 
															   {// Check error
														
 
															     vec trg_sample_coord;
														
 
															     vec trg_sample_value;
														
 
															     size_t n_trg_sample=0;
														
 
															     { // Sample target points for verifications.
														
 
															-      size_t n_skip=N*n_src/1e9;
														
 
															+      size_t n_skip=N*n_trg/1e9;
														
 
															       if(!n_skip) n_skip=1;
														
 
															       for(size_t i=0;i<n_trg;i=i+n_skip){
														
 
															         for(size_t j=0;j<COORD_DIM;j++)
														
@@ -104,12 +116,13 @@ void fmm_test(size_t N, int mult_order, MPI_Comm comm){
 
															     // Direct n-body
														
 
															     vec trg_sample_value_(n_trg_sample*kernel_fn.ker_dim[1]);
														
 
															     nbody(       src_coord,        src_value ,
														
 
															+                surf_coord,       surf_value ,
														
 
															           trg_sample_coord, trg_sample_value_, kernel_fn, comm);
														
 
															     // Compute error
														
 
															     double max_err=0, max_val=0;
														
 
															     double max_err_glb=0, max_val_glb=0;
														
 
															-    for(size_t i=0;i<n_trg_sample;i++){
														
 
															+    for(size_t i=0;i<n_trg_sample*kernel_fn.ker_dim[1];i++){
														
 
															       if(fabs(trg_sample_value_[i]-trg_sample_value[i])>max_err)
														
 
															         max_err=fabs(trg_sample_value_[i]-trg_sample_value[i]);
														
 
															       if(fabs(trg_sample_value_[i])>max_val)
														
@@ -141,6 +154,7 @@ with Laplace Gradient kernel, using the PvFMM library.\n");
 
															   size_t   N=(size_t)strtod(commandline_option(argc, argv,    "-N",     "1",  true, "-N    <int>          : Number of source and target points."),NULL);
														
 
															   int      m=       strtoul(commandline_option(argc, argv,    "-m",    "10", false, "-m    <int> = (10)   : Multipole order (+ve even integer)."),NULL,10);
														
 
															   commandline_option_end(argc, argv);
														
 
															+  pvfmm::Profile::Enable(true);
														
 
															   // Run FMM with above options.
														
 
															   fmm_test(N, m, comm);
														
--- a/examples/src/example2.cpp
+++ b/examples/src/example2.cpp
@@ -87,6 +87,7 @@ with Laplace kernel, using the PvFMM library.\n");
 
															   int      q=       strtoul(commandline_option(argc, argv,    "-q",    "14", false, "-q    <int> = (14)   : Chebyshev order (+ve integer)."     ),NULL,10);
														
 
															   double tol=        strtod(commandline_option(argc, argv,  "-tol",  "1e-5", false, "-tol <real> = (1e-5) : Tolerance for adaptive refinement." ),NULL);
														
 
															   commandline_option_end(argc, argv);
														
 
															+  pvfmm::Profile::Enable(true);
														
 
															   // Run FMM with above options.
														
 
															   fmm_test(N, m,q, tol, comm);
														
--- a/examples/src/fmm_cheb.cpp
+++ b/examples/src/fmm_cheb.cpp
@@ -122,9 +122,9 @@ void fn_input_t3(Real_t* coord, int n, Real_t* out){ //Input function
 
															     Real_t* c=&coord[i*COORD_DIM];
														
 
															     {
														
 
															       Real_t r_2=(c[0]-0.5)*(c[0]-0.5)+(c[1]-0.5)*(c[1]-0.5)+(c[2]-0.5)*(c[2]-0.5);
														
 
															-      out[i*dof+0]= 0;
														
 
															-      out[i*dof+1]= 4*L*L*(c[2]-0.5)*(5-2*L*r_2)*exp(-L*r_2);
														
 
															-      out[i*dof+2]=-4*L*L*(c[1]-0.5)*(5-2*L*r_2)*exp(-L*r_2);
														
 
															+      out[i*dof+0]=                                        0+2*L*exp(-L*r_2)*(c[0]-0.5);
														
 
															+      out[i*dof+1]= 4*L*L*(c[2]-0.5)*(5-2*L*r_2)*exp(-L*r_2)+2*L*exp(-L*r_2)*(c[1]-0.5);
														
 
															+      out[i*dof+2]=-4*L*L*(c[1]-0.5)*(5-2*L*r_2)*exp(-L*r_2)+2*L*exp(-L*r_2)*(c[2]-0.5);
														
 
															     }
														
 
															   }
														
 
															 }
														
@@ -554,6 +554,7 @@ int main(int argc, char **argv){
 
															                                4) Biot-Savart, Smooth Gaussian, FreeSpace Boundary\n\
														
 
															                                5) Helmholtz, Smooth Gaussian, FreeSpace Boundary"),NULL,10);
														
 
															   commandline_option_end(argc, argv);
														
 
															+  pvfmm::Profile::Enable(true);
														
 
															   // Run FMM with above options.
														
 
															   pvfmm::Profile::Tic("FMM_Test",&comm,true);
														
--- a/include/cheb_utils.txx
+++ b/include/cheb_utils.txx
@@ -1027,10 +1027,10 @@ std::vector<T> cheb_integ(int m, T* s_, T r_, Kernel<T>& kernel){
 
															     n=(int)round(n*1.3);
														
 
															     if(n>300){
														
 
															       std::cout<<"Cheb_Integ::Failed to converge.[";
														
 
															-      ::operator<<(std::cout,err); std::cout<<",";
														
 
															-      ::operator<<(std::cout,s[0]); std::cout<<",";
														
 
															-      ::operator<<(std::cout,s[1]); std::cout<<",";
														
 
															-      ::operator<<(std::cout,s[2]); std::cout<<"]\n";
														
 
															+      std::cout<<((double)err )<<",";
														
 
															+      std::cout<<((double)s[0])<<",";
														
 
															+      std::cout<<((double)s[1])<<",";
														
 
															+      std::cout<<((double)s[2])<<"]\n";
														
 
															       break;
														
 
															     }
														
 
															     U_=integ<T>(m+1,s,r,n,kernel);
														
--- a/include/fmm_pts.txx
+++ b/include/fmm_pts.txx
@@ -3249,6 +3249,8 @@ void FMM_Pts<FMMNode>::EvalListPts(SetupData<Real_t>& setup_data, bool device){
 
															             single_layer_kernel(                s_coord   , src_cnt[i][2*j+0], input_data[0]+src_value[i][2*j+0], dof,
														
 
															                                 coord_data[0]+trg_coord[i], trg_cnt[i]       , t_value, NULL);
														
 
															             interac_cnt+=src_cnt[i][2*j+0]*trg_cnt[i];
														
 
															+          }else if(src_cnt[i][2*j+0]!=0 && trg_cnt[i]!=0){
														
 
															+            assert(ptr_single_layer_kernel); // Single-layer kernel not implemented
														
 
															           }
														
 
															           if(ptr_double_layer_kernel!=(size_t)NULL){// Double layer kernel
														
 
															             Real_t* src_coord_=coord_data[0]+src_coord[i][2*j+1];
														
@@ -3262,6 +3264,8 @@ void FMM_Pts<FMMNode>::EvalListPts(SetupData<Real_t>& setup_data, bool device){
 
															             double_layer_kernel(                s_coord   , src_cnt[i][2*j+1], input_data[0]+src_value[i][2*j+1], dof,
														
 
															                                 coord_data[0]+trg_coord[i], trg_cnt[i]       , t_value, NULL);
														
 
															             interac_cnt+=src_cnt[i][2*j+1]*trg_cnt[i];
														
 
															+          }else if(src_cnt[i][2*j+1]!=0 && trg_cnt[i]!=0){
														
 
															+            assert(ptr_double_layer_kernel); // Double-layer kernel not implemented
														
 
															           }
														
 
															         }
														
 
															         if(M.Dim(0)>0 && M.Dim(1)>0 && interac_cnt>0){
														
--- a/include/interac_list.hpp
+++ b/include/interac_list.hpp
@@ -85,17 +85,17 @@ class InteracList{
 
															     /**
														
 
															      * \brief A hash function defined on the relative coordinates of octants.
														
 
															      */
														
 
															-    static int coord_hash(int* c);
														
 
															+    int coord_hash(int* c);
														
 
															-    static int class_hash(int* c);
														
 
															+    int class_hash(int* c);
														
 
															     unsigned int dim;                                //Spatial dimension.
														
 
															     std::vector<Matrix<int> > rel_coord;             //Relative coordinates of interacting octant.
														
 
															     std::vector<std::vector<int> > hash_lut;         //Lookup table for hash code of relative coordinates.
														
 
															     std::vector<std::vector<size_t> > interac_class; //The symmetry class corresponding to each interaction.
														
 
															     std::vector<std::vector<std::vector<Perm_Type> > > perm_list; //Permutation to convert it to it's interac_class.
														
 
															-    std::vector<size_t> class_count;                 //Number of symmetry classes in each interaction list.
														
 
															     PrecompMat<Real_t>* mat;                         //Handles storage of matrices.
														
 
															+    bool use_symmetries;
														
 
															 };
														
 
															 }//end namespace
														
--- a/include/interac_list.txx
+++ b/include/interac_list.txx
@@ -20,11 +20,16 @@ namespace pvfmm{
 
															  */
														
 
															 template <class Node_t>
														
 
															 void InteracList<Node_t>::Initialize(unsigned int dim_, PrecompMat<Real_t>* mat_){
														
 
															+  #ifdef PVFMM_NO_SYMMETRIES
														
 
															+  use_symmetries=false;
														
 
															+  #else
														
 
															+  use_symmetries=true;
														
 
															+  #endif
														
 
															+
														
 
															   dim=dim_;
														
 
															   assert(dim==3); //Only supporting 3D for now.
														
 
															   mat=mat_;
														
 
															-  class_count.resize(Type_Count);
														
 
															   interac_class.resize(Type_Count);
														
 
															   perm_list.resize(Type_Count);
														
 
															   rel_coord.resize(Type_Count);
														
@@ -325,7 +330,7 @@ Permutation<typename Node_t::Real_t>& InteracList<Node_t>::Perm_C(int l, Mat_Typ
 
															 /**
														
 
															  * \brief A hash function defined on the relative coordinates of octants.
														
 
															  */
														
 
															-#define MAX_HASH 2000
														
 
															+#define PVFMM_MAX_COORD_HASH 2000
														
 
															 template <class Node_t>
														
 
															 int InteracList<Node_t>::coord_hash(int* c){
														
 
															   const int n=5;
														
@@ -334,6 +339,7 @@ int InteracList<Node_t>::coord_hash(int* c){
 
															 template <class Node_t>
														
 
															 int InteracList<Node_t>::class_hash(int* c_){
														
 
															+  if(!use_symmetries) return coord_hash(c_);
														
 
															   int c[3]={abs(c_[0]), abs(c_[1]), abs(c_[2])};
														
 
															   if(c[1]>c[0] && c[1]>c[2])
														
 
															     {int tmp=c[0]; c[0]=c[1]; c[1]=tmp;}
														
@@ -354,21 +360,18 @@ void InteracList<Node_t>::InitList(int max_r, int min_r, int step, Mat_Type t){
 
															   size_t count=(size_t)(pow((max_r*2)/step+1,dim)-(min_r>0?pow((min_r*2)/step-1,dim):0));
														
 
															   Matrix<int>& M=rel_coord[t];
														
 
															   M.Resize(count,dim);
														
 
															-  hash_lut[t].assign(MAX_HASH, -1);
														
 
															+  hash_lut[t].assign(PVFMM_MAX_COORD_HASH, -1);
														
 
															-  class_count[t]=0;
														
 
															-  std::vector<int> class_size_hash(MAX_HASH, 0);
														
 
															-  std::vector<int> class_disp_hash(MAX_HASH, 0);
														
 
															+  std::vector<int> class_size_hash(PVFMM_MAX_COORD_HASH, 0);
														
 
															+  std::vector<int> class_disp_hash(PVFMM_MAX_COORD_HASH, 0);
														
 
															   for(int k=-max_r;k<=max_r;k+=step)
														
 
															   for(int j=-max_r;j<=max_r;j+=step)
														
 
															   for(int i=-max_r;i<=max_r;i+=step)
														
 
															   if(abs(i)>=min_r || abs(j)>=min_r || abs(k) >= min_r){
														
 
															     int c[3]={i,j,k};
														
 
															-    int& idx=class_size_hash[class_hash(c)];
														
 
															-    if(idx==0) class_count[t]++;
														
 
															-    idx++;
														
 
															+    class_size_hash[class_hash(c)]++;
														
 
															   }
														
 
															-  omp_par::scan(&class_size_hash[0], &class_disp_hash[0], MAX_HASH);
														
 
															+  omp_par::scan(&class_size_hash[0], &class_disp_hash[0], PVFMM_MAX_COORD_HASH);
														
 
															   size_t count_=0;
														
 
															   for(int k=-max_r;k<=max_r;k+=step)
														
@@ -386,11 +389,17 @@ void InteracList<Node_t>::InitList(int max_r, int min_r, int step, Mat_Type t){
 
															   interac_class[t].resize(count);
														
 
															   perm_list[t].resize(count);
														
 
															-  std::vector<int> coord(3);
														
 
															-  for(size_t j=0;j<count;j++){
														
 
															+  if(!use_symmetries){ // Set interac_class=self
														
 
															+    for(size_t j=0;j<count;j++){
														
 
															+      int c_hash = coord_hash(&M[j][0]);
														
 
															+      interac_class[t][j]=hash_lut[t][c_hash];
														
 
															+    }
														
 
															+  }
														
 
															+  else for(size_t j=0;j<count;j++){
														
 
															     if(M[j][0]<0) perm_list[t][j].push_back(ReflecX);
														
 
															     if(M[j][1]<0) perm_list[t][j].push_back(ReflecY);
														
 
															     if(M[j][2]<0) perm_list[t][j].push_back(ReflecZ);
														
 
															+    int coord[3];
														
 
															     coord[0]=abs(M[j][0]);
														
 
															     coord[1]=abs(M[j][1]);
														
 
															     coord[2]=abs(M[j][2]);
														
@@ -412,6 +421,6 @@ void InteracList<Node_t>::InitList(int max_r, int min_r, int step, Mat_Type t){
 
															     interac_class[t][j]=hash_lut[t][c_hash];
														
 
															   }
														
 
															 }
														
 
															-#undef MAX_HASH
														
 
															+#undef PVFMM_MAX_COORD_HASH
														
 
															 }//end namespace
														
--- a/include/kernel.hpp
+++ b/include/kernel.hpp
@@ -173,7 +173,7 @@ template <class T>
 
															 void stokes_vel(T* r_src, int src_cnt, T* v_src_, int dof, T* r_trg, int trg_cnt, T* k_out, mem::MemoryManager* mem_mgr);
														
 
															 template <class T>
														
 
															-void stokes_dbl_vel(T* r_src, int src_cnt, T* v_src, int dof, T* r_trg, int trg_cnt, T* k_out, mem::MemoryManager* mem_mgr);
														
 
															+void stokes_sym_dip(T* r_src, int src_cnt, T* v_src, int dof, T* r_trg, int trg_cnt, T* k_out, mem::MemoryManager* mem_mgr);
														
 
															 template <class T>
														
 
															 void stokes_press(T* r_src, int src_cnt, T* v_src_, int dof, T* r_trg, int trg_cnt, T* k_out, mem::MemoryManager* mem_mgr);
														
@@ -187,7 +187,7 @@ void stokes_grad(T* r_src, int src_cnt, T* v_src_, int dof, T* r_trg, int trg_cn
 
															 int dim_stokes_vel   [2]={3,3};
														
 
															-const Kernel<double> ker_stokes_vel   =BuildKernel<double, stokes_vel, stokes_dbl_vel>("stokes_vel"   , 3, dim_stokes_vel   ,true,1.0);
														
 
															+const Kernel<double> ker_stokes_vel   =BuildKernel<double, stokes_vel, stokes_sym_dip>("stokes_vel"   , 3, dim_stokes_vel   ,true,1.0);
														
 
															 int dim_stokes_press [2]={3,1};
														
 
															 const Kernel<double> ker_stokes_press =BuildKernel<double, stokes_press              >("stokes_press" , 3, dim_stokes_press ,true,2.0);
														
--- a/include/kernel.txx
+++ b/include/kernel.txx
@@ -903,39 +903,41 @@ void stokes_vel(T* r_src, int src_cnt, T* v_src_, int dof, T* r_trg, int trg_cnt
 
															 }
														
 
															 template <class T>
														
 
															-void stokes_dbl_vel(T* r_src, int src_cnt, T* v_src, int dof, T* r_trg, int trg_cnt, T* k_out, mem::MemoryManager* mem_mgr){
														
 
															+void stokes_sym_dip(T* r_src, int src_cnt, T* v_src, int dof, T* r_trg, int trg_cnt, T* k_out, mem::MemoryManager* mem_mgr){
														
 
															 #ifndef __MIC__
														
 
															   Profile::Add_FLOP((long long)trg_cnt*(long long)src_cnt*(32*dof));
														
 
															 #endif
														
 
															   const T mu=1.0;
														
 
															-  const T SOEPMU = -6.0/(8.0*const_pi<T>()*mu);
														
 
															+  const T OOEPMU = -1.0/(8.0*const_pi<T>()*mu);
														
 
															   for(int t=0;t<trg_cnt;t++){
														
 
															     for(int i=0;i<dof;i++){
														
 
															       T p[3]={0,0,0};
														
 
															       for(int s=0;s<src_cnt;s++){
														
 
															-        T dX_reg=r_trg[3*t  ]-r_src[3*s  ];
														
 
															-        T dY_reg=r_trg[3*t+1]-r_src[3*s+1];
														
 
															-        T dZ_reg=r_trg[3*t+2]-r_src[3*s+2];
														
 
															-        T R = (dX_reg*dX_reg+dY_reg*dY_reg+dZ_reg*dZ_reg);
														
 
															+        T dR[3]={r_trg[3*t  ]-r_src[3*s  ],
														
 
															+                 r_trg[3*t+1]-r_src[3*s+1],
														
 
															+                 r_trg[3*t+2]-r_src[3*s+2]};
														
 
															+        T R = (dR[0]*dR[0]+dR[1]*dR[1]+dR[2]*dR[2]);
														
 
															         if (R!=0){
														
 
															-          R = sqrt(R);
														
 
															-          T invR=1.0/R;
														
 
															-          T invR5=invR*invR*invR*invR*invR;
														
 
															-          T inner_prod =(v_src[(s*dof+i)*6+0]*dX_reg +
														
 
															-                         v_src[(s*dof+i)*6+1]*dY_reg +
														
 
															-                         v_src[(s*dof+i)*6+2]*dZ_reg)*
														
 
															-                        (v_src[(s*dof+i)*6+3]*dX_reg +
														
 
															-                         v_src[(s*dof+i)*6+4]*dY_reg +
														
 
															-                         v_src[(s*dof+i)*6+5]*dZ_reg)*invR5;
														
 
															-          p[0] += dX_reg*inner_prod;
														
 
															-          p[1] += dY_reg*inner_prod;
														
 
															-          p[2] += dZ_reg*inner_prod;
														
 
															+          T invR2=1.0/R;
														
 
															+          T invR=sqrt(invR2);
														
 
															+          T invR3=invR2*invR;
														
 
															+
														
 
															+          T* f=&v_src[(s*dof+i)*6+0];
														
 
															+          T* n=&v_src[(s*dof+i)*6+3];
														
 
															+
														
 
															+          T r_dot_n=(n[0]*dR[0]+n[1]*dR[1]+n[2]*dR[2]);
														
 
															+          T r_dot_f=(f[0]*dR[0]+f[1]*dR[1]+f[2]*dR[2]);
														
 
															+          T n_dot_f=(f[0]* n[0]+f[1]* n[1]+f[2]* n[2]);
														
 
															+
														
 
															+          p[0] += dR[0]*(n_dot_f - 3*r_dot_n*r_dot_f*invR2)*invR3;
														
 
															+          p[1] += dR[1]*(n_dot_f - 3*r_dot_n*r_dot_f*invR2)*invR3;
														
 
															+          p[2] += dR[2]*(n_dot_f - 3*r_dot_n*r_dot_f*invR2)*invR3;
														
 
															         }
														
 
															       }
														
 
															-      k_out[(t*dof+i)*3+0] += p[0]*SOEPMU;
														
 
															-      k_out[(t*dof+i)*3+1] += p[1]*SOEPMU;
														
 
															-      k_out[(t*dof+i)*3+2] += p[2]*SOEPMU;
														
 
															+      k_out[(t*dof+i)*3+0] += p[0]*OOEPMU;
														
 
															+      k_out[(t*dof+i)*3+1] += p[1]*OOEPMU;
														
 
															+      k_out[(t*dof+i)*3+2] += p[2]*OOEPMU;
														
 
															     }
														
 
															   }
														
 
															 }
														
--- a/include/matrix.txx
+++ b/include/matrix.txx
@@ -20,9 +20,7 @@ std::ostream& operator<<(std::ostream& output, const Matrix<T>& M){
 
															     for(size_t j=0;j<M.Dim(1);j++){
														
 
															       float f=((float)M(i,j));
														
 
															       if(fabs(f)<1e-25) f=0;
														
 
															-      output<<std::setw(10);
														
 
															-      ::operator<<(output,f);
														
 
															-      output<<' ';
														
 
															+      output<<std::setw(10)<<((double)f)<<output<<' ';
														
 
															     }
														
 
															     output<<";\n";
														
 
															   }
														
--- a/include/profile.hpp
+++ b/include/profile.hpp
@@ -28,6 +28,8 @@ class Profile{
 
															     static void Add_MEM(long long inc);
														
 
															+    static void Enable(bool state){enable_state=state;};
														
 
															+
														
 
															     static void Tic(const char* name_, const MPI_Comm* comm_=NULL,bool sync_=false, int level=0);
														
 
															     static void Toc();
														
@@ -39,6 +41,7 @@ class Profile{
 
															   static long long FLOP;
														
 
															   static long long MEM;
														
 
															+  static bool enable_state;
														
 
															   static std::stack<bool> sync;
														
 
															   static std::stack<std::string> name;
														
 
															   static std::stack<MPI_Comm*> comm;
														
--- a/include/pvfmm.hpp
+++ b/include/pvfmm.hpp
@@ -98,8 +98,10 @@ typedef FMM_Pts<PtFMM_Node>         PtFMM;
 
															 typedef FMM_Tree<PtFMM>             PtFMM_Tree;
														
 
															 typedef PtFMM_Node::NodeData        PtFMM_Data;
														
 
															-PtFMM_Tree* PtFMM_CreateTree(std::vector<double>& src_coord, std::vector<double>& src_value, std::vector<double>& trg_coord, MPI_Comm& comm,
														
 
															-                                 int max_pts=100, BoundaryType bndry=FreeSpace, int init_depth=0){
														
 
															+PtFMM_Tree* PtFMM_CreateTree(std::vector<double>&  src_coord, std::vector<double>&  src_value,
														
 
															+                             std::vector<double>& surf_coord, std::vector<double>& surf_value,
														
 
															+                             std::vector<double>& trg_coord, MPI_Comm& comm, int max_pts=100,
														
 
															+                             BoundaryType bndry=FreeSpace, int init_depth=0){
														
 
															   int np, myrank;
														
 
															   MPI_Comm_size(comm, &np);
														
 
															   MPI_Comm_rank(comm, &myrank);
														
@@ -112,12 +114,14 @@ PtFMM_Tree* PtFMM_CreateTree(std::vector<double>& src_coord, std::vector<double>
 
															   tree_data.max_pts=max_pts;
														
 
															   // Set source points.
														
 
															-  tree_data.pt_coord=src_coord;
														
 
															-  tree_data.src_coord=src_coord;
														
 
															-  tree_data.src_value=src_value;
														
 
															+  tree_data. src_coord= src_coord;
														
 
															+  tree_data. src_value= src_value;
														
 
															+  tree_data.surf_coord=surf_coord;
														
 
															+  tree_data.surf_value=surf_value;
														
 
															   // Set target points.
														
 
															   tree_data.trg_coord=trg_coord;
														
 
															+  tree_data. pt_coord=trg_coord;
														
 
															   PtFMM_Tree* tree=new PtFMM_Tree(comm);
														
 
															   tree->Initialize(&tree_data);
														
@@ -125,7 +129,15 @@ PtFMM_Tree* PtFMM_CreateTree(std::vector<double>& src_coord, std::vector<double>
 
															   return tree;
														
 
															 }
														
 
															-void PtFMM_Evaluate(PtFMM_Tree* tree, std::vector<double>& trg_val, size_t loc_size=0, std::vector<double>* src_val=NULL){
														
 
															+PtFMM_Tree* PtFMM_CreateTree(std::vector<double>&  src_coord, std::vector<double>&  src_value,
														
 
															+                             std::vector<double>& trg_coord, MPI_Comm& comm, int max_pts=100,
														
 
															+                             BoundaryType bndry=FreeSpace, int init_depth=0){
														
 
															+  std::vector<double> surf_coord;
														
 
															+  std::vector<double> surf_value;
														
 
															+  return PtFMM_CreateTree(src_coord, src_value, surf_coord,surf_value, trg_coord, comm, max_pts, bndry, init_depth);
														
 
															+}
														
 
															+
														
 
															+void PtFMM_Evaluate(PtFMM_Tree* tree, std::vector<double>& trg_val, size_t loc_size=0, std::vector<double>* src_val=NULL, std::vector<double>* surf_val=NULL){
														
 
															   if(src_val){
														
 
															     std::vector<size_t> src_scatter_;
														
 
															     std::vector<PtFMM_Node*>& nodes=tree->GetNodeList();
														
@@ -151,6 +163,31 @@ void PtFMM_Evaluate(PtFMM_Tree* tree, std::vector<double>& trg_val, size_t loc_s
 
															       }
														
 
															     }
														
 
															   }
														
 
															+  if(surf_val){
														
 
															+    std::vector<size_t> surf_scatter_;
														
 
															+    std::vector<PtFMM_Node*>& nodes=tree->GetNodeList();
														
 
															+    for(size_t i=0;i<nodes.size();i++){
														
 
															+      if(nodes[i]->IsLeaf() && !nodes[i]->IsGhost()){
														
 
															+        Vector<size_t>& surf_scatter=nodes[i]->surf_scatter;
														
 
															+        for(size_t j=0;j<surf_scatter.Dim();j++) surf_scatter_.push_back(surf_scatter[j]);
														
 
															+      }
														
 
															+    }
														
 
															+
														
 
															+    Vector<double> surf_value=*surf_val;
														
 
															+    Vector<size_t> surf_scatter=surf_scatter_;
														
 
															+    par::ScatterForward(surf_value,surf_scatter,*tree->Comm());
														
 
															+
														
 
															+    size_t indx=0;
														
 
															+    for(size_t i=0;i<nodes.size();i++){
														
 
															+      if(nodes[i]->IsLeaf() && !nodes[i]->IsGhost()){
														
 
															+        Vector<double>& surf_value_=nodes[i]->surf_value;
														
 
															+        for(size_t j=0;j<surf_value_.Dim();j++){
														
 
															+          surf_value_[j]=surf_value[indx];
														
 
															+          indx++;
														
 
															+        }
														
 
															+      }
														
 
															+    }
														
 
															+  }
														
 
															   tree->RunFMM();
														
 
															   Vector<double> trg_value;
														
 
															   Vector<size_t> trg_scatter;
														
--- a/include/quad_utils.hpp
+++ b/include/quad_utils.hpp
@@ -12,13 +12,9 @@
 
															 #include <iostream>
														
 
															 #include <vector>
														
 
															-#if defined __INTEL_COMPILER
														
 
															-#define QuadReal_t _Quad
														
 
															-#elif defined __GNUC__
														
 
															-#define QuadReal_t __float128
														
 
															-#endif
														
 
															+#ifdef PVFMM_QUAD_T
														
 
															-#ifdef QuadReal_t
														
 
															+typedef PVFMM_QUAD_T QuadReal_t;
														
 
															 inline QuadReal_t atoquad(const char* str);
														
@@ -48,7 +44,7 @@ inline QuadReal_t const_e<QuadReal_t>(){
 
															 #include <quad_utils.txx>
														
 
															-#endif //QuadReal_t
														
 
															+#endif //PVFMM_QUAD_T
														
 
															 #endif //_QUAD_UTILS_HPP_
														
--- a/src/profile.cpp
+++ b/src/profile.cpp
@@ -21,6 +21,7 @@ namespace pvfmm{
 
															 void Profile::Add_FLOP(long long inc){
														
 
															 #if __PROFILE__ >= 0
														
 
															+  if(!enable_state) return;
														
 
															   #pragma omp critical (FLOP)
														
 
															   FLOP+=inc;
														
 
															 #endif
														
@@ -28,6 +29,7 @@ void Profile::Add_FLOP(long long inc){
 
															 void Profile::Add_MEM(long long inc){
														
 
															 #if __PROFILE__ >= 0
														
 
															+  if(!enable_state) return;
														
 
															   #pragma omp critical (MEM)
														
 
															   {
														
 
															   MEM+=inc;
														
@@ -40,6 +42,7 @@ void Profile::Add_MEM(long long inc){
 
															 void Profile::Tic(const char* name_, const MPI_Comm* comm_,bool sync_, int verbose){
														
 
															 #if __PROFILE__ >= 0
														
 
															   //sync_=true;
														
 
															+  if(!enable_state) return;
														
 
															   if(verbose<=__PROFILE__ && verb_level.size()==enable_depth){
														
 
															     if(comm_!=NULL && sync_) MPI_Barrier(*comm_);
														
 
															     #ifdef __VERBOSE__
														
@@ -71,6 +74,7 @@ void Profile::Tic(const char* name_, const MPI_Comm* comm_,bool sync_, int verbo
 
															 void Profile::Toc(){
														
 
															 #if __PROFILE__ >= 0
														
 
															+  if(!enable_state) return;
														
 
															   ASSERT_WITH_MSG(!verb_level.empty(),"Unbalanced extra Toc()");
														
 
															   if(verb_level.top()<=__PROFILE__ && verb_level.size()==enable_depth){
														
 
															     ASSERT_WITH_MSG(!name.empty() && !comm.empty() && !sync.empty() && !max_mem.empty(),"Unbalanced extra Toc()");
														
@@ -127,7 +131,7 @@ void Profile::print(const MPI_Comm* comm_){
 
															   std::stack<long long> mm;
														
 
															   int width=10;
														
 
															   size_t level=0;
														
 
															-  if(!rank){
														
 
															+  if(!rank && e_log.size()>0){
														
 
															     std::cout<<"\n"<<std::setw(width*3-2*level)<<std::string(" ");
														
 
															     std::cout<<"  "<<std::setw(width)<<std::string("t_min");
														
 
															     std::cout<<"  "<<std::setw(width)<<std::string("t_avg");
														
@@ -268,6 +272,7 @@ void Profile::reset(){
 
															 long long Profile::FLOP=0;
														
 
															 long long Profile::MEM=0;
														
 
															+bool Profile::enable_state=false;
														
 
															 std::stack<bool> Profile::sync;
														
 
															 std::stack<std::string> Profile::name;
														
 
															 std::stack<MPI_Comm*> Profile::comm;