10 年之前 · 987aa2361d
--- a/examples/src/fmm_pts.cpp
+++ b/examples/src/fmm_pts.cpp
@@ -52,17 +52,19 @@ void fmm_test(int ker, size_t N, size_t M, Real_t b, int dist, int mult_order, i
 
				   tree_data.max_depth=depth;
			
 
				   tree_data.max_pts=M; // Points per octant.
			
 
				 
			
 
				-  //Set source coordinates and values.
			
 
				-  std::vector<Real_t> src_coord, src_value;
			
 
				-  src_coord=point_distrib<Real_t>((dist==0?UnifGrid:(dist==1?RandSphr:RandElps)),N,comm);
			
 
				-  for(size_t i=0;i<src_coord.size();i++) src_coord[i]*=b;
			
 
				-  for(size_t i=0;i<src_coord.size()*mykernel->ker_dim[0]/COORD_DIM;i++) src_value.push_back(drand48());
			
 
				-  tree_data.pt_coord=src_coord;
			
 
				-  tree_data.src_coord=src_coord;
			
 
				-  tree_data.src_value=src_value;
			
 
				-
			
 
				-  //Set target coordinates.
			
 
				-  tree_data.trg_coord=tree_data.src_coord;
			
 
				+  { //Set particle coordinates and values.
			
 
				+    std::vector<Real_t> src_coord, src_value;
			
 
				+    src_coord=point_distrib<Real_t>((dist==0?UnifGrid:(dist==1?RandSphr:RandElps)),N,comm);
			
 
				+    for(size_t i=0;i<src_coord.size();i++) src_coord[i]*=b;
			
 
				+    for(size_t i=0;i<src_coord.size()*mykernel->ker_dim[0]/COORD_DIM;i++) src_value.push_back(drand48()-0.5);
			
 
				+    tree_data.pt_coord=src_coord;
			
 
				+    tree_data.pt_value=src_value;
			
 
				+    //tree_data.src_coord=src_coord;
			
 
				+    //tree_data.src_value=src_value;
			
 
				+
			
 
				+    //Set target coordinates.
			
 
				+    //tree_data.trg_coord=tree_data.src_coord;
			
 
				+  }
			
 
				 
			
 
				   //Print various parameters.
			
 
				   if(!myrank){
			
@@ -93,6 +95,19 @@ void fmm_test(int ker, size_t N, size_t M, Real_t b, int dist, int mult_order, i
 
				     tree.Initialize(&tree_data);
			
 
				 
			
 
				     //Initialize FMM Tree
			
 
				+    pvfmm::Profile::Tic("SetSrcTrg",&comm,true);
			
 
				+    { // Set src and trg points
			
 
				+      std::vector<FMMNode_t*>& node=tree.GetNodeList();
			
 
				+      #pragma omp parallel for
			
 
				+      for(size_t i=0;i<node.size();i++){
			
 
				+        node[i]->  trg_coord.ReInit(node[i]->  pt_coord.Dim(), &node[i]->  pt_coord[0]);
			
 
				+        node[i]->  src_coord.ReInit(node[i]->  pt_coord.Dim(), &node[i]->  pt_coord[0]);
			
 
				+        node[i]->  src_value.ReInit(node[i]->  pt_value.Dim(), &node[i]->  pt_value[0]);
			
 
				+        node[i]->trg_scatter.ReInit(node[i]->pt_scatter.Dim(), &node[i]->pt_scatter[0]);
			
 
				+        node[i]->src_scatter.ReInit(node[i]->pt_scatter.Dim(), &node[i]->pt_scatter[0]);
			
 
				+      }
			
 
				+    }
			
 
				+    pvfmm::Profile::Toc();
			
 
				     tree.InitFMM_Tree(false,bndry);
			
 
				 
			
 
				     // Setup FMM
			
--- a/include/cheb_node.txx
+++ b/include/cheb_node.txx
@@ -136,9 +136,9 @@ void Cheb_Node<Real_t>::Subdivide() {
 
				   Vector<Real_t> child_cheb_coeff[8];
			
 
				   int n=(1UL<<this->Dim());
			
 
				   for(int i=0;i<n;i++){
			
 
				-    Real_t coord[3]={((i  )%2?0:-1.0),
			
 
				-                     ((i/2)%2?0:-1.0),
			
 
				-                     ((i/4)%2?0:-1.0)};
			
 
				+    Real_t coord[3]={(Real_t)((i  )%2?0:-1.0),
			
 
				+                     (Real_t)((i/2)%2?0:-1.0),
			
 
				+                     (Real_t)((i/4)%2?0:-1.0)};
			
 
				     for(int j=0;j<=cheb_deg;j++){
			
 
				       x[j]=cheb_node[j]+coord[0];
			
 
				       y[j]=cheb_node[j]+coord[1];
			
--- a/include/fmm_cheb.txx
+++ b/include/fmm_cheb.txx
@@ -581,7 +581,7 @@ Matrix<typename FMMNode::Real_t>& FMM_Cheb<FMMNode>::Precomp(int level, Mat_Type
 
				       // Coord of target points
			
 
				       Real_t s=pow(0.5,level);
			
 
				       int* coord=this->interac_list.RelativeCoord(type,mat_indx);
			
 
				-      Real_t coord_diff[3]={(coord[0]-1)*s*0.5,(coord[1]-1)*s*0.5,(coord[2]-1)*s*0.5};
			
 
				+      Real_t coord_diff[3]={(Real_t)((coord[0]-1)*s*0.5),(Real_t)((coord[1]-1.0)*s*0.5),(Real_t)((coord[2]-1.0)*s*0.5)};
			
 
				       std::vector<Real_t>& rel_trg_coord = this->mat->RelativeTrgCoord();
			
 
				       size_t n_trg = rel_trg_coord.size()/3;
			
 
				       std::vector<Real_t> trg_coord(n_trg*3);
			
@@ -681,7 +681,7 @@ Matrix<typename FMMNode::Real_t>& FMM_Cheb<FMMNode>::Precomp(int level, Mat_Type
 
				       // Coord of target points
			
 
				       Real_t s=pow(0.5,level);
			
 
				       int* coord=this->interac_list.RelativeCoord(type,mat_indx);
			
 
				-      Real_t coord_diff[3]={(coord[0]+1)*s*0.25,(coord[1]+1)*s*0.25,(coord[2]+1)*s*0.25};
			
 
				+      Real_t coord_diff[3]={(Real_t)((coord[0]+1)*s*0.25),(Real_t)((coord[1]+1)*s*0.25),(Real_t)((coord[2]+1)*s*0.25)};
			
 
				       std::vector<Real_t>& rel_trg_coord = this->mat->RelativeTrgCoord();
			
 
				       size_t n_trg = rel_trg_coord.size()/3;
			
 
				       std::vector<Real_t> trg_coord(n_trg*3);
			
@@ -752,7 +752,7 @@ Matrix<typename FMMNode::Real_t>& FMM_Cheb<FMMNode>::Precomp(int level, Mat_Type
 
				       // Coord of target points
			
 
				       Real_t s=pow(0.5,level-1);
			
 
				       int* coord=this->interac_list.RelativeCoord(type,mat_indx);
			
 
				-      Real_t c[3]={-(coord[0]-1)*s*0.25,-(coord[1]-1)*s*0.25,-(coord[2]-1)*s*0.25};
			
 
				+      Real_t c[3]={-(Real_t)((coord[0]-1)*s*0.25),-(Real_t)((coord[1]-1)*s*0.25),-(Real_t)((coord[2]-1)*s*0.25)};
			
 
				       std::vector<Real_t> trg_coord=d_check_surf(this->MultipoleOrder(),c,level);
			
 
				       size_t n_trg=trg_coord.size()/3;
			
 
				 
			
@@ -825,10 +825,14 @@ void FMM_Cheb<FMMNode>::CollectNodeData(FMMTree_t* tree, std::vector<FMMNode*>&
 
				       }
			
 
				     }
			
 
				   }
			
 
				-  #pragma omp parallel for
			
 
				-  for(size_t i=0;i<node.size();i++){
			
 
				-    node[i]->pt_cnt[0]+=2*n_coeff;
			
 
				-    node[i]->pt_cnt[1]+=2*n_coeff;
			
 
				+  { // Set pt_cnt
			
 
				+    size_t m=this->MultipoleOrder();
			
 
				+    size_t Nsrf=(6*(m-1)*(m-1)+2);
			
 
				+    #pragma omp parallel for
			
 
				+    for(size_t i=0;i<node.size();i++){
			
 
				+      node[i]->pt_cnt[0]+=2*Nsrf;
			
 
				+      node[i]->pt_cnt[1]+=2*Nsrf;
			
 
				+    }
			
 
				   }
			
 
				   FMM_Pts<FMMNode_t>::CollectNodeData(tree, node, buff, n_list, vec_list);
			
 
				 }
			
@@ -870,6 +874,7 @@ template <class FMMNode>
 
				 void FMM_Cheb<FMMNode>::Source2Up     (SetupData<Real_t>& setup_data, bool device){
			
 
				   if(!this->MultipoleOrder()) return;
			
 
				   //Add Source2Up contribution.
			
 
				+  FMM_Pts<FMMNode>::Source2Up(setup_data, device);
			
 
				   this->EvalList(setup_data, device);
			
 
				 }
			
 
				 
			
--- a/include/fmm_pts.hpp
+++ b/include/fmm_pts.hpp
@@ -207,6 +207,7 @@ class FMM_Pts{
 
				   virtual void CopyOutput(FMMNode** nodes, size_t n);
			
 
				 
			
 
				   Vector<char> dev_buffer;
			
 
				+  Vector<char> staging_buffer;
			
 
				 
			
 
				  protected:
			
 
				 
			
--- a/include/fmm_pts.txx
+++ b/include/fmm_pts.txx
@@ -1606,6 +1606,11 @@ void FMM_Pts<FMMNode>::SetupInterac(SetupData<Real_t>& setup_data, bool device){
 
				   if(device){ // Host2Device
			
 
				     Profile::Tic("Host2Device",&this->comm,false,25);
			
 
				     setup_data.interac_data .AllocDevice(true);
			
 
				+    if(staging_buffer.Dim()<sizeof(Real_t)*output_data.Dim(0)*output_data.Dim(1)){
			
 
				+      staging_buffer.ReInit(sizeof(Real_t)*output_data.Dim(0)*output_data.Dim(1));
			
 
				+      staging_buffer.SetZero();
			
 
				+      staging_buffer.AllocDevice(true);
			
 
				+    }
			
 
				     Profile::Toc();
			
 
				   }
			
 
				 }
			
@@ -1994,8 +1999,8 @@ void FMM_Pts<FMMNode>::Source2UpSetup(SetupData<Real_t>&  setup_data, FMMTree_t*
 
				 
			
 
				     setup_data.nodes_in .clear();
			
 
				     setup_data.nodes_out.clear();
			
 
				-    for(size_t i=0;i<nodes_in .Dim();i++) if((nodes_in [i]->Depth()==level || level==-1) && nodes_in [i]->pt_cnt[0] && nodes_in [i]->IsLeaf() && !nodes_in [i]->IsGhost()) setup_data.nodes_in .push_back(nodes_in [i]);
			
 
				-    for(size_t i=0;i<nodes_out.Dim();i++) if((nodes_out[i]->Depth()==level || level==-1) && nodes_out[i]->pt_cnt[0] && nodes_out[i]->IsLeaf() && !nodes_out[i]->IsGhost()) setup_data.nodes_out.push_back(nodes_out[i]);
			
 
				+    for(size_t i=0;i<nodes_in .Dim();i++) if((nodes_in [i]->Depth()==level || level==-1) && (nodes_in [i]->src_coord.Dim() || nodes_in [i]->surf_coord.Dim()) && nodes_in [i]->IsLeaf() && !nodes_in [i]->IsGhost()) setup_data.nodes_in .push_back(nodes_in [i]);
			
 
				+    for(size_t i=0;i<nodes_out.Dim();i++) if((nodes_out[i]->Depth()==level || level==-1) && (nodes_out[i]->src_coord.Dim() || nodes_out[i]->surf_coord.Dim()) && nodes_out[i]->IsLeaf() && !nodes_out[i]->IsGhost()) setup_data.nodes_out.push_back(nodes_out[i]);
			
 
				   }
			
 
				 
			
 
				   struct PackedData{
			
@@ -4122,8 +4127,8 @@ void FMM_Pts<FMMNode>::X_ListSetup(SetupData<Real_t>&  setup_data, FMMTree_t* tr
 
				 
			
 
				     setup_data.nodes_in .clear();
			
 
				     setup_data.nodes_out.clear();
			
 
				-    for(size_t i=0;i<nodes_in .Dim();i++) if((level==0 || level==-1) && nodes_in [i]->pt_cnt[0] && nodes_in [i]->IsLeaf()                            ) setup_data.nodes_in .push_back(nodes_in [i]);
			
 
				-    for(size_t i=0;i<nodes_out.Dim();i++) if((level==0 || level==-1) && nodes_out[i]->pt_cnt[1]                           && !nodes_out[i]->IsGhost()) setup_data.nodes_out.push_back(nodes_out[i]);
			
 
				+    for(size_t i=0;i<nodes_in .Dim();i++) if((level==0 || level==-1) && (nodes_in [i]->src_coord.Dim() || nodes_in [i]->surf_coord.Dim()) &&  nodes_in [i]->IsLeaf ()) setup_data.nodes_in .push_back(nodes_in [i]);
			
 
				+    for(size_t i=0;i<nodes_out.Dim();i++) if((level==0 || level==-1) &&  nodes_out[i]->pt_cnt[1]                                          && !nodes_out[i]->IsGhost()) setup_data.nodes_out.push_back(nodes_out[i]);
			
 
				   }
			
 
				 
			
 
				   struct PackedData{
			
@@ -4424,8 +4429,8 @@ void FMM_Pts<FMMNode>::W_ListSetup(SetupData<Real_t>&  setup_data, FMMTree_t* tr
 
				 
			
 
				     setup_data.nodes_in .clear();
			
 
				     setup_data.nodes_out.clear();
			
 
				-    for(size_t i=0;i<nodes_in .Dim();i++) if((level==0 || level==-1) && nodes_in [i]->pt_cnt[0]                                                      ) setup_data.nodes_in .push_back(nodes_in [i]);
			
 
				-    for(size_t i=0;i<nodes_out.Dim();i++) if((level==0 || level==-1) && nodes_out[i]->pt_cnt[1] && nodes_out[i]->IsLeaf() && !nodes_out[i]->IsGhost()) setup_data.nodes_out.push_back(nodes_out[i]);
			
 
				+    for(size_t i=0;i<nodes_in .Dim();i++) if((level==0 || level==-1) && nodes_in [i]->pt_cnt[0]                                                            ) setup_data.nodes_in .push_back(nodes_in [i]);
			
 
				+    for(size_t i=0;i<nodes_out.Dim();i++) if((level==0 || level==-1) && nodes_out[i]->trg_coord.Dim() && nodes_out[i]->IsLeaf() && !nodes_out[i]->IsGhost()) setup_data.nodes_out.push_back(nodes_out[i]);
			
 
				   }
			
 
				 
			
 
				   struct PackedData{
			
@@ -4709,8 +4714,8 @@ void FMM_Pts<FMMNode>::U_ListSetup(SetupData<Real_t>& setup_data, FMMTree_t* tre
 
				 
			
 
				     setup_data.nodes_in .clear();
			
 
				     setup_data.nodes_out.clear();
			
 
				-    for(size_t i=0;i<nodes_in .Dim();i++) if((level==0 || level==-1) && nodes_in [i]->pt_cnt[0] && nodes_in [i]->IsLeaf()                            ) setup_data.nodes_in .push_back(nodes_in [i]);
			
 
				-    for(size_t i=0;i<nodes_out.Dim();i++) if((level==0 || level==-1) && nodes_out[i]->pt_cnt[1] && nodes_out[i]->IsLeaf() && !nodes_out[i]->IsGhost()) setup_data.nodes_out.push_back(nodes_out[i]);
			
 
				+    for(size_t i=0;i<nodes_in .Dim();i++) if((level==0 || level==-1) && (nodes_in [i]->src_coord.Dim() || nodes_in [i]->surf_coord.Dim()) && nodes_in [i]->IsLeaf()                            ) setup_data.nodes_in .push_back(nodes_in [i]);
			
 
				+    for(size_t i=0;i<nodes_out.Dim();i++) if((level==0 || level==-1) && (nodes_out[i]->trg_coord.Dim()                                  ) && nodes_out[i]->IsLeaf() && !nodes_out[i]->IsGhost()) setup_data.nodes_out.push_back(nodes_out[i]);
			
 
				   }
			
 
				 
			
 
				   struct PackedData{
			
@@ -5105,8 +5110,8 @@ void FMM_Pts<FMMNode>::Down2TargetSetup(SetupData<Real_t>&  setup_data, FMMTree_
 
				 
			
 
				     setup_data.nodes_in .clear();
			
 
				     setup_data.nodes_out.clear();
			
 
				-    for(size_t i=0;i<nodes_in .Dim();i++) if((nodes_in [i]->Depth()==level || level==-1) && nodes_in [i]->pt_cnt[1] && nodes_in [i]->IsLeaf() && !nodes_in [i]->IsGhost()) setup_data.nodes_in .push_back(nodes_in [i]);
			
 
				-    for(size_t i=0;i<nodes_out.Dim();i++) if((nodes_out[i]->Depth()==level || level==-1) && nodes_out[i]->pt_cnt[1] && nodes_out[i]->IsLeaf() && !nodes_out[i]->IsGhost()) setup_data.nodes_out.push_back(nodes_out[i]);
			
 
				+    for(size_t i=0;i<nodes_in .Dim();i++) if((nodes_in [i]->Depth()==level || level==-1) && nodes_in [i]->trg_coord.Dim() && nodes_in [i]->IsLeaf() && !nodes_in [i]->IsGhost()) setup_data.nodes_in .push_back(nodes_in [i]);
			
 
				+    for(size_t i=0;i<nodes_out.Dim();i++) if((nodes_out[i]->Depth()==level || level==-1) && nodes_out[i]->trg_coord.Dim() && nodes_out[i]->IsLeaf() && !nodes_out[i]->IsGhost()) setup_data.nodes_out.push_back(nodes_out[i]);
			
 
				   }
			
 
				 
			
 
				   struct PackedData{
			
--- a/include/fmm_pts_gpu.hpp
+++ b/include/fmm_pts_gpu.hpp
@@ -1,33 +1,36 @@
 
				 #ifndef _CUDA_FUNC_HPP_
			
 
				 #define _CUDA_FUNC_HPP_
			
 
				 
			
 
				-#include <pvfmm_common.hpp>
			
 
				-#include <stdint.h>
			
 
				-#include <stdio.h>
			
 
				-#include <stdlib.h>
			
 
				-#include <assert.h>
			
 
				-#include <cstring>
			
 
				-#include <device_wrapper.hpp>
			
 
				-#include <matrix.hpp>
			
 
				-#include <vector.hpp>
			
 
				-
			
 
				 #ifdef __cplusplus
			
 
				 extern "C" {
			
 
				 #endif
			
 
				-  void  in_perm_d(char* precomp_data, double*  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0, cudaStream_t* stream);
			
 
				-  void out_perm_d(char* precomp_data, double* output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1, cudaStream_t* stream);
			
 
				+  void  in_perm_gpu_f(char* precomp_data, float *  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0, cudaStream_t* stream);
			
 
				+  void  in_perm_gpu_d(char* precomp_data, double*  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0, cudaStream_t* stream);
			
 
				+
			
 
				+  void out_perm_gpu_f(char* precomp_data, float * output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1, cudaStream_t* stream);
			
 
				+  void out_perm_gpu_d(char* precomp_data, double* output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1, cudaStream_t* stream);
			
 
				 #ifdef __cplusplus
			
 
				 }
			
 
				 #endif
			
 
				 
			
 
				 template <class Real_t>
			
 
				-void  in_perm_gpu(char* precomp_data, Real_t*  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0, cudaStream_t* stream){
			
 
				-  in_perm_d (precomp_data,  input_data, buff_in ,  input_perm, vec_cnt, M_dim0, stream);
			
 
				-};
			
 
				+void  in_perm_gpu(char* precomp_data, Real_t*  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0, cudaStream_t* stream);
			
 
				 
			
 
				 template <class Real_t>
			
 
				-void out_perm_gpu(char* precomp_data, Real_t* output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1, cudaStream_t* stream){
			
 
				-  out_perm_d(precomp_data, output_data, buff_out, output_perm, vec_cnt, M_dim1, stream);
			
 
				-};
			
 
				+void out_perm_gpu(char* precomp_data, Real_t* output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1, cudaStream_t* stream);
			
 
				+
			
 
				+template<> void  in_perm_gpu<float >(char* precomp_data, float *  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0, cudaStream_t* stream){
			
 
				+  in_perm_gpu_f (precomp_data,  input_data, buff_in ,  input_perm, vec_cnt, M_dim0, stream);
			
 
				+}
			
 
				+template<> void  in_perm_gpu<double>(char* precomp_data, double*  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0, cudaStream_t* stream){
			
 
				+  in_perm_gpu_d (precomp_data,  input_data, buff_in ,  input_perm, vec_cnt, M_dim0, stream);
			
 
				+}
			
 
				+
			
 
				+template<> void out_perm_gpu<float >(char* precomp_data, float * output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1, cudaStream_t* stream){
			
 
				+  out_perm_gpu_f(precomp_data, output_data, buff_out, output_perm, vec_cnt, M_dim1, stream);
			
 
				+}
			
 
				+template<> void out_perm_gpu<double>(char* precomp_data, double* output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1, cudaStream_t* stream){
			
 
				+  out_perm_gpu_d(precomp_data, output_data, buff_out, output_perm, vec_cnt, M_dim1, stream);
			
 
				+}
			
 
				 
			
 
				 #endif //_CUDA_FUNC_HPP_
			
--- a/include/fmm_tree.txx
+++ b/include/fmm_tree.txx
@@ -61,9 +61,9 @@ void FMM_Tree<FMM_Mat_t>::InitFMM_Tree(bool refine, BoundaryType bndry_) {
 
				   Profile::Toc();
			
 
				 
			
 
				   //Redistribute nodes.
			
 
				-  Profile::Tic("Redistribute",this->Comm(),true,5);
			
 
				-  this->RedistNodes();
			
 
				-  Profile::Toc();
			
 
				+//  Profile::Tic("Redistribute",this->Comm(),true,5);
			
 
				+//  this->RedistNodes();
			
 
				+//  Profile::Toc();
			
 
				 
			
 
				   }Profile::Toc();
			
 
				 }
			
@@ -299,50 +299,53 @@ void FMM_Tree<FMM_Mat_t>::UpwardPass() {
 
				 
			
 
				 template <class FMM_Mat_t>
			
 
				 void FMM_Tree<FMM_Mat_t>::BuildInteracLists() {
			
 
				-  std::vector<Node_t*> n_list;
			
 
				+  std::vector<Node_t*> n_list_src;
			
 
				+  std::vector<Node_t*> n_list_trg;
			
 
				   { // Build n_list
			
 
				     std::vector<Node_t*>& nodes=this->GetNodeList();
			
 
				     for(size_t i=0;i<nodes.size();i++){
			
 
				+      if(!nodes[i]->IsGhost() && nodes[i]->pt_cnt[0]){
			
 
				+        n_list_src.push_back(nodes[i]);
			
 
				+      }
			
 
				       if(!nodes[i]->IsGhost() && nodes[i]->pt_cnt[1]){
			
 
				-        n_list.push_back(nodes[i]);
			
 
				+        n_list_trg.push_back(nodes[i]);
			
 
				       }
			
 
				     }
			
 
				   }
			
 
				-  size_t node_cnt=n_list.size();
			
 
				+  size_t node_cnt=std::max(n_list_src.size(),n_list_trg.size());
			
 
				 
			
 
				   std::vector<Mat_Type> type_lst;
			
 
				-  type_lst.push_back(S2U_Type);
			
 
				-  type_lst.push_back(U2U_Type);
			
 
				-  type_lst.push_back(D2D_Type);
			
 
				-  type_lst.push_back(D2T_Type);
			
 
				-  type_lst.push_back(U0_Type );
			
 
				-  type_lst.push_back(U1_Type );
			
 
				-  type_lst.push_back(U2_Type );
			
 
				-  type_lst.push_back(W_Type  );
			
 
				-  type_lst.push_back(X_Type  );
			
 
				-  type_lst.push_back(V1_Type );
			
 
				-
			
 
				-  size_t all_interac_cnt=0;
			
 
				-  pvfmm::Vector<size_t> interac_cnt(type_lst.size());
			
 
				+  std::vector<std::vector<Node_t*>*> type_node_lst;
			
 
				+  type_lst.push_back(S2U_Type); type_node_lst.push_back(&n_list_src);
			
 
				+  type_lst.push_back(U2U_Type); type_node_lst.push_back(&n_list_src);
			
 
				+  type_lst.push_back(D2D_Type); type_node_lst.push_back(&n_list_trg);
			
 
				+  type_lst.push_back(D2T_Type); type_node_lst.push_back(&n_list_trg);
			
 
				+  type_lst.push_back(U0_Type ); type_node_lst.push_back(&n_list_trg);
			
 
				+  type_lst.push_back(U1_Type ); type_node_lst.push_back(&n_list_trg);
			
 
				+  type_lst.push_back(U2_Type ); type_node_lst.push_back(&n_list_trg);
			
 
				+  type_lst.push_back(W_Type  ); type_node_lst.push_back(&n_list_trg);
			
 
				+  type_lst.push_back(X_Type  ); type_node_lst.push_back(&n_list_trg);
			
 
				+  type_lst.push_back(V1_Type ); type_node_lst.push_back(&n_list_trg);
			
 
				+  std::vector<size_t> interac_cnt(type_lst.size());
			
 
				+  std::vector<size_t> interac_dsp(type_lst.size(),0);
			
 
				   for(size_t i=0;i<type_lst.size();i++){
			
 
				     interac_cnt[i]=interac_list.ListCount(type_lst[i]);
			
 
				-    all_interac_cnt+=interac_cnt[i];
			
 
				   }
			
 
				-  node_interac_lst.ReInit(node_cnt,all_interac_cnt);
			
 
				+  omp_par::scan(&interac_cnt[0],&interac_dsp[0],type_lst.size());
			
 
				+  node_interac_lst.ReInit(node_cnt,interac_cnt.back()+interac_dsp.back());
			
 
				 
			
 
				   // Build interaction lists.
			
 
				   int omp_p=omp_get_max_threads();
			
 
				   #pragma omp parallel for
			
 
				   for(int j=0;j<omp_p;j++){
			
 
				-    size_t a=(node_cnt*(j  ))/omp_p;
			
 
				-    size_t b=(node_cnt*(j+1))/omp_p;
			
 
				-    for(size_t i=a;i<b;i++){
			
 
				-      size_t offset=0;
			
 
				-      Node_t* n=n_list[i];
			
 
				-      for(size_t k=0;k<type_lst.size();k++){
			
 
				-        n->interac_list[type_lst[k]].ReInit(interac_cnt[k],&node_interac_lst[i][offset],false);
			
 
				+    for(size_t k=0;k<type_lst.size();k++){
			
 
				+      std::vector<Node_t*>& n_list=*type_node_lst[k];
			
 
				+      size_t a=(n_list.size()*(j  ))/omp_p;
			
 
				+      size_t b=(n_list.size()*(j+1))/omp_p;
			
 
				+      for(size_t i=a;i<b;i++){
			
 
				+        Node_t* n=n_list[i];
			
 
				+        n->interac_list[type_lst[k]].ReInit(interac_cnt[k],&node_interac_lst[i][interac_dsp[k]],false);
			
 
				         interac_list.BuildList(n,type_lst[k]);
			
 
				-        offset+=interac_cnt[k];
			
 
				       }
			
 
				     }
			
 
				   }
			
@@ -630,8 +633,8 @@ void FMM_Tree<FMM_Mat_t>::DownwardPass() {
 
				       Profile::Tic("Device2Host:LocExp",this->Comm(),false,5);
			
 
				       if(setup_data[0+MAX_DEPTH*2].output_data!=NULL){
			
 
				         Matrix<Real_t>& output_data=*setup_data[0+MAX_DEPTH*2].output_data;
			
 
				-        assert(fmm_mat->dev_buffer.Dim()>=output_data.Dim(0)*output_data.Dim(1));
			
 
				-        output_data.Device2Host((Real_t*)&fmm_mat->dev_buffer[0]);
			
 
				+        assert(fmm_mat->staging_buffer.Dim()*sizeof(Real_t)>=output_data.Dim(0)*output_data.Dim(1));
			
 
				+        output_data.Device2Host((Real_t*)&fmm_mat->staging_buffer[0]);
			
 
				       }
			
 
				       Profile::Toc();
			
 
				     }
			
@@ -669,7 +672,7 @@ void FMM_Tree<FMM_Mat_t>::DownwardPass() {
 
				   #if defined(__INTEL_OFFLOAD) || defined(PVFMM_HAVE_CUDA)
			
 
				   Profile::Tic("D2H_Wait:LocExp",this->Comm(),false,5);
			
 
				   if(device) if(setup_data[0+MAX_DEPTH*2].output_data!=NULL){
			
 
				-    Real_t* dev_ptr=(Real_t*)&fmm_mat->dev_buffer[0];
			
 
				+    Real_t* dev_ptr=(Real_t*)&fmm_mat->staging_buffer[0];
			
 
				     Matrix<Real_t>& output_data=*setup_data[0+MAX_DEPTH*2].output_data;
			
 
				     size_t n=output_data.Dim(0)*output_data.Dim(1);
			
 
				     Real_t* host_ptr=output_data[0];
			
@@ -685,8 +688,8 @@ void FMM_Tree<FMM_Mat_t>::DownwardPass() {
 
				   Profile::Tic("Device2Host:Trg",this->Comm(),false,5);
			
 
				   if(device) if(setup_data[0+MAX_DEPTH*0].output_data!=NULL){ // Device2Host: Target
			
 
				     Matrix<Real_t>& output_data=*setup_data[0+MAX_DEPTH*0].output_data;
			
 
				-    assert(fmm_mat->dev_buffer.Dim()>=output_data.Dim(0)*output_data.Dim(1));
			
 
				-    output_data.Device2Host((Real_t*)&fmm_mat->dev_buffer[0]);
			
 
				+    assert(fmm_mat->staging_buffer.Dim()>=sizeof(Real_t)*output_data.Dim(0)*output_data.Dim(1));
			
 
				+    output_data.Device2Host((Real_t*)&fmm_mat->staging_buffer[0]);
			
 
				   }
			
 
				   Profile::Toc();
			
 
				   #endif
			
@@ -708,7 +711,7 @@ void FMM_Tree<FMM_Mat_t>::DownwardPass() {
 
				   #if defined(__INTEL_OFFLOAD) || defined(PVFMM_HAVE_CUDA)
			
 
				   Profile::Tic("D2H_Wait:Trg",this->Comm(),false,5);
			
 
				   if(device) if(setup_data[0+MAX_DEPTH*0].output_data!=NULL){
			
 
				-    Real_t* dev_ptr=(Real_t*)&fmm_mat->dev_buffer[0];
			
 
				+    Real_t* dev_ptr=(Real_t*)&fmm_mat->staging_buffer[0];
			
 
				     Matrix<Real_t>& output_data=*setup_data[0+MAX_DEPTH*0].output_data;
			
 
				     size_t n=output_data.Dim(0)*output_data.Dim(1);
			
 
				     Real_t* host_ptr=output_data[0];
			
--- a/include/matrix.txx
+++ b/include/matrix.txx
@@ -348,7 +348,7 @@ void Matrix<T>::CUBLASGEMM(Matrix<T>& M_r, const Matrix<T>& A, const Matrix<T>&
 
				   assert(M_r.dim[1]==B.dim[1]);
			
 
				   Profile::Add_FLOP(2*(((long long)A.dim[0])*A.dim[1])*B.dim[1]);
			
 
				   mat::cublasgemm('N', 'N', B.dim[1], A.dim[0], A.dim[1],
			
 
				-      1.0, B.data_ptr, B.dim[1], A.data_ptr, A.dim[1], beta, M_r.data_ptr, M_r.dim[1]);
			
 
				+      (T)1.0, B.data_ptr, B.dim[1], A.data_ptr, A.dim[1], beta, M_r.data_ptr, M_r.dim[1]);
			
 
				 }
			
 
				 #endif
			
 
				 
			
--- a/include/mpi_tree.txx
+++ b/include/mpi_tree.txx
@@ -938,6 +938,8 @@ inline int balanceOctree (std::vector<MortonId > &in, std::vector<MortonId > &ou
 
				 
			
 
				 template <class TreeNode>
			
 
				 void MPI_Tree<TreeNode>::Balance21(BoundaryType bndry) {
			
 
				+  bool redist=true;
			
 
				+
			
 
				   int num_proc,myrank;
			
 
				   MPI_Comm_rank(*Comm(),&myrank);
			
 
				   MPI_Comm_size(*Comm(),&num_proc);
			
@@ -957,6 +959,29 @@ void MPI_Tree<TreeNode>::Balance21(BoundaryType bndry) {
 
				   Profile::Tic("ot::balanceOctree",Comm(),true,10);
			
 
				   std::vector<MortonId> out;
			
 
				   balanceOctree(in, out, this->Dim(), this->max_depth, (bndry==Periodic), *Comm());
			
 
				+  if(!redist){ // Use original partitioning
			
 
				+    std::vector<int> cnt(num_proc,0);
			
 
				+    std::vector<int> dsp(num_proc+1,out.size());
			
 
				+    std::vector<MortonId> mins=GetMins();
			
 
				+    for(size_t i=0;i<num_proc;i++){
			
 
				+      size_t indx=std::lower_bound(&out[0],&out[0]+out.size(),mins[i],std::less<MortonId>())-&out[0];
			
 
				+      dsp[i]=indx;
			
 
				+    }
			
 
				+    for(size_t i=0;i<num_proc;i++){
			
 
				+      cnt[i]=dsp[i+1]-dsp[i];
			
 
				+    }
			
 
				+
			
 
				+    std::vector<int> recv_cnt(num_proc);
			
 
				+    std::vector<int> recv_dsp(num_proc);
			
 
				+    MPI_Alltoall(&     cnt[0], 1, MPI_INT,
			
 
				+                 &recv_cnt[0], 1, MPI_INT, *Comm());
			
 
				+    omp_par::scan(&recv_cnt[0],&recv_dsp[0],num_proc);
			
 
				+
			
 
				+    in.resize(recv_cnt[num_proc-1]+recv_dsp[num_proc-1]);
			
 
				+    par::Mpi_Alltoallv_sparse(&out[0], &     cnt[0], &     dsp[0],
			
 
				+                              & in[0], &recv_cnt[0], &recv_dsp[0], *Comm());
			
 
				+    in.swap(out);
			
 
				+  }
			
 
				   Profile::Toc();
			
 
				 
			
 
				   //Get new_mins.
			
@@ -967,7 +992,7 @@ void MPI_Tree<TreeNode>::Balance21(BoundaryType bndry) {
 
				 
			
 
				   // Refine to new_mins in my range of octants
			
 
				   // or else RedistNodes(...) will not work correctly.
			
 
				-  {
			
 
				+  if(redist){
			
 
				     int i=0;
			
 
				     std::vector<MortonId> mins=GetMins();
			
 
				     while(new_mins[i]<mins[myrank] && i<num_proc) i++; //TODO: Use binary search.
			
@@ -980,7 +1005,7 @@ void MPI_Tree<TreeNode>::Balance21(BoundaryType bndry) {
 
				 
			
 
				   //Redist nodes using new_mins.
			
 
				   Profile::Tic("RedistNodes",Comm(),true,10);
			
 
				-  RedistNodes(&out[0]);
			
 
				+  if(redist) RedistNodes(&out[0]);
			
 
				   #ifndef NDEBUG
			
 
				   std::vector<MortonId> mins=GetMins();
			
 
				   assert(mins[myrank].getDFD()==out[0].getDFD());
			
@@ -1642,7 +1667,7 @@ void MPI_Tree<TreeNode>::ConstructLET_Sparse(BoundaryType bndry){
 
				   { // Pack shared nodes.
			
 
				     #pragma omp parallel for
			
 
				     for(size_t tid=0;tid<omp_p;tid++){
			
 
				-      size_t buff_length=10l*1024l*1024l; // 10MB buffer per thread.
			
 
				+      size_t buff_length=100l*1024l*1024l; // 100MB buffer per thread.
			
 
				       char* buff=(char*)this->memgr.malloc(buff_length);
			
 
				 
			
 
				       size_t a=( tid   *shared_data.size())/omp_p;
			
--- a/include/pvfmm_common.hpp
+++ b/include/pvfmm_common.hpp
@@ -28,7 +28,7 @@
 
				 
			
 
				 #define MAX_DEPTH 15
			
 
				 
			
 
				-#define BC_LEVELS 30
			
 
				+#define BC_LEVELS 60
			
 
				 
			
 
				 #define RAD0 1.05 //Radius of upward equivalent (downward check) surface.
			
 
				 #define RAD1 2.95 //Radius of downward equivalent (upward check) surface.
			
--- a/scripts/sscal_pts.sh
+++ b/scripts/sscal_pts.sh
@@ -0,0 +1,120 @@
 
				+#!/bin/bash
			
 
				+
			
 
				+CORES=16;
			
 
				+export EXEC=examples/bin/fmm_pts
			
 
				+
			
 
				+# List arrays and corresponding executable option prefix
			
 
				+declare -a opt_array=(nodes cores mpi_proc threads ker n_pts m_pts b_len dist m depth sin_pr max_time);
			
 
				+declare -a opt_names=(    -     -        -     omp ker     N     M     b dist m     d     sp        -);
			
 
				+for (( i=0; i<${#opt_names[@]}; i++ )) ; do # Declare arrays
			
 
				+  eval "declare -a ${opt_array[$i]}=()";
			
 
				+done
			
 
				+
			
 
				+
			
 
				+###################################################################################################
			
 
				+#          Strong Scaling Laplace kernel, 100M points, uniform distribution                       #
			
 
				+###################################################################################################
			
 
				+nodes+=(            2         4         8        16        32        64       128       256       512      1024      1024 :)
			
 
				+cores+=(     ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES} :)
			
 
				+mpi_proc+=(         2         4         8        16        32        64       128       256       512      1024      1024 :)
			
 
				+threads+=(   ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES} :)
			
 
				+ker+=(              1         1         1         1         1         1         1         1         1         1         1 :)
			
 
				+n_pts+=(         1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8 :)
			
 
				+m_pts+=(          450       450       450       450       450       450       450       450       450       450       450 :)
			
 
				+b_len+=(         0.75      0.75      0.75      0.75      0.75      0.75      0.75      0.75      0.75      0.75         1 :)
			
 
				+dist+=(             0         0         0         0         0         0         0         0         0         0         0 :)
			
 
				+m+=(                6         6         6         6         6         6         6         6         6         6         6 :)
			
 
				+depth+=(           15        15        15        15        15        15        15        15        15        15        15 :)
			
 
				+sin_pr+=(           0         0         0         0         0         0         0         0         0         0         0 :)
			
 
				+max_time+=(      1200      1200      1200      1200      1200      1200      1200      1200      1200      1200      1200 :)
			
 
				+
			
 
				+
			
 
				+###################################################################################################
			
 
				+#          Strong Scaling Laplace kernel, 100M points, non-uniform distribution (ellipse)         #
			
 
				+###################################################################################################
			
 
				+nodes+=(            2         4         8        16        32        64       128       256       512      1024 :)
			
 
				+cores+=(     ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES} :)
			
 
				+mpi_proc+=(         2         4         8        16        32        64       128       256       512      1024 :)
			
 
				+threads+=(   ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES} :)
			
 
				+ker+=(              1         1         1         1         1         1         1         1         1         1 :)
			
 
				+n_pts+=(         1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8 :)
			
 
				+m_pts+=(          450       450       450       450       450       450       450       450       450       450 :)
			
 
				+b_len+=(            1         1         1         1         1         1         1         1         1         1 :)
			
 
				+dist+=(             2         2         2         2         2         2         2         2         2         2 :)
			
 
				+m+=(                6         6         6         6         6         6         6         6         6         6 :)
			
 
				+depth+=(           28        28        28        28        28        28        28        28        28        28 :)
			
 
				+sin_pr+=(           0         0         0         0         0         0         0         0         0         0 :)
			
 
				+max_time+=(      1200      1200      1200      1200      1200      1200      1200      1200      1200      1200 :)
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+###################################################################################################
			
 
				+# Strong Scaling Helmholtz kernel (wave-number=10), 100M points, uniform distribution             #
			
 
				+###################################################################################################
			
 
				+nodes+=(            4         8        16        32        64       128       256       512      1024 :)
			
 
				+cores+=(     ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES} :)
			
 
				+mpi_proc+=(         4         8        16        32        64       128       256       512      1024 :)
			
 
				+threads+=(   ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES} :)
			
 
				+ker+=(              4         4         4         4         4         4         4         4         4 :)
			
 
				+n_pts+=(         1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8 :)
			
 
				+m_pts+=(          400       400       400       400       400       400       400       400       400 :)
			
 
				+b_len+=(         0.75      0.75      0.75      0.75      0.75      0.75      0.75      0.75      0.75 :)
			
 
				+dist+=(             0         0         0         0         0         0         0         0         0 :)
			
 
				+m+=(               10        10        10        10        10        10        10        10        10 :)
			
 
				+depth+=(           15        15        15        15        15        15        15        15        15 :)
			
 
				+sin_pr+=(           0         0         0         0         0         0         0         0         0 :)
			
 
				+max_time+=(      1200      1200      1200      1200      1200      1200      1200      1200      1200 :)
			
 
				+
			
 
				+
			
 
				+###################################################################################################
			
 
				+# Strong Scaling Helmholtz kernel (wave-number=10), 100M points, non-uniform distribution (sphere)#
			
 
				+###################################################################################################
			
 
				+nodes+=(            8        16        32        64       128       256       512      1024 :)
			
 
				+cores+=(     ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES} :)
			
 
				+mpi_proc+=(         8        16        32        64       128       256       512      1024 :)
			
 
				+threads+=(   ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES}  ${CORES} :)
			
 
				+ker+=(              4         4         4         4         4         4         4         4 :)
			
 
				+n_pts+=(         1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8      1e+8 :)
			
 
				+m_pts+=(          400       400       400       400       400       400       400       400 :)
			
 
				+b_len+=(            1         1         1         1         1         1         1         1 :)
			
 
				+dist+=(             1         1         1         1         1         1         1         1 :)
			
 
				+m+=(               10        10        10        10        10        10        10        10 :)
			
 
				+depth+=(           15        15        15        15        15        15        15        15 :)
			
 
				+sin_pr+=(           0         0         0         0         0         0         0         0 :)
			
 
				+max_time+=(      1200      1200      1200      1200      1200      1200      1200      1200 :)
			
 
				+
			
 
				+
			
 
				+
			
 
				+
			
 
				+RESULT_HEADER=" Script: $0      Strong scaling with 100M points"
			
 
				+
			
 
				+declare -a RESULT_FIELDS=()
			
 
				+RESULT_FIELDS+=("FMM Kernel name"                    "kernel" )
			
 
				+RESULT_FIELDS+=("Point distribution"                 "dist"   )
			
 
				+RESULT_FIELDS+=("Number of Leaf Nodes"               "Noct"   )
			
 
				+RESULT_FIELDS+=("Tree Depth"                         "d"      )
			
 
				+RESULT_FIELDS+=("Maximum points per octant"          "M"      )
			
 
				+RESULT_FIELDS+=("Order of multipole expansions"      "m"      )
			
 
				+RESULT_FIELDS+=("|"                                  "|"      )
			
 
				+RESULT_FIELDS+=("Maximum Relative Error \[Output\]"  "Linf(e)")
			
 
				+
			
 
				+declare -a PROF_FIELDS=()
			
 
				+#PROF_FIELDS+=("InitTree"    )
			
 
				+#PROF_FIELDS+=("SetupFMM"    )
			
 
				+#PROF_FIELDS+=("RunFMM"      )
			
 
				+##PROF_FIELDS+=("UpwardPass"  )
			
 
				+##PROF_FIELDS+=("ReduceBcast" )
			
 
				+##PROF_FIELDS+=("DownwardPass")
			
 
				+
			
 
				+PROF_FIELDS+=("TotalTime"   )
			
 
				+PROF_FIELDS+=("InitTree"    )
			
 
				+PROF_FIELDS+=("InitFMM_Tree")
			
 
				+PROF_FIELDS+=("SetupFMM"    )
			
 
				+PROF_FIELDS+=("RunFMM"      )
			
 
				+PROF_FIELDS+=("Scatter"     )
			
 
				+
			
 
				+WORK_DIR=$(dirname ${PWD}/$0)/..
			
 
				+TERM_WIDTH=$(stty size | cut -d ' ' -f 2)
			
 
				+source ${WORK_DIR}/scripts/.submit_jobs.sh | cut -b -${TERM_WIDTH}
			
 
				+
			
--- a/src/fmm_pts_gpu.cu
+++ b/src/fmm_pts_gpu.cu
@@ -2,10 +2,11 @@
 
				 #include <stdlib.h>
			
 
				 #include <stdint.h>
			
 
				 #include <cassert>
			
 
				+#include <fmm_pts_gpu.hpp>
			
 
				 
			
 
				-__global__
			
 
				-void  in_perm_k(char* precomp_data, double*  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0){
			
 
				-  extern __shared__ double s[];
			
 
				+template <class Real_t>
			
 
				+__global__ void  in_perm_k(char* precomp_data, Real_t*  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0){
			
 
				+  extern __shared__ char s_[]; Real_t* s=(Real_t*)&s_[0];
			
 
				 
			
 
				   /* Specifing range. */
			
 
				   int a = ( blockIdx.x     *vec_cnt)/gridDim.x;
			
@@ -13,9 +14,9 @@ void  in_perm_k(char* precomp_data, double*  input_data, char* buff_in , size_t*
 
				 
			
 
				   for(int i = a; i < b; i++) { // Compute permutations.
			
 
				     const size_t* perm= (size_t*) (precomp_data + input_perm[i*4+0]);
			
 
				-    const double* scal= (double*) (precomp_data + input_perm[i*4+1]);
			
 
				-    const double*v_in = (double*) (input_data   + input_perm[i*4+3]);
			
 
				-    double*      v_out= (double*) (buff_in      + input_perm[i*4+2]);
			
 
				+    const Real_t* scal= (Real_t*) (precomp_data + input_perm[i*4+1]);
			
 
				+    const Real_t*v_in = (Real_t*) (input_data   + input_perm[i*4+3]);
			
 
				+    Real_t*      v_out= (Real_t*) (buff_in      + input_perm[i*4+2]);
			
 
				     for (size_t j = threadIdx.x; j < M_dim0; j+=blockDim.x) s[j] = v_in[j];
			
 
				     __syncthreads();
			
 
				     for (size_t j = threadIdx.x; j < M_dim0; j+=blockDim.x) v_out[j] = s[perm[j]]*scal[j];
			
@@ -23,9 +24,9 @@ void  in_perm_k(char* precomp_data, double*  input_data, char* buff_in , size_t*
 
				   }
			
 
				 };
			
 
				 
			
 
				-__global__
			
 
				-void out_perm_k(char* precomp_data, double* output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1){
			
 
				-  extern __shared__ double s[];
			
 
				+template <class Real_t>
			
 
				+__global__ void out_perm_k(char* precomp_data, Real_t* output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1){
			
 
				+  extern __shared__ char s_[]; Real_t* s=(Real_t*)&s_[0];
			
 
				   for (size_t j = threadIdx.x; j < M_dim1; j+=blockDim.x) s[j] = 0;
			
 
				 
			
 
				   /* Specifing range. */
			
@@ -43,9 +44,9 @@ void out_perm_k(char* precomp_data, double* output_data, char* buff_out, size_t*
 
				 
			
 
				   for(int i = a; i < b; i++) { // Compute permutations.
			
 
				     size_t  *perm = (size_t*) (precomp_data + output_perm[i*4+0]);
			
 
				-    double  *scal = (double*) (precomp_data + output_perm[i*4+1]);
			
 
				-    double *v_in  = (double*) (buff_out     + output_perm[i*4+2]);
			
 
				-    double *v_out = (double*) (output_data  + output_perm[i*4+3]);
			
 
				+    Real_t  *scal = (Real_t*) (precomp_data + output_perm[i*4+1]);
			
 
				+    Real_t *v_in  = (Real_t*) (buff_out     + output_perm[i*4+2]);
			
 
				+    Real_t *v_out = (Real_t*) (output_data  + output_perm[i*4+3]);
			
 
				     for(size_t j = threadIdx.x; j<M_dim1; j+=blockDim.x){
			
 
				       s[j] += v_in[perm[j]]*scal[j];
			
 
				     }
			
@@ -57,20 +58,35 @@ void out_perm_k(char* precomp_data, double* output_data, char* buff_out, size_t*
 
				   }
			
 
				 };
			
 
				 
			
 
				-extern "C" {
			
 
				+template <class Real_t>
			
 
				+void  in_perm_gpu_(char* precomp_data, Real_t*  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0, cudaStream_t *stream){
			
 
				+  if (vec_cnt == 0) return;
			
 
				+  in_perm_k <Real_t><<<1024, 256, M_dim0*sizeof(Real_t), *stream>>>(precomp_data,  input_data, buff_in ,  input_perm, vec_cnt, M_dim0);
			
 
				+  cudaError_t error = cudaGetLastError();
			
 
				+  assert(error == cudaSuccess);
			
 
				+};
			
 
				 
			
 
				-  void  in_perm_d(char* precomp_data, double*  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0, cudaStream_t *stream){
			
 
				-    if (vec_cnt == 0) return;
			
 
				-    in_perm_k <<<1024, 256, M_dim0*sizeof(double), *stream>>>(precomp_data,  input_data, buff_in ,  input_perm, vec_cnt, M_dim0);
			
 
				-    cudaError_t error = cudaGetLastError();
			
 
				-    assert(error == cudaSuccess);
			
 
				-  };
			
 
				+template <class Real_t>
			
 
				+void out_perm_gpu_(char* precomp_data, Real_t* output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1, cudaStream_t *stream){
			
 
				+  if (vec_cnt == 0) return;
			
 
				+  out_perm_k<Real_t><<<1024, 256, M_dim1*sizeof(Real_t), *stream>>>(precomp_data, output_data, buff_out, output_perm, vec_cnt, M_dim1);
			
 
				+  cudaError_t error = cudaGetLastError();
			
 
				+  assert(error == cudaSuccess);
			
 
				+};
			
 
				 
			
 
				-  void out_perm_d(char* precomp_data, double* output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1, cudaStream_t *stream){
			
 
				-    if (vec_cnt == 0) return;
			
 
				-    out_perm_k<<<1024, 256, M_dim1*sizeof(double), *stream>>>(precomp_data, output_data, buff_out, output_perm, vec_cnt, M_dim1);
			
 
				-    cudaError_t error = cudaGetLastError();
			
 
				-    assert(error == cudaSuccess);
			
 
				-  };
			
 
				+extern "C" {
			
 
				+  void  in_perm_gpu_f(char* precomp_data,  float*  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0, cudaStream_t *stream){
			
 
				+    in_perm_gpu_(precomp_data,input_data,buff_in,input_perm,vec_cnt,M_dim0,stream);
			
 
				+  }
			
 
				+  void  in_perm_gpu_d(char* precomp_data, double*  input_data, char* buff_in , size_t*  input_perm, size_t vec_cnt, size_t M_dim0, cudaStream_t *stream){
			
 
				+    in_perm_gpu_(precomp_data,input_data,buff_in,input_perm,vec_cnt,M_dim0,stream);
			
 
				+  }
			
 
				 
			
 
				+  void out_perm_gpu_f(char* precomp_data,  float* output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1, cudaStream_t *stream){
			
 
				+    out_perm_gpu_(precomp_data,output_data,buff_out,output_perm,vec_cnt,M_dim1,stream);
			
 
				+  }
			
 
				+  void out_perm_gpu_d(char* precomp_data, double* output_data, char* buff_out, size_t* output_perm, size_t vec_cnt, size_t M_dim1, cudaStream_t *stream){
			
 
				+    out_perm_gpu_(precomp_data,output_data,buff_out,output_perm,vec_cnt,M_dim1,stream);
			
 
				+  }
			
 
				 }
			
 
				+