bigdatagenomics · tomwhite · Apr 16, 2015 · Apr 17, 2015 · Apr 21, 2015 · Apr 22, 2015
diff --git a/README.md b/README.md
@@ -137,6 +137,7 @@ export HADOOP_HOME=~/sw/hadoop-2.5.1/
 export SPARK_HOME=~/sw/spark-1.3.0-bin-hadoop2.4/
 export SPARK_MASTER_URL=local
 export STREAMING_JAR=$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-2.5.1.jar
+export ADAM_PARTITIONING_JAR=~/workspace/adam-partitioning/target/adam-partitioning-0.0.1-SNAPSHOT-job.jar
 export PATH=$PATH:$HADOOP_HOME/bin
 ```
 

diff --git a/eggo-ec2-variables.sh b/eggo-ec2-variables.sh
@@ -22,4 +22,5 @@ source /root/spark-ec2/ec2-variables.sh
 export SPARK_MASTER="$MASTERS"
 export SPARK_MASTER_URL="spark://$SPARK_MASTER:7077"
 export STREAMING_JAR=$HADOOP_HOME/contrib/streaming/hadoop-streaming-1.0.4.jar
+export ADAM_PARTITIONING_JAR=/root/adam-partitioning/adam-partitioning-0.0.1-SNAPSHOT-job.jar
 export PATH=$PATH:$HADOOP_HOME/bin
diff --git a/eggo/dag.py b/eggo/dag.py
@@ -305,14 +305,63 @@ def output(self):
         return S3FlagTarget(
             target_s3_url(ToastConfig().config['name'], edition=self.edition))
 
+class ADAMPartitionTask(Task):
+
+    adam_command = Parameter()
+    allowed_file_formats = Parameter()
+    source_edition = Parameter()
+    edition = Parameter()
+    partition_strategy_file = Parameter()
+    parallelism = Parameter()
+
+    def requires(self):
+        return ADAMBasicTask(adam_command=self.adam_command,
+                             allowed_file_formats=self.allowed_file_formats)
+
+    def run(self):
+        adam_cmd = ('{hadoop_home}/bin/hadoop jar {adam_partitioning_jar}'
+                    ' CrunchPartitionTool -D mapreduce.job.reduces={parallelism}'
+                    ' {partition_strategy_file} {source} {target}').format(
+            hadoop_home=os.environ['HADOOP_HOME'],
+            adam_partitioning_jar=os.environ['ADAM_PARTITIONING_JAR'],
+            parallelism=self.parallelism,
+            partition_strategy_file=self.partition_strategy_file,
+            source=target_s3n_url(ToastConfig().config['name'],
+                                  edition=self.source_edition),
+            target=target_s3n_url(ToastConfig().config['name'],
+                                  edition=self.edition))
+        p = Popen(adam_cmd, shell=True)
+        p.wait()
+
+        if p.returncode == 0:
+            create_SUCCESS_file(target_s3_url(ToastConfig().config['name'],
+                                              edition=self.edition))
+
+    def output(self):
+        return S3FlagTarget(target_s3_url(ToastConfig().config['name'],
+                                          edition=self.edition))
 
 class VCF2ADAMTask(Task):
 
     def requires(self):
+        conf = ToastConfig().config
+        parallelism = conf['numPartitionsHint'] if 'numPartitionsHint' in conf else 1
         basic = ADAMBasicTask(adam_command='vcf2adam',
                               allowed_file_formats=['vcf'])
         flat = ADAMFlattenTask(adam_command='vcf2adam',
                                allowed_file_formats=['vcf'])
+        locuspart = ADAMPartitionTask(adam_command='vcf2adam',
+                                      allowed_file_formats=['vcf'],
+                                      source_edition='basic',
+                                      edition='locuspart',
+                                      partition_strategy_file='genotypes-partition-strategy',
+                                      parallelism=parallelism)
+        flat_locuspart = ADAMPartitionTask(adam_command='vcf2adam',
+                                           allowed_file_formats=['vcf'],
+                                           source_edition='flat',
+                                           edition='flat_locuspart',
+                                           partition_strategy_file='flat-genotypes-partition-strategy',
+                                           parallelism=parallelism)
         dependencies = [basic]
         conf = ToastConfig().config
         editions = conf['editions'] if 'editions' in conf else []
@@ -321,6 +370,10 @@ def requires(self):
                 pass # included by default
             elif edition == 'flat':
                 dependencies.append(flat)
+            elif edition == 'locuspart':
+                dependencies.append(locuspart)
+            elif edition == 'flat_locuspart':
+                dependencies.append(flat_locuspart)
         return dependencies
 
     def run(self):
@@ -333,10 +386,24 @@ def output(self):
 class BAM2ADAMTask(Task):
 
     def requires(self):
+        conf = ToastConfig().config
+        parallelism = conf['numPartitionsHint'] if 'numPartitionsHint' in conf else 1
         basic = ADAMBasicTask(adam_command='transform',
                               allowed_file_formats=['sam', 'bam'])
         flat = ADAMFlattenTask(adam_command='transform',
                                allowed_file_formats=['sam', 'bam'])
+        locuspart = ADAMPartitionTask(adam_command='transform',
+                                      allowed_file_formats=['sam', 'bam'],
+                                      source_edition='basic',
+                                      edition='locuspart',
+                                      partition_strategy_file='alignments-partition-strategy',
+                                      parallelism=parallelism)
+        flat_locuspart = ADAMPartitionTask(adam_command='transform',
+                                           allowed_file_formats=['sam', 'bam'],
+                                           source_edition='flat',
+                                           edition='flat_locuspart',
+                                           partition_strategy_file='flat-alignments-partition-strategy',
+                                           parallelism=parallelism)
         dependencies = [basic]
         conf = ToastConfig().config
         editions = conf['editions'] if 'editions' in conf else []
@@ -345,5 +412,9 @@ def requires(self):
                 pass # included by default
             elif edition == 'flat':
                 dependencies.append(flat)
+            elif edition == 'locuspart':
+                dependencies.append(locuspart)
+            elif edition == 'flat_locuspart':
+                dependencies.append(flat_locuspart)
         return dependencies
 
diff --git a/eggo/fabric_util.py b/eggo/fabric_util.py
@@ -99,6 +99,12 @@ def _install_adam():
             run('mvn clean package -DskipTests')
 
 
+def _install_adam_partitioning():
+    run('mkdir -p /root/adam-partitioning')
+    with cd('/root/adam-partitioning'):
+        run('wget https://github.com/tomwhite/adam-partitioning/raw/master/lib/adam-partitioning-0.0.1-SNAPSHOT-job.jar')
+
+
 def _install_eggo(fork='bigdatagenomics', branch='master'):
     # check out eggo
     with cd('~'):

diff --git a/test/registry/test-1kg-genotypes-subset.json b/test/registry/test-1kg-genotypes-subset.json
@@ -0,0 +1,10 @@
+{
+    "name": "test-1kg-genotypes-subset",
+    "title": "Test 1000 Genomes Project VCF data",
+    "dag": "VCF2ADAMTask",
+    "editions": ["basic", "flat", "locuspart", "flat_locuspart"],
+    "numPartitionsHint": 36,
+    "sources": [
+      {"format": "vcf", "compression": true, "url": "ftp://ftp-trace.ncbi.nih.gov/1000genomes/ftp/release/20110521/ALL.chr22.phase1_release_v3.20101123.snps_indels_svs.genotypes.vcf.gz"}
+    ]
+}
diff --git a/test/registry/test-alignments.json b/test/registry/test-alignments.json
@@ -2,8 +2,9 @@
     "name": "test-alignments",
     "title": "Test SAM data",
     "dag": "BAM2ADAMTask",
-    "editions": ["basic", "flat"],
+    "editions": ["basic", "flat", "locuspart", "flat_locuspart"],
+    "numPartitionsHint": 1,
     "sources": [
-        {"format": "sam", "compression": false, "url": "https://raw.githubusercontent.com/bigdatagenomics/adam/master/adam-core/src/test/resources/reads12.sam"}
+        {"format": "sam", "compression": false, "url": "https://github.com/bigdatagenomics/eggo/raw/master/test/resources/small.sam"}
     ]
 }
diff --git a/test/registry/test-genotypes.json b/test/registry/test-genotypes.json
@@ -2,7 +2,8 @@
     "name": "test-genotypes",
     "title": "Test 1000 Genomes Project VCF data",
     "dag": "VCF2ADAMTask",
-    "editions": ["basic", "flat"],
+    "editions": ["basic", "flat", "locuspart", "flat_locuspart"],
+    "numPartitionsHint": 1,
     "sources": [
         {"format": "vcf", "compression": true, "url": "https://github.com/bigdatagenomics/eggo/raw/master/test/resources/chr22.small.vcf.gz"}
     ]