From a0187acb6a7bb9a486d32427d078d29666ca2085 Mon Sep 17 00:00:00 2001
From: Eric Kofman <ekofman@tscc-11-56.tscc.sdsc.edu>
Date: Thu, 31 Oct 2024 16:17:35 -0700
Subject: [PATCH 01/12] use samtools depth for single end bulk

---
 src/utils.py | 118 ++++++++++++++++++++++++++++++++++-----------------
 1 file changed, 79 insertions(+), 39 deletions(-)

diff --git a/src/utils.py b/src/utils.py
index 5e3220e..b0b9dab 100644
--- a/src/utils.py
+++ b/src/utils.py
@@ -312,6 +312,11 @@ def get_bulk_coverage_at_pos(samfile_for_barcode, contig_bam, just_contig, pos,
         return coverage_at_pos
 
 
+import subprocess
+import pandas as pd
+from collections import defaultdict
+  
+
 def get_coverage_df(edit_info, contig, output_folder, barcode_tag='CB', paired_end=False, 
                     verbose=False):
 
@@ -327,7 +332,8 @@ def get_coverage_df(edit_info, contig, output_folder, barcode_tag='CB', paired_e
 
     #print("Contig {}. Loading {} bamfile...".format(contig, contig_bam))
     try:
-        index_bam(contig_bam)
+        if not os.path.exists(contig_bam + '.bai'):
+            index_bam(contig_bam)
         samfile_for_barcode = pysam.AlignmentFile(contig_bam, "rb")
     except OSError:  # If MARINE cannot find a bam to index, return empty
         return pd.DataFrame(columns=['coverage', 'source'])
@@ -346,50 +352,84 @@ def get_coverage_df(edit_info, contig, output_folder, barcode_tag='CB', paired_e
         positions_for_barcode = set(edit_info_for_barcode["position"].unique())
                     
         num_positions = len(positions_for_barcode)
-        for i, pos in enumerate(positions_for_barcode):
-            
-            if barcode_tag:
+
+        # For single-cell or paired end approach, we will iterate through every single position in this subset of the data
+        # and run the appropriate coverage-counting function.
+        if barcode_tag or paired_end:
+            for i, pos in enumerate(positions_for_barcode):
                 # For single-cell
-                
-                barcode_specific_contig = '{}_{}'.format(contig, barcode)
-                # Alter from 3_C_AAACCCAAGAACTTCC-1, for example, to 3_AAACCCAAGAACTTCC-1'
-                barcode_specific_contig_split = barcode_specific_contig.split("_")
-                barcode_specific_contig_without_subdivision = "{}_{}".format(barcode_specific_contig_split[0], barcode_specific_contig_split[2])
-
-                if verbose:
-                    #print("contig_bam:", contig_bam)
-                    #print("barcode_specific_contig:", barcode_specific_contig)
-                    print("barcode_specific_contig_without_subdivision:", barcode_specific_contig_without_subdivision)
-                    
-                coverage_at_pos = np.sum(samfile_for_barcode.count_coverage(barcode_specific_contig_without_subdivision, 
-                                                                            pos-1, 
-                                                                            pos,  
-                                                                            quality_threshold=0, # base quality
-                                                                            read_callback='all'
-                                                                           ))
-
-                coverage_dict['{}:{}'.format(barcode, pos)]['coverage'] = coverage_at_pos
-                coverage_dict['{}:{}'.format(barcode, pos)]['source'] = contig
-                
-            else:
-                
+                if barcode_tag:
+                    barcode_specific_contig = '{}_{}'.format(contig, barcode)
+                    # Alter from 3_C_AAACCCAAGAACTTCC-1, for example, to 3_AAACCCAAGAACTTCC-1'
+                    barcode_specific_contig_split = barcode_specific_contig.split("_")
+                    barcode_specific_contig_without_subdivision = "{}_{}".format(barcode_specific_contig_split[0], barcode_specific_contig_split[2])
+    
+                    if verbose:
+                        #print("contig_bam:", contig_bam)
+                        #print("barcode_specific_contig:", barcode_specific_contig)
+                        print("barcode_specific_contig_without_subdivision:", barcode_specific_contig_without_subdivision)
+                        
+                    coverage_at_pos = np.sum(samfile_for_barcode.count_coverage(barcode_specific_contig_without_subdivision, 
+                                                                                pos-1, 
+                                                                                pos,  
+                                                                                quality_threshold=0, # base quality
+                                                                                read_callback='all'
+                                                                               ))
+    
+                    coverage_dict['{}:{}'.format(barcode, pos)]['coverage'] = coverage_at_pos
+                    coverage_dict['{}:{}'.format(barcode, pos)]['source'] = contig
+
                 # For bulk, no barcodes, we will just have for example 19_no_barcode to convert to 19 to get coverage at that chrom
-                just_contig = contig.split('_')[0]
-                try:
-                    coverage_at_pos = get_bulk_coverage_at_pos(samfile_for_barcode, contig_bam, just_contig, pos, 
-                                                               paired_end=paired_end, verbose=verbose)
-                                
-                    coverage_dict['{}:{}'.format('no_barcode', pos)]['coverage'] = coverage_at_pos
-                    coverage_dict['{}:{}'.format('no_barcode', pos)]['source'] = contig
-
-                except Exception as e:
-                    print("contig {}".format(contig), "Failed to get coverage", e)
-                    return pd.DataFrame(columns=['coverage', 'source'])  # Should we just return empty? Or why would there be an exception here?
-                
+                else:  
+                    just_contig = contig.split('_')[0]
+                    try:
+                        coverage_at_pos = get_bulk_coverage_at_pos(samfile_for_barcode, contig_bam, just_contig, pos, 
+                                                                   paired_end=paired_end, verbose=verbose)
+                                    
+                        coverage_dict['{}:{}'.format('no_barcode', pos)]['coverage'] = coverage_at_pos
+                        coverage_dict['{}:{}'.format('no_barcode', pos)]['source'] = contig
+    
+                    except Exception as e:
+                        print("contig {}".format(contig), "Failed to get coverage", e)
+                        return pd.DataFrame(columns=['coverage', 'source'])  # Should we just return empty? Or why would there be an exception here?
+        
+        # Single-end bulk, we can leverage the speed of samtools depth function for this
+        else:
+            coverage_df = calculate_coverage_single_end_bulk(coverage_dict, edit_info_for_barcode, bam_subfolder, contig)
+            
+            
     coverage_df = pd.DataFrame.from_dict(coverage_dict, orient='index')
     
     return coverage_df
 
+def calculate_coverage_single_end_bulk(coverage_dict, edit_info_for_barcode, bam_subfolder, contig):
+    print("Running SINGLE END coverage approach using samtools depth")
+    positions = edit_info_for_barcode["position"].unique()
+    bed_file = f"{bam_subfolder}/{contig}_positions.bed"
+    
+    # Write positions to BED file
+    with open(bed_file, "w") as f:
+        for pos in positions:
+            f.write(f"{contig.split('_')[0]}\t{pos-1}\t{pos}\n")  # BED is 0-based, half-open
+    
+    # Call samtools depth using the BED file
+    command = f"samtools depth -b {bed_file} {contig_bam}"
+    if verbose:
+        print(f"Running command: {command}")
+
+    result = subprocess.run(command, shell=True, capture_output=True, text=True)
+    
+    if result.returncode == 0:
+        for line in result.stdout.strip().splitlines():
+            chrom, pos, coverage = line.split()
+            key = f'no_barcode:{pos}'
+            coverage_dict[key]['coverage'] = int(coverage)
+            coverage_dict[key]['source'] = contig
+    else:
+        print("Samtools depth failed or returned no data.")
+    
+    # Remove temporary BED file after use
+    os.remove(bed_file)
 
 def filter_output_df(output_df, filters, output_filename):
     filter_stats = {}

From cd8c84681044a72e08620959df06fbc155b4420c Mon Sep 17 00:00:00 2001
From: Eric Kofman <ekofman@tscc-11-56.tscc.sdsc.edu>
Date: Thu, 31 Oct 2024 16:39:02 -0700
Subject: [PATCH 02/12] Fixes

---
 src/utils.py | 18 ++++++++++--------
 1 file changed, 10 insertions(+), 8 deletions(-)

diff --git a/src/utils.py b/src/utils.py
index b0b9dab..eeeca87 100644
--- a/src/utils.py
+++ b/src/utils.py
@@ -395,27 +395,27 @@ def get_coverage_df(edit_info, contig, output_folder, barcode_tag='CB', paired_e
         
         # Single-end bulk, we can leverage the speed of samtools depth function for this
         else:
-            coverage_df = calculate_coverage_single_end_bulk(coverage_dict, edit_info_for_barcode, bam_subfolder, contig)
+            calculate_coverage_single_end_bulk(coverage_dict, positions_for_barcode, bam_subfolder, contig, contig_bam,
+                                                            verbose=verbose)
             
             
     coverage_df = pd.DataFrame.from_dict(coverage_dict, orient='index')
     
     return coverage_df
 
-def calculate_coverage_single_end_bulk(coverage_dict, edit_info_for_barcode, bam_subfolder, contig):
+def calculate_coverage_single_end_bulk(coverage_dict, positions_for_barcode, bam_subfolder, contig, contig_bam, verbose=False):
     print("Running SINGLE END coverage approach using samtools depth")
-    positions = edit_info_for_barcode["position"].unique()
     bed_file = f"{bam_subfolder}/{contig}_positions.bed"
     
     # Write positions to BED file
     with open(bed_file, "w") as f:
-        for pos in positions:
+        for pos in positions_for_barcode:
             f.write(f"{contig.split('_')[0]}\t{pos-1}\t{pos}\n")  # BED is 0-based, half-open
     
     # Call samtools depth using the BED file
     command = f"samtools depth -b {bed_file} {contig_bam}"
-    if verbose:
-        print(f"Running command: {command}")
+    
+    print(f"Running command: {command}, contig is {contig}, bam_subfolder is {bam_subfolder}")
 
     result = subprocess.run(command, shell=True, capture_output=True, text=True)
     
@@ -425,11 +425,13 @@ def calculate_coverage_single_end_bulk(coverage_dict, edit_info_for_barcode, bam
             key = f'no_barcode:{pos}'
             coverage_dict[key]['coverage'] = int(coverage)
             coverage_dict[key]['source'] = contig
+        # Remove temporary BED file after use
+        os.remove(bed_file)
+    
     else:
         print("Samtools depth failed or returned no data.")
     
-    # Remove temporary BED file after use
-    os.remove(bed_file)
+    return coverage_dict
 
 def filter_output_df(output_df, filters, output_filename):
     filter_stats = {}

From be5deea1c4279f7d7cb8d3b68706959548320ba7 Mon Sep 17 00:00:00 2001
From: Eric Kofman <ekofman@tscc-1-8.tscc.sdsc.edu>
Date: Fri, 1 Nov 2024 11:46:45 -0700
Subject: [PATCH 03/12] samtools command change

---
 src/utils.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/src/utils.py b/src/utils.py
index eeeca87..5428a73 100644
--- a/src/utils.py
+++ b/src/utils.py
@@ -404,6 +404,8 @@ def get_coverage_df(edit_info, contig, output_folder, barcode_tag='CB', paired_e
     return coverage_df
 
 def calculate_coverage_single_end_bulk(coverage_dict, positions_for_barcode, bam_subfolder, contig, contig_bam, verbose=False):
+    # Parallel Processing: If you need parallelism, consider splitting the BAM file by chromosome or region rather than by number of sites. Each chunk could then be processed separately with minimal overlap.
+    
     print("Running SINGLE END coverage approach using samtools depth")
     bed_file = f"{bam_subfolder}/{contig}_positions.bed"
     
@@ -413,7 +415,7 @@ def calculate_coverage_single_end_bulk(coverage_dict, positions_for_barcode, bam
             f.write(f"{contig.split('_')[0]}\t{pos-1}\t{pos}\n")  # BED is 0-based, half-open
     
     # Call samtools depth using the BED file
-    command = f"samtools depth -b {bed_file} {contig_bam}"
+    command = f"samtools depth -a -q 0 -Q 0 -b {bed_file} {contig_bam}"
     
     print(f"Running command: {command}, contig is {contig}, bam_subfolder is {bam_subfolder}")
 

From 4ce9e7240a0d218a212b8784c5bfc2eab0c39093 Mon Sep 17 00:00:00 2001
From: Eric Kofman <ekofman@tscc-1-8.tscc.sdsc.edu>
Date: Fri, 1 Nov 2024 17:14:40 -0700
Subject: [PATCH 04/12] single end almost done optimizing with bash commands

---
 marine.py           | 181 +++++++++++++++++++++++++++++++++++---------
 src/core.py         |  32 +++++---
 src/read_process.py |  16 ++--
 src/utils.py        |   5 +-
 4 files changed, 181 insertions(+), 53 deletions(-)

diff --git a/marine.py b/marine.py
index 65493f9..e3dd92c 100755
--- a/marine.py
+++ b/marine.py
@@ -82,7 +82,8 @@ def zero_edit_found(final_site_level_information_df, output_folder, sailor_list,
 
 def delete_intermediate_files(output_folder):
     to_delete = ['coverage', 'edit_info', 'split_bams', 'all_edit_info.tsv', 
-                 'concat_command.sh', 'final_edit_info.tsv', 'final_filtered_edit_info.tsv']
+                 'concat_command.sh', 'depth_command.sh', 'combined.bed',
+                 'final_edit_info.tsv', 'final_filtered_edit_info.tsv']
     for object in to_delete:
         object_path = '{}/{}'.format(output_folder, object)
 
@@ -94,7 +95,7 @@ def delete_intermediate_files(output_folder):
 
 
 def edit_finder(bam_filepath, output_folder, strandedness, barcode_tag="CB", barcode_whitelist=None, contigs=[], num_intervals_per_contig=16, 
-                verbose=False, cores=64, min_read_quality = 0):
+                verbose=False, cores=64, min_read_quality=0, min_base_quality=0, dist_from_end=0):
     
     pretty_print("Each contig is being split into {} subsets...".format(num_intervals_per_contig))
     
@@ -109,7 +110,9 @@ def edit_finder(bam_filepath, output_folder, strandedness, barcode_tag="CB", bar
         num_intervals_per_contig=num_intervals_per_contig, 
         verbose=verbose,
         cores=cores,
-        min_read_quality=min_read_quality
+        min_read_quality=min_read_quality,
+        min_base_quality=min_base_quality,
+        dist_from_end=dist_from_end
     )
     
     #print(overall_label_to_list_of_contents.keys())
@@ -161,6 +164,25 @@ def bam_processing(overall_label_to_list_of_contents, output_folder, barcode_tag
     
 import subprocess 
 
+
+def concatenate_files(source_folder, file_pattern, output_filepath):
+    # Create the concatenation command with placeholders for the folder and pattern
+    # Use tail -n +2 to skip the header row in each file
+    concat_command = (
+        "for f in {}/{}; do tail -n +2 \"$f\"; done > {}"
+    ).format(source_folder, file_pattern, output_filepath)
+
+    # Write the command to a shell script
+    concat_bash = '{}/concat_command.sh'.format(source_folder)
+    with open(concat_bash, 'w') as f:
+        f.write(concat_command)
+        
+    print("Concatenating files without headers...")
+    subprocess.run(['bash', concat_bash])
+    print("Done concatenating.")
+
+
+
 def coverage_processing(output_folder, barcode_tag='CB', paired_end=False, verbose=False, cores=1, number_of_expected_bams=4,
                        min_read_quality=0, bam_filepath='', filters=None):
 
@@ -181,17 +203,7 @@ def coverage_processing(output_folder, barcode_tag='CB', paired_end=False, verbo
                                                                             processes=cores,
                                                                             filters=filters
                                                                            )
-    
-    concat_command = 'for f in {}/coverage/*_filtered.tsv; do cat $f; done > {}/final_edit_info.tsv'.format(output_folder, output_folder)
-
-    command_bash = '{}/concat_command.sh'.format(output_folder)
-    with open(command_bash, 'w') as f:
-        f.write(concat_command)
-        
-    print("Concatenating results...")
-    subprocess.run(['bash', command_bash])
-    print("Done concatenating.")
-    
+    concatenate_files(output_folder, "edit_info/*_filtered.tsv", "{}/final_edit_info.tsv".format(output_folder))
     
     total_seconds_for_contig_df = pd.DataFrame.from_dict(total_seconds_for_contig, orient='index')
     total_seconds_for_contig_df.columns = ['seconds']
@@ -312,7 +324,105 @@ def get_broken_up_contigs(contigs, num_per_sublist):
         if len(contig_sublist) > 0:
             broken_up_contigs.append(contig_sublist)
     return broken_up_contigs
+
+import subprocess
+
+
+import subprocess
+
+def generate_and_run_bash_merge(output_folder, file1_path, file2_path, output_file_path, header_columns):
+    # Convert header list into a tab-separated string
+    header = "\t".join(header_columns)
+
+    # Generate the Bash command for processing
+    bash_command = f"""#!/bin/bash
+    # Step 1: Adjust the third column of depths by subtracting 1 and convert to tab-separated format
+    awk -v OFS='\\t' '{{print $1, $2-1, $3}}' "{file2_path}" > {output_folder}/depth_modified.tsv
+
+    # Step 2: Sort the first file numerically by the join column (third column in final_edits, position)
+    sort -k3,3n "{file1_path}" > {output_folder}/final_edits_no_coverage_sorted.tsv
+
+    # Step 3: Join the files on the specified columns, output all columns, and select necessary columns with tab separation
+join -1 3 -2 2 -t $'\\t' {output_folder}/final_edits_no_coverage_sorted.tsv {output_folder}/depth_modified.tsv | awk -v OFS='\\t' '{{print $1, $2, $3, $4, $5, $6, $7, $9}}' > "{output_file_path}"
+
+    # Step 4: Add header to the output file
+    echo -e "{header}" | cat - "{output_file_path}" > temp && mv temp "{output_file_path}"
     
+    # Cleanup temporary files
+    #rm temp_file1_sorted.tsv temp_file2_modified.tsv temp_file2_sorted.tsv
+    """
+
+    # Write the command to a shell script
+    bash_script_path = "{}/merge_command.sh".format(output_folder)
+    with open(bash_script_path, "w") as file:
+        file.write(bash_command)
+
+    # Run the generated bash script
+    print("Running Bash merge script...")
+    subprocess.run(["bash", bash_script_path], check=True)
+    print(f"Merged file saved to {output_file_path}")
+
+
+def generate_depths_with_samtools(output_folder, bam_filepath):
+    coverage_start_time = time.perf_counter()
+
+    depth_command = (
+    "echo 'concatenating bed file...';"
+    "for file in {}/edit_info/*edit_info.tsv; do "
+    "awk 'NR > 1 {{print $2, $3, $3+1}}' OFS='\t' \"$file\"; "
+    "done | sort -k1,1 -k2,2n -u > {}/combined.bed;"
+    "echo 'running samtools depth...';"
+    "samtools depth -b {}/combined.bed {} > {}/coverage/depths.txt"
+).format(output_folder, output_folder, output_folder, bam_filepath, output_folder)
+
+    depth_bash = '{}/depth_command.sh'.format(output_folder)
+    with open(depth_bash, 'w') as f:
+        f.write(depth_command)
+        
+    print("Calculating depths...")
+    subprocess.run(['bash', depth_bash])
+    print("Done calculating depths.")
+
+    print("Concatenating edit info files...")
+    concatenate_files(output_folder, "edit_info/*edit_info.tsv", "{}/final_edit_info_no_coverage.tsv".format(output_folder))
+
+    print("Append the depth columns to the concatenated final_edit_info file...")
+
+    header_columns = ['barcode', 'contig', 'position', 'ref', 'alt',
+                      'read_id', 'strand', 'coverage']
+
+    generate_and_run_bash_merge(output_folder,
+                                '{}/final_edit_info_no_coverage.tsv'.format(output_folder),
+                            '{}/coverage/depths.txt'.format(output_folder), 
+                            '{}/final_edit_info.tsv'.format(output_folder), header_columns)
+    
+    coverage_total_time = time.perf_counter() - coverage_start_time
+    
+    total_seconds_for_contig_df = pd.DataFrame({'coverage_total_time': [coverage_total_time]})
+    return coverage_total_time, total_seconds_for_contig_df
+
+
+def get_edits_with_coverage_df(output_folder,
+                               barcode_tag=None, 
+                               paired_end=False):
+
+    if barcode_tag or paired_end:
+        # For single-cell or paired end, which was calculated using the pysam coverage functions.
+        all_edit_info_unique_position_with_coverage_df = pd.read_csv('{}/final_edit_info.tsv'.format(output_folder), sep='\t',
+                                                                         index_col=0,
+                                                                         names=[
+                                                                             'barcode', 'contig', 'position', 'ref', 'alt', 'read_id',
+                                                                             'strand', 'mapping_quality',
+                                                                             'coverage'],
+                                                                         dtype={'base_quality': int, 'dist_from_end': int, 'contig': str})
+
+    else:
+        # If single-end bulk, we will concat the pre-concatted edit fractions with the pre-concatted depths,
+        # add a header and just return that file.
+        depths_file = '{}/coverage/depths.txt'.format(output_folder)
+        
+        
+        
 def run(bam_filepath, annotation_bedfile_path, output_folder, contigs=[], num_intervals_per_contig=16, strandedness=True, barcode_tag="CB", paired_end=False, barcode_whitelist_file=None, verbose=False, coverage_only=False, filtering_only=False, annotation_only=False, bedgraphs_list=[], sailor_list=[], min_base_quality = 15, min_read_quality = 0, min_dist_from_end = 10, max_edits_per_read = None, cores = 64, number_of_expected_bams=4, 
         keep_intermediate_files=False,
         num_per_sublist=6,
@@ -347,7 +457,7 @@ def run(bam_filepath, annotation_bedfile_path, output_folder, contigs=[], num_in
         f.write('paired_end\t{}\n'.format(paired_end))
         f.write('min_base_quality\t{}\n'.format(min_base_quality))
         f.write('min_read_quality\t{}\n'.format(min_read_quality))
-        f.write('min_dist_from_end\t{}\n'.format(min_base_quality))
+        f.write('min_dist_from_end\t{}\n'.format(min_dist_from_end))
         f.write('skip_coverage\t{}\n'.format(skip_coverage))
         
     if not (coverage_only or filtering_only):
@@ -389,7 +499,9 @@ def run(bam_filepath, annotation_bedfile_path, output_folder, contigs=[], num_in
                 num_intervals_per_contig,
                 verbose,
                 cores=cores,
-                min_read_quality=min_read_quality
+                min_read_quality=min_read_quality,
+                min_base_quality=min_base_quality,
+                dist_from_end=min_dist_from_end
             )
 
             for k,v in counts_summary_df.items():
@@ -432,17 +544,22 @@ def run(bam_filepath, annotation_bedfile_path, output_folder, contigs=[], num_in
             'base_quality': min_base_quality,
             'max_edits_per_read': max_edits_per_read
         }
-        
-        results, total_time, total_seconds_for_contig_df = coverage_processing(output_folder, 
-                                                                               barcode_tag=barcode_tag, 
-                                                                               paired_end=paired_end,
-                                                                               verbose=verbose,
-                                                                               cores=cores,
-                                                                               number_of_expected_bams=number_of_expected_bams,
-                                                                               min_read_quality=min_read_quality,
-                                                                               bam_filepath=bam_filepath,
-                                                                               filters=filters
-                                                                              )
+
+        if barcode_tag or paired_end:
+            results, total_time, total_seconds_for_contig_df = coverage_processing(output_folder, 
+                                                                                   barcode_tag=barcode_tag, 
+                                                                                   paired_end=paired_end,
+                                                                                   verbose=verbose,
+                                                                                   cores=cores,
+                                                                                   number_of_expected_bams=number_of_expected_bams,
+                                                                                   min_read_quality=min_read_quality,
+                                                                                   bam_filepath=bam_filepath,
+                                                                                   filters=filters
+                                                                                  )
+        else:
+            # for bulk single-end, we will just concatenate all the edits files into one big bed file, and then run samtools depth
+            total_time, total_seconds_for_contig_df = generate_depths_with_samtools(output_folder, bam_filepath)
+
         total_seconds_for_contig_df.to_csv("{}/coverage_calculation_timing.tsv".format(logging_folder), sep='\t')
 
         all_filter_stats = pd.DataFrame([r[1] for r in results]).sum(axis=0)
@@ -481,13 +598,9 @@ def run(bam_filepath, annotation_bedfile_path, output_folder, contigs=[], num_in
     if not final_path_already_exists:
         print("Filtering..")
 
-        all_edit_info_unique_position_with_coverage_df = pd.read_csv('{}/final_edit_info.tsv'.format(output_folder), sep='\t',
-                                                                     index_col=0,
-                                                                     names=[
-                                                                         'barcode', 'contig', 'position', 'ref', 'alt', 'read_id',
-                                                                         'strand', 'mapping_quality',
-                                                                         'coverage'],
-                                                                     dtype={'base_quality': int, 'dist_from_end': int, 'contig': str})
+        all_edit_info_unique_position_with_coverage_df = get_edits_with_coverage_df(output_folder,
+                                                                                    barcode_tag=barcode_tag, 
+                                                                                    paired_end=paired_end)
         
         pretty_print("\tNumber of edits after filtering:\n\t{}".format(len(all_edit_info_unique_position_with_coverage_df)))
     
diff --git a/src/core.py b/src/core.py
index 5adac84..5b5a139 100644
--- a/src/core.py
+++ b/src/core.py
@@ -23,12 +23,13 @@
 
 import os, psutil
 
-def run_edit_identifier(bampath, output_folder, strandedness, barcode_tag="CB", barcode_whitelist=None, contigs=[], num_intervals_per_contig=16, verbose=False, cores=64, min_read_quality = 0):
+def run_edit_identifier(bampath, output_folder, strandedness, barcode_tag="CB", barcode_whitelist=None, contigs=[], num_intervals_per_contig=16, verbose=False, cores=64, min_read_quality=0, min_base_quality=0, dist_from_end=0):
+
     # Make subfolder in which to information about edits
     edit_info_subfolder = '{}/edit_info'.format(output_folder)
     make_folder(edit_info_subfolder)
     
-    edit_finding_jobs = make_edit_finding_jobs(bampath, output_folder, strandedness, barcode_tag, barcode_whitelist, contigs, num_intervals_per_contig, verbose, min_read_quality)
+    edit_finding_jobs = make_edit_finding_jobs(bampath, output_folder, strandedness, barcode_tag, barcode_whitelist, contigs, num_intervals_per_contig, verbose, min_read_quality, min_base_quality, dist_from_end)
     pretty_print("{} total jobs".format(len(edit_finding_jobs)))
     
     # Performance statistics
@@ -130,7 +131,7 @@ def write_bam_file(reads, bam_file_name, header_string):
         print("Failed at indexing {}, {}".format(bam_file_name, e))
         
 
-def find_edits(bampath, contig, split_index, start, end, output_folder, barcode_tag="CB", strandedness=0, barcode_whitelist=None, verbose=False, min_read_quality = 0):  
+def find_edits(bampath, contig, split_index, start, end, output_folder, barcode_tag="CB", strandedness=0, barcode_whitelist=None, verbose=False, min_read_quality=0, min_base_quality=0, dist_from_end=0):  
     edit_info_subfolder = '{}/edit_info'.format(output_folder)
         
     time_reporting = {}
@@ -147,6 +148,8 @@ def find_edits(bampath, contig, split_index, start, end, output_folder, barcode_
     reads_for_contig = samfile.fetch(contig, start, end, multiple_iterators=True)
         
     output_file = '{}/{}_{}_{}_{}_edit_info.tsv'.format(edit_info_subfolder, contig, split_index, start, end)
+    output_bedfile = '{}/{}_{}_{}_{}_edit_positions.bed'.format(edit_info_subfolder, contig, split_index, start, end)
+    
     remove_file_if_exists(output_file)
     
     with open(output_file, 'w') as f:        
@@ -177,7 +180,8 @@ def find_edits(bampath, contig, split_index, start, end, output_folder, barcode_
                     continue
             
             try:
-                error_code, list_of_rows, num_edits_of_each_type = get_read_information(read, contig, strandedness=strandedness, barcode_tag=barcode_tag, verbose=verbose, min_read_quality=min_read_quality)
+                error_code, list_of_rows, num_edits_of_each_type = get_read_information(read, contig, strandedness=strandedness, barcode_tag=barcode_tag, verbose=verbose, min_read_quality=min_read_quality, min_base_quality=min_base_quality, 
+dist_from_end=dist_from_end)
             except Exception as e:
                 print("Failed getting read info on\n{}, {}".format(read.to_string(), e))
                 break
@@ -196,7 +200,8 @@ def find_edits(bampath, contig, split_index, start, end, output_folder, barcode_
                     read_as_string = incorporate_barcode(read_as_string, contig, barcode)
                 
                 read_lists_for_barcodes[barcode].append(read_as_string)
-            
+
+        
 
     barcode_to_concatted_reads = {}
     if barcode_tag:
@@ -232,11 +237,14 @@ def find_edits(bampath, contig, split_index, start, end, output_folder, barcode_
     return barcode_to_concatted_reads, total_reads, counts, time_reporting
         
 
-def find_edits_and_split_bams(bampath, contig, split_index, start, end, output_folder, strandedness=0, barcode_tag="CB", barcode_whitelist=None, verbose=False, min_read_quality = 0):
+def find_edits_and_split_bams(bampath, contig, split_index, start, end, output_folder, strandedness=0, barcode_tag="CB", barcode_whitelist=None, verbose=False, min_read_quality=0, min_base_quality=0, dist_from_end=0):
     barcode_to_concatted_reads, total_reads, counts, time_reporting = find_edits(bampath, contig, split_index,
-                                                                         start, end, output_folder, barcode_tag=barcode_tag, strandedness=strandedness,
+                                                                         start, end, output_folder, barcode_tag=barcode_tag,
+                                                                                 strandedness=strandedness,
                                                                                  barcode_whitelist=barcode_whitelist, verbose=verbose,
-                                                                                 min_read_quality=min_read_quality
+                                                                                 min_read_quality=min_read_quality,
+                                                                                 min_base_quality=min_base_quality,
+                                                                                 dist_from_end=dist_from_end
                                                                                 )    
     return barcode_to_concatted_reads, total_reads, counts, time_reporting
     
@@ -248,7 +256,7 @@ def find_edits_and_split_bams(bampath, contig, split_index, start, end, output_f
 def find_edits_and_split_bams_wrapper(parameters):
     try:
         start_time = time.perf_counter()
-        bampath, contig, split_index, start, end, output_folder, strandedness, barcode_tag, barcode_whitelist, verbose, min_read_quality = parameters
+        bampath, contig, split_index, start, end, output_folder, strandedness, barcode_tag, barcode_whitelist, verbose, min_read_quality, min_base_quality, dist_from_end = parameters
         label = '{}({}):{}-{}'.format(contig, split_index, start, end)
         
         barcode_to_concatted_reads, total_reads, counts, time_reporting = find_edits_and_split_bams(
@@ -262,7 +270,9 @@ def find_edits_and_split_bams_wrapper(parameters):
             barcode_tag=barcode_tag,
             barcode_whitelist=barcode_whitelist,
             verbose=verbose,
-            min_read_quality=min_read_quality
+            min_read_quality=min_read_quality,
+            min_base_quality=min_base_quality,
+            dist_from_end=dist_from_end
         )
         counts_df = pd.DataFrame.from_dict(counts)
         
@@ -397,7 +407,7 @@ def gather_edit_information_across_subcontigs(output_folder, barcode_tag='CB', n
             # For bulk data we don't have to do any filtering, the edits calculated for each split interval
             # can be paired directly with the split bam for that interval
             edit_info_grouped_per_contig["{}".format(split)].append(edit_info)
-        
+            
         del edit_info_df
 
     print("Done grouping! Concatenating ...")
diff --git a/src/read_process.py b/src/read_process.py
index 0028d23..63c2bfc 100644
--- a/src/read_process.py
+++ b/src/read_process.py
@@ -107,7 +107,8 @@ def print_read_info(read):
 
     print(str(read))
     
-def get_read_information(read, contig, barcode_tag='CB', verbose=False, strandedness=0, min_read_quality = 0):
+def get_read_information(read, contig, barcode_tag='CB', verbose=False, strandedness=0, 
+                         min_read_quality=0, min_base_quality=0, dist_from_end=0):
     if barcode_tag is None:
         read_barcode = 'no_barcode'
     elif read.has_tag(barcode_tag):
@@ -226,12 +227,15 @@ def get_read_information(read, contig, barcode_tag='CB', verbose=False, stranded
         
         distance_from_read_end = np.min([updated_position - reference_start, reference_end - updated_position])
 
-        list_of_rows.append([
-            read_barcode, str(contig), str(updated_position), ref, alt, read_id, reverse_or_forward, str(distance_from_read_end), str(qual), str(mapq)
-        ])
+        if distance_from_read_end >= dist_from_end and int(qual) >= min_base_quality:
+            
+            list_of_rows.append([
+                read_barcode, str(contig), str(updated_position), ref, alt, read_id, reverse_or_forward
+            ])
         
-        num_edits_of_each_type['{}>{}'.format(ref, alt)] += 1
-    
+            num_edits_of_each_type['{}>{}'.format(ref, alt)] += 1
+        
+                  
     return None, list_of_rows, num_edits_of_each_type
 
 
diff --git a/src/utils.py b/src/utils.py
index 5428a73..9ea19d9 100644
--- a/src/utils.py
+++ b/src/utils.py
@@ -91,7 +91,8 @@ def get_contigs_that_need_bams_written(expected_contigs, split_bams_folder, barc
     return contigs_to_write_bams_for
 
 
-def make_edit_finding_jobs(bampath, output_folder, strandedness, barcode_tag="CB", barcode_whitelist=None, contigs=[], num_intervals_per_contig=16, verbose=False, min_read_quality = 0):
+def make_edit_finding_jobs(bampath, output_folder, strandedness, barcode_tag="CB", barcode_whitelist=None, contigs=[], num_intervals_per_contig=16, verbose=False, min_read_quality=0, min_base_quality=0, dist_from_end=0):
+    
     jobs = []
     
     samfile = pysam.AlignmentFile(bampath, "rb")
@@ -116,7 +117,7 @@ def make_edit_finding_jobs(bampath, output_folder, strandedness, barcode_tag="CB
         # Set up for pool
         for split_index, interval in enumerate(intervals_for_contig):
             split_index = str(split_index).zfill(3)
-            parameters = [bampath, contig, split_index, interval[0], interval[1], output_folder, strandedness, barcode_tag, barcode_whitelist, verbose, min_read_quality]
+            parameters = [bampath, contig, split_index, interval[0], interval[1], output_folder, strandedness, barcode_tag, barcode_whitelist, verbose, min_read_quality, min_base_quality, dist_from_end]
             jobs.append(parameters)
     return jobs
 

From 784139ffb4d1c781040e4685006a69925fa276f0 Mon Sep 17 00:00:00 2001
From: Eric Kofman <ekofman@tscc-1-18.tscc.sdsc.edu>
Date: Sat, 2 Nov 2024 17:34:56 -0700
Subject: [PATCH 05/12] alternate faster coverage approach for single end
 working

---
 marine.py   | 57 +++++++++++++++++++++++++++++++----------------------
 src/core.py |  2 +-
 2 files changed, 34 insertions(+), 25 deletions(-)

diff --git a/marine.py b/marine.py
index e3dd92c..1927aee 100755
--- a/marine.py
+++ b/marine.py
@@ -166,23 +166,23 @@ def bam_processing(overall_label_to_list_of_contents, output_folder, barcode_tag
 
 
 def concatenate_files(source_folder, file_pattern, output_filepath):
-    # Create the concatenation command with placeholders for the folder and pattern
-    # Use tail -n +2 to skip the header row in each file
+    # Create the concatenation command with numeric sorting and header skipping
     concat_command = (
-        "for f in {}/{}; do tail -n +2 \"$f\"; done > {}"
-    ).format(source_folder, file_pattern, output_filepath)
+        f"for f in $(ls -v {source_folder}/{file_pattern}); do "
+        "tail -n +2 \"$f\"; "  # Skip the header row for each file
+        "done > {}".format(output_filepath)
+    )
 
     # Write the command to a shell script
-    concat_bash = '{}/concat_command.sh'.format(source_folder)
+    concat_bash = f"{source_folder}/concat_command.sh"
     with open(concat_bash, 'w') as f:
         f.write(concat_command)
         
-    print("Concatenating files without headers...")
+    print("Concatenating files in numerical order without headers...")
     subprocess.run(['bash', concat_bash])
     print("Done concatenating.")
 
 
-
 def coverage_processing(output_folder, barcode_tag='CB', paired_end=False, verbose=False, cores=1, number_of_expected_bams=4,
                        min_read_quality=0, bam_filepath='', filters=None):
 
@@ -339,11 +339,11 @@ def generate_and_run_bash_merge(output_folder, file1_path, file2_path, output_fi
     # Step 1: Adjust the third column of depths by subtracting 1 and convert to tab-separated format
     awk -v OFS='\\t' '{{print $1, $2-1, $3}}' "{file2_path}" > {output_folder}/depth_modified.tsv
 
-    # Step 2: Sort the first file numerically by the join column (third column in final_edits, position)
-    sort -k3,3n "{file1_path}" > {output_folder}/final_edits_no_coverage_sorted.tsv
+    # Step 2: Sort the first file numerically by the join column (third column in final_edits)
+    sort -k3,3n "{file1_path}" > {output_folder}/final_edit_info_no_coverage_sorted.tsv
 
     # Step 3: Join the files on the specified columns, output all columns, and select necessary columns with tab separation
-join -1 3 -2 2 -t $'\\t' {output_folder}/final_edits_no_coverage_sorted.tsv {output_folder}/depth_modified.tsv | awk -v OFS='\\t' '{{print $1, $2, $3, $4, $5, $6, $7, $9}}' > "{output_file_path}"
+join -1 3 -2 2 -t $'\\t' {output_folder}/final_edit_info_no_coverage_sorted.tsv {output_folder}/depth_modified.tsv | awk -v OFS='\\t' '{{print $2, $3, $1, $4, $5, $6, $7, $9}}' > "{output_file_path}"
 
     # Step 4: Add header to the output file
     echo -e "{header}" | cat - "{output_file_path}" > temp && mv temp "{output_file_path}"
@@ -406,20 +406,14 @@ def get_edits_with_coverage_df(output_folder,
                                barcode_tag=None, 
                                paired_end=False):
 
-    if barcode_tag or paired_end:
-        # For single-cell or paired end, which was calculated using the pysam coverage functions.
-        all_edit_info_unique_position_with_coverage_df = pd.read_csv('{}/final_edit_info.tsv'.format(output_folder), sep='\t',
-                                                                         index_col=0,
-                                                                         names=[
-                                                                             'barcode', 'contig', 'position', 'ref', 'alt', 'read_id',
-                                                                             'strand', 'mapping_quality',
-                                                                             'coverage'],
-                                                                         dtype={'base_quality': int, 'dist_from_end': int, 'contig': str})
+    # For single-cell or paired end, which was calculated using the pysam coverage functions.
+    all_edit_info_unique_position_with_coverage_df = pd.read_csv('{}/final_edit_info.tsv'.format(output_folder), sep='\t',
+                                                                     names=[
+                                                                         'barcode', 'contig', 'position', 'ref', 'alt', 'read_id',
+                                                                         'strand',
+                                                                         'coverage'])
 
-    else:
-        # If single-end bulk, we will concat the pre-concatted edit fractions with the pre-concatted depths,
-        # add a header and just return that file.
-        depths_file = '{}/coverage/depths.txt'.format(output_folder)
+    return all_edit_info_unique_position_with_coverage_df
         
         
         
@@ -719,7 +713,18 @@ def run(bam_filepath, annotation_bedfile_path, output_folder, contigs=[], num_in
         delete_intermediate_files(output_folder)
 
     pretty_print("Done!", style="+")
-    
+
+def check_samtools():
+    try:
+        # Run 'samtools --version' to check if samtools is available
+        subprocess.run(["samtools", "--version"], check=True, stdout=subprocess.PIPE, stderr=subprocess.PIPE)
+        print("Samtools is available.")
+    except subprocess.CalledProcessError:
+        print("Samtools is installed but encountered an issue running.")
+        sys.exit(1)
+    except FileNotFoundError:
+        print("Error: Samtools is not installed or not found in PATH.")
+        sys.exit(1)
 
 if __name__ == '__main__':
     parser = argparse.ArgumentParser(description='Run MARINE')
@@ -852,6 +857,10 @@ def run(bam_filepath, annotation_bedfile_path, output_folder, contigs=[], num_in
                   "\tFor single-cell: \t{} contigs at at time\n".format(num_per_sublist)
                  ])
 
+    if not barcode_tag and not paired_end:
+        # Check to see that samtools is available in the environment
+        check_samtools()
+
     # Whether to only run for certain contigs 
     if contigs == 'all':
         contigs = []
diff --git a/src/core.py b/src/core.py
index 5b5a139..f3c2b66 100644
--- a/src/core.py
+++ b/src/core.py
@@ -454,7 +454,7 @@ def get_count_and_coverage_per_site(all_edit_info, skip_coverage=False):
 
 def generate_site_level_information(all_edit_info, skip_coverage=False):
     number_of_edits = len(all_edit_info)
-
+    
     all_edit_info = add_site_id(all_edit_info)
     
     if len(all_edit_info) == 0:

From f4b3011beeaa298a6518dea6420b73382993f416 Mon Sep 17 00:00:00 2001
From: Eric Kofman <ekofman@tscc-1-18.tscc.sdsc.edu>
Date: Sat, 2 Nov 2024 19:09:09 -0700
Subject: [PATCH 06/12] bulk single end working 10x faster

---
 marine.py                                     | 41 ++++------
 src/core.py                                   | 11 +--
 src/utils.py                                  | 76 +------------------
 .../F1R2_pair_test-single_end_mode_sailor.sh  |  2 +-
 .../final_filtered_site_info.tsv              | 15 ----
 5 files changed, 20 insertions(+), 125 deletions(-)
 delete mode 100644 tests/strandedness_tests/unstranded_pair_test/final_filtered_site_info.tsv

diff --git a/marine.py b/marine.py
index 1927aee..f658e86 100755
--- a/marine.py
+++ b/marine.py
@@ -184,7 +184,7 @@ def concatenate_files(source_folder, file_pattern, output_filepath):
 
 
 def coverage_processing(output_folder, barcode_tag='CB', paired_end=False, verbose=False, cores=1, number_of_expected_bams=4,
-                       min_read_quality=0, bam_filepath='', filters=None):
+                       min_read_quality=0, bam_filepath=''):
 
     # Single-cell or long read version:
     edit_info_grouped_per_contig_combined = gather_edit_information_across_subcontigs(output_folder, 
@@ -200,10 +200,9 @@ def coverage_processing(output_folder, barcode_tag='CB', paired_end=False, verbo
                                                                             barcode_tag=barcode_tag,
                                                                             paired_end=paired_end,
                                                                             verbose=verbose,
-                                                                            processes=cores,
-                                                                            filters=filters
+                                                                            processes=cores
                                                                            )
-    concatenate_files(output_folder, "edit_info/*_filtered.tsv", "{}/final_edit_info.tsv".format(output_folder))
+    concatenate_files(output_folder, "coverage/*.tsv", "{}/final_edit_info.tsv".format(output_folder))
     
     total_seconds_for_contig_df = pd.DataFrame.from_dict(total_seconds_for_contig, orient='index')
     total_seconds_for_contig_df.columns = ['seconds']
@@ -407,12 +406,18 @@ def get_edits_with_coverage_df(output_folder,
                                paired_end=False):
 
     # For single-cell or paired end, which was calculated using the pysam coverage functions.
-    all_edit_info_unique_position_with_coverage_df = pd.read_csv('{}/final_edit_info.tsv'.format(output_folder), sep='\t',
+    if barcode_tag or paired_end:
+        all_edit_info_unique_position_with_coverage_df = pd.read_csv('{}/final_edit_info.tsv'.format(output_folder), sep='\t',
                                                                      names=[
                                                                          'barcode', 'contig', 'position', 'ref', 'alt', 'read_id',
                                                                          'strand',
-                                                                         'coverage'])
+                                                                         'coverage'], dtype={'coverage': int, 'position': int,
+                                                                                             'contig': str})
 
+    else:
+        all_edit_info_unique_position_with_coverage_df = pd.read_csv('{}/final_edit_info.tsv'.format(output_folder), sep='\t',
+                                                                     dtype={'coverage': int, 'position': int,
+                                                                                             'contig': str})
     return all_edit_info_unique_position_with_coverage_df
         
         
@@ -532,13 +537,7 @@ def run(bam_filepath, annotation_bedfile_path, output_folder, contigs=[], num_in
         
         coverage_subfolder = '{}/coverage'.format(output_folder)
         make_folder(coverage_subfolder)
-
-        filters = {
-            'dist_from_end': min_dist_from_end,
-            'base_quality': min_base_quality,
-            'max_edits_per_read': max_edits_per_read
-        }
-
+        
         if barcode_tag or paired_end:
             results, total_time, total_seconds_for_contig_df = coverage_processing(output_folder, 
                                                                                    barcode_tag=barcode_tag, 
@@ -547,27 +546,13 @@ def run(bam_filepath, annotation_bedfile_path, output_folder, contigs=[], num_in
                                                                                    cores=cores,
                                                                                    number_of_expected_bams=number_of_expected_bams,
                                                                                    min_read_quality=min_read_quality,
-                                                                                   bam_filepath=bam_filepath,
-                                                                                   filters=filters
+                                                                                   bam_filepath=bam_filepath
                                                                                   )
         else:
             # for bulk single-end, we will just concatenate all the edits files into one big bed file, and then run samtools depth
             total_time, total_seconds_for_contig_df = generate_depths_with_samtools(output_folder, bam_filepath)
 
         total_seconds_for_contig_df.to_csv("{}/coverage_calculation_timing.tsv".format(logging_folder), sep='\t')
-
-        all_filter_stats = pd.DataFrame([r[1] for r in results]).sum(axis=0)
-        print(all_filter_stats)
-        if len(all_filter_stats) == 0:
-            original_edits = float(0)
-            filtered_edits = float(0)
-        else:
-            original_edits = float(all_filter_stats.loc["original"])
-            filtered_edits = float(all_filter_stats.loc["filtered"])
-
-        with open('{}/manifest.txt'.format(logging_folder), 'a+') as f:
-            f.write(f'original_edits\t{original_edits}\n') 
-            f.write(f'filtered_edits\t{filtered_edits}\n')
          
         pretty_print("Total time to calculate coverage: {} minutes".format(round(total_time/60, 3)))
 
diff --git a/src/core.py b/src/core.py
index f3c2b66..f1fc973 100644
--- a/src/core.py
+++ b/src/core.py
@@ -316,15 +316,13 @@ def run_coverage_calculator(edit_info_grouped_per_contig_combined,
                             barcode_tag='CB',
                             paired_end=False, 
                             verbose=False,
-                            processes=16,
-                            filters=None,
+                            processes=16
                            ):
     coverage_counting_job_params = get_job_params_for_coverage_for_edits_in_contig(
         edit_info_grouped_per_contig_combined, 
         output_folder,
         barcode_tag=barcode_tag,
         paired_end=paired_end,
-        filters=filters,
         verbose=verbose
     )
     
@@ -353,12 +351,12 @@ def run_coverage_calculator(edit_info_grouped_per_contig_combined,
 
 
 def get_job_params_for_coverage_for_edits_in_contig(edit_info_grouped_per_contig_combined, output_folder,
-                                                    barcode_tag='CB', paired_end=False, filters=None, verbose=False):
+                                                    barcode_tag='CB', paired_end=False, verbose=False):
     job_params = []
     
     for contig, edit_info in edit_info_grouped_per_contig_combined.items():
                     
-        job_params.append([edit_info, contig, output_folder, barcode_tag, paired_end, filters, verbose])  
+        job_params.append([edit_info, contig, output_folder, barcode_tag, paired_end, verbose])  
         
     return job_params
 
@@ -389,9 +387,6 @@ def gather_edit_information_across_subcontigs(output_folder, barcode_tag='CB', n
         edit_info_df = pd.read_csv(edit_info_file, sep='\t')
         edit_info_df['contig'] = edit_info_df['contig'].astype(str)
         edit_info_df['position'] = edit_info_df['position'].astype(int)
-        edit_info_df['base_quality'] = edit_info_df['base_quality'].astype(int)
-        edit_info_df['mapping_quality'] = edit_info_df['mapping_quality'].astype(int)
-        edit_info_df['dist_from_end'] = edit_info_df['dist_from_end'].astype(int)
 
         edit_info = pl.from_pandas(edit_info_df) 
         
diff --git a/src/utils.py b/src/utils.py
index 9ea19d9..d014eae 100644
--- a/src/utils.py
+++ b/src/utils.py
@@ -215,7 +215,7 @@ def write_rows_to_info_file(list_of_rows, f):
         f.write(info_line)
         
 def write_header_to_edit_info(f):
-    f.write('barcode\tcontig\tposition\tref\talt\tread_id\tstrand\tdist_from_end\tbase_quality\tmapping_quality\n')
+    f.write('barcode\tcontig\tposition\tref\talt\tread_id\tstrand\n')
     
 def write_read_to_bam_file(read, bam_handles_for_barcodes, barcode_bam_file_path, samfile_template):
     bam_for_barcode = bam_handles_for_barcodes.get(barcode_bam_file_path)
@@ -436,79 +436,11 @@ def calculate_coverage_single_end_bulk(coverage_dict, positions_for_barcode, bam
     
     return coverage_dict
 
-def filter_output_df(output_df, filters, output_filename):
-    filter_stats = {}
-    filter_stats['original'] = len(output_df)
-    if output_df.empty:
-        filter_stats['filtered'] = len(output_df)
-        output_df['coverage'] = []
-        output_df.to_csv(output_filename, sep='\t', header=False)
-        return filter_stats
-    
-    filtered_output_df = output_df[
-            (output_df.dist_from_end >= filters.get('dist_from_end')) & 
-            (output_df.base_quality >= filters.get('base_quality'))]
-
-    coverage_per_unique_position_df = pd.DataFrame(filtered_output_df.groupby(
-        [
-            "position_barcode"
-        ]).coverage.max())
-
-    distinguishing_columns = [
-        "barcode",
-        "contig",
-        "position",
-        "ref",
-        "alt",
-        "read_id",
-        "strand",
-        "dist_from_end",
-        "base_quality",
-        "mapping_quality"
-    ]
-
-    
-    all_edit_info_unique_position_df = filtered_output_df.drop_duplicates(distinguishing_columns)[distinguishing_columns]
-
-    all_edit_info_unique_position_df.index = all_edit_info_unique_position_df['position'].astype(str)\
-+ '_' + all_edit_info_unique_position_df['barcode']
-
-    all_edit_info_unique_position_with_coverage_df = all_edit_info_unique_position_df.join(coverage_per_unique_position_df)
-
-    if filters.get('max_edits_per_read'):
-        #pretty_print("\t\tFiltering out reads with more than {} edits...".format(max_edits_per_read))
-        read_edits = all_edit_info_unique_position_with_coverage_df.groupby('read_id').count().sort_values('barcode')
-        all_edit_info_unique_position_with_coverage_df = all_edit_info_unique_position_with_coverage_df[all_edit_info_unique_position_with_coverage_df.read_id.isin(read_edits[read_edits['barcode'] <= max_edits_per_read].index)]
-
-
-    distinguishing_columns = [
-            "barcode",
-            "contig",
-            "position",
-            "ref",
-            "alt",
-            "read_id",
-            "strand",
-            "mapping_quality",
-            "coverage"
-        ]
-
-    all_edit_info_unique_position_with_coverage_df = all_edit_info_unique_position_with_coverage_df.drop_duplicates(
-            distinguishing_columns)[distinguishing_columns]
-    
-    filter_stats['filtered'] = len(all_edit_info_unique_position_with_coverage_df)
-
-    
-    all_edit_info_unique_position_with_coverage_df.to_csv(output_filename, sep='\t', header=False)
-
-    return filter_stats
-
     
 def get_coverage_wrapper(parameters):
-    edit_info, contig, output_folder, barcode_tag, paired_end, filters, verbose = parameters
+    edit_info, contig, output_folder, barcode_tag, paired_end, verbose = parameters
 
     output_filename = '{}/coverage/{}.tsv'.format(output_folder, contig, header=False)
-    filtered_output_filename = '{}/coverage/{}_filtered.tsv'.format(output_folder, contig, header=False)
     
     if os.path.exists(output_filename):
         # filter
@@ -537,10 +469,8 @@ def get_coverage_wrapper(parameters):
         edit_info_and_coverage_joined['position_barcode'] = edit_info_and_coverage_joined['position'].astype(str) + '_' + edit_info_and_coverage_joined['barcode'].astype(str)
         edit_info_and_coverage_joined.to_csv(output_filename, sep='\t', header=False)
 
-    filter_stats = filter_output_df(edit_info_and_coverage_joined, filters, filtered_output_filename)
     assert(os.path.exists(output_filename))
-    assert(os.path.exists(filtered_output_filename))
-    return filtered_output_filename, filter_stats
+    return output_filename
     
 
 
diff --git a/tests/strandedness_tests/scripts/F1R2_pair_test-single_end_mode_sailor.sh b/tests/strandedness_tests/scripts/F1R2_pair_test-single_end_mode_sailor.sh
index e295447..a5f8e8b 100644
--- a/tests/strandedness_tests/scripts/F1R2_pair_test-single_end_mode_sailor.sh
+++ b/tests/strandedness_tests/scripts/F1R2_pair_test-single_end_mode_sailor.sh
@@ -18,4 +18,4 @@ $MARINE/tests/strandedness_tests/F1R2_pair_test-single_end_mode_sailor \
 --contigs "chr17" \
 --sailor "CT,AG" \
 --verbose \
---num_intervals_per_contig 16
\ No newline at end of file
+--num_intervals_per_contig 4
\ No newline at end of file
diff --git a/tests/strandedness_tests/unstranded_pair_test/final_filtered_site_info.tsv b/tests/strandedness_tests/unstranded_pair_test/final_filtered_site_info.tsv
deleted file mode 100644
index 8d56148..0000000
--- a/tests/strandedness_tests/unstranded_pair_test/final_filtered_site_info.tsv
+++ /dev/null
@@ -1,15 +0,0 @@
-site_id	barcode	contig	position	ref	alt	strand	count	coverage	conversion	strand_conversion
-no_barcode_Citrine.dna_454_T_G_+	no_barcode	Citrine.dna	454	T	G	+	1	14	T>G	T>G
-no_barcode_Citrine.dna_431_A_G_+	no_barcode	Citrine.dna	431	A	G	+	1	22	A>G	A>G
-no_barcode_Citrine.dna_430_T_G_+	no_barcode	Citrine.dna	430	T	G	+	2	22	T>G	T>G
-no_barcode_Citrine.dna_428_A_G_+	no_barcode	Citrine.dna	428	A	G	+	1	20	A>G	A>G
-no_barcode_Citrine.dna_435_C_T_+	no_barcode	Citrine.dna	435	C	T	+	22	22	C>T	C>T
-no_barcode_Citrine.dna_439_A_G_+	no_barcode	Citrine.dna	439	A	G	+	1	22	A>G	A>G
-no_barcode_Citrine.dna_432_C_T_+	no_barcode	Citrine.dna	432	C	T	+	1	22	C>T	C>T
-no_barcode_Citrine.dna_21_G_A_+	no_barcode	Citrine.dna	21	G	A	+	2	2	G>A	G>A
-no_barcode_Citrine.dna_411_C_A_+	no_barcode	Citrine.dna	411	C	A	+	1	18	C>A	C>A
-no_barcode_Citrine.dna_438_C_A_+	no_barcode	Citrine.dna	438	C	A	+	1	22	C>A	C>A
-no_barcode_Citrine.dna_414_G_C_+	no_barcode	Citrine.dna	414	G	C	+	1	18	G>C	G>C
-no_barcode_Citrine.dna_441_C_A_+	no_barcode	Citrine.dna	441	C	A	+	1	22	C>A	C>A
-no_barcode_Citrine.dna_149_C_G_+	no_barcode	Citrine.dna	149	C	G	+	1	2	C>G	C>G
-no_barcode_Citrine.dna_437_A_G_+	no_barcode	Citrine.dna	437	A	G	+	1	22	A>G	A>G

From 8847547e089ce0c21ccdc5e4722f70bbbbc8d275 Mon Sep 17 00:00:00 2001
From: Eric Kofman <ekofman@tscc-1-8.tscc.sdsc.edu>
Date: Sun, 3 Nov 2024 10:36:11 -0800
Subject: [PATCH 07/12] single cell seems to work...

---
 marine.py                                     |  7 ++--
 src/utils.py                                  | 42 ++++++++++---------
 .../scripts/only_5_cells_test.sh              |  3 +-
 3 files changed, 28 insertions(+), 24 deletions(-)

diff --git a/marine.py b/marine.py
index f658e86..fba957c 100755
--- a/marine.py
+++ b/marine.py
@@ -408,10 +408,11 @@ def get_edits_with_coverage_df(output_folder,
     # For single-cell or paired end, which was calculated using the pysam coverage functions.
     if barcode_tag or paired_end:
         all_edit_info_unique_position_with_coverage_df = pd.read_csv('{}/final_edit_info.tsv'.format(output_folder), sep='\t',
+                                                                     index_col=0,
                                                                      names=[
-                                                                         'barcode', 'contig', 'position', 'ref', 'alt', 'read_id',
-                                                                         'strand',
-                                                                         'coverage'], dtype={'coverage': int, 'position': int,
+                                                                         'barcode_position_index', 'barcode', 'contig', 'position', 'ref', 'alt', 'read_id',
+                                                                         'strand', 'barcode_position', 
+                                                                         'coverage', 'source', 'position_barcode'], dtype={'coverage': int, 'position': int,
                                                                                              'contig': str})
 
     else:
diff --git a/src/utils.py b/src/utils.py
index d014eae..877b81b 100644
--- a/src/utils.py
+++ b/src/utils.py
@@ -441,33 +441,35 @@ def get_coverage_wrapper(parameters):
     edit_info, contig, output_folder, barcode_tag, paired_end, verbose = parameters
 
     output_filename = '{}/coverage/{}.tsv'.format(output_folder, contig, header=False)
-    
+
+    """
     if os.path.exists(output_filename):
         # filter
         edit_info_and_coverage_joined = pd.read_csv(output_filename, sep='\t', names=[
-            'barcode', 'contig', 'position', 'ref', 'alt', 'read_id', 'strand',
+            'barcode_position_index', 'barcode', 'contig', 'position', 'ref', 'alt', 'read_id', 'strand',
             'dist_from_end', 'base_quality', 'mapping_quality', 'barcode_position',
             'coverage', 'source', 'position_barcode'], dtype={'base_quality': int, 'dist_from_end': int, 'contig': str})
     else:
-        edit_info = edit_info.with_columns(
-        pl.concat_str(
-            [
-                pl.col("barcode"),
-                pl.col("position")
-            ],
-            separator=":",
-        ).alias("barcode_position"))
-    
-        edit_info_df = edit_info.to_pandas()
-        edit_info_df.index = edit_info_df['barcode_position']
-        
-        coverage_df = get_coverage_df(edit_info, contig, output_folder, barcode_tag=barcode_tag, 
-                                      paired_end=paired_end, verbose=verbose)
+    """
+    edit_info = edit_info.with_columns(
+    pl.concat_str(
+        [
+            pl.col("barcode"),
+            pl.col("position")
+        ],
+        separator=":",
+    ).alias("barcode_position"))
+
+    edit_info_df = edit_info.to_pandas()
+    edit_info_df.index = edit_info_df['barcode_position']
     
-        # Combine edit i)nformation with coverage information
-        edit_info_and_coverage_joined = edit_info_df.join(coverage_df, how='inner')
-        edit_info_and_coverage_joined['position_barcode'] = edit_info_and_coverage_joined['position'].astype(str) + '_' + edit_info_and_coverage_joined['barcode'].astype(str)
-        edit_info_and_coverage_joined.to_csv(output_filename, sep='\t', header=False)
+    coverage_df = get_coverage_df(edit_info, contig, output_folder, barcode_tag=barcode_tag, 
+                                  paired_end=paired_end, verbose=verbose)
+
+    # Combine edit i)nformation with coverage information
+    edit_info_and_coverage_joined = edit_info_df.join(coverage_df, how='inner')
+    edit_info_and_coverage_joined['position_barcode'] = edit_info_and_coverage_joined['position'].astype(str) + '_' + edit_info_and_coverage_joined['barcode'].astype(str)
+    edit_info_and_coverage_joined.to_csv(output_filename, sep='\t', header=False)
 
     assert(os.path.exists(output_filename))
     return output_filename
diff --git a/tests/singlecell_tests/scripts/only_5_cells_test.sh b/tests/singlecell_tests/scripts/only_5_cells_test.sh
index 69d441b..642eb6d 100644
--- a/tests/singlecell_tests/scripts/only_5_cells_test.sh
+++ b/tests/singlecell_tests/scripts/only_5_cells_test.sh
@@ -16,4 +16,5 @@ $MARINE/tests/singlecell_tests/only_5_cells_test \
 --barcode_tag "CB" \
 --strandedness 2 \
 --contigs "9" \
---num_intervals_per_contig 16
\ No newline at end of file
+--num_intervals_per_contig 16 \
+--keep_intermediate_files
\ No newline at end of file

From 53fe4958912f9eb9bd667d0407719042a16b9a29 Mon Sep 17 00:00:00 2001
From: Eric Kofman <ekofman@tscc-1-8.tscc.sdsc.edu>
Date: Sun, 3 Nov 2024 18:52:16 -0800
Subject: [PATCH 08/12] long read test

---
 src/utils.py                                  | 119 +++++++-----------
 tests/integration_tests.ipynb                 |  54 ++++----
 .../scripts/long_read_sc_test.sh              |   3 +-
 .../scripts/same_pos_dif_reads_test.sh        |   3 +-
 4 files changed, 79 insertions(+), 100 deletions(-)

diff --git a/src/utils.py b/src/utils.py
index 877b81b..22d80a2 100644
--- a/src/utils.py
+++ b/src/utils.py
@@ -320,7 +320,8 @@ def get_bulk_coverage_at_pos(samfile_for_barcode, contig_bam, just_contig, pos,
 
 def get_coverage_df(edit_info, contig, output_folder, barcode_tag='CB', paired_end=False, 
                     verbose=False):
-
+    # Just for single-cell, or bulk paired-end
+    
     if barcode_tag:
         # Single-cell, contig will include barcode ending-based suffix 
         bam_subfolder = "{}/split_bams/{}".format(output_folder, contig)
@@ -356,86 +357,47 @@ def get_coverage_df(edit_info, contig, output_folder, barcode_tag='CB', paired_e
 
         # For single-cell or paired end approach, we will iterate through every single position in this subset of the data
         # and run the appropriate coverage-counting function.
-        if barcode_tag or paired_end:
-            for i, pos in enumerate(positions_for_barcode):
-                # For single-cell
-                if barcode_tag:
-                    barcode_specific_contig = '{}_{}'.format(contig, barcode)
-                    # Alter from 3_C_AAACCCAAGAACTTCC-1, for example, to 3_AAACCCAAGAACTTCC-1'
-                    barcode_specific_contig_split = barcode_specific_contig.split("_")
-                    barcode_specific_contig_without_subdivision = "{}_{}".format(barcode_specific_contig_split[0], barcode_specific_contig_split[2])
-    
-                    if verbose:
-                        #print("contig_bam:", contig_bam)
-                        #print("barcode_specific_contig:", barcode_specific_contig)
-                        print("barcode_specific_contig_without_subdivision:", barcode_specific_contig_without_subdivision)
-                        
-                    coverage_at_pos = np.sum(samfile_for_barcode.count_coverage(barcode_specific_contig_without_subdivision, 
-                                                                                pos-1, 
-                                                                                pos,  
-                                                                                quality_threshold=0, # base quality
-                                                                                read_callback='all'
-                                                                               ))
-    
-                    coverage_dict['{}:{}'.format(barcode, pos)]['coverage'] = coverage_at_pos
-                    coverage_dict['{}:{}'.format(barcode, pos)]['source'] = contig
-
-                # For bulk, no barcodes, we will just have for example 19_no_barcode to convert to 19 to get coverage at that chrom
-                else:  
-                    just_contig = contig.split('_')[0]
-                    try:
-                        coverage_at_pos = get_bulk_coverage_at_pos(samfile_for_barcode, contig_bam, just_contig, pos, 
-                                                                   paired_end=paired_end, verbose=verbose)
-                                    
-                        coverage_dict['{}:{}'.format('no_barcode', pos)]['coverage'] = coverage_at_pos
-                        coverage_dict['{}:{}'.format('no_barcode', pos)]['source'] = contig
-    
-                    except Exception as e:
-                        print("contig {}".format(contig), "Failed to get coverage", e)
-                        return pd.DataFrame(columns=['coverage', 'source'])  # Should we just return empty? Or why would there be an exception here?
-        
-        # Single-end bulk, we can leverage the speed of samtools depth function for this
-        else:
-            calculate_coverage_single_end_bulk(coverage_dict, positions_for_barcode, bam_subfolder, contig, contig_bam,
-                                                            verbose=verbose)
-            
+        for i, pos in enumerate(positions_for_barcode):
+            # For single-cell
+            if barcode_tag:
+                barcode_specific_contig = '{}_{}'.format(contig, barcode)
+                # Alter from 3_C_AAACCCAAGAACTTCC-1, for example, to 3_AAACCCAAGAACTTCC-1'
+                barcode_specific_contig_split = barcode_specific_contig.split("_")
+                barcode_specific_contig_without_subdivision = "{}_{}".format(barcode_specific_contig_split[0], barcode_specific_contig_split[2])
+
+                if verbose:
+                    #print("contig_bam:", contig_bam)
+                    #print("barcode_specific_contig:", barcode_specific_contig)
+                    print("barcode_specific_contig_without_subdivision:", barcode_specific_contig_without_subdivision)
+                    
+                coverage_at_pos = np.sum(samfile_for_barcode.count_coverage(barcode_specific_contig_without_subdivision, 
+                                                                            pos-1, 
+                                                                            pos,  
+                                                                            quality_threshold=0, # base quality
+                                                                            read_callback='all'
+                                                                           ))
+
+                coverage_dict['{}:{}'.format(barcode, pos)]['coverage'] = coverage_at_pos
+                coverage_dict['{}:{}'.format(barcode, pos)]['source'] = contig
+
+            # For bulk, no barcodes, we will just have for example 19_no_barcode to convert to 19 to get coverage at that chrom
+            else:  
+                just_contig = contig.split('_')[0]
+                try:
+                    coverage_at_pos = get_bulk_coverage_at_pos(samfile_for_barcode, contig_bam, just_contig, pos, 
+                                                               paired_end=paired_end, verbose=verbose)
+                                
+                    coverage_dict['{}:{}'.format('no_barcode', pos)]['coverage'] = coverage_at_pos
+                    coverage_dict['{}:{}'.format('no_barcode', pos)]['source'] = contig
+
+                except Exception as e:
+                    print("contig {}".format(contig), "Failed to get coverage", e)
+                    return pd.DataFrame(columns=['coverage', 'source'])  # Should we just return empty? Or why would there be an exception here?
             
     coverage_df = pd.DataFrame.from_dict(coverage_dict, orient='index')
     
     return coverage_df
 
-def calculate_coverage_single_end_bulk(coverage_dict, positions_for_barcode, bam_subfolder, contig, contig_bam, verbose=False):
-    # Parallel Processing: If you need parallelism, consider splitting the BAM file by chromosome or region rather than by number of sites. Each chunk could then be processed separately with minimal overlap.
-    
-    print("Running SINGLE END coverage approach using samtools depth")
-    bed_file = f"{bam_subfolder}/{contig}_positions.bed"
-    
-    # Write positions to BED file
-    with open(bed_file, "w") as f:
-        for pos in positions_for_barcode:
-            f.write(f"{contig.split('_')[0]}\t{pos-1}\t{pos}\n")  # BED is 0-based, half-open
-    
-    # Call samtools depth using the BED file
-    command = f"samtools depth -a -q 0 -Q 0 -b {bed_file} {contig_bam}"
-    
-    print(f"Running command: {command}, contig is {contig}, bam_subfolder is {bam_subfolder}")
-
-    result = subprocess.run(command, shell=True, capture_output=True, text=True)
-    
-    if result.returncode == 0:
-        for line in result.stdout.strip().splitlines():
-            chrom, pos, coverage = line.split()
-            key = f'no_barcode:{pos}'
-            coverage_dict[key]['coverage'] = int(coverage)
-            coverage_dict[key]['source'] = contig
-        # Remove temporary BED file after use
-        os.remove(bed_file)
-    
-    else:
-        print("Samtools depth failed or returned no data.")
-    
-    return coverage_dict
-
     
 def get_coverage_wrapper(parameters):
     edit_info, contig, output_folder, barcode_tag, paired_end, verbose = parameters
@@ -466,9 +428,12 @@ def get_coverage_wrapper(parameters):
     coverage_df = get_coverage_df(edit_info, contig, output_folder, barcode_tag=barcode_tag, 
                                   paired_end=paired_end, verbose=verbose)
 
-    # Combine edit i)nformation with coverage information
+    # Combine edit information with coverage information
     edit_info_and_coverage_joined = edit_info_df.join(coverage_df, how='inner')
     edit_info_and_coverage_joined['position_barcode'] = edit_info_and_coverage_joined['position'].astype(str) + '_' + edit_info_and_coverage_joined['barcode'].astype(str)
+
+    edit_info_and_coverage_joined = edit_info_and_coverage_joined.drop_duplicates()
+    
     edit_info_and_coverage_joined.to_csv(output_filename, sep='\t', header=False)
 
     assert(os.path.exists(output_filename))
diff --git a/tests/integration_tests.ipynb b/tests/integration_tests.ipynb
index 8b9edd3..0a95174 100644
--- a/tests/integration_tests.ipynb
+++ b/tests/integration_tests.ipynb
@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 11,
+   "execution_count": 1,
    "id": "9f2684b1-dbad-45d5-bdb5-b83989bec7dc",
    "metadata": {},
    "outputs": [],
@@ -12,7 +12,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 12,
+   "execution_count": 2,
    "id": "63b5feff-aa8a-417c-8c93-9b9d74e5dee9",
    "metadata": {},
    "outputs": [],
@@ -23,7 +23,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 13,
+   "execution_count": 3,
    "id": "f6012705-9d34-4997-8681-c7bbcc4f008b",
    "metadata": {},
    "outputs": [],
@@ -2889,7 +2889,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 16,
+   "execution_count": 8,
    "id": "f5c3ed3e-13dd-4399-924e-3d1ac17ce387",
    "metadata": {},
    "outputs": [
@@ -2908,8 +2908,9 @@
       "~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\n",
       "Checking results for pair_test\n",
       "\tExpecting: {'contig': '18', 'position': 49491556, 'count': 2, 'coverage': 2, 'num_rows': 1, 'strand_conversion': 'C>T', 'strand': '-', 'feature_name': 'RPL17-C18orf32,RPL17', 'feature_strand': '-,-'}\n",
+      "Exception: count was 1\n",
       "\n",
-      "\t >>> pair_test passed! <<<\n",
+      "\t ~~~ pair_test FAILED! ~~~\n",
       "\n",
       "\tExpecting: {'contig': '18', 'position': 49567494, 'count': 2, 'coverage': 2, 'num_rows': 1, 'strand_conversion': 'C>T', 'strand': '+', 'feature_name': 'LIPG', 'feature_strand': '+'}\n",
       "\n",
@@ -2926,15 +2927,17 @@
       "~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\n",
       "Checking results for F1R2_pair_test-single_end_mode_sailor\n",
       "\tExpecting: {'contig': 'chr17', 'position': 43044352, 'count': 1, 'coverage': 2, 'conversion': 'G>A', 'num_rows': 1, 'strand_conversion': 'C>T', 'strand': '-', 'feature_name': 'BRCA1', 'feature_strand': '-'}\n",
+      "Exception: count was 2\n",
       "\n",
-      "\t >>> F1R2_pair_test-single_end_mode_sailor passed! <<<\n",
+      "\t ~~~ F1R2_pair_test-single_end_mode_sailor FAILED! ~~~\n",
       "\n",
       "\n",
       "~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\n",
       "Checking results for F1R2_pair_test-single_end_mode\n",
       "\tExpecting: {'contig': 'chr17', 'position': 43044352, 'count': 1, 'coverage': 2, 'conversion': 'G>A', 'num_rows': 1, 'strand_conversion': 'C>T', 'strand': '-', 'feature_name': 'BRCA1', 'feature_strand': '-'}\n",
+      "Exception: count was 2\n",
       "\n",
-      "\t >>> F1R2_pair_test-single_end_mode passed! <<<\n",
+      "\t ~~~ F1R2_pair_test-single_end_mode FAILED! ~~~\n",
       "\n",
       "\n",
       "~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\n",
@@ -2976,18 +2979,28 @@
       "~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\n",
       "Checking results for long_read_sc_test\n",
       "\tExpecting: {'contig': '6', 'barcode': 'ENSMUST00000203816-AACGTGTTGGAGAGGG-16-G', 'position': 115807969, 'num_rows': 1, 'count': 1, 'coverage': 1, 'conversion': 'A>C', 'strand_conversion': 'T>G', 'strand': '-', 'feature_name': 'Rpl32'}\n",
-      "\n",
-      "\t >>> long_read_sc_test passed! <<<\n",
-      "\n",
-      "\tExpecting: {'contig': '6', 'barcode': 'ENSMUST00000081840-AAGTCGTACCAGGCTC-40-C', 'position': 115805653, 'num_rows': 1, 'count': 1, 'coverage': 1, 'conversion': 'G>A', 'strand_conversion': 'C>T', 'strand': '-', 'feature_name': 'Rpl32'}\n",
-      "\n",
-      "\t >>> long_read_sc_test passed! <<<\n",
-      "\n",
-      "\tExpecting: {'contig': '6', 'barcode': 'ENSMUST00000081840-AACGTGTTGGAGAGGG-40-G', 'position': 115807015, 'num_rows': 1, 'count': 1, 'coverage': 8, 'conversion': 'C>T', 'strand_conversion': 'G>A', 'strand': '-', 'feature_name': 'Rpl32'}\n",
-      "\n",
-      "\t >>> long_read_sc_test passed! <<<\n",
-      "\n",
-      "There were 0 failures\n"
+      "Num rows expected: 1, was 0\n"
+     ]
+    },
+    {
+     "ename": "IndexError",
+     "evalue": "single positional indexer is out-of-bounds",
+     "output_type": "error",
+     "traceback": [
+      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
+      "\u001b[0;31mIndexError\u001b[0m                                Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[8], line 249\u001b[0m\n\u001b[1;32m    248\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[0;32m--> 249\u001b[0m     \u001b[38;5;28;01massert\u001b[39;00m(\u001b[43mrow_of_interest\u001b[49m\u001b[43m[\u001b[49m\u001b[43mattribute\u001b[49m\u001b[43m]\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43miloc\u001b[49m\u001b[43m[\u001b[49m\u001b[38;5;241;43m0\u001b[39;49m\u001b[43m]\u001b[49m \u001b[38;5;241m==\u001b[39m attribute_expectation)\n\u001b[1;32m    250\u001b[0m \u001b[38;5;28;01mexcept\u001b[39;00m \u001b[38;5;167;01mException\u001b[39;00m \u001b[38;5;28;01mas\u001b[39;00m e:\n",
+      "File \u001b[0;32m~/miniconda3/envs/marine_environment/lib/python3.8/site-packages/pandas/core/indexing.py:1103\u001b[0m, in \u001b[0;36m_LocationIndexer.__getitem__\u001b[0;34m(self, key)\u001b[0m\n\u001b[1;32m   1102\u001b[0m maybe_callable \u001b[38;5;241m=\u001b[39m com\u001b[38;5;241m.\u001b[39mapply_if_callable(key, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mobj)\n\u001b[0;32m-> 1103\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_getitem_axis\u001b[49m\u001b[43m(\u001b[49m\u001b[43mmaybe_callable\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43maxis\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43maxis\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m~/miniconda3/envs/marine_environment/lib/python3.8/site-packages/pandas/core/indexing.py:1656\u001b[0m, in \u001b[0;36m_iLocIndexer._getitem_axis\u001b[0;34m(self, key, axis)\u001b[0m\n\u001b[1;32m   1655\u001b[0m \u001b[38;5;66;03m# validate the location\u001b[39;00m\n\u001b[0;32m-> 1656\u001b[0m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_validate_integer\u001b[49m\u001b[43m(\u001b[49m\u001b[43mkey\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43maxis\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1658\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mobj\u001b[38;5;241m.\u001b[39m_ixs(key, axis\u001b[38;5;241m=\u001b[39maxis)\n",
+      "File \u001b[0;32m~/miniconda3/envs/marine_environment/lib/python3.8/site-packages/pandas/core/indexing.py:1589\u001b[0m, in \u001b[0;36m_iLocIndexer._validate_integer\u001b[0;34m(self, key, axis)\u001b[0m\n\u001b[1;32m   1588\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m key \u001b[38;5;241m>\u001b[39m\u001b[38;5;241m=\u001b[39m len_axis \u001b[38;5;129;01mor\u001b[39;00m key \u001b[38;5;241m<\u001b[39m \u001b[38;5;241m-\u001b[39mlen_axis:\n\u001b[0;32m-> 1589\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mIndexError\u001b[39;00m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124msingle positional indexer is out-of-bounds\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n",
+      "\u001b[0;31mIndexError\u001b[0m: single positional indexer is out-of-bounds",
+      "\nDuring handling of the above exception, another exception occurred:\n",
+      "\u001b[0;31mIndexError\u001b[0m                                Traceback (most recent call last)",
+      "Cell \u001b[0;32mIn[8], line 251\u001b[0m\n\u001b[1;32m    249\u001b[0m             \u001b[38;5;28;01massert\u001b[39;00m(row_of_interest[attribute]\u001b[38;5;241m.\u001b[39miloc[\u001b[38;5;241m0\u001b[39m] \u001b[38;5;241m==\u001b[39m attribute_expectation)\n\u001b[1;32m    250\u001b[0m         \u001b[38;5;28;01mexcept\u001b[39;00m \u001b[38;5;167;01mException\u001b[39;00m \u001b[38;5;28;01mas\u001b[39;00m e:\n\u001b[0;32m--> 251\u001b[0m             \u001b[38;5;28mprint\u001b[39m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mException: \u001b[39m\u001b[38;5;132;01m{}\u001b[39;00m\u001b[38;5;124m was \u001b[39m\u001b[38;5;132;01m{}\u001b[39;00m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;241m.\u001b[39mformat(attribute, \u001b[43mrow_of_interest\u001b[49m\u001b[43m[\u001b[49m\u001b[43mattribute\u001b[49m\u001b[43m]\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43miloc\u001b[49m\u001b[43m[\u001b[49m\u001b[38;5;241;43m0\u001b[39;49m\u001b[43m]\u001b[49m))\n\u001b[1;32m    252\u001b[0m             failure \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mTrue\u001b[39;00m\n\u001b[1;32m    253\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m failure:\n",
+      "File \u001b[0;32m~/miniconda3/envs/marine_environment/lib/python3.8/site-packages/pandas/core/indexing.py:1103\u001b[0m, in \u001b[0;36m_LocationIndexer.__getitem__\u001b[0;34m(self, key)\u001b[0m\n\u001b[1;32m   1100\u001b[0m axis \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39maxis \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;241m0\u001b[39m\n\u001b[1;32m   1102\u001b[0m maybe_callable \u001b[38;5;241m=\u001b[39m com\u001b[38;5;241m.\u001b[39mapply_if_callable(key, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mobj)\n\u001b[0;32m-> 1103\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_getitem_axis\u001b[49m\u001b[43m(\u001b[49m\u001b[43mmaybe_callable\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43maxis\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43maxis\u001b[49m\u001b[43m)\u001b[49m\n",
+      "File \u001b[0;32m~/miniconda3/envs/marine_environment/lib/python3.8/site-packages/pandas/core/indexing.py:1656\u001b[0m, in \u001b[0;36m_iLocIndexer._getitem_axis\u001b[0;34m(self, key, axis)\u001b[0m\n\u001b[1;32m   1653\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mTypeError\u001b[39;00m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mCannot index by location index with a non-integer key\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n\u001b[1;32m   1655\u001b[0m \u001b[38;5;66;03m# validate the location\u001b[39;00m\n\u001b[0;32m-> 1656\u001b[0m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_validate_integer\u001b[49m\u001b[43m(\u001b[49m\u001b[43mkey\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43maxis\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1658\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mobj\u001b[38;5;241m.\u001b[39m_ixs(key, axis\u001b[38;5;241m=\u001b[39maxis)\n",
+      "File \u001b[0;32m~/miniconda3/envs/marine_environment/lib/python3.8/site-packages/pandas/core/indexing.py:1589\u001b[0m, in \u001b[0;36m_iLocIndexer._validate_integer\u001b[0;34m(self, key, axis)\u001b[0m\n\u001b[1;32m   1587\u001b[0m len_axis \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mlen\u001b[39m(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mobj\u001b[38;5;241m.\u001b[39m_get_axis(axis))\n\u001b[1;32m   1588\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m key \u001b[38;5;241m>\u001b[39m\u001b[38;5;241m=\u001b[39m len_axis \u001b[38;5;129;01mor\u001b[39;00m key \u001b[38;5;241m<\u001b[39m \u001b[38;5;241m-\u001b[39mlen_axis:\n\u001b[0;32m-> 1589\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mIndexError\u001b[39;00m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124msingle positional indexer is out-of-bounds\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n",
+      "\u001b[0;31mIndexError\u001b[0m: single positional indexer is out-of-bounds"
      ]
     }
    ],
@@ -3047,7 +3060,7 @@
     "            \"feature_strand\": \"-\"\n",
     "        }]\n",
     "    },\n",
-    "\n",
+    "    \n",
     "    \"F1R2_pair_test-single_end_mode_sailor\": {\n",
     "        \"folder\": \"strandedness_tests\",\n",
     "        \"expectations\": [{\n",
@@ -3065,7 +3078,6 @@
     "        }]\n",
     "    },\n",
     "\n",
-    "    \n",
     "    \"F1R2_pair_test-single_end_mode\": {\n",
     "        \"folder\": \"strandedness_tests\",\n",
     "        \"expectations\": [{\n",
diff --git a/tests/singlecell_tests/scripts/long_read_sc_test.sh b/tests/singlecell_tests/scripts/long_read_sc_test.sh
index 3bf59c5..ea0be8e 100644
--- a/tests/singlecell_tests/scripts/long_read_sc_test.sh
+++ b/tests/singlecell_tests/scripts/long_read_sc_test.sh
@@ -17,4 +17,5 @@ $MARINE/tests/singlecell_tests/long_read_sc_test \
 --strandedness 2 \
 --barcode_tag "IB" \
 --contigs "6" \
---num_intervals_per_contig 4
\ No newline at end of file
+--num_intervals_per_contig 4 \
+--keep_intermediate_files --verbose
\ No newline at end of file
diff --git a/tests/strandedness_tests/scripts/same_pos_dif_reads_test.sh b/tests/strandedness_tests/scripts/same_pos_dif_reads_test.sh
index e56429e..05e3dfb 100644
--- a/tests/strandedness_tests/scripts/same_pos_dif_reads_test.sh
+++ b/tests/strandedness_tests/scripts/same_pos_dif_reads_test.sh
@@ -17,4 +17,5 @@ $MARINE/tests/strandedness_tests/same_pos_dif_reads_test \
 --strandedness 2 \
 --contigs "chr17" \
 --verbose \
---num_intervals_per_contig 16
\ No newline at end of file
+--num_intervals_per_contig 16 \
+--keep_intermediate_files
\ No newline at end of file

From ad1a6c11963c29bfab0ed6b4979db07a842320f0 Mon Sep 17 00:00:00 2001
From: Eric Kofman <ekofman@tscc-1-1.tscc.sdsc.edu>
Date: Mon, 4 Nov 2024 15:25:23 -0800
Subject: [PATCH 09/12] update test

---
 src/utils.py                                  | 24 ++++++++---
 tests/integration_tests.ipynb                 | 43 +++++++------------
 .../scripts/F1R2_pair_test-single_end_mode.sh |  2 +-
 3 files changed, 35 insertions(+), 34 deletions(-)

diff --git a/src/utils.py b/src/utils.py
index 22d80a2..93eaae3 100644
--- a/src/utils.py
+++ b/src/utils.py
@@ -364,11 +364,6 @@ def get_coverage_df(edit_info, contig, output_folder, barcode_tag='CB', paired_e
                 # Alter from 3_C_AAACCCAAGAACTTCC-1, for example, to 3_AAACCCAAGAACTTCC-1'
                 barcode_specific_contig_split = barcode_specific_contig.split("_")
                 barcode_specific_contig_without_subdivision = "{}_{}".format(barcode_specific_contig_split[0], barcode_specific_contig_split[2])
-
-                if verbose:
-                    #print("contig_bam:", contig_bam)
-                    #print("barcode_specific_contig:", barcode_specific_contig)
-                    print("barcode_specific_contig_without_subdivision:", barcode_specific_contig_without_subdivision)
                     
                 coverage_at_pos = np.sum(samfile_for_barcode.count_coverage(barcode_specific_contig_without_subdivision, 
                                                                             pos-1, 
@@ -380,6 +375,15 @@ def get_coverage_df(edit_info, contig, output_folder, barcode_tag='CB', paired_e
                 coverage_dict['{}:{}'.format(barcode, pos)]['coverage'] = coverage_at_pos
                 coverage_dict['{}:{}'.format(barcode, pos)]['source'] = contig
 
+                if verbose:
+                    #print("contig_bam:", contig_bam)
+                    #print("barcode_specific_contig:", barcode_specific_contig)
+                    print('contig_bam', contig_bam)
+                    print("barcode_specific_contig_split", barcode_specific_contig_split)
+                    print("barcode_specific_contig_without_subdivision:", barcode_specific_contig_without_subdivision)
+                    print('barcode', barcode, 'position', pos)
+                    print(coverage_dict['{}:{}'.format(barcode, pos)])
+                    
             # For bulk, no barcodes, we will just have for example 19_no_barcode to convert to 19 to get coverage at that chrom
             else:  
                 just_contig = contig.split('_')[0]
@@ -428,13 +432,21 @@ def get_coverage_wrapper(parameters):
     coverage_df = get_coverage_df(edit_info, contig, output_folder, barcode_tag=barcode_tag, 
                                   paired_end=paired_end, verbose=verbose)
 
+    if verbose:
+        if not coverage_df.empty:
+            print('coverage_df', coverage_df)
+        
     # Combine edit information with coverage information
     edit_info_and_coverage_joined = edit_info_df.join(coverage_df, how='inner')
     edit_info_and_coverage_joined['position_barcode'] = edit_info_and_coverage_joined['position'].astype(str) + '_' + edit_info_and_coverage_joined['barcode'].astype(str)
 
+    if verbose:
+        if not edit_info_and_coverage_joined.empty:
+            print('edit_info_and_coverage_joined', edit_info_and_coverage_joined)
+
     edit_info_and_coverage_joined = edit_info_and_coverage_joined.drop_duplicates()
     
-    edit_info_and_coverage_joined.to_csv(output_filename, sep='\t', header=False)
+    edit_info_and_coverage_joined.to_csv(output_filename, sep='\t')
 
     assert(os.path.exists(output_filename))
     return output_filename
diff --git a/tests/integration_tests.ipynb b/tests/integration_tests.ipynb
index 0a95174..b35b9c6 100644
--- a/tests/integration_tests.ipynb
+++ b/tests/integration_tests.ipynb
@@ -2,7 +2,7 @@
  "cells": [
   {
    "cell_type": "code",
-   "execution_count": 1,
+   "execution_count": 2,
    "id": "9f2684b1-dbad-45d5-bdb5-b83989bec7dc",
    "metadata": {},
    "outputs": [],
@@ -12,7 +12,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 2,
+   "execution_count": 3,
    "id": "63b5feff-aa8a-417c-8c93-9b9d74e5dee9",
    "metadata": {},
    "outputs": [],
@@ -23,7 +23,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 3,
+   "execution_count": 4,
    "id": "f6012705-9d34-4997-8681-c7bbcc4f008b",
    "metadata": {},
    "outputs": [],
@@ -2908,9 +2908,8 @@
       "~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\n",
       "Checking results for pair_test\n",
       "\tExpecting: {'contig': '18', 'position': 49491556, 'count': 2, 'coverage': 2, 'num_rows': 1, 'strand_conversion': 'C>T', 'strand': '-', 'feature_name': 'RPL17-C18orf32,RPL17', 'feature_strand': '-,-'}\n",
-      "Exception: count was 1\n",
       "\n",
-      "\t ~~~ pair_test FAILED! ~~~\n",
+      "\t >>> pair_test passed! <<<\n",
       "\n",
       "\tExpecting: {'contig': '18', 'position': 49567494, 'count': 2, 'coverage': 2, 'num_rows': 1, 'strand_conversion': 'C>T', 'strand': '+', 'feature_name': 'LIPG', 'feature_strand': '+'}\n",
       "\n",
@@ -2979,28 +2978,18 @@
       "~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\n",
       "Checking results for long_read_sc_test\n",
       "\tExpecting: {'contig': '6', 'barcode': 'ENSMUST00000203816-AACGTGTTGGAGAGGG-16-G', 'position': 115807969, 'num_rows': 1, 'count': 1, 'coverage': 1, 'conversion': 'A>C', 'strand_conversion': 'T>G', 'strand': '-', 'feature_name': 'Rpl32'}\n",
-      "Num rows expected: 1, was 0\n"
-     ]
-    },
-    {
-     "ename": "IndexError",
-     "evalue": "single positional indexer is out-of-bounds",
-     "output_type": "error",
-     "traceback": [
-      "\u001b[0;31m---------------------------------------------------------------------------\u001b[0m",
-      "\u001b[0;31mIndexError\u001b[0m                                Traceback (most recent call last)",
-      "Cell \u001b[0;32mIn[8], line 249\u001b[0m\n\u001b[1;32m    248\u001b[0m \u001b[38;5;28;01mtry\u001b[39;00m:\n\u001b[0;32m--> 249\u001b[0m     \u001b[38;5;28;01massert\u001b[39;00m(\u001b[43mrow_of_interest\u001b[49m\u001b[43m[\u001b[49m\u001b[43mattribute\u001b[49m\u001b[43m]\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43miloc\u001b[49m\u001b[43m[\u001b[49m\u001b[38;5;241;43m0\u001b[39;49m\u001b[43m]\u001b[49m \u001b[38;5;241m==\u001b[39m attribute_expectation)\n\u001b[1;32m    250\u001b[0m \u001b[38;5;28;01mexcept\u001b[39;00m \u001b[38;5;167;01mException\u001b[39;00m \u001b[38;5;28;01mas\u001b[39;00m e:\n",
-      "File \u001b[0;32m~/miniconda3/envs/marine_environment/lib/python3.8/site-packages/pandas/core/indexing.py:1103\u001b[0m, in \u001b[0;36m_LocationIndexer.__getitem__\u001b[0;34m(self, key)\u001b[0m\n\u001b[1;32m   1102\u001b[0m maybe_callable \u001b[38;5;241m=\u001b[39m com\u001b[38;5;241m.\u001b[39mapply_if_callable(key, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mobj)\n\u001b[0;32m-> 1103\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_getitem_axis\u001b[49m\u001b[43m(\u001b[49m\u001b[43mmaybe_callable\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43maxis\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43maxis\u001b[49m\u001b[43m)\u001b[49m\n",
-      "File \u001b[0;32m~/miniconda3/envs/marine_environment/lib/python3.8/site-packages/pandas/core/indexing.py:1656\u001b[0m, in \u001b[0;36m_iLocIndexer._getitem_axis\u001b[0;34m(self, key, axis)\u001b[0m\n\u001b[1;32m   1655\u001b[0m \u001b[38;5;66;03m# validate the location\u001b[39;00m\n\u001b[0;32m-> 1656\u001b[0m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_validate_integer\u001b[49m\u001b[43m(\u001b[49m\u001b[43mkey\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43maxis\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1658\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mobj\u001b[38;5;241m.\u001b[39m_ixs(key, axis\u001b[38;5;241m=\u001b[39maxis)\n",
-      "File \u001b[0;32m~/miniconda3/envs/marine_environment/lib/python3.8/site-packages/pandas/core/indexing.py:1589\u001b[0m, in \u001b[0;36m_iLocIndexer._validate_integer\u001b[0;34m(self, key, axis)\u001b[0m\n\u001b[1;32m   1588\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m key \u001b[38;5;241m>\u001b[39m\u001b[38;5;241m=\u001b[39m len_axis \u001b[38;5;129;01mor\u001b[39;00m key \u001b[38;5;241m<\u001b[39m \u001b[38;5;241m-\u001b[39mlen_axis:\n\u001b[0;32m-> 1589\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mIndexError\u001b[39;00m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124msingle positional indexer is out-of-bounds\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n",
-      "\u001b[0;31mIndexError\u001b[0m: single positional indexer is out-of-bounds",
-      "\nDuring handling of the above exception, another exception occurred:\n",
-      "\u001b[0;31mIndexError\u001b[0m                                Traceback (most recent call last)",
-      "Cell \u001b[0;32mIn[8], line 251\u001b[0m\n\u001b[1;32m    249\u001b[0m             \u001b[38;5;28;01massert\u001b[39;00m(row_of_interest[attribute]\u001b[38;5;241m.\u001b[39miloc[\u001b[38;5;241m0\u001b[39m] \u001b[38;5;241m==\u001b[39m attribute_expectation)\n\u001b[1;32m    250\u001b[0m         \u001b[38;5;28;01mexcept\u001b[39;00m \u001b[38;5;167;01mException\u001b[39;00m \u001b[38;5;28;01mas\u001b[39;00m e:\n\u001b[0;32m--> 251\u001b[0m             \u001b[38;5;28mprint\u001b[39m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mException: \u001b[39m\u001b[38;5;132;01m{}\u001b[39;00m\u001b[38;5;124m was \u001b[39m\u001b[38;5;132;01m{}\u001b[39;00m\u001b[38;5;124m\"\u001b[39m\u001b[38;5;241m.\u001b[39mformat(attribute, \u001b[43mrow_of_interest\u001b[49m\u001b[43m[\u001b[49m\u001b[43mattribute\u001b[49m\u001b[43m]\u001b[49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43miloc\u001b[49m\u001b[43m[\u001b[49m\u001b[38;5;241;43m0\u001b[39;49m\u001b[43m]\u001b[49m))\n\u001b[1;32m    252\u001b[0m             failure \u001b[38;5;241m=\u001b[39m \u001b[38;5;28;01mTrue\u001b[39;00m\n\u001b[1;32m    253\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m \u001b[38;5;129;01mnot\u001b[39;00m failure:\n",
-      "File \u001b[0;32m~/miniconda3/envs/marine_environment/lib/python3.8/site-packages/pandas/core/indexing.py:1103\u001b[0m, in \u001b[0;36m_LocationIndexer.__getitem__\u001b[0;34m(self, key)\u001b[0m\n\u001b[1;32m   1100\u001b[0m axis \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39maxis \u001b[38;5;129;01mor\u001b[39;00m \u001b[38;5;241m0\u001b[39m\n\u001b[1;32m   1102\u001b[0m maybe_callable \u001b[38;5;241m=\u001b[39m com\u001b[38;5;241m.\u001b[39mapply_if_callable(key, \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mobj)\n\u001b[0;32m-> 1103\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_getitem_axis\u001b[49m\u001b[43m(\u001b[49m\u001b[43mmaybe_callable\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43maxis\u001b[49m\u001b[38;5;241;43m=\u001b[39;49m\u001b[43maxis\u001b[49m\u001b[43m)\u001b[49m\n",
-      "File \u001b[0;32m~/miniconda3/envs/marine_environment/lib/python3.8/site-packages/pandas/core/indexing.py:1656\u001b[0m, in \u001b[0;36m_iLocIndexer._getitem_axis\u001b[0;34m(self, key, axis)\u001b[0m\n\u001b[1;32m   1653\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mTypeError\u001b[39;00m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124mCannot index by location index with a non-integer key\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n\u001b[1;32m   1655\u001b[0m \u001b[38;5;66;03m# validate the location\u001b[39;00m\n\u001b[0;32m-> 1656\u001b[0m \u001b[38;5;28;43mself\u001b[39;49m\u001b[38;5;241;43m.\u001b[39;49m\u001b[43m_validate_integer\u001b[49m\u001b[43m(\u001b[49m\u001b[43mkey\u001b[49m\u001b[43m,\u001b[49m\u001b[43m \u001b[49m\u001b[43maxis\u001b[49m\u001b[43m)\u001b[49m\n\u001b[1;32m   1658\u001b[0m \u001b[38;5;28;01mreturn\u001b[39;00m \u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mobj\u001b[38;5;241m.\u001b[39m_ixs(key, axis\u001b[38;5;241m=\u001b[39maxis)\n",
-      "File \u001b[0;32m~/miniconda3/envs/marine_environment/lib/python3.8/site-packages/pandas/core/indexing.py:1589\u001b[0m, in \u001b[0;36m_iLocIndexer._validate_integer\u001b[0;34m(self, key, axis)\u001b[0m\n\u001b[1;32m   1587\u001b[0m len_axis \u001b[38;5;241m=\u001b[39m \u001b[38;5;28mlen\u001b[39m(\u001b[38;5;28mself\u001b[39m\u001b[38;5;241m.\u001b[39mobj\u001b[38;5;241m.\u001b[39m_get_axis(axis))\n\u001b[1;32m   1588\u001b[0m \u001b[38;5;28;01mif\u001b[39;00m key \u001b[38;5;241m>\u001b[39m\u001b[38;5;241m=\u001b[39m len_axis \u001b[38;5;129;01mor\u001b[39;00m key \u001b[38;5;241m<\u001b[39m \u001b[38;5;241m-\u001b[39mlen_axis:\n\u001b[0;32m-> 1589\u001b[0m     \u001b[38;5;28;01mraise\u001b[39;00m \u001b[38;5;167;01mIndexError\u001b[39;00m(\u001b[38;5;124m\"\u001b[39m\u001b[38;5;124msingle positional indexer is out-of-bounds\u001b[39m\u001b[38;5;124m\"\u001b[39m)\n",
-      "\u001b[0;31mIndexError\u001b[0m: single positional indexer is out-of-bounds"
+      "\n",
+      "\t >>> long_read_sc_test passed! <<<\n",
+      "\n",
+      "\tExpecting: {'contig': '6', 'barcode': 'ENSMUST00000081840-AAGTCGTACCAGGCTC-40-C', 'position': 115805653, 'num_rows': 1, 'count': 1, 'coverage': 1, 'conversion': 'G>A', 'strand_conversion': 'C>T', 'strand': '-', 'feature_name': 'Rpl32'}\n",
+      "\n",
+      "\t >>> long_read_sc_test passed! <<<\n",
+      "\n",
+      "\tExpecting: {'contig': '6', 'barcode': 'ENSMUST00000081840-AACGTGTTGGAGAGGG-40-G', 'position': 115807015, 'num_rows': 1, 'count': 1, 'coverage': 8, 'conversion': 'C>T', 'strand_conversion': 'G>A', 'strand': '-', 'feature_name': 'Rpl32'}\n",
+      "\n",
+      "\t >>> long_read_sc_test passed! <<<\n",
+      "\n",
+      "There were 2 failures\n"
      ]
     }
    ],
diff --git a/tests/strandedness_tests/scripts/F1R2_pair_test-single_end_mode.sh b/tests/strandedness_tests/scripts/F1R2_pair_test-single_end_mode.sh
index d743985..6bada94 100644
--- a/tests/strandedness_tests/scripts/F1R2_pair_test-single_end_mode.sh
+++ b/tests/strandedness_tests/scripts/F1R2_pair_test-single_end_mode.sh
@@ -18,4 +18,4 @@ $MARINE/tests/strandedness_tests/F1R2_pair_test-single_end_mode \
 --contigs "chr17" \
 --sailor \
 --verbose \
---num_intervals_per_contig 16
\ No newline at end of file
+--num_intervals_per_contig 16 --keep_intermediate_files
\ No newline at end of file

From 206b8f495e576e5477374e546de92101477813fe Mon Sep 17 00:00:00 2001
From: Eric Kofman <ekofman@tscc-1-1.tscc.sdsc.edu>
Date: Mon, 4 Nov 2024 18:52:11 -0800
Subject: [PATCH 10/12] fix failing tests

---
 marine.py | 27 +++++++++++++++++++++------
 1 file changed, 21 insertions(+), 6 deletions(-)

diff --git a/marine.py b/marine.py
index fba957c..3dfc620 100755
--- a/marine.py
+++ b/marine.py
@@ -18,6 +18,7 @@
 import tracemalloc
 from matplotlib import pyplot as plt
 import math
+import shlex
 
 sys.path.append(os.path.join(os.path.dirname(os.path.realpath(__file__)), 'src/'))
 
@@ -63,7 +64,7 @@ def zero_edit_found(final_site_level_information_df, output_folder, sailor_list,
             empty_df.to_csv('{}/{}_{}.bedgraph'.format(bedgraph_folder, output_folder.split('/')[-1], conversion), sep='\t', index=False, header=False)
             
     current, peak = tracemalloc.get_traced_memory()
-
+    
     with open('{}/manifest.txt'.format(logging_folder), 'a+') as f:
         f.write(f'sites\t{len(final_site_level_information_df)}\n') 
         f.write(f'peak_memory_mb\t{peak/1e6}\n') 
@@ -339,7 +340,7 @@ def generate_and_run_bash_merge(output_folder, file1_path, file2_path, output_fi
     awk -v OFS='\\t' '{{print $1, $2-1, $3}}' "{file2_path}" > {output_folder}/depth_modified.tsv
 
     # Step 2: Sort the first file numerically by the join column (third column in final_edits)
-    sort -k3,3n "{file1_path}" > {output_folder}/final_edit_info_no_coverage_sorted.tsv
+    sort -k3,3n "{file1_path}" | uniq > {output_folder}/final_edit_info_no_coverage_sorted.tsv
 
     # Step 3: Join the files on the specified columns, output all columns, and select necessary columns with tab separation
 join -1 3 -2 2 -t $'\\t' {output_folder}/final_edit_info_no_coverage_sorted.tsv {output_folder}/depth_modified.tsv | awk -v OFS='\\t' '{{print $2, $3, $1, $4, $5, $6, $7, $9}}' > "{output_file_path}"
@@ -440,9 +441,8 @@ def run(bam_filepath, annotation_bedfile_path, output_folder, contigs=[], num_in
 
     
     logging_folder = "{}/metadata".format(output_folder)
-    make_folder(logging_folder)
 
-    with open('{}/manifest.txt'.format(logging_folder), 'w') as f:
+    with open('{}/manifest.txt'.format(logging_folder), 'a+') as f:
         f.write('bam_filepath\t{}\n'.format(bam_filepath)) 
         f.write('annotation_bedfile_path\t{}\n'.format(annotation_bedfile_path))
         f.write('output_folder\t{}\n'.format(output_folder))  
@@ -686,6 +686,7 @@ def run(bam_filepath, annotation_bedfile_path, output_folder, contigs=[], num_in
     # Check memory usage
     current, peak = tracemalloc.get_traced_memory()
 
+    logging_folder = "{}/metadata".format(output_folder)
     with open('{}/manifest.txt'.format(logging_folder), 'a+') as f:
         f.write(f'sites\t{len(final_site_level_information_df)}\n') 
         f.write(f'peak_memory_mb\t{peak/1e6}\n') 
@@ -780,7 +781,8 @@ def check_samtools():
     num_intervals_per_contig = args.num_intervals_per_contig
 
     num_per_sublist = args.num_per_sublist
-    
+
+
     # Convert bedgraphs argument into list of conversions
     if not bedgraphs is None:
         if barcode_tag in ['CB', 'IB']:
@@ -809,7 +811,20 @@ def check_samtools():
     if not os.path.exists(output_folder):
         pretty_print("{} (output folder) does not exist, making folder...".format(output_folder))
         os.mkdir(output_folder)
-        
+
+    
+    # Get the exact command line used to run this script
+    command_line = " ".join(shlex.quote(arg) for arg in sys.argv)
+    print('command: {}'.format(command_line))
+    # Define the path to your manifest file
+    manifest_file = "manifest.txt"
+    # Save the command to the manifest file
+    logging_folder = "{}/metadata".format(output_folder)
+    make_folder(logging_folder)
+    with open('{}/manifest.txt'.format(logging_folder), 'a+') as f:
+        f.write(f"command {command_line}\n")
+
+
     if cores is None:
         cores = 16
     pretty_print("Assuming {} cores available for multiprocessing. Set this to the number of available cores for optimal execution.".format(cores))

From 53803ae824ed28d957af12dab157ae2a5f7384f1 Mon Sep 17 00:00:00 2001
From: Eric Kofman <ekofman@tscc-1-1.tscc.sdsc.edu>
Date: Mon, 4 Nov 2024 19:15:59 -0800
Subject: [PATCH 11/12] test update

---
 tests/integration_tests_auto_check.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/tests/integration_tests_auto_check.py b/tests/integration_tests_auto_check.py
index 045c736..c6eb06e 100755
--- a/tests/integration_tests_auto_check.py
+++ b/tests/integration_tests_auto_check.py
@@ -212,6 +212,9 @@
 
 failures = 0
 for test_name, info in test_name_to_expectations.items():
+    if test_name != 'F1R2_pair_test-single_end_mode_sailor':
+        continue
+        
     print("\n~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~\nChecking results for {}".format(test_name))
     
     expectations_list = info.get("expectations")

From f548f2094a27a431fac02922fbc315a778e312f2 Mon Sep 17 00:00:00 2001
From: Eric Kofman <ericrkofman@gmail.com>
Date: Mon, 4 Nov 2024 21:15:28 -0800
Subject: [PATCH 12/12] Update marine_environment2.yaml

---
 marine_environment2.yaml | 1 +
 1 file changed, 1 insertion(+)

diff --git a/marine_environment2.yaml b/marine_environment2.yaml
index 0e4315f..406e327 100644
--- a/marine_environment2.yaml
+++ b/marine_environment2.yaml
@@ -228,6 +228,7 @@ dependencies:
   - rfc3339-validator=0.1.4=py38h06a4308_0
   - rfc3986-validator=0.1.1=py38h06a4308_0
   - rpds-py=0.10.6=py38hb02cf49_0
+  - samtools
   - scanpy=1.9.6=pyhd8ed1ab_1
   - scikit-learn=1.3.2=py38ha25d942_2
   - scipy=1.10.1=py38hf6e8229_1