select_diff_regions.Rmd

---
title: "select_diff_regions"
output: html_document
---

```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
dyn.load("/home/rstudio/libs/libxml2.so.2")
library(dplyr)
library(BSgenome)
library(BSgenome.Mmusculus.UCSC.mm10)
library(GenomicRanges)
dyn.load("/home/rstudio/libs/libgsl.so.25")
dyn.load("/home/rstudio/libs/libgslcblas.so.0")
library(TFBSTools)
library(tibble)
library(Biostrings)
library(rtracklayer)
```

Set significance parameters:

```{r, include=T}
fdr.matches = 0.05

# Joaquina's parameters for choosing significantly regulated regions
# fdr = 0.01
# min.l2fc = 2 # Min log2(fold change)
# min.baseMean = 100

# fdr = 0.01
# min.l2fc = 2 # Min log2(fold change)
# min.baseMean = 80

# fdr = 0.01
# min.l2fc = 2 # Min log2(fold change)
# min.baseMean = 60

# fdr = 0.01
# min.l2fc = 2 # Min log2(fold change)
# min.baseMean = 40

# fdr = 0.01
# min.l2fc = 2 # Min log2(fold change)
# min.baseMean = 20

# fdr = 0.01
# min.l2fc = 1.5 # Min log2(fold change)
# min.baseMean = 20

# fdr = 0.01
# min.l2fc = 1 # Min log2(fold change)
# min.baseMean = 20

# fdr = 0.01
# min.l2fc = 0.5 # Min log2(fold change)
# min.baseMean = 20

# fdr = 0.02
# min.l2fc = 0.5 # Min log2(fold change)
# min.baseMean = 20

# fdr = 0.03
# min.l2fc = 0.5 # Min log2(fold change)
# min.baseMean = 20

# fdr = 0.04
# min.l2fc = 0.5 # Min log2(fold change)
# min.baseMean = 20

fdr = 0.05
min.l2fc = 0.5 # Min log2(fold change)
min.baseMean = 20

# ---

# fdr = 0.01
# min.l2fc = 2 # Min log2(fold change)
# min.baseMean = 0

# fdr = 0.01
# min.l2fc = 0 # Min log2(fold change)
# min.baseMean = 0

# fdr = 0.05
# min.l2fc = 0 # Min log2(fold change)
# min.baseMean = 0
```

Define a general function for generating ranges of NFIA-dependent regions:

```{r, include=T}
select.dep.regions = function(p.11.7.dep, count.table) {
  dep.annot = count.table %>%
    dplyr::select(Geneid,
                  Chr,
                  Start,
                  End,
                  Strand) %>%
    filter(Geneid %in% p.11.7.dep)

  return(GRanges(seqnames = dep.annot$Chr,
                 ranges = IRanges(start = dep.annot$Start,
                                  end = dep.annot$End,
                                  names = dep.annot$Geneid),
                 strand = strand(dep.annot$Strand)))
}
```

Define a general function for scanning NFIA-dependent regions:

```{r, include=T}
scan.tf.motif = function(domain.name, p.nfia.hm.pwm, p.da.seq, strand, min.score, sites.filename) {
  p.nfia.hm.sites = searchSeq(p.nfia.hm.pwm,
                              p.da.seq,
                              strand = strand,
                              min.score = min.score)

  p.nfia.hm.sites.df = writeGFF3(p.nfia.hm.sites) %>%
    dplyr::select(-source,
                  -feature,
                  -frame,
                  -attributes) %>%
    mutate(pvalue = unlist(pvalues(p.nfia.hm.sites, type = "sampling"))) %>%
    mutate(padj = p.adjust(pvalue, method = "BH")) %>%
    filter(padj < fdr.matches)
  
  saveRDS(p.nfia.hm.sites.df, file = sites.filename)
  
  p.matched.regions = unique(p.nfia.hm.sites.df$seqname)
  
  cat("\n")
  
  cat(paste0(domain.name, ":\n"))
  
  cat(paste0("Number of all NFIA-dependent regions    : ", length(p.da.seq), "\n"))
  
  cat(paste0("Number of matched NFIA-dependent regions: ", length(p.matched.regions), 
             " (", round(length(p.matched.regions) / length(p.da.seq), 2) * 100, "%)",  "\n"))
  
  cat(paste0("Number of NFIA motif matches            : ", nrow(p.nfia.hm.sites.df)))
  
  return(p.matched.regions)
}
```

## Select NFIA-dependent regions to scan

Select NFIA-dependent regions in each domain:

```{r, include=T}
p1.11.7.dep = readRDS(paste0("../r_results/diff_accessibility/tables/p1_D11_vs_D7_dep", 
                             "_fdr", fdr, "_min-l2fc", min.l2fc, "_min-baseMean", min.baseMean, ".rds"))

p2.11.7.dep = readRDS(paste0("../r_results/diff_accessibility/tables/p2_D11_vs_D7_dep", 
                             "_fdr", fdr, "_min-l2fc", min.l2fc, "_min-baseMean", min.baseMean, ".rds"))

pM.11.7.dep = readRDS(paste0("../r_results/diff_accessibility/tables/pM_D11_vs_D7_dep", 
                             "_fdr", fdr, "_min-l2fc", min.l2fc, "_min-baseMean", min.baseMean, ".rds"))

p1 = read.delim("../results/select_samples/featureCounts_WT_D7_p1_vs_WT_D11_p1.tsv") %>%
  dplyr::select(-X)

names(p1) = gsub(pattern = ".mLb.clN.bam", replacement = "", x = names(p1))

p2 = read.delim("../results/select_samples/featureCounts_WT_D7_p2_vs_WT_D11_p2.tsv") %>%
  dplyr::select(-X)

names(p2) = gsub(pattern = ".mLb.clN.bam", replacement = "", x = names(p2))

pM = read.delim("../results/select_samples/featureCounts_WT_D7_pM_vs_WT_D11_pM.tsv") %>%
  dplyr::select(-X)

names(pM) = gsub(pattern = ".mLb.clN.bam", replacement = "", x = names(pM))

p1.dep.ranges = select.dep.regions(p1.11.7.dep, p1)

export(p1.dep.ranges,
       paste0("../r_results/select_diff_regions/p1_dep_ranges", 
              "_fdr", fdr, "_min-l2fc", min.l2fc, "_min-baseMean", min.baseMean,
              ".bed"))

p2.dep.ranges = select.dep.regions(p2.11.7.dep, p2)

export(p2.dep.ranges,
       paste0("../r_results/select_diff_regions/p2_dep_ranges", 
              "_fdr", fdr, "_min-l2fc", min.l2fc, "_min-baseMean", min.baseMean,
              ".bed"))

pM.dep.ranges = select.dep.regions(pM.11.7.dep, pM)

export(pM.dep.ranges,
       paste0("../r_results/select_diff_regions/pM_dep_ranges", 
              "_fdr", fdr, "_min-l2fc", min.l2fc, "_min-baseMean", min.baseMean,
              ".bed"))
```

## Scan NFIA-dependent regions for the NFIA motif

Obtain the sequences of NFIA-dependent regions per domain:

```{r, include=T}
mm10.genome = BSgenome.Mmusculus.UCSC.mm10

p1.da.seq = getSeq(mm10.genome, p1.dep.ranges)

p2.da.seq = getSeq(mm10.genome, p2.dep.ranges)

pM.da.seq = getSeq(mm10.genome, pM.dep.ranges)
```

Prepare background nucleotide frequencies in NFIA-dependent regions in each domain:

```{r, include=T}
p1.nc.freq = letterFrequency(p1.da.seq, letters = c("A", "C", "G", "T"))

p1.background = colSums(p1.nc.freq) / sum(p1.nc.freq)

p2.nc.freq = letterFrequency(p2.da.seq, letters = c("A", "C", "G", "T"))

p2.background = colSums(p2.nc.freq) / sum(p2.nc.freq)

pM.nc.freq = letterFrequency(pM.da.seq, letters = c("A", "C", "G", "T"))

pM.background = colSums(pM.nc.freq) / sum(pM.nc.freq)
```

Prepare NFIA motifs to scan:

```{r, include=T}
nfia.hm.pwm.raw = read.delim("../input/NFIA_HUMAN.H11MO.0.C.pwm", 
                             header = F,
                             skip = 1)

names(nfia.hm.pwm.raw) = c("A", "C", "G", "T")

nfia.profile.matrix = t(nfia.hm.pwm.raw)

p1.nfia.hm.pwm = PWMatrix(ID = "NFIA",
                          name = "NFIA",
                          profileMatrix = nfia.profile.matrix,
                          bg = p1.background)

p2.nfia.hm.pwm = PWMatrix(ID = "NFIA",
                          name = "NFIA",
                          profileMatrix = nfia.profile.matrix,
                          bg = p2.background)

pM.nfia.hm.pwm = PWMatrix(ID = "NFIA",
                          name = "NFIA",
                          profileMatrix = nfia.profile.matrix,
                          bg = pM.background)
```

Scan NFIA-dependent regions in each domain for the NFIA binding motif from HOCOMOCO. Scan only one strand, as the NFIA motif from HOCOMOCO is palindromic, and we do not expect a strand bias in its matches. Indeed, for p1, I scanned both the "+" and the "-" strand, and the numbers of matched NFIA-dependent regions were almost identical.

```{r, include=T}
p1.matched.regions = scan.tf.motif(domain.name = "p1", 
                                   p.nfia.hm.pwm = p1.nfia.hm.pwm, 
                                   p.da.seq = p1.da.seq, 
                                   strand = "+", 
                                   min.score = "80%", 
                                   sites.filename = paste0("../r_results/select_diff_regions/", 
                                                           "p1_nfia_hm_sites_plus-strand_80pc_match-fdr_", fdr.matches, 
                                                           "_in-regions-of_fdr", fdr, "_min-l2fc", min.l2fc, "_min-baseMean", min.baseMean, ".rds"))

p2.matched.regions = scan.tf.motif(domain.name = "p2", 
                                   p.nfia.hm.pwm = p2.nfia.hm.pwm, 
                                   p.da.seq = p2.da.seq, 
                                   strand = "+", 
                                   min.score = "80%", 
                                   sites.filename = paste0("../r_results/select_diff_regions/", 
                                                           "p2_nfia_hm_sites_plus-strand_80pc_match-fdr_", fdr.matches, 
                                                           "_in-regions-of_fdr", fdr, "_min-l2fc", min.l2fc, "_min-baseMean", min.baseMean, ".rds"))

pM.matched.regions = scan.tf.motif(domain.name = "pM", 
                                   p.nfia.hm.pwm = pM.nfia.hm.pwm, 
                                   p.da.seq = pM.da.seq, 
                                   strand = "+", 
                                   min.score = "80%", 
                                   sites.filename = paste0("../r_results/select_diff_regions/", 
                                                           "pM_nfia_hm_sites_plus-strand_80pc_match-fdr_", fdr.matches, 
                                                           "_in-regions-of_fdr", fdr, "_min-l2fc", min.l2fc, "_min-baseMean", min.baseMean, ".rds"))
```

Select NFIA-dependent regions with NFIA matches:

```{r, include=T}
p1.dep.nfia.ranges = p1.dep.ranges[p1.dep.ranges@ranges@NAMES %in% p1.matched.regions]

p1.dep.nfia.ranges.filename = paste0("../r_results/select_diff_regions/", 
                                     "p1_dep_nfia_ranges_with_sites_plus-strand_80pc_match-fdr_", fdr.matches, 
                                     "_in-regions-of_fdr", fdr, "_min-l2fc", min.l2fc, "_min-baseMean", min.baseMean)

saveRDS(p1.dep.nfia.ranges, 
        file = paste0(p1.dep.nfia.ranges.filename, ".rds"))

export(p1.dep.nfia.ranges,
       paste0(p1.dep.nfia.ranges.filename, ".bed"))

p2.dep.nfia.ranges = p2.dep.ranges[p2.dep.ranges@ranges@NAMES %in% p2.matched.regions]

p2.dep.nfia.ranges.filename = paste0("../r_results/select_diff_regions/", 
                                     "p2_dep_nfia_ranges_with_sites_plus-strand_80pc_match-fdr_", fdr.matches, 
                                     "_in-regions-of_fdr", fdr, "_min-l2fc", min.l2fc, "_min-baseMean", min.baseMean)

saveRDS(p2.dep.nfia.ranges, 
        file = paste0(p2.dep.nfia.ranges.filename, ".rds"))

export(p2.dep.nfia.ranges,
       paste0(p2.dep.nfia.ranges.filename, ".bed"))

pM.dep.nfia.ranges = pM.dep.ranges[pM.dep.ranges@ranges@NAMES %in% pM.matched.regions]

pM.dep.nfia.ranges.filename = paste0("../r_results/select_diff_regions/", 
                                     "pM_dep_nfia_ranges_with_sites_plus-strand_80pc_match-fdr_", fdr.matches, 
                                     "_in-regions-of_fdr", fdr, "_min-l2fc", min.l2fc, "_min-baseMean", min.baseMean)

saveRDS(pM.dep.nfia.ranges, 
        file = paste0(pM.dep.nfia.ranges.filename, ".rds"))

export(pM.dep.nfia.ranges,
       paste0(pM.dep.nfia.ranges.filename, ".bed"))
```