Differences

This shows you the differences between two versions of the page.

--- blastocystis_orf160 [2025/07/11 12:12] – [Ideas to explore] 134.190.145.228
+++ blastocystis_orf160 [2025/11/10 15:20] (current) – [Little to no expression of orf160 in regular and riboZeroPlus RNAseq data of ST7C] 134.190.191.148
@@ Line 314: / Line 314: @@
 However, since the sequences don't even align that well, I'm not even sure where the true RPS4 gene starts and end in Blastocystis and Proteromonas mtDNA.
+==== Little to no expression of orf160 in regular and riboZeroPlus RNAseq data of ST7C ====
+To see whether the mysterious //orf160// is actually expressed, I inspected the regular RNAseq, that is, mRNA sequencing via oligo-dT primers/probes, by mapping it on the ST7C genome, that included the MRO genome.
+Here is the visual overview:
+{{:overall_mro_expression_on_regularrnaseq.png|}}
+You can see some RNAseq reads overlapping with ORF160 on its 5' end, and in the proper direction too. However, these may be reads coming from the immediately upstream gene //nad7// (in the IGV figure wrongly annotated as //ndhH//)
+Since a regular, polyA capturing RNAseq does by its nature not capture mitochondrial transcripts, which are not believed to be poly-adenylated, this lack in expression may come from a pure lack of captured mitochondrial transcripts in the experimental design.
+I therefore tried to resequence the same RNA sample using a different kit, the riboZeroPlus kit. This kit uses a set of custom designed probes to remove rRNA transcripts from the total RNA extract prior to library prep and sequencing.
+I used the following probes:
+<code>
+- 18S rRNA probes (one per line):
+TTTCATAAACAAACCAAAAAATCGACTATGAAAGCCAATCTTATTATTCC
+CAAACACTTTCAATAAATTATCTAAACTTCAACTACGAGCTTTTTAACTG
+TTATCCATATAGAAACTATTCCAAATAAACTATAACTGATATAATGAGCC
+CTAACAAGCATGCGATAAAGTCAACAATTATTATTACTCACAATTCAATT
+TAGCTTTCGTTCTTGATTAATGAAAACATCCTTGGTAAATGCTTTCGCAC
+CAGATACTCGTTGAATAGTTCAGTGTCGCGCGCGTGCAGCCCAGAACATC
+CTAAAACTATTTAGACTTACACATGCATGGCTTAATCTTTGAGACGAGCG
+CCATGGTAGTCCAATACACTACCATCGAAAGCTGATAGGGCAGAAACTTG
+GAAAAATTACAAGCATCAATCCCCATCACGAACTATTTTCAAAAGATTTC
+AAATCATAGAATTTCACCTCTAGCTATTGAATATGAATACCCCCAACTGT
+TCACCTTCCTCTAGATGATAAGATTTACACGACTTCTCTTCAACTATCTA
+ATAAGTACTTCTTTAATGGTTGCCCATCAAAGAAAACACATGTATTAGCC
+ACTAACTCCTAGTCGGTATCGTTTATAGCTAAGACTACGAGGGTATCTAA
+CTATCAATCTGTCAATCCTTCCTATGTCTGGACCTGGTAAGTTTCCCCGT
+TCCTTGCGGAACCATGGCACCCACCTGGATGTCGATAACTTACATAAAAG
+GATTTATTGTCACTACCTCCCTGTGTCAGGATTGGGTAATTTACGCGCCT
+ATAATTAAAAATCCAAAGTGTTCACCGGATCATCCAATCGGTAGGTGCGA
+AAGGGCAGGGACGTAATCAACGCAAGTTGATGACTTGCATTTACTAGGAA
+CCTGTTATTGCTTCCAGCTTCCCCGTACTCAAACGCACAGTGTCCCTCTA
+ACAATGGGGCATTACTAAAATCCCATTTCATCCAACTAATAGGCGGAAGT
+AACTGAACAGTCCGCTTTAAACACTCTAATTTTCTCACAGTAAATGACCA
+TGTGGTAGCCATCTCTCAGGCTCCCTCTCCGAAATCGAACCCAAATTCTT
+ACTCCCCCCGGAACCCAAAGACTTTGATTTCTCATAAGGTACTAATAGAC
+TTGTTTATCGATAACGATTGTACATTGTTCTCAATTCAATTACAAAACCA
+- 28S rRNA probes (one per line)
+CTAACAATGTCTCCCACGTGGGTTGCAACTCGAGAGAGAAGCTTACACAT
+AGCCTTTGATGGAGTTTACCACCAACTTCGAGCTGCAATCCCAAACAACT
+AAGCCATCACCCCATATTATGGAATAAGTAAAACAACATTAGAGGTAGTG
+TCCATGCATCATTCAACCACTCCTACGCTTAACCCCTCCACGATTTCAAG
+ATTCAAAATATTGAATTCCTTTACCAATAACAAAACCTTTTCGCGGATTC
+GTCGTCTACAAAGGATCTTTGTTCATTGACCATTAAAAATGCTATCAGGG
+AGTCCAGCTTACCCGGAATGGCCCACTAGCAACTACTATTCAAAATTACA
+AGGCTGTTCGCTTAAGCGCCATCCATTTTCAGGGCTACTTCATTCGGCAG
+TTTTCAAAGTGCTTTTCATCTTTCCCTCACGGTACTTGTTCGCTATCGGT
+AGCACTGGGCAGAATTCACATTGTGTCAATATATCTTTCACACTATCACA
+TTTATCAGAGATGCAAGACCGGTAGTTGTTGCTAGCTCTCTTTAGACAAA
+TTTTCTATCCAACTGAGCGAACAATTAGGCGCCGTACCATATCGTTCGGT
+AGGTTGACAAATTGCAGAAATAGTTAATAGGGCCGTCCACCTCCCCAGGG
+GTTTCAAGACGGGACGGAGAAGCAGTTATTAGGAAAGAGGAAATTCAGTA
+AAGCAACTATAATATCTTACCCATTCAAAGTTTGAGAATAGGTCCAGGAT
+AAATGTGTTCCCAAAGGGAGGGAAATAATATTACTTTTCAAGGACCCATT
+AAGCCGTATCTACTCAAATAGGCTTCTTTATATAGGTCACATCCTTTGGT
+CTGCTTCACAAGTACAATACACTATGCAAATACAGGGTTTTCACCTTCTA
+GCTACTTCCACCAAGATCTGCACTAATGGACATTCCATATAAGTTTACAC
+CATTATTCTATTAACTAGAGGCTATTCACCTTGGAGACCTGATGCGGTTA
+GAGAAGAGGTAATAAGGGAAAGGGAATTAATTGATATTTACCAATTTAAC
+TACATATTTTAGGAGGGCTTCATGATTAGAGGCTTTCATCACTACGACCC
+CGTTCAAAGATTCAATGACTCACAGACTTCTGCAGTTCGCATTACGTATC
+TCTCACATTTTACCCAGTCTGCAAGGTATTGGTAGGAAGAGCCGACATCG
+AGTTCAACACGATTCCTATGGAACCTTTCTCCACTTCAGTCTTCAAAGAT
+CGAGAACCACTGTATTCATATCACTAACCTAGTCAATTGAACTGTTGTCG
+TAGTAGACAGACATCCAAGTCAAATCACACTCCAACAAGCATACTCCCAA
+AGAGAGTCATAGTTACTCCCGCCGTTTACCCGCGCTTGGTTGAATTCCTT
+CATCAATCATCTCATTCATTTGATAACCAAGAACTGACGATCCTATCATT
+TCTGTTACCATTCAATTCCATTTCATTGGTTCAGGAATATTAACCTGATT
+ACCTTCATTACGCATTTTAGTTTAACACTAAACTACTCGCAAATATGATA
+GTTCTAAAAATTCAAAAGAACTTTTTCAACGGATTTCACCTATCTCTTAG
+TTTTCCTCTGCTTAGTTAGATGCTTCAATTCAGCAGGTCTTCTTGCTTGA
+ATCCAATTCTCATAGTATACTGTTACTAAACAATACTTCTACACTCCACA
+CCTAGCCCTCAGAGCCAATCCTTATCCCGAAGTTACGGATCTAATTTGCC
+ATTCTATTTCAATGGAGGAAACTCTTAGTCAATCCACCATCAATCATCGT
+TTCGTCCTATTCAGGCATAGTTCACCATCTTTCGGGTCCCACCATCTTTG
+CCCTTAAAAAGAGTCTCCCACCTATTCTACACCCTCTAAGTCATTTCACA
+CATACTGAAAATCAAAATCAAATGAGCTTTTACCCTTTTATTCTACGTAA
+TGAGCTCATCTTAGGACACCTGTGTTATTCTTTAACAGATGTGCCGCCCC
+GATAAGTCTCAATTTCTCGTTGAACTAAGTCAACTCGAAAACTTACAACC
+CCTCTAATCATTCGCTTTACCTCATAAAACTAGACACAGTTGCAGCTATC
+GTGTTAATTCGGATTGGGCTTTTCCCACTTCACTCGCCGTTACTAAGGGA
+TCCATCACGCCTTCCTACTTGTCACCCCATAATATAACCATCTACTTGAG
+CTAGCTTTAAACTCGAAATTCAAATATCTAAAGGATCGATAGGCCATATT
+TAAACAGTCGGATTCCCCTTGTCCGTACCAGTTCTGAGTCAGCTATTCAT
+CCCAAATTTAAAGATCAATTTGCACGTTAGAATCCACTCGAACCTCCACC
+TTTATTATTGTTAACAAGAAAAGAAAACTCTTCCCAGGAGAGTAACCGAT
+TACCACCACTAAACAACCACTCCTTTGCATACATTCTTATCATCACAAAC
+CAAGCTCAACAGGGTCTTCTTTCCCCGCTGATATTTCCAAGCCCATTCCC
+</code>
+Sequencing was done at the Genomics CORE Lab in the LSRI, with Mat as contact person.
+The sequencing run was excellent. Got a lot of data, and it was also really good quality.
+After quality trimming the data, I mapped it to the latest version of the ST7C genome with HISAT2.
+A lot of reads still mapped to the rRNA genes, but all the other areas still had more than sufficient enough coverage as well.
+Importantly, **the mitochondrial genome had much more reads mapping to it**:
+{{:overall_mro_expression_ribozero.png|}}
+**This is not just the result of a higher throughput**. The throughput of the riboZeroPlus run (179 506 076 mapped reads) was about twice that of the original RNAseq run (85 875 153 reads), but far more than twice time the amount of reads now mapped to the MRO genome. (NOTE that for both IGV figures I used the same coverage scale of 2000 in the Coverage track).
+What is striking is that the mitochondrial rRNA genes still had an enormous amount of coverage. Perhaps next time you want to sequence the mitochondrial transcriptome of some organism, also include probes targeting the mitochondrial rRNA genes!
+Another striking thing is that it seems that **RNAseq coverage of mitochondrial ribosomal genes is much lower** than that of the //nad// genes! Exceptions seem to be //rps12// and //rpl16//.
+Zooming in to //orf160// / //rpl10//:
+{{:orf160_expression_screenshot.png|}}
+Unfortunately again it seems we are not seeing any significant evidence of expression of this gene. It may be that the throughput for this gene in particular was not high enough to detect any real expression, so we can't rule it out. Any reads that are overlapping with orf160 may be 3'UTR reads from the //nad7// gene upstream (here annotated as NdhH)
 ====== Ideas to explore ======
@@ Line 323: / Line 445: @@
   * Andrew: One way to test this is to look at the distances from the in-frame stop codon to all ‘near start codons’ in the sequence and and add them all up. Then randomly choose the same number of codon positions in that same interval (not allowing choosing the same position twice) and calculate the same distance. Do the latter step 100 times and that gives you a distribution on what would a uniform distribution look like. If the ‘true’ summed distance is smaller than the random distribution, then it would suggest that ‘near start codons’ are clustered towards the beginning.
--80
 ====== Useful data ======