เทคโนโลยี Nanopore sequencing, bioinformatics และ applications Ep5 : การวิเคราะห์ข้อมูล Data Analysis : Part 2

การตรวจหา DNA/RNA modifications

เครื่อง ONT สามารถตรวจหาเบสที่ถูกดัดแปลง DNA/RNA modifications บางประเภทได้โดยตรง โดยการสังเกตความแตกต่างของสัญญาณที่เปลี่ยนแปลงจากเบสที่ไม่เกิดการดัดแปลง (Fig. 4, รูปตรงกลาง) แม้ว่าความละเอียดจะแตกต่างกันไปขึ้นอยู่กับว่ากำลังอ่านข้อมูลระดับปริมาณมาก (bulk level) หรือแบบข้อมูลเส้นเดียว ( single-molecule level) เครื่องมือจำนวนหยิบมือหนึ่งในการตรวจสอบ DNA/RNA modification ได้ถูกพัฒนาขึ้นมาหลายปีแล้ว (Table 1) ซอฟแวร์ Nanoraw (ถูกรวมเข้ากับซอฟแวร์ Tombo) เป็นเครื่องมือแรกที่ใช้ในการบ่งชี้ DNA modifications แบบ 5mC, 6mA and N4-methylcytosine (4mC) จากข้อมูล ONT จากนั้นก็ได้มีเครื่องมือที่ตรวจวัด DNA modification อื่นๆตามมา ได้แก่ Nanopolish (5mC), signalAlign (5mC, 5-hydroxymethylcytosine (5hmC) and 6mA), mCaller (5mC and 6mA), DeepMod (5mC and 6mA), DeepSignal (5mC and 6mA) และ NanoMod (5mC and 6mA) ซึ่ง Nanpolish, Megalodon และ DeepSignal เคยเป็นตัวมาตรฐาน และใช้ยืนยันความถูกต้องได้ดีสำหรับการตรวจวัด 5mC บนความละเอียดระดับ single-nucleotide ที่ระดับ single-molecule เมื่อเทียบกับ PacBio แล้ว ONT ให้ประสิทธิภาพดีกว่า ในการตรวจวัด 5mC แต่ว่ายังด้อยกว่าในการตรวจวัด 6mA

ความเป็นไปได้ของการตรวจหาเบสที่ถูกดัดแปลงแบบโดยตรงบน RNA ชนิด N6-methyladenosine (m6A) จะได้ถูกนำมาสาธิตโดยการใช้ PacBio ในปี 2012 แต่ว่ามีการประยุกต์ใช้ที่ถูกตีพิมพ์ตามมาไม่มาก ก่อนหน้านี้ วิธีของ ONT ที่หาลำดับเบส RNA โดยตรง (direct RNA sequencing) มีปริมาณข้อมูลที่ค่อนข้างแน่นอนบวกกับได้ข้อมูลที่มีคุณภาพ และการศึกษานำร่องหลายชิ้นตรวจพบการดัดแปลง RNA ในระดับมาก (bulk-level) และได้ทำการตรวจสอบทั้งข้อมูลประวัติการกระจายของความผิดพลาด (error distribution profiles) (เช่น EpiNano (m6A)73 และ ELIGOS (m6A and 5-methoxyuridine (5moU))83) หรือสัญญาณกระแสไฟฟ้า (เช่น Tombo extension (m6A and m5C)74 และ MINES (m6A)84) อย่างไรก็ตาม การตรวจวัด RNA modifications ด้วยความละเอียดของ single-nucleotide ที่ระดับ single-molecule ยังไม่ได้ถูกสาธิตออกมา

การปรับค่าให้ถูกต้อง (Error correction)

แม้ว่าความถูกต้องโดยเฉลี่ยเมื่อใช้ ONT จะมีการพัฒนาอย่างต่อเนื่อง แต่เส้นย่อยๆหรือแต่ละท่อนนั้นยังมีความถูกต้องต่ำมาก และอัตราความผิดพลาดทั้ง 1D reads และ 2D/1D2 reads ยังคงมีมากกว่าเมื่อใช้ short read โดย next-generation sequencing (NGS) ดังนั้นการปรับค่าให้ถูกต้องจึงถูกนำมาใช้อย่างกว้างขวางก่อนที่จะวิเคราะห์ในขั้นตอนถัดไป (เช่น genome assembly และ gene isoform identification) ซึ่งสามารถกอบกู้เส้นที่อ่านได้เพื่อให้มีความไวสูงขึ้น (เช่น mappability) และเพิ่มคุณภาพของผลที่ได้ (เช่น break point determination ที่ความละเอียดระดับ single-nucleotide) มีอัลกอริทึมในการปรับค่าให้ถูกต้องได้ 2 แบบ (Fig. 4, กลางขวา, และ Table 1): อันแรก ‘self-correction’ ใช้กราฟเป็นหลักเพื่อที่จะสร้างลำดับที่ซ้อนทับ (consensus sequences) ท่ามกลางโมเลกุลที่แตกต่างจากต้นกำเนิดเดียวกัน (เช่น Canu และ LoRMA) ต่างออกไปจากเส้นที่อ่านจาก 2D และ 1D2 ที่มีการสร้างข้อมูลจากโมเลกุลเดียวกัน อันที่สอง ‘hybrid correction’ จะใช้สายสั้นที่อ่านได้และความความถูกต้องสูง มาจัดการสายยาวให้ถูกต้องโดยใช้การจัดเรียง (alignment-based0 (เช่น LSC และNanocorr) หรือใช้ graph-based (เช่น LorDEC) และอัลกอริทึมแบบ dual alignment/graph-based algorithms (เช่น HALC) ก่อนหน้านี้ มีผลรายงานการศึกษาอยู่ 2 ชิ้นที่กลายเป็นเกณฑ์มาตรฐาน ซึ่งใช้เครื่องมือแบบ hybrid error correction ที่มีอยู่แล้วร่วมกัน (เช่น FMLRC, LSC และ LorDEC) โดยใช้ข้อมูลที่เพียงพอจาก short-read จะสามารถลดความผิดพลาดของ long-read ได้ (~1–4%) จนคล้ายกับ short-read ในขณะที่การทำ self-correction ไปช่วยลด error rate ประมาณ 3–6% ซึ่งอาจจะเป็นเพราะไปจัดการกับส่วนความผิดพลาดของข้อมูล ONT ที่ไม่ได้เกิดขึ้นแบบสุ่ม

การเรียบเรียงข้อมูลที่มีความผิดพลาดบน long reads

เครื่องมือการเรียบเรียง (alignment) ได้ถูกพัฒนามาเพื่อแก้ปัญหาลักษณะความผิดพลาดจำเพาะของของ long reads (Table 1) ช่วงต้นของตัวช่วยเรียบเรียงข้อมูล เช่น BLAST ได้ถูกพัฒนามาสำหรับ long read จำนวนน้อยๆ (เช่น Sanger sequencing) เมื่อก่อนหน้านี้อีกหน่อย มันได้ถูกพิจารณาว่าเป็นความก้าวหน้าของวิธีการเรียงข้อมูลสำหรับการได้ข้อมูลที่ถูกต้องกับข้อมูลปริมาณมากบน short reads (เช่น Illumina sequencing) ซึ่งได้ตอบสนองความนิยมของ next-generation sequencing ณ ขณะนั้น การพัฒนาของตัว aligner สำหรับความผิดพลาดหลายอย่างที่เกิดขึ้นบน long-read ได้ถูกดึงความสนใจมาเพราะข้อมูลที่ได้จาก PacBio และมันก็ได้ถูกนำมาทดลองบน ONT ด้วย ในปี 2016 ตัวเรียงเรียงข้อมูลแรกที่ทำมาเฉพาะเจาะจงให้ ONT ได้แก่ GraphMap ซึ่ง GraphMap ได้ปรับแต่งการจัดเรียงให้ดีขึ้นเพื่อจัดการอัตราความผิดพลาดที่สูงและใช้เทคนิค fast graph transversal เพื่อเรียงข้อมูล long reads ให้มีความเร็วสูงและแม่นยำ ต่อมามีการใช้เทคนิค seed–chain–align ชื่อว่า minimap2 มันได้ถูกพัฒนามาเพื่อให้ตอบโจทย์กับความยาวเส้น long read ที่ยาวมากกว่าเดิม (gdbo 100 kb) กลายมาตรฐานที่เพิ่งยอมรับกันเมื่อไม่นานมานี้เพราะ minimap2 แสดงให้เห็นว่าทำงานได้เร็วกว่าตัวเรียบเรียงข้อมูลตัวอื่น (ซึ่งก็คือ LAST, NGMLR และ GraphMap) โดยไม่ต้องแลกกับความถูกต้องของข้อมูล นอกจากนี้ minimap2 สามารถทำการเรียบเรียงแบบ splice-aware สำหรับ ONT ที่เป็นข้อมูล cDNA หรือ direct RNA-sequencing ได้ด้วย

ส่วนเพิ่มเติมของ minimap2 มี GMAP ปล่อยออกมาในปี 2005 และมีโหมดใหม่คือ STAR ซึ่งแต่ก่อนได้พัฒนามาเพื่อใช้กับ short reads ซึ่งตอนนี้ได้ถูกใช้อย่างกว้างขวางในกระบวนการ splice-aware alignment สำหรับการจัดการความผิดพลาดของข้อมูล long read ทั้ง transcriptome จนถึง genomes ตัวเรียบเรียงข้อมูลตัวอื่นได้ถูกพัฒนาขึ้นมาเช่นกัน เช่น Graphmap2 และ deSALT103 สำหรับข้อมูล ONT transcriptome และโดยเฉพาะสำหรับข้อมูล direct RNA-sequencing ที่ได้จาก ONT ที่มีเบสดัดแปลงหนาแน่น (dense base modifications) ถ้าใช้ Graphmap2 จะมีอัตราการเรียบเรียงข้อมูลได้ดีกว่า minimap2

การทำ Hybrid sequencing

การประยุกต์ใช้หลายอย่างรวมเอา long reads และ short reads มาวิเคราะห์ร่วมกันด้วย bioinformatics เรียกว่า hybrid sequencing ในความแตกต่างของ hybrid correction ของ long reads ในจุดประสงค์ทั่วไป กับการทำ hybrid sequencing-based ส่วนใหญ่ที่รวม long reads กับ short reads เข้าด้วยกับ โดยออกแบบอัลกอริทึมและ pipeline เพื่อรวมจุดแข็งของข้อมูลทั้งสองแบบเข้าด้วยกันเพื่อแก้ไขปัญหาเฉพาะทางชีวภาพ ความยาวที่ได้จาก long-read เหมาะสำหรับการระบุ genomic ช่วงกว้างที่มีความซับซ้อนด้วยการเรียงข้อมูลที่ง่ายกว่าและไม่คลุมเครือ ในขณะที่ความถูกต้องที่สูงกว่าและปริมาณข้อมูลที่มากกว่าที่ได้จาก short reads มีประโยชน์มากในการหารายละเอียดในแต่ละส่วน (เช่น การหา splice site จากระดับความละเอียดของ single-nucleotide) และเพิ่มความสามารถในการวิเคราะห์เชิงปริมาณ ตัวอย่างเช่นการเชื่อมต่อข้อมูล (assembly) genome, transcriptome และ metagenome ที่ได้แสดงให้เห็นแล้วว่ามีประสิทธิภาพสูงเมื่อทำ hybrid sequencing เมื่อเทียบกับการพยายามแก้ไขความผิดพลาดแยกส่วนระหว่าง long reads หรือ short reads เพียงอย่างเดียว

การเชื่อมต่อข้อมูล genome แบบ De novo

ความผิดพลาดของ long reads ถูกนำมาใช้ในการทำ de novo ซอฟแวร์ที่ใช้เชื่อมต่อข้อมูล (Assemblers) (Table 1) เช่น Canu และ Miniasm ใช้พื้นฐานจากอัลกอริทึม overlap–layout–consensus ซึ่งจะสร้างกราฟโดยการนำลำดับเบสที่คล้ายกันมาซ้อนกันและทำการปรับลำดับที่มีความผิดพลาดให้สมบูรณ์มากขึ้น (Fig. 4, รูปตรงกลาง) ในการที่จะกำจัดข้อมูลที่ผิดพลาดและปรับข้อมูลให้ถูกต้อง และการเกลาข้อมูล genome assembly ที่ยังไม่สมบูรณ์นั้น (ต้องเพิ่มความถูกต้องของ consensus sequences โดยใช้ข้อมูลดิบของสัญญาณไฟฟ้า) มักจะทำทั้งก่อน assembly และหลัง assembly ตามลำดับ นอกจากนี้จะต้องมีซอฟแวร์ในการทำ genome-polishing เพิ่มเติม ได้แก่ Nanopolish ซึ่ง ONT ได้ปล่อย Medaka ที่เป็นวิธีที่ใช้ neural network-based ที่มีเป้าหมายมุ่งไปที่การเพิ่มความถูกต้องและความเร็ว เมื่อเปรียบเทียบกับ Nanopolish (Table 1).

วิธีเหล่านี้ได้ถูกนำมาใช้งานไม่เพียงแต่เพื่อประสิทธิภาพการ assembly ทั่วๆไป แต่ยังรวมถึงจุดประสงค์เฉพาะ เช่น บริเวณบน genome ที่มีความซับซ้อนและต้องใช้การประมวลผลที่ทรงประสิทธิภาพ ตัวอย่างเช่น Flye ได้พัฒนา genome assembly ณ บริเวณที่ยาวและมีเบสซ้ำจำนวนมาก โดยการทำโครงสร้าง assembly graph จากการจัดเรียงส่วนที่กระจายกันอยู่ของ genome มีซอฟแวร์ Miniasm ที่ใช้วิธีการ all-versus-all read self-mapping สำหรับการทำการเชื่อมต่อแบบเร็วพิเศษ (ultrafast assembly) แม้ว่าจะจำเป็นต้องทำการขัดเกลาอีก (polishing) เพิ่มอีกขั้นตอนเพื่อเพิ่มความถูกต้องก็ตาม โดยเมื่อไม่นานมากนี้ได้มีการพัฒนาตัว assembler ชื่อ wtdbg2 ที่ทำงานได้เร็วกว่าเครื่องมืออื่นๆโดยไม่ต้องแลกกับความต่อเนื่องและความถูกต้องของข้อมูล

A picture containing tableDescription automatically generated

Fig. 5 | การประยุกต์ใช้งานของ ONT sequencing แบ่งเป็น กลุ่มหลัก (งานวิจัยพื้นฐาน, การใช้งานทางคลินิก และ การประยุกต์ใช้งานนอกสถานที่) การแบ่งกลุ่มหลังจากนี้มักจะเป็นการแบ่งจากหัวข้อเฉพาะเจาะจง และวงการเฉพาะตามสัดส่วนของงานตีพิมพ์ บางการประยุกต์ใช้งานแบ่งออกไปอีกเป็นสองกลุ่มย่อย เช่น SV detection และ rapid pathogen detection การประยุกต์ใช้นั้นยังได้ถูกจัดโดยอาศัยจุดแข็งของ ONT sequencing เป็น ชั้น (1) ความยาว (long read), (2) โมเลกุลต้นฉบับ (native single molecule) และ (3) การถือไปใช้ที่อื่นได้, ซื้อหาได้ และเห็นผลได้แบบทันที (real time) ความกว้างของแต่ละชั้นเชื่อมโยงกับจำนวนงานตีพิมพ์ บางการประยุกต์ใช้งานทั้ง ชั้น (ตัวอย่างเช่นการทำโปรไฟล์ antimicrobial resistance) ใน ‘Fungus’ อย่างเช่น Candida auris ใน ‘bacterium’ อย่างเช่น Salmonella, Neisseria meningitidis และ Klebsiella pneumoniae และใน ‘virus’ อย่างเช่นไวรัสในกลุ่มที่ทำให้มีอาการทางระบบทางเดินหายใจเฉียบพลัน ได้แก่ coronavirus 2 (SARS-CoV-2), ebola, Zika, Venezuelan equine encephalitis, yellow fever, Lassa fever และ dengueHLA, human leukocyte antigens 

SVs (structural variants) และบริเวณเบสซ้ำ (repetitive regions)  

เมื่อมีข้อมูล genome อ้างอิง (reference genome) ข้อมูล ONT สามารถนำไปศึกษารายละเอียดตัวอย่างเฉพาะของ genomic ได้ รวมถึง SVs และ haplotypes โดยให้ความแม่นยำมากกว่าเทคนิคอื่นๆ เครื่องมือที่ไว้ตรวจหา SV detection มีไม่มากที่ถูกพัฒนาออกมา (เช่น NanoSV112, Sniffles98, Picky33 และ NanoVar113) (Fig. 4, ด้านล่างตรงกลาง และ Table 1). Picky นำมาใช้เสริมเพื่อตรวจหา SVs ธรรมดา แล้วก็หา SVs สายสั้น (ประมาณ 300 bp) ในบริเวณที่มีเบสซ้ำ (repetitive regions) เนื่องจาก long reads ครอบคลุมทั้งหมดในบริเวณนี้รวมทั้งส่วนที่มีความหลากหลาย ทำให้การอ่านแบบ long read เส้นเดียวก็สามารถค้นพบความหลากหลายหลายแบบได้แล้ว รวมถึง SNVs และ SVs ด้วย มันก็เลยเป็นไปได้ที่จะทำขั้นตอน multiploid genomes แล้วก็วิเคราะห์ haplotype ได้ด้วย bioinformatics software เช่น LongShot116 สำหรับหา SNV และ WhatsHap สำหรับหา haplotyping/phasing.  เครื่องมือหลายอย่างได้ถูกพัฒนามาเพื่อค้นหาบริเวณ genome ที่มีลำดับซ้ำกันมากๆ โดยอาศัย ONT sequencing เช่น TLDR สำหรับระบุ transposable elements ที่ไม่มีข้อมูลอ้างอิง และ TRiCoLOR สำหรับค้นหารูปแบบการซ้ำของ tandem repeats (Table 1) 

ความซับซ้อนของ Transcriptome  

เมื่อทำการวิเคราะห์ transcriptome ข้อมูลลำดับเบสแต่ละเส้นที่อ่านจาก ONT จะถูกนำมาจัดกลุ่มและเชื่อมต่อเพื่อสร้าง isoform gene ที่เต็มสาย หรือนำมาเรียงให้เป็น  reference genome เพื่อหารูปแบบเหตุการณ์ที่ซับซ้อนของการเกิด transcription (Fig. 4, ล่างขวา) ในส่วนเฉพาะเครื่องมือการเชื่อมต่อข้อมูล transcript หลายๆตัว ได้ถูกพัฒนามาเพื่อแก้ไขความผิดพลาดของ long reads เช่น Traphlor, FLAIR, StringTie2 และ TALON แล้วก็อีกหลายตัวสำหรับการทำ hybrid sequencing (เช่น  IDP127) ในส่วนของ IDP-denovo และ RATTLE สามารถทำ de novo transcript ได้ด้วย long reads โดยไม่ต้องใช้ reference genome โดยไม่นานมานี้ ONT direct RNA sequencing ได้เพิ่มการค้นพบ transcriptome จากโมเลกุล native RNA ได้มากมาย แต่อย่างไรก็ตาม การพัฒนาเครื่องมือทาง bioinformatics ที่เกี่ยวข้อง โดยเฉพาะการวิเคราะห์เชิงปริมาณ ยังคงมีไม่เพียงพอ 

แปลโดย : Champ Sarawut

ที่มา: Nature biotechnology review article (https://doi.org/10.1038/s41587-021-01108-x)