เทคโนโลยี Nanopore sequencing, bioinformatics และ applications Ep4 : การวิเคราะห์ข้อมูล Data Analysis : Part 1

การวิเคราะห์ข้อมูลทางชีวสารสนเทศ (Bioinformatics) เมื่อใช้ข้อมูลจาก ONT ได้ผ่านการพัฒนามาอย่างต่อเนื่อง (Fig. 4). นอกเหนือจากการเก็บข้อมูลภายในและการใช้รูปแบบเฉพาะทางแล้ว การวิเคราะห์ด้วย ONT ส่วนมากจะเน้นไปที่การใช้สัญญาณ ionic current เพื่อจุดประสงค์บางอย่าง เช่น การแปลงผลให้เป็นลำดับเบส (base calling) การตรวจหาลำดับเบสที่มีการเปลี่ยนแปลง (base modification detection) และ การขัดเกลาข้อมูลหลังการประกอบข้อมูล (postassembly polishing) ส่วนเครื่องมืออื่นจะใช้ในการจัดการอัตราความผิดพลาดของการทำ long read ซึ่งมีหลายอย่าง เช่น การแปลงข้อมูลที่ผิดพลาดให้ถูกต้อง (error correction) การประกอบและจัดเรียง (assembly and alignment) ที่เคยพัฒนามาเพื่อใช้กับข้อมูลที่ได้จาก PacBio แต่ก็สามารถนำมาใช้กับข้อมูลจาก ONT ได้เช่นกัน (Table 1)

เนื่องจากเครื่อง ONT ไม่จำเป็นต้องใช้ระบบประมวลผลที่สูงมาก และไม่จำเป็นต้องใช้ความสามารถระดับสูงในการดำเนินการจัดการข้อมูลเบื้องต้น ห้องปฏิบัติการจำนวนมากจึงสามารถที่จะดำเนินการเก็บข้อมูลได้ด้วยตัวเอง  MinKNOW เป็นซอฟแวร์ที่ใช้ควบคุมเครื่อง ONT โดยการกำหนดค่าที่จะหาลำดับเบสและการติดตามข้อมูลของตัวอย่าง (Fig. 4, บนซ้าย)  MinKNOW สามารถจัดการการรับข้อมูล วิเคราะห์ผลแบบทันที และทำ base calling ให้ได้ binary files ในฟอร์แมต fast5 ได้ เพื่อที่จะเก็บทั้งข้อมูล metadata และ read information ไว้ (ตัวอย่างเช่น ค่าการวัดกระแสฟ้า และลำดับเบสในแต่ละเส้นที่อ่าน ในกรณีที่เปิดใช้งาน base calling)  

ฟอร์แมต fast5 จะทำการจัดระเบียบข้อมูลหลายมิติ (multidimensional data) ด้วยการนำมันมาซ้อนกัน ทำให้เข้าถึงข้อมูลที่สนใจเป็นส่วนๆได้โดยไม่ต้องเข้าถึงข้อมูลทั้งหมดทีเดียว  เวอร์ชั่นก่อนหน้าของ MinKNOW จะมี output เป็น fast5 หนึ่งไฟล์แยกแต่ละเส้นการอ่าน (read) (named single-fast5) แต่เวอร์ชั่นหลังๆ จะมี output เป็นไฟล์ fast5 ไฟล์เดียวแต่มีหลายข้อมูลจากหลายเส้น (multiple reads) (named multi-fast5) เพื่อรองรับปริมาณข้อมูลที่มากขึ้น  ทั้ง fast5 และ fastq เป็น output ที่ขึ้นอยู่กับการเลือกโหมดการทำ base-calling ระหว่างการทำ sequencing  นอกจากนี้เครื่องมือที่มีอย่างเป็นทางการของ ONT (เช่น ซอฟแวร์ ont_fast5_api ที่ใช้สำหรับการเปลี่ยนฟอร์แมตระหว่าง single-fast5 กับ multi-fast5 และการบีบอัดและคลายการบีบอัดข้อมูล (data compression/decompression)  ซอฟแวร์จาก third-party ต่างๆ ได้ถูกพัฒนาออกมาเพื่อใช้ในการควบคุมคุณภาพ การแปลงฟอร์แมต (เช่น NanoR สำหรับสร้างไฟล์ fastq files จากไฟล์ fast5 ที่ประกอบด้วยข้อมูลของลำดับเบส) ซอฟแวร์สำหรับดึงข้อมูลและทำให้เป็นภาพจากข้อมูลดิบของ (เช่น Poretools, NanoPack และ PyPore) และซอฟแวร์ที่ใช้วิเคราะห์ข้อมูลหลังจากได้ข้อมูล base-calling (เช่น AlignQC และ BulkVis) (Fig. 4, บนขวา)  

Fig. 4 | การวิเคราะห์ข้อมูลลำดับเบสด้วย ONT  การวิเคราะห์ bioinformatics ทั่วไปของลำดับเบสที่ได้จาก ONT รวมถึงข้อมูลดิบของค่ากระแสไฟฟ้าที่อ่านได้ (เช่น การควบคุมคุณภาพ การทำ base calling และการหา DNA/RNA modification) และการหาข้อผิดพลาดเฉพาะของการทำ long (รูปในเส้นประin ; ตัวอย่างเช่น error correction, de novo genome assembly, haplotyping/phasing, structural variation (SV) detection, repetitive region analyses และ transcriptome analyses).  

การแปลงข้อมูลลำดับเบส (Base callingซึ่งแปลงค่ามาจากสัญญาณกระแสไฟฟ้าให้ไปเป็นลำดับเบส (nucleotide sequence) เป็นขั้นตอนสำคุญที่สุดที่จะได้ข้อมูลที่ถูกต้องและการตรวจพบการเปลี่ยนแปลงของเบสแต่ละตัว (base modifications) (Fig. 4, บนกลางtop) โดยรวมแล้ว การพัฒนาวิธีการทำ base calling จะมีทั้งหมด 4 ระยะ: (1) การทำ base calling จากข้อมูลสัญญาณกระแสไฟฟ้าด้วย HMM ในช่วงแรกๆ และโดยการทำ recurrent neural network ในช่วงหลังในปี 2016, (2) การทำ base calling จากข้อมูลดิบของสัญญาณไฟฟ้า ในปี2017, (3) ใช้โอเดลที่ชื่อ flip–flop สำหรับการบ่งชี้เบสแต่ละตัวในปี 2018 และ (4) การจัดทำโมเดลแบบเลือกได้ (customize) base-calling ในปี 2019  

ONT พัฒนาซอฟแวร์ใหม่ชื่อว่า ‘technology demonstrator’ (ตัวอย่างเช่น Nanonet, Scrappie และ Flappie) ซึ่งหลังจากนั้นก็ได้ปล่อยซอฟแวร์อย่างเป็นทางการ (เช่น Albacore และ Guppy) ในส่วนของ Albacore นั้นได้ยุติการพัฒนาเนื่องจากไปเน้นในส่วนของ Guppy แทน เพราะว่ามันสามารถทำงานได้บนหน่วยประมวลผลภาพ GPU (graphics processing units) ได้ด้วยนอกเหนือจากหน่วยประมวลผลกลาง CPU (central processing units) เพื่อเร่งความเร็วในการทำ base calling 

เครื่อง ONT สามารถวัดค่ากระแสไฟฟ้าได้เป็นพันสัญญาณต่อวินาที  การประมวลผลโมเลกุลของ DNA หรือ RNA จะทำได้โดยดูรูปแบบของสัญญาณที่เปลี่ยนแปลงไป ซึ่งแตกต่างกันในแต่ละชนิดของเบสต่อเนื่องกัน (เรียกว่า k-mer) นิยามด้วยระยะความยาวของบริเวณที่ไวในการตรวจจับ (nanopore sensing region) สัญญาณดิบที่วัดได้สามารถแยกแยะชนิดของเบสได้จากลักษณะกระแสไฟฟ้าที่เปลี่ยนแปลงที่ได้จากแต่ละ  k-mer  สัญญาณแต่ละสัญญาณประกอบด้วยการวัดค่าหลายครั้ง ค่าเฉลี่ยที่สอดคล้องกัน ค่าเบี่ยงเบน และระยะเวลาการวัดปริมาณกระแสฟ้า รวมกันได้เป็นข้อมูล ‘event’ การพึ่งพาข้อมูล event จาก nucleotides ข้างเคียง คือ Markov chain-like, ทำให้วิธี HMM-based เป็นการจับคู่โดยธรรมชาติ ที่จะแปลงสัญญาณที่เปลี่ยนแปลงไปเป็นลำดับเบส, เช่นซอฟแวร์แปลงลำดับเบสเบสตอนช่วงแรก (เช่น cloud-based Metrichor โดย ONT และ Nanocall) จากนั้นก็จะเป็น Nanonet โดย ONT (ถูกดำเนินการใน Albacore) และ DeepNano  ถูกดำเนินการโดยใช้ algorithm ใหม่ ช่วยให้ปรับกราฟกระแสไฟฟ้าเพื่อเพิ่มความถูกต้อง โดยฝึกให้ระบบ deep neural network ช่วยสรุป k-mers ให้จากข้อมูล event   โดยเฉพาะNanonet ที่ใช้วิธี bidirectional เพื่อที่จะรวมข้อมูลจากทั้งขั้นตอน upstream และ downstream เข้าด้วยกัน ในการทำ base calling 

อย่างไรก็ตาม ข้อมูลอาจจะมีการสูญหายบ้างเมื่อแปลงค่าสัญญาณไฟฟ้าไปเป็นข้อมูล event ซึ่งเป็นส่วนหลักที่ทำให้ลดค่าความถูกต้องของการทำ base-calling  ข้อมูลกระแสไฟฟ้าถูกใช้เป็นอย่างแรกในการจำแนกเส้นที่อ่านได้บน ONT ไปเป็นสปีชี่จำเพาะ specific species  จากนั้นซอฟแวร์ open-source ของ ONT ที่ใช้ในการเรียกลำดับเบส (base caller) Scrappie (ถูกดำเนินการในทั้ง Albacore และ Guppy) และซอฟแวร์จาก third-party ชื่อ Chiron  ได้ปรับปรุง neural networks เพื่อที่จะแปลงค่ากระแสไฟฟ้าให้ไปเป็นลำดับเบสโดยตรง หลังจากนั้น ONT ได้ปล่อยซอฟแวร์เรียกค่าเบสชื่อ Flappie ซึ่งใช้โมเดล flip–flop model ด้วยการเชื่อมต่อกับโครงสร้างสถาปัตยกรรมการถอดรหัสและการระบุเบสแต่ละตัว มาใช้แทน k-mers จากข้อมูลกระแสฟ้า  นอกจากนี้ ซอฟแวร์ Causalcall ซึ่งมีการ modified convolutional network ไปรวมกับตัวถอดรหัสแบบแยกกลุ่ม เพื่อที่จะเพิ่มการทำงานแบบ  long-range sequence ในทางกลับกันโมเดลทั่วไปในการทำ base-calling, ONT ได้เสนอ Taiyaki (ดำเนินการบน ล Guppy) เพื่อฝึกให้เลือกใช้ได้ (เช่น, การประยุกต์/ความจำเพาะ) base-calling โดยการใช้เทคนิคทางภาษา เพื่อที่จะทำงานที่ซับซ้อนมากและอ้งอิงข้อมูลไฟฟ้าจากข้อมูลดิบ  นอกจากนั้นซอฟแวร์สามารถฝึกให้ Taiyaki ระบุเบสที่ถูกดัดแปลง (modified) ได้ (เช่น 5-methylcytosine (5mC) หรือ N6-methyladenine (6mA)) โดยการเพิ่มมิติที่ 5 เข้าไปอีกส่วน  โฟลว์เซลล์เวอร์ชั่น R10 และ R10.3 ซึ่งมีบริเวณไวสัญญาณสองตำแหน่ง อาจจะส่งผลให้เห็นสัญญาณที่แตกต่างกันได้ง่ายกว่าเวอร์ชั่นเก่า ซึ่งจะสร้างคลื่นสัญญาณเพิ่มเข้าไปอีก ช่วยเพิ่มความถูกต้องของข้อมูลและการตรวจวัดเบสที่ถูกดัดแปลง (base modification) จนถึงวันนี้ มี Guppy ที่ถูกใช้กันโดยกว้างขวางในการทำ base-calling เพราะว่าความถูกต้องและความเร็วที่ยอดเยี่ยม  

แปลโดย : Champ Sarawut

ที่มา: Nature biotechnology review article (https://doi.org/10.1038/s41587-021-01108-x)