Human Genomics การอ่านลำดับพันธุกรรมสายยาว มีประโยชน์ต่อการวินิจฉัยโรคในคนหรือไม่

โครงสร้างที่มีการปรับเปลี่ยน (Structural variants (SV)) ในจีโนมของมนุษย์ มีความยาวประมาณ 1,000 base pairs เป็นที่รู้กันว่ามีความสำคัญหลายอย่างที่เกี่ยวข้องกับโรคหลายโรค เช่น ออทิสติก, โรคอ้วน, schizophrenia, และมะเร็ง ความแตกต่างของจีโนมของแต่ละคนพบว่ามีสาเหตุมาจาก SV ที่แตกต่างกันมากกว่าที่จะพบความแตกต่างแบบ single nucleotide variants ตั้งแต่ 3 ถึง 10 เท่า การใช้เทคนิคการอ่านลำดับพันธุกรรมสายยาว (Longreads) นั้นสามารถค้นพบปัญหาของการมีโครงสร้างที่เปลี่ยนแปลงเหล่านี้ได้ และพบว่าเกี่ยวข้องกับโรคหลายๆอย่าง แม้ว่าอย่างไรก็ตามในปัจจุบันก็ยังคงให้ความสนใจ single nucleotide variants (SNP) กันมากกว่า นั่นอาจเป็นเพราะเครื่องมือที่ใช้อยู่นั้น สามารถอ่านสายสั้นๆประมาณ 300 base pair มีความถูกต้องสูง ทั้งยังรวดเร็วและราคาถูก

พูดง่ายๆ ก็คือ การอ่านที่สั้นกว่านั้นมีโอกาสน้อยที่จะครอบคลุมรูปแบบโครงสร้างขนาดใหญ่

เทคโนโลยี longread ที่มีประสิทธิภาพนั้นเพียงพอต่อการไล่หาโครงสร้างการเปลี่ยนแปลงที่มีความยาวมากกว่า ทำให้เกิดความน่าสนใจที่มากขึ้นในส่วนนี้ ความซับซ้อนของโครงสร้างที่เปลี่ยนไปสามารถทำให้เกิดมะเร็งและโรคอื่นๆ ซึ่งเห็นภาพได้อย่างชัดเจนในงานตีพิมพ์ของ Kloosterman, Nature Communications 8: 1326, DOI: 10.1038/s41467017013434 (2017). การที่โครโมโซมมีการจัดเรียงใหม่อย่างซับซ้อน (Chromothripsis) นั้นถูกเชื่อว่าเป็นเหตุที่เกิดขึ้นได้ยากและเกิดตั้งแต่สมัยยุคแรกๆในการมีอยู่ของเซลล์ การศึกษาโครงสร้างการจัดเรียงของโครโมโซมนั้นมุ่งไปที่โรคที่เป็นโดยกำเนิดและจำนวนการเกิดโรคมะเร็ง แม้ว่าเทคโนโลยี shortread จะเป็นเครื่องมือที่ยอดเยี่ยมในการค้นหา single nucleotide variations (SNV) แต่มันก็ยังไม่ดีพอที่จะค้นหาตำแหน่งของรหัสหยุด (genetic code breakpoints) และในส่วนที่ซับซ้อนมากๆของโครงสร้างได้ (structural variations (SV)) จึงต้องอาศัยข้อดีของเทคโนโลยี longread ซึ่งกลุ่มของ Kloosterman พบว่าเทคโนโลยี longread สามารถระบุจุด break point ได้มากกว่า shortread Illumina sequencing ถึง 32% เทคโนโลยี longread DNA sequencing ทำให้สามารถเชื่อมต่อ contigs เข้าด้วยกัน ซึ่งมีความยาวประมาณ 241kb ถึง 1,217kb ครอบคลุม 3 ถึง 5 บริเวณของ chromothriptic segments เนื่องจากจีโนมของสัตว์นั้นใหญ่มาก (ประมาณ 3 พันล้านเบส) เมื่อเปรียบเทียบกับแบคทีเรีย (ประมาณ 5 ล้านเบส) นั่นทำให้จำเป็นต้องอ่านข้อมูล sequencing data ที่ใหญ่มากและเพียงพอต่อการนำมาใช้

RevoluGen ล่าสุดได้ทำการออกแบบ workflow สำหรับ Fire Monkey เวอร์ชั่นที่ 6 ครอบคลุมจีโนมของม้า 7 x (21 Gb sequenced) โดยการใช้ single flow cell ของ ONT’s MinION flow cell และได้ทำแบบเดียวกันกับ PromethION flow cell ที่ได้ข้อมูลมากถึง 130 Gb ซึ่งเมื่อได้ข้อมูลจำนวนมากกว่าก็อาจจะได้ค่า N50* ที่มากกว่าเช่นกัน สำหรับ coverage ประเภทนี้ Fire Monkey ได้ค่า N50 ที่ 56kb ตรงข้ามกับค่าที่ได้จาก Genomic Tip’s ที่ได้ค่า N50 เพียง 20-30kbเท่านั้น และแน่นอนว่า ONT sequencing เพียงอย่างเดียวไม่ได้ยืนยันการอ่านเบสเฉพาะเจาะจง RevoluGen ได้พิจารณาการใช้ Fire Monkey ในการสกัด DNA แล้วใช้เทคโนโลยี shortread เช่นกัน เช่นเครื่องของ Illumina ซึ่งเมื่อทำการ sequencing ครั้งแรกผ่านไป นักวิจัยสามารถตัดสินใจได้ว่าตัวอย่างไหนควรจะนำไปทำ long read sequencing ต่อ ชุดน้ำยาสกัด DNA – Fire Monkey นั้นใช้ได้อย่างยอดเยี่ยมและได้ DNA yield ที่เพียงพอต่อการนำไปใช้กับทั้ง Illumina และ ONT ประโยชน์ที่ได้จากการใช้ชุดน้ำยานี้ทำให้ไม่ต้องเก็บตัวอย่างซ้ำหลายๆครั้ง และดีต่อการใช้กับตัวอย่างที่หายาก

* N50 ใช้วัดความต่อเนื่องของกลุ่ม sequence นิยมใช้กับงาน genome assembly ซึ่งมีความเกี่ยวข้อกับ median และ mean ในแง่ของความยาวแต่ละชิ้นของ sequence ค่านี้แสดงความยาวของสายที่อ่านได้สั้นที่สุดในกลุ่มของลำดับที่ยาวที่สุด โดยเฉลี่ยค่าร่วมกันอย่างน้อยที่ 50%

ในอุดมคติแล้ว Fire Monkey อาจจะเป็นผู้เข้ามาช่วยวินิจฉัยการ sequencing ได้เลยทีเดียว (sequencingagnostic) ซึ่งข้อจำกัดในปัจจุบันก็อาจจะในส่วนของโปรโตคอลสำหรับเครื่องอัตโนมัติและเครื่องมือที่จะใช้งานร่วมด้วย รวมถึงราคาที่แตกต่างกับชุดน้ำยาสกัดสายสั้นทั่วไป (shortread nucleic acid isolation and purification (NAIP))

Long structural variants พบว่ามีมากกว่า SNP 3 ถึง 10 เท่า ที่เกี่ยวข้องกับโรคที่เกิดขึ้นในมนุษย์

ที่มา: Structural variation in the human genome (ref Lars Feuk, Andrew R. Carson & Stephen W. Scherer Nature Reviews Genetics volume 7, pages 85–97 (2006)
  • โครงสร้างที่เปลี่ยนไป (Structural variants) ในจีโนมมนุษย์ รวมถึงลำดับพันธุกรรมอื่นๆในเซลล์ (cytogenetically detectable) การหายไป (submicroscopic deletion) การเพิ่มขึ้น (insertion) การเกิดจำนวนซ้ำ (duplication) การมีลำดับวนซ้ำ (copy number variant) การมีลำดับย้อนกลับ (inversions) และการย้ายตำแหน่ง (translocations)
  • ความสามารถในการตรวจหาโครงสร้างขนาดยาวในช่วง 1kb ถึง 3Mb ระหว่างจีโนมยังไม่สามารถทำได้ในปัจจุบัน
  • การพัฒนาเทคโนโลยีตรวจจีโนมใหม่ๆและวิธีการทางคอมพิวเตอร์ และข้อมูลเดิมที่มีอยู่สำหรับการเปรียบเทียบลำดับพันธุกรรม ทำให้มีความเป็นไปได้ที่จะค้นพบ structural variants ระดับที่ใหญ่ขึ้น
  • การศึกษาจำนวนมากพบว่าปริมาณของ structural variants ในจีโนมมนุษย์อาจมีพอๆกันหรืออาจจะมากกว่าจำนวน SNPs เสียอีก
  • โครงสร้างที่แปรผันมักจะเกิดขึ้นพร้อมกับ DNA ที่มีการทำสำเนาซ้ำน้อย (หรือที่เรียกว่า segmental duplications) และเนื่องจากมีความเกี่ยวข้องกันมาก จึงเสมือนว่าจะเป็น nonallelic recombination และจะเกิดการจัดเรียงใหม่ในภายหลัง
  • Structural variation ในจีโนมสามารถมีอิทธิพลโดยตรงหรือโดยอ้อมต่อปริมาณของยีนผ่านกลไกที่แตกต่างกัน และดังนั้นจึงมีอิทธิพลต่อความผันแปรของฟีโนไทป์และโรคที่จะเกิดขึ้นได้ด้วย

translated by Champ Sarawut

BioEntist Co., Ltd. (Thailand)