มหาวิทยาลัยเคปทาวน์แอฟริกาใต้ (2024)

ลิขสิทธิ์ของวิทยานิพนธ์นี้ในผู้เขียนไม่มีใบเสนอราคาจากไอทีหรือข้อมูลที่ได้รับจากมันจะต้องเผยแพร่โดยไม่ต้องรับทราบเต็มรูปแบบของแหล่งที่มาวิทยานิพนธ์จะใช้สำหรับการศึกษาเอกชนหรือวัตถุประสงค์การวิจัยเชิงพาณิชย์เท่านั้นCape เผยแพร่โดย University ofof Cape Town (UCT) ในแง่ของใบอนุญาตที่ไม่ผูกขาดที่ได้รับแก่ UCT โดยผู้เขียน

การทำแผนที่มหาวิทยาลัยยีนความแตกต่างทางชาติพันธุ์พื้นฐานในความเสี่ยงต่อวัณโรคโดยการเชื่อมโยงความไม่สมดุลในประชากรสีแอฟริกาใต้ของเคปตะวันตก

เมือง

Emile Chimusa Rugamikacape ([EmailProtected]) ภาควิชาโมเลกุลและชีววิทยาเซลล์มหาวิทยาลัยเคปทาวน์แอฟริกาใต้

วิทยานิพนธ์ของมหาวิทยาลัยที่ส่งมาเพื่อปริญญาเอกของปรัชญาในวิชาชีววิทยาการคำนวณ

ภายใต้การดูแลโดย: ศ. Nicola Mulder, มหาวิทยาลัยเคปทาวน์, SA ร่วมเป็นผู้ดูแลโดย: AssProf. Alkes Price, โรงเรียนสาธารณสุขของโรงเรียนฮาร์วาร์ด, USA ร่วมเป็นผู้ดูแลโดย: Prof. Eileen Hoal van Helden, มหาวิทยาลัย Stellenbosch, SA

11 กุมภาพันธ์ 2013 ฉันเป็นหนี้บุญคุณอย่างมากต่อศาสตราจารย์ศาสตราจารย์ Nicola Mulder ซึ่งให้การสนับสนุนที่เป็นไปได้ทั้งหมดแก่ฉันฉันจำเป็นต้องทำการศึกษาระดับปริญญาเอกฉันรู้สึกขอบคุณผู้สนับสนุนร่วมของฉัน Prof. Alkes Price และ Prof. Eileen Hoal Van Helden ผู้กล้าหาญพอที่จะร่วมวิจัยการวิจัยระดับปริญญาเอกของฉันและอนุญาตให้รวมตัวกันอย่างช้าๆผ่านงานนี้จากพวกเขาฉันได้เรียนรู้ถึงความสำคัญของการแสดงความคิดอย่างชัดเจนทั้งทางวาจาและเป็นลายลักษณ์อักษรฉันขอขอบคุณพ่อแม่และครอบครัวเล็ก ๆ ของฉัน -แอนนี่และอิมานีเอ็มมิลสันและวิวิน่าเอมิลสันสำหรับความเชื่อมั่นในตัวฉันและความรักและการสนับสนุนของพวกเขาโดยที่ไม่มีสิ่งใดที่จะเกิดขึ้นพระเจ้าจงมีความรุ่งโรจน์ขอบคุณ Cape of

การรับรู้ของมหาวิทยาลัย

ฉันรู้สึกขอบคุณอาสาสมัครที่มีสีสันของแอฟริกาใต้ทุกคนที่เข้าร่วมในโครงการวิจัยนี้และขอขอบคุณพวกเขาสำหรับตัวอย่างเลือดและน้ำลายที่มีส่วนร่วมสำหรับการสกัดดีเอ็นเอในระหว่างการศึกษาของฉันฉันได้รับการสนับสนุนจาก Carnegie Corporation และการวิจัยแห่งชาติทุนการเดินทางจากมหาวิทยาลัยเคปทาวน์และคาร์เนกี้คอร์ปอเรชั่นอนุญาตให้ฉันนำเสนองานนี้ในการประชุมนานาชาติและทำงานร่วมกับผู้ร่วมสนับสนุนของฉันที่โรงเรียนสาธารณสุขฮาร์วาร์ดงานวิจัยนี้ได้รับการสนับสนุนจากทุนที่ได้รับรางวัลให้กับฉันโดย Carnegie Covere, University of Cape Town, แผนกวิทยาศาสตร์การแพทย์ทางคลินิก, โรงเรียนแพทย์ความขอบคุณอย่างจริงใจของฉันไปที่รองศาสตราจารย์ Nicola Mulder หัวหน้างานของฉันสำหรับความช่วยเหลือและคำแนะนำของเธอตลอดการศึกษานี้และสำหรับ Readingtown หลายร่างของวิทยานิพนธ์นี้ฉันต้องการแสดงความกตัญญูอย่างจริงใจต่อทั้งผู้ดูแลร่วมของฉันศ. Alkes Price, Harvard School of Public Health และ Prof. Eileen Hoal Van Helden, ศูนย์ความเป็นเลิศ DST/NRF เพื่อการวิจัยวัณโรคชีวการวิทยาศาสตร์สุขภาพมหาวิทยาลัย Stellenboschนอกจากนี้ฉันขอขอบคุณ Stokes Prof. Cathal Seoighe และผู้ช่วยศาสตราจารย์ Noah Zaitlen สำหรับข้อมูลเชิงกลยุทธ์และสำหรับการอภิปรายที่เป็นประโยชน์ในระหว่างการศึกษาระดับปริญญาเอกของฉันฉันยังขอบคุณ Lynne Teixeira ที่สถาบันวิทยาศาสตร์คณิตศาสตร์แอฟริกัน (AIMS) สำหรับความช่วยเหลือในการอ่านวิทยานิพนธ์นี้ในที่สุดฉันต้องการแสดงความขอบคุณอย่างสุดซึ้งต่อพ่อแม่ครอบครัวและเพื่อน ๆ ของฉันสำหรับการสนับสนุนและการให้กำลังใจอย่างต่อเนื่องที่สำคัญที่สุดคือความซาบซึ้งของฉันไปที่ Imani Emilson, Wivina Emilson และ Makasawa Mpangi ซึ่งเป็นแหล่งความช่วยเหลือความรักและการให้กำลังใจที่เหลือเชื่อตลอดหลายปีที่ผ่านมา

II บทคัดย่อ

ประชากรสีแอฟริกาใต้ของเคปตะวันตกเป็นผลมาจากสหภาพแรงงานระหว่างสหภาพยุโรปชาวแอฟริกัน (Bantu และ Khoisan) และประชากรอื่น ๆ อีกมากมาย (เชื้อสายมาเลเซียหรืออินโดนีเซีย)ภาระของวัณโรคทั่วโลกยังคงเป็นปัญหามหาศาลและมีความรุนแรงอย่างรุนแรงในประชากรกลุ่มนี้โดยทั่วไปแล้วประชากรที่ได้รับการผสมที่เกิดขึ้นในยุคประวัติศาสตร์สามารถมีส่วนร่วมที่สำคัญในการค้นพบยีนที่มีความไวต่อโรคหากประชากรของผู้ปกครองมีความแปรปรวนอย่างมากในความอ่อนแอแม้จะมีการศึกษาความสัมพันธ์ทั่วทั้งจีโนมที่ประสบความสำเร็จ แต่การตรวจจับความหลากหลายที่มีความเสี่ยงโรคต่ำยังคงเป็นสิ่งที่ท้าทายนอกจากนี้การศึกษาความสัมพันธ์ของ Admixture สำหรับประชากรที่ได้รับการผสมหลายทางทำให้เกิดความท้าทายอย่างต่อเนื่องรวมถึงทางเลือกของแผง Ancestraltown ที่แม่นยำในการอนุมานบรรพบุรุษและการ จำกัด จีโนไทป์ที่หายไปเพื่อระบุตัวแปรทางพันธุกรรมที่เป็นไปได้ทำให้เกิดความอ่อนแอต่อโรควิทยานิพนธ์นี้กล่าวถึงความท้าทายเหล่านี้เราได้พัฒนา Proxyanc เป็นวิธีการเลือกประชากรบรรพบุรุษที่ดีที่สุดในการบังคับประชากรจากการจำลองของประชากรหลายทางเราแสดงให้เห็นถึงความสามารถและความแม่นยำของพร็อกซีในการเลือกบรรพบุรุษพร็อกซีที่ดีที่สุดและแสดงให้เห็นถึงความสำคัญของการเลือกบรรพบุรุษในการประเมินสัดส่วนส่วนผสมเราใช้วิธีการนี้กับประชากรที่มีสีสันของแอฟริกาใต้เพื่ออีกครั้งทั้งทางเลือกของประชากรบรรพบุรุษและการมีส่วนร่วมทางพันธุกรรมของพวกเขานอกจากนี้เรายังแสดงให้เห็นว่าความถี่อัลลีลของบรรพบุรุษมีความสัมพันธ์กับความไม่สมดุลของการเชื่อมโยงที่เพิ่มขึ้นใน SAC และ LD ที่เพิ่มขึ้นนั้นมีต้นกำเนิดมาจากเหตุการณ์ส่วนผสมมากกว่าคอขวดของประชากรประการที่สองเราได้ทำการศึกษาเพื่อตรวจสอบว่าการมีส่วนร่วมทางพันธุกรรมของบรรพบุรุษมีความเสี่ยงต่อการเกิดวัณโรคหรือไม่นอกจากนี้เรายังได้ดำเนินการศึกษาความสัมพันธ์ทั่วทั้งจีโนมและการวิเคราะห์อภิมานรวมการศึกษาความสัมพันธ์ของจีโนมทั่วทั้งวัณโรคก่อนหน้านี้ผลลัพธ์ของเราแสดงให้เห็นถึงหลักฐานที่สำคัญของการเชื่อมโยง (อัตราต่อรอง = 1.46, p = 1.58E 05) ระหว่าง Khonami (Khoisan) ances-- ‡พยายามและความเสี่ยงต่อวัณโรคที่ไม่ได้เกิดจากสถานะทางเศรษฐกิจและสังคมความไวต่อความไว (RS2057178: อัตราต่อรอง = 0.62, P = 2.71E 06)สิ่งนี้ให้ข้อมูลเชิงลึกเกี่ยวกับการระบุยีนของโรคและความเสี่ยงของโรคในบรรพบุรุษในประชากรหลายทางเนื่องจากความสำคัญของการอนุมานของบรรพบุรุษของสถานที่ในการไม่เปิดเผยทั้งประวัติศาสตร์ประชากรและสถิติการให้คะแนนโรคและในการระบุมากที่สุด

III signi fi cantยีนหรือเส้นทางที่มีความเสี่ยงทางชาติพันธุ์ในความเสี่ยงของโรคที่ซับซ้อนเราประการที่สามโดยรวมถึงความถูกต้องของวิธีการในปัจจุบันเพื่อประเมินบรรพบุรุษในท้องถิ่นในประชากรหลายทางผลลัพธ์ของเราแสดงให้เห็นถึงข้อ จำกัด ของความถูกต้องของวิธีการเหล่านี้ในการอนุมานบรรพบุรุษในท้องถิ่นและเน้นถึงความจำเป็นในการพัฒนาวิธีการอนุมานบรรพบุรุษท้องถิ่นอย่างแม่นยำตามจีโนมของบุคคลที่มีหลายทางการให้คะแนนสถิติและเป็นข้อมูลในวิธีการทำแผนที่สำหรับโรคที่มีความเสี่ยงขึ้นอยู่กับบรรพบุรุษในที่สุดเพื่ออธิบายลักษณะของยีนที่มีความไวในการผสมผสานแบบหลายทางแล้วงานนี้ได้แนะนำวิธีการบนกราฟเชิงพีชคณิต (ANCG- คือ) เพื่อระบุเครือข่ายย่อยที่มีความหมายที่สำคัญกับการรวมกลุ่มชาติพันธุ์ในความเสี่ยงโรคที่ซับซ้อนสัญญาณการเชื่อมโยงจากชุดข้อมูลการศึกษาความสัมพันธ์ทั่วทั้งจีโนมมาตรฐาน, บรรพบุรุษของ locus-speci fi c และความไม่สมดุลของการเชื่อมโยงคู่ที่ชาญฉลาดในมนุษย์โปรตีน-เครือข่ายปฏิสัมพันธ์ระหว่างโปรตีนผ่านการจำลองตำแหน่งของโรคแบบโต้ตอบในการจำลองประชากร 4 ทิศทางเราแสดงให้เห็นว่า Ancgwas มีสัญญาในการตรวจสอบการมีปฏิสัมพันธ์ระหว่างยีนที่อยู่ภายใต้การเกิดโรคของโรค com- plex และเพื่อระบุสัญญาณที่เป็นไปได้การกำหนดบรรพบุรุษในระดับยีนและทางเดินเราใช้วิธีการนี้กับชุดข้อมูลการศึกษาจีโนมที่มีความสัมพันธ์กันของวัณโรคในประชากร Colouredtown South Colouredtownเราสามารถที่จะกลับมาใช้สัญญาณความสัมพันธ์ของ 6 ยีนรวมถึง MEGF10 (P = 2.44E 11), PRRC1 (P = - 2.44E 11), HNRNPK (P = 6.28E 09), SLC8A3 (P = 8.99E 09)SMOC1 (P = 8.99E 09) - - - - - และ CTXN3 (P = 2.30E 08)นอกจากนี้ผลลัพธ์ของเราจำลองยีนที่เกี่ยวข้องกับ TB ที่รู้จักกัน 4 ตัว - Cape ซึ่งรวมถึง IL8 (P = 0.0039), SLC11A1 (P = 0.0035), WT1 (P = 0.0015), CCL2 (P = 0.0015) และ IFNGR1 (P = 0.0034).เราระบุเครือข่ายย่อยส่วนกลางของ AOF ซึ่งส่วนใหญ่เกี่ยวข้องกับเส้นทางการส่งสัญญาณโรคมะเร็งเม็ดเลือดขาวชนิดเฉียบพลันและเรื้อรังและรวมถึงยีน WT1 และ IL8ผลลัพธ์นี้ให้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับการเกิดโรควัณโรคและอาจเกี่ยวข้องกับการวิจัยทางชีวการแพทย์เพิ่มเติมใน eld eld นี้

มหาวิทยาลัย

เนื้อหา IV

กิตติกรรมประกาศ II

บทคัดย่อ III

1 บทนำ, การทบทวนพื้นหลังและวรรณกรรม 1 1.1 บทนำ ...... 1 1.1.1 ความหลากหลายของประชากรในแอฟริกาใต้ ...... 1 1.2 แรงจูงใจและทฤษฎีการวิวัฒนาการ ...... เมือง ...... 3 1.3 ประชากรพันธุศาสตร์ของส่วนผสม ...... 6 1.3.1 HUMANGENETICSDIVERSITY ...... 6 1.3.2 พันธุศาสตร์ของส่วนผสม ...... 8 1.3.3 ธรรมชาติและมาตรการของ LinkAgecape Disequilibrium ...... 81.4 โครงสร้างประชากรและบรรพบุรุษในท้องถิ่น ...... 11 1.4.1 Geneticsancestryoverview ...... 11 1.4.2 การวิเคราะห์องค์ประกอบหลัก (PCA) ...... 14 1.4.3 วิธีการน่าจะเป็น ...... 15 1.4.3.1 มาร์คอฟเชน Monte Carlo ...... 17 1.4.3.2 รุ่นที่ซ่อนอยู่ของ Markov ...... 18 1.4.3.3 Locus-Speci fi c บรรพบุรุษ ...... 20 1.5 GeneticDiseaseSunity ...... 21 1.5.1 ภาพรวมของ GeneticDiseases ...... 21 1.5.2 Mendelian กับโรคที่ซับซ้อน ...... 21 1.6 วิธีการทำแผนที่โรค ...... 23 1.6.1 สายเลือดและวิธีการตามครอบครัว ...... 23 1.6.2 สมาคมจีโนมทั่วประชากร ...... 26 1.6.2.1 ภาพรวมของโมเดลผสมใน GWAS ...... 28 1.6.2.2 สมาคมการผสมจีโนมทั่วทั้งจีโนม ...... 29 1.7 ปัญหาการเข้าร่วมการศึกษา ...... 30

เนื้อหา V

2 วิธีการคัดเลือกบรรพบุรุษพร็อกซี: ส่วนประกอบบรรพบุรุษของประชากรหลายทางแอฟริกาใต้ 32 2.1 บทนำ ...... 32 2.1.1 พื้นหลังและแรงจูงใจ ...... 32 2.1.2 ผลกระทบของการเลือกบรรพบุรุษพร็อกซีทั้งสองการประเมินบรรพบุรุษและการวางจีโนไทป์ที่หายไปในประชากร ampixed ...... 33 2.1.3 SAC ให้ประชากรในอุดมคติในการศึกษาทางเลือกของบรรพบุรุษพร็อกซีที่ดีที่สุด ...... 33 2.1.4 ภาพรวมการศึกษา ...... 35 2.2 วัสดุและวิธี ...... 35 2.2.1 ตัวอย่างข้อมูลจีโนไทป์และการควบคุมคุณภาพจีโนไทป์ ...... 35

2.2.2 Proxyanc: FST-Optimal Quadratic Cone Programming ...... 40 2.2.3 Proxyanc: Proxy-ancestry คะแนน ...... 42 2.2.4 ข้อมูลการทดลองเพื่อประเมินพร็อกซี ...... 442.2.5 การวิเคราะห์ส่วนผสมและส่วนประกอบหลัก ...... 45 2.3 ผลลัพธ์และการอภิปราย ...... เมือง46 2.3.1 การประเมินผลของอัลกอริทึมของพร็อกซีแอล ...... 46 2.3.1.1 ผลกระทบของการเลือกบรรพบุรุษพร็อกซีในการประเมินบรรพบุรุษและการใส่จีโนไทป์ที่หายไปในประชากรที่ได้รับการผสม----51 2.3.2 ลักษณะทางพันธุกรรมที่ละเอียดของส่วนประกอบบรรพบุรุษของประชากรสีแอฟริกาใต้ของแอฟริกาของ ...... 54 2.3.2.1 พร็อกซีแอน: การเลือกบรรพบุรุษพร็อกซีในถุง ...... 54 2.3.2.2สัดส่วนในถุง ...... 60 2.4 บทสรุปและเครื่องหมาย ...... 63

3 เครื่องหมายที่ให้ข้อมูลบรรพบุรุษ: การเชื่อมโยงการเชื่อมโยงความไม่สมดุลและความหลากหลายของ haplotype ในประชากรสี 70 3.1 บทนำความหลากหลาย ...... 70 3.2 วิธีการ ...... 72 3.2.1 การเลือกเครื่องหมายทางพันธุกรรม: ความสัมพันธ์ระหว่างประชากร..... 72 3.2.2 การวิเคราะห์ส่วนประกอบหลัก (PCA) วิธีการเลือกตาม ...... 73 3.2.3 การเชื่อมโยงการเชื่อมโยงความไม่สมดุล ...... 75 3.2.4 ความหลากหลายทางพันธุกรรม(IBD) และ haplotypes แบ่งปัน IBD 76 3.3 ผลลัพธ์ ...... 77 3.3.1 การเลือกเครื่องหมายที่ให้ข้อมูลบรรพบุรุษ ...... 77

เนื้อหา VI

3.3.2 การประเมินแอมป์ LD ...... 78 3.3.3 ความหลากหลายทางพันธุกรรมและ haplotype identity-by-descent ...... 81 3.4 การสนทนา ...... 83

4 การศึกษาสมาคมจีโนมกว้างเกี่ยวกับความเสี่ยงของบรรพบุรุษในประชากรสีแอฟริกาใต้84 4.1 บทนำ ...... 84 4.2 วัสดุและวิธี ...... 85 4.2.1 บรรพบุรุษทางพันธุกรรมและความสัมพันธ์ที่เสี่ยงต่อวัณโรค ...... 85 4.2.2 ความผิดปกติในความถี่อัลลีล ...... 864.3 ผลลัพธ์และการอภิปราย ...... 87 4.3.1 ความสัมพันธ์ระหว่างความเสี่ยงวัณโรคและบรรพบุรุษทางพันธุกรรม ...... 87 4.3.2 ความสัมพันธ์ระหว่างความเสี่ยงวัณในความถี่อัลลีลจากการศึกษากรณีควบคุมวัณโรคใน SAC ...... 92 4.4 บทสรุป ...... เมือง 92 5 การสแกนจีโนมกว้างสำหรับความเสี่ยงวัณโรคในการเติมเงินของแอฟริกาใต้94 5.1 บทนำ ...... Cape 94 5.2 Materialsandmethods ...... 97 5.2.1 การศึกษาประชากร, การควบคุมคุณภาพของ ...... 97 5.2.2 Associationanalysis ...... 97 5.3 ผลลัพธ์: สมาคมศึกษาในประชากรสีแอฟริกาใต้ ...... 98 5.4 การอภิปรายและข้อสรุป ...... 100

6 จีโนมกว้างสำหรับความเสี่ยงวัณโรคในประชากรสีแอฟริกาใต้ที่ได้รับการผสมและเปรียบเทียบกับการศึกษาวัณโรคก่อนหน้านี้105 6.1 บทนำความหลากหลาย ...... 105 6.2 วัสดุและวิธีการ ...... 106 6.2.1 ขั้นตอนการควบคุมคุณภาพและการใส่ร้าย ...... 106 6.2.2 การเชื่อมโยงและการจัดการ Metaanalyses ...... 106 6.3 ผลลัพธ์: สมาคมการใส่ร้ายศึกษาในประชากรสีแอฟริกาใต้-107 6.3.1 การจำลองแบบของ SNPs ที่รายงานในการศึกษาก่อนหน้านี้ ...... 109 6.3.2 Meta-Analysiswithsacandwtcccdata ...... 116 6.4 การสนทนาและบทสรุป ...... 118

เนื้อหา VII

7 locus-speci fi c บรรพบุรุษ: การกระจายความยาวของบล็อกในการเติมเต็มหลายทาง124 7.1 บทนำ ...... 124 7.2 วัสดุและวิธี ...... 126 7.2.1 การประเมินการอนุมานบรรพบุรุษในท้องถิ่นในประชากรหลายทางที่มีการผสม 126 7.2.2 การกระจายขนาดของบรรพบุรุษในประชากรหลายทาง--127 7.3 ผลลัพธ์และการอภิปราย ...... 128 7.3.1 ความแม่นยำของการอนุมานบรรพบุรุษในท้องถิ่นในข้อมูลจำลอง ...... 128 7.3.2 SAC: Locus-speci fi c บรรพบุรุษและการกระจายขนาดบล็อกบรรพบุรุษ131 7.4 ข้อสังเกตสรุป ...... 133

8 ยีนและเครือข่ายย่อยที่เป็นพื้นฐานของความเสี่ยงทางชาติพันธุ์ในความเสี่ยงของโรคที่ซับซ้อนในประชากรที่ได้รับการผสมเมื่อเร็ว ๆ นี้134 8.1 บทนำ ...... 134 8.2 Developmentofancgwas ...... 136 8.2.1 การมอบหมายบรรพบุรุษ, ค่า P และ LD Fromtown SNPs ถึงระดับยีน--136 8.2.2 การค้นหาเครือข่ายย่อยโดยใช้มาตรการศูนย์กลาง ...... 138 8.2.3 การให้คะแนนยีนและบรรพบุรุษเครือข่ายย่อย ...... 140 8.2.4 การประเมินแนวทาง ANCGWAS ......143 8.3 ผลลัพธ์และการอภิปราย ...... เคป144 8.3.1 การประเมินผลของ ANCGWAS ในข้อมูลจำลอง ...... 144 8.3.2 การประยุกต์ใช้ชุดข้อมูล TB GWAS จากชุดสีแอฟริกาใต้ ColouredPopulation ...... 151 8.3.3 สรุป ......161

9 การอภิปรายและบทสรุป 163 9.1 การสนทนา ...... 163 9.1.1 การเปลี่ยนแปลงทางพันธุกรรมความหลากหลายในประชากรสีแอฟริกาใต้ ...... 163 9.1.2 การศึกษาสมาคมจีโนมกว้าง ...... 165 9.1.3.3โพสต์การวิเคราะห์การศึกษาความสัมพันธ์ทั่วทั้งจีโนม ...... 166 9.2 บทสรุป ...... 167

ข้อมูลอ้างอิง 188

VIII รายการตัวเลข

2.1 Proxyanc: พล็อตของการเลือกบรรพบุรุษพร็อกซีสำหรับข้อมูลการจำลอง ...... 47 2.2 การประเมินสัดส่วนส่วนผสมโดยใช้การจำลองของการผสมผสานที่หลากหลาย ...พวกเราคาดการณ์ว่าพวกเราจะมีบรรพบุรุษพร็อกซีที่เหมาะสมและไม่เหมาะสมในข้อมูลจำลอง ...... 53 2.4 Poxyanc: การประเมินการใส่จีโนไทป์ที่หายไปโดยใช้การจำลองของประชากรหลายทาง ...... เมือง ...... 54 2.5 การวิเคราะห์องค์ประกอบหลักทั่วโลกภายในการป๊อปอัพสีของแอฟริกาใต้ ...... 55 2.6 พร็อกซี: การเลือกบรรพบุรุษพร็อกซีที่ดีที่สุดสำหรับประชากรสีแอฟริกาใต้ ...... เคป 56 2.7 สัดส่วนบรรพบุรุษของแต่ละบุคคลและการวิเคราะห์องค์ประกอบหลักของประชากรบรรพบุรุษพร็อกซีที่เลือกภายในประชากรสีแอฟริกาใต้----61 2.8 ความแตกต่างในสัดส่วนบรรพบุรุษของแต่ละบุคคลระหว่างแผงของประชากรบรรพบุรุษพร็อกซีที่ดีที่สุดของ SAC และแผงอ้างอิงประชากรที่ใช้ใน Dewit etal(2010a) ...... 62 2.9 การวิเคราะห์องค์ประกอบหลักของแอฟริกาและการจัดกลุ่มประชากรบรรพบุรุษภายในประชากรสีแอฟริกาใต้ ...... 65 2.10 การวิเคราะห์องค์ประกอบหลักของยุโรปและการจัดกลุ่มประชากรบรรพบุรุษภายในประชากรสีแอฟริกาใต้ ...... 66 2.11 การวิเคราะห์องค์ประกอบหลักของเอเชียตะวันออกและการจัดกลุ่มประชากรบรรพบุรุษภายในประชากรสีแอฟริกาใต้ ...... 67 2.12 การวิเคราะห์องค์ประกอบหลักในตะวันออกกลางและการจัดกลุ่มประชากรบรรพบุรุษภายในประชากรสีแอฟริกาใต้ ...... 682.13 การวิเคราะห์องค์ประกอบหลักของเอเชียใต้ภายในประชากรสีแอฟริกาใต้ ...... 69

3.1 สัดส่วนบรรพบุรุษของแต่ละบุคคลโดยใช้แผง AIMS ...... 77

ix รายการตัวเลข

3.2 การเปรียบเทียบ LD ใน 1121 จุดมุ่งหมายเครื่องหมายจากการเติมสีของแอฟริกาใต้และประชากรบรรพบุรุษพร็อกซีของมัน ...... 78 3.3 การกระจายของ LD ใน SAC และ LD ส่วนผสมที่คาดหวัง.. 79 3.4 เส้นโค้งการสลายตัวของ LD ถ่วงน้ำหนักในประชากรสีแอฟริกาใต้ที่มีประชากรบรรพบุรุษสองคู่ ...... 81

5.1 การวิเคราะห์ PCA ของกรณีและบุคคลควบคุมของ SAC ...... 99 5.2 Q-Q พล็อตของประชากรชั้นเรตตี้ของกลุ่มเพื่อเปรียบเทียบการกระจายของค่า p ที่ให้บริการกับการกระจายที่คาดหวัง ...... 100 5.3 แมนฮัตตันพล็อตของพล็อตของแมนฮัตตันการวิเคราะห์ความสัมพันธ์ของจีโนมกว้างของวัณโรคในสีแอฟริกาใต้ ...... 101 5.4 พล็อตระดับภูมิภาคของ SNP ที่มีค่า p ต่ำสุดในการวิเคราะห์ความสัมพันธ์ของวัณโรคในประชากรสีแอฟริกาใต้ ...... 102

6.1 Q-Q พล็อตของกลุ่มประชากร fi cation e ects เพื่อเปรียบเทียบการกระจายของค่า p ที่ให้บริการกับการกระจายที่คาดหวัง---.Town ...... 108 6.2 พล็อตแมนฮัตตันพล็อตของการวิเคราะห์ความสัมพันธ์ของจีโนมทั่วทั้ง TB ในสีแอฟริกาใต้ ...... 109 6.3 เครือข่ายชีวภาพของยีนที่มีปฏิสัมพันธ์กับ CapewT1 (11p13), TLR8 (xp22.2) และRBBP8 (18Q11.2) ...... 111 6.4 META วิเคราะห์ Q-Q แปลงของปัจจัยการควบคุมจีโนมของปัจจัยการควบคุม ...... 117 6.5 พล็อตป่าไม้ของตัวแปรทั่วไปจากการวิเคราะห์อภิมานทั่วทั้งจีโนมของวัณโรคในแอฟริกาใต้สีแอฟริกาใต้และการศึกษา WTCCC-TB ...... 118

7.1 การเปรียบเทียบค่าเฉลี่ยที่แท้จริงและค่าเฉลี่ยของบรรพบุรุษในท้องถิ่นข้ามจีโนมของประชากรหลายทางที่ได้รับการจำลอง ... ...... 129 7.2 การเปรียบเทียบของอัลลีลที่แท้จริงกับอัลลีลที่อนุมานได้ทั่วจีโนมตัวอย่างจำลอง ...... 130 7.3 ค่าเฉลี่ยของบรรพบุรุษในท้องถิ่นข้ามจีโนมของประชากรสีแอฟริกาใต้โดยใช้ตัวอย่างกรณีและการควบคุมทั้งหมด ...... 132 7.4 จำนวนรุ่น (G) ตั้งแต่ส่วนผสมเกิดขึ้นถุง ...... 133

8.1 Work- owofancgwasapproach ...... 144 8.2 การวิเคราะห์ทอพอโลยีของคุณสมบัติของเครือข่ายจากข้อมูลการจำลอง ...... 148 08.3 2 อันดับแรกของเครือข่ายย่อยจากข้อมูลการจำลองเครือข่ายย่อยที่เชื่อมต่อสูงของ <295 ยีนที่เชื่อมต่อ150 8.4 สัดส่วนการผสมสำหรับยีนที่มีความหมาย/ที่เกี่ยวข้องปานกลาง ...... 155

x รายการตัวเลข

8.5 เครือข่ายย่อยที่เกี่ยวข้องจากการใส่วัณโรค GWAS ของประชากรสีแอฟริกาใต้ ...... 160 8.6 เครือข่ายย่อยส่วนกลางจากการใส่วัณโรค GWAS ของป๊อปอัพสีของแอฟริกาใต้ ...... 161

เมือง

แหลม

มหาวิทยาลัย

xi รายการตาราง

2.1 รายการของประชากรบรรพบุรุษสมมุติที่รวมอยู่ในโครงสร้างทางพันธุกรรมของประชากรโครงสร้างของการวิเคราะห์ของ THTESAC ...... 37 2.2 คะแนนบรรพบุรุษพร็อกซี: ผลลัพธ์จากข้อมูลการจำลอง ...... 48

2.3 FST เป็นฟังก์ชั่นวัตถุประสงค์: ผลลัพธ์จากข้อมูลการจำลอง ...... 49 2.4 F 3 สถิติ: สัญญาณของส่วนผสมในข้อมูลการจำลอง ...... 57 2.5 คะแนนบรรพบุรุษพร็อกซี: ผลลัพธ์จากสีของแอฟริกาใต้..... 58 2.6 FST เป็นฟังก์ชั่นวัตถุประสงค์: ผลลัพธ์จากข้อมูลสีของแอฟริกาใต้---59 2.7 ค่าเฉลี่ยสรุปและข้อผิดพลาดมาตรฐานของสัดส่วนการผสมของสีแอฟริกาใต้ ...... 62 3.1 ความสัมพันธ์ระหว่างส่วนผสมที่คาดหวังสูงสุด LD และ LD ที่สังเกตได้ใน Thesac ...... 80 3.2 การเปรียบเทียบความหลากหลายทางพันธุกรรมระหว่างทางใต้ของภาคใต้ประชากรสีแอฟริกัน (SAC) และประชากรบรรพบุรุษพร็อกซี ...... 82

4.1 ความเสี่ยงของบรรพบุรุษ- ความเสี่ยงและการมีส่วนร่วมของสถานะทางเศรษฐกิจและสังคมต่อบรรพบุรุษ- speci fi ctuberculosisriskinthesac ...... 88 4.2 ความสัมพันธ์ระหว่างส่วนของบรรพบุรุษ) ในถุง ...... 88 ‡ 4.3 บรรพบุรุษเงื่อนไขการทดสอบความเสี่ยงวัณโรค ...... 91 4.4 TB กรณีเทียบกับการควบคุมสัดส่วนบรรพบุรุษ ...... 92

65.1 3 เครื่องหมายทางพันธุกรรมที่มีค่า p-signi fi cant และปานกลางที่ได้รับจากการวิเคราะห์ความสัมพันธ์กับฟีโนไทป์วัณโรคในชุดข้อมูลที่พิมพ์----103

6.1 การตรวจสอบการจำลองแบบของ SNPs ที่รายงานในการศึกษาก่อนหน้านี้ ...... 114 6.2 การวิเคราะห์อภิมานของการศึกษากรณีควบคุมวัณโรคสองครั้ง, SAC-TB, WTCCC-TB และ 4 poly- morphisms บนโครโมโซมX ก่อนหน้านี้ระบุโดย Davila และคณะ2551 ..... 115

xii รายการตาราง

26.3 6 เครื่องหมายทางพันธุกรรมที่มีค่า p-signi และระดับปานกลางที่ได้รับจากการวิเคราะห์ความสัมพันธ์กับฟีโนไทป์วัณโรคบนชุดข้อมูลที่ระบุ---120

7.1 ตัวอย่างการเปรียบเทียบโดยประมาณของวันที่ของเหตุการณ์ส่วนผสมจากวิธี Hapmix, Steppco และ Rolloff โดยใช้ประชากรสองทาง---125 7.2 การเปรียบเทียบความแม่นยำของ WinPop และ Lampld ในการอนุมานบรรพบุรุษในท้องถิ่น129 7.3 อัตราข้อผิดพลาดในการอนุมานบรรพบุรุษท้องถิ่น Lampld ในข้อมูลจำลอง ...... 131

8.1 การวิเคราะห์การเชื่อมโยงโดยใช้ข้อมูลการจำลองของประชากร 4 ทาง-145 8.2 การวิเคราะห์การเชื่อมโยงที่ระดับยีนในข้อมูลการจำลองของประชากร 4 ทิศทาง ...... 147 08.3 2 เครือข่ายย่อยที่สำคัญที่สุดที่ได้รับจากข้อมูลการจำลองของประชากร 4 ทางโดยใช้ ANCGWAS ...... 149 58.4 9 ยีนที่มีค่า p-signi fi cant/ปานกลางที่ได้รับจากวิธีการ ANCGWAS ของการวิเคราะห์สมาคม SNPS ที่ใช้ GWAS รวมจาก Colouredpopulation ของแอฟริกาใต้ ...... 152 08.5 2 เครือข่ายย่อยที่เกี่ยวข้องคะแนนที่ใช้โดยใช้วิธี ANCGWAS โดยการรวมค่า p-value ที่เกี่ยวข้องกับยีนจากประชากรสีแอฟริกาใต้ ...... 157 Cape of

มหาวิทยาลัย

XIII บทที่ 1

บทนำพื้นหลังและการทบทวนวรรณกรรม

1.1 บทนำเมือง 1.1.1 ความหลากหลายของประชากรในแอฟริกาใต้

ความหลากหลายของประชากรอย่างกว้างขวางกับกลุ่มที่มีต้นกำเนิดจากบรรพบุรุษแอฟริกา (79%), เอเชีย (2.5%) และยุโรป (9.6%) พบว่าในแอฟริกาใต้ (Dewit etal., 2010a)ตามที่รายงานใน (Dewit etal., 2010a; Mountain, 2003), Cape ทั้งประวัติศาสตร์การล่าอาณานิคมและที่ตั้งของแอฟริกาใต้เกี่ยวกับเส้นทางการค้าที่สำคัญจากเส้นทางที่ 15 ถึงศตวรรษที่ 19 เป็นข้อตกลงของความหลากหลายของประชากรในแอฟริกาใต้การมีส่วนร่วมของกลุ่มประชากรที่แบ่งแยกอย่างต่อเนื่องเหล่านี้ก่อนหน้านี้จากยุโรปเอเชียและส่วนที่เหลือของแอฟริกาเพื่อความหลากหลายของแอฟริกาใต้ส่งผลให้เกิดการจัดตั้งประชากรบรรพบุรุษผสมซึ่งส่วนใหญ่อยู่ในจังหวัดเวสเทิร์นเคปตนเองระบุว่าเป็นประชากรสีแอฟริกาใต้SAC) (Adhikari, 2005; Nurse et al., 1985; Ross, 1993)ประชากรนี้ซึ่งปัจจุบันประกอบด้วยประมาณ 54% ของประชากรของจังหวัดเคปตะวันตกและ 9% ของประชากรแอฟริกาใต้ทั้งหมดมีประวัติศาสตร์ทางพันธุกรรมที่ซับซ้อนในการออกกฎหมายประวัติศาสตร์สีของแอฟริกาใต้มีส่วนหนึ่งของรากเหง้าของพวกเขาใน Khoekhoen และ San (Boonzaaier et al., 1996; Elphick, 1985; Mountain, 2003) อดีตเป็นถิ่นกำเนิดของพื้นที่ขนาดใหญ่ซึ่งประกอบไปด้วยส่วนตะวันตกเฉียงใต้ของแอฟริกาจังหวัดเวสเทิร์นเคปในปัจจุบันของแอฟริกาใต้ในช่วงแรกของการล่าอาณานิคมโดยผู้ตั้งถิ่นฐานชาวยุโรปของ บริษัท ดัตช์อีสต์อินเดีย (VOC) ในปี 1652 (Davis & Dollard, 1994; Mountain, 2003) มีการจัดตั้งสถานีเครื่องดื่มที่ Cape of Good Hope ตอนนี้เคปทาวน์และ บริษัท นำทาสจากทวีปย่อยของอินเดีย (25.9%) และการเนรเทศทางการเมืองจำนวนเล็กน้อยจากอินโดนีเซียและมาเลเซีย (Mountain, 2004) ชายฝั่งตะวันออกของแอฟริกา (26.4%), มาดากัสการ์ (25.1%) และอินโดนีเซีย (22.7%) (Davis&

1 1.1 บทนำ

Dollard, 1994;พยาบาล etal., 1985)การประมาณเหล่านี้ได้มาจากบันทึกการค้าทาส (Davis & Dollard, 1994)โดยเฉพาะอย่างยิ่งซานเป็นผู้อยู่อาศัยดั้งเดิมของแอฟริกาตอนใต้และเป็นหนึ่งในสมาคมนักล่า-รวบรวมคนสุดท้ายที่เหลืออยู่นักอภิบาล Khoekhoen ได้มาถึงในแอฟริกาตอนใต้ไม่นานก่อนที่ Bantu (Mountain, 2004)เมื่อเวลาผ่านไป Khoi บางคนละทิ้งศิษยาภิบาลและนำเศรษฐกิจของนักล่า-รวบรวมของซานซึ่งน่าจะเกิดจากสภาพอากาศที่แห้งแล้งและตอนนี้ได้รับการพิจารณาว่าซานดังนั้นชื่อ Khoesan จึงได้รับการแนะนำให้รู้จักกับทั้งประชากร Khoekhoen และ SanKhoekhoen และซานไม่ได้เป็นทาส แต่มักจะทำหน้าที่เป็นคนงานที่ได้รับการรับรองหรือ Serfs ในฟาร์ม (Davis & Dollard, 1994; Mountain, 2003)ผู้หญิงจาก Khoekhoen หรือ Slave Descent และลูก ๆ ของพวกเขาถูกรวมเข้ากับบ้านอาณานิคมบ่อยครั้งจากการแต่งงาน (Davis & Dollard, 1994; Mountain, 2003)การแต่งงานแบบผสมมักจะระหว่างชายชาวยุโรปและผู้หญิงที่เป็น Khoekhoen, San, ทาสหรือบิดามารดาผสม (Keegan, 1996) และระหว่าง Khoekhoen, San และ Slave (Moun- tain, 2003).ตั้งแต่ปี ค.ศ. 1700 ลูกหลานของการแต่งงานแบบผสมและประสานงานค่อยๆเติบโตเป็นกลุ่มที่รู้จักกันในชื่อ "Cape Colored's" (Keegan, 1996; Mountain, 2003; Nurse etal., 1985)ชื่อของประชากร "Cape Colored" ได้รับการแนะนำในช่วงกลางศตวรรษที่สิบเก้า (Keegan, 1996)นอกจากนี้เมืองการแต่งงานเหล่านี้เป็นเรื่องธรรมดามากขึ้นในพื้นที่เกษตรกรรม (Davis & Dollard, 1994; Mountain, 2003) และต่อมาหลังจากปี 1806 ข้อ จำกัด ตามการแข่งขันได้รับการจัดระเบียบภายใต้การบริหารของอังกฤษ (Mountain, 2003)ดังนั้นทั้งสภานิติบัญญัติที่ได้รับการแนะนำในช่วงยุคการแบ่งแยกสีผิว (2491 2537) และ - การจัดตั้งสถานีมิชชันนารี (จาก 1738cape) เสริมสร้างการทำงานร่วมกันระหว่างประชากรสีและ Khoesan (Mountain, 2004)หลังจากการปลดปล่อยโดยการบริหารของอังกฤษ (1834 1838), อดีตทาสและคนอื่น ๆ-คนที่ยากจนตั้งรกรากอยู่ที่สถานีภารกิจ (Mountain, 2004) ซึ่งบางส่วนก่อตัวเป็นเคอร์เนลของพื้นที่กลุ่ม "สี" (Boonzaaier et al.1996; Mountain, 2003)Khoesan หลายแห่งในสถานีภารกิจเหล่านี้มีบรรพบุรุษในยุโรปหรือแอฟริกา (โดยเฉพาะ Xhosa) (Keegan, 1996)การทำให้เป็นระเบียบของระเบียบทางเชื้อชาติในสังคมเริ่มขึ้นในช่วงปลายปี 1700จากปี 1910 และในปี 1948 1994 ระบอบการปกครองแบ่งแยกสีผิวได้แนะนำสภานิติบัญญัติที่ผิดกฎหมายระหว่างการปกครองระหว่างเชื้อชาติและพื้นที่ที่อยู่อาศัยของที่อยู่อาศัย (http://www.sahistory.org.za/pages/chronology/special- chrono/Chrono/การกำกับดูแล/การแบ่งแยกสีผิว-กฎหมาย. html)การแยกกลุ่มชาติพันธุ์นี้เพิ่มการรวมตัวกันของประชากรถุงที่ได้รับการยอมรับแล้วในเวสเทิร์นเคป (Adhikari, 2005; Cilliers, 1985)ใน Cape ตะวันตก 17.6% ของสีแอฟริกาใต้เป็นภาษาอังกฤษที่พูดภาษาอังกฤษและ 83.0% เป็นชาวแอฟริกันที่พูดภาษาเหล่านี้เป็นไปตามการสำรวจสำมะโนประชากรของแอฟริกาใต้ปี 2554

2 1.2 ภาพรวมแรงจูงใจและวิทยานิพนธ์

1.2 ภาพรวมแรงจูงใจและวิทยานิพนธ์

บุคคลที่มีสีสันของแอฟริกาใต้ที่นำเสนอในวิทยานิพนธ์นี้ได้รับการลงทะเบียนจาก Ravensmead และ Uitsig สองชานเมืองของ Cape Town 90.1% เป็นชาวแอฟริกันที่พูดและ 9.3% พูดภาษาอังกฤษประชากรของ Ravensmead/Uitsig คือ 90.5% คริสเตียนและมีชาวมุสลิมเพียง 1.7% เท่านั้น (การสำรวจสำมะโนประชากร SA 2011)ที่สำคัญประชากรผสมนี้มีอุบัติการณ์สูงสุดของวัณโรค (วัณโรค) ในซาฮาราย่อยของแอฟริกานอกจากนี้การตรวจสอบเมื่อเร็ว ๆ นี้ชี้ให้เห็นว่าวัณโรคเกิดขึ้นบ่อยครั้งในสมาชิกหลายคนในตระกูลเดียวกันของประชากรสีผสมดังนั้นปัจจัยที่สืบทอดได้รวมถึงปัจจัยด้านสิ่งแวดล้อมและการย้ายถิ่นอาจเกี่ยวข้องกับการกำหนดความอ่อนแอและความต้านทานต่อวัณโรคที่ใช้งานหลังจากการติดเชื้อ (Babb etal2550;เป็นที่สนใจที่จะสร้างความเสี่ยงในความเสี่ยงของวัณโรคมีแนวโน้มที่จะมีพื้นฐานทางพันธุกรรมหรือไม่เพื่อแสดงความสัมพันธ์ระหว่างความเสี่ยงของวัณโรคและสัดส่วนของส่วนผสมจากประชากรบรรพบุรุษที่มีความเสี่ยงสูงเป็นวัณโรคสถานที่ตั้งหลักของวิทยานิพนธ์นี้เกี่ยวข้องกับการระบุตำแหน่งจีโนมของประชากรสีแอฟริกาใต้ที่มีหลักฐานที่เป็นไปได้ของ Ethnictown di ff erence และความสัมพันธ์กับความเสี่ยงต่อวัณโรควิทยานิพนธ์นี้มีวัตถุประสงค์เพื่อใช้ประโยชน์จากส่วนผสมของการแมปยีนที่รองรับความเสี่ยงต่อวัณโรคตามข้อมูลกรณี/การควบคุมมันมีจุดมุ่งหมายที่จะกำหนดว่าบรรพบุรุษที่แตกต่างกันในความเสี่ยงของวัณโรคมีแนวโน้มที่จะมีพื้นฐานทางพันธุกรรมและเพื่อแสดงความสัมพันธ์ระหว่างความเสี่ยงของวัณโรคและสัดส่วนของ admixturecape จากประชากรบรรพบุรุษที่มีความเสี่ยงสูงการเชื่อมโยงส่วนผสมของวิธีการใช้ประโยชน์จากบรรพบุรุษแฝงในประชากร ampixed เมื่อเร็ว ๆ นี้ที่ locus โรคทางพันธุกรรมสมมุติและการทดสอบสำหรับการเชื่อมโยงทางพันธุกรรมโดยการตรวจจับความสัมพันธ์ของบรรพบุรุษของสถานที่ทางพันธุกรรมกับโรคการรวมสัญญาณสมาคม Admixture ลงใน GWAS ของประชากร ampixed นั้นแสดงให้เห็นว่าน่าจะเป็นข้อมูลสำหรับโรคที่มีความเสี่ยงขึ้นอยู่กับบรรพบุรุษ (Pasaniuc etal., 2011)จุดมุ่งหมายครั้งแรกในโครงการนี้คือการเข้าใจการแต่งหน้าทางพันธุกรรมของประชากรนี้โดยการพัฒนาวิธีการเพื่อตรวจสอบลักษณะทางพันธุกรรมของส่วนประกอบบรรพบุรุษและสุดท้ายเพื่อประเมินความถูกต้องของวิธีการในปัจจุบันเพื่อประเมินบรรพบุรุษท้องถิ่นและให้การประยุกต์ใช้บรรพบุรุษในท้องถิ่นในการระบุยีนที่มีนัยสำคัญหรือทางเดินที่มีพื้นฐานทางชาติพันธุ์ในความเสี่ยงของโรคที่ซับซ้อนในประชากรที่ได้รับการผสมหลายทางโดยเฉพาะอย่างยิ่งในประชากรสีแอฟริกาใต้วิทยานิพนธ์นี้เกี่ยวข้องกับหกแกนหลักของการสอบสวน:

(1) การจำแนกลักษณะที่ดีของบรรพบุรุษทางพันธุกรรมของประชากรนี้โดยการพัฒนาวิธีการเลือกประชากรบรรพบุรุษพร็อกซีที่ดีที่สุดอย่างแม่นยำสำหรับการผสมผสานระหว่างประชากรหลายทาง

3 1.2 ภาพรวมแรงจูงใจและวิทยานิพนธ์

(2) การตรวจสอบว่าการมีส่วนร่วมทางพันธุกรรมสามารถเพิ่มอุบัติการณ์ของวัณโรคและการประเมินผลการมีส่วนร่วมของสถานะทางเศรษฐกิจและสังคมต่อความสัมพันธ์ระหว่างบรรพบุรุษวัณโรคใน SAC

(3) การศึกษาความสัมพันธ์ของจีโนมทั่วทั้งจีโนม (GWAS) พร้อมการแก้ไขสำหรับบรรพบุรุษทั่วทั้งจีโนมการนับรวมสำหรับทั้งกลุ่มประชากรและความสัมพันธ์ที่ซ่อนอยู่ซึ่งอาจเป็นผลมาจากลำดับวงศ์ตระกูล

(4) การวิเคราะห์อภิมานของการศึกษาความสัมพันธ์ของจีโนมทั่วทั้ง SAC และการศึกษาล่าสุดของแอฟริกา TB case-control ซีรีส์จากกานาแกมเบียและมาลาวีและสี่ polymorphisms ในยีน TLR8 ในโครโมโซม X

(5) การประเมินความถูกต้องของการอนุมานบรรพบุรุษในท้องถิ่นทั้งการจำลองและข้อมูลจริงของ SAC

(6) เนื่องจากลักษณะที่ซับซ้อนของระบบภูมิคุ้มกันและธรรมชาติของวัณโรคของวัณโรคโครงการนี้มีวัตถุประสงค์เพื่อพัฒนาวิธีการบนกราฟพีชคณิต (ANCGWAS) ที่รวมเอาสัญญาณความสัมพันธ์จากการศึกษาการเชื่อมโยงจีโนมทั่วทั้งโปรตีนและโปรตีนมนุษย์ที่มีอยู่-โปรตีนปฏิสัมพันธ์ (PPI) ข้อมูลสำหรับการทดสอบ e-ects รวมของ SNPs และการค้นหาเครือข่ายย่อยที่มีนัยสำคัญที่เกี่ยวข้องกับโรคที่ซับซ้อนและการทดสอบสัญญาณที่เป็นไปได้การประยุกต์ใช้วิธี ANCGWAS ดำเนินการในชุดข้อมูลวัณโรควัณโรคของ SACของ

ด้านล่างเป็นภาพรวมของบทของวิทยานิพนธ์นี้: บทที่ 2 แนะนำวิธีการใหม่ในการเลือกบรรพบุรุษพร็อกซีที่ดีที่สุดสำหรับกลุ่มโฆษณาหลายทางวิธีการนี้ค้นหาการรวมกันของประชากรอ้างอิงที่สามารถลดระยะห่างทางพันธุกรรม (โดยใช้ FST เป็นฟังก์ชั่นวัตถุประสงค์ผ่านอัลกอริทึมการเขียนโปรแกรมกรวยกำลังสองที่ดีที่สุด) ระหว่างประชากร ampixed และการสังเคราะห์ที่เป็นไปได้ทั้งหมด.นอกจากนี้ Proxyanc ยังคำนวณคะแนนพร็อกซีและการถกเถียงโดยการถดถอยสถิติสำหรับ LD ระหว่างคู่ของ SNPs ในประชากร ampixed กับความถี่อัลลีลถ่วงน้ำหนักในประชากรอ้างอิงที่ไม่ได้ติดตั้งวิธีการนี้ใช้สำหรับการวิเคราะห์ดาวน์สตรีมในประชากรสีผสมที่ไม่เหมือนใครจากแอฟริกาใต้ (SAC)ต้นกำเนิดของแอฟริกา, ยุโรป, ใต้และตะวันออกและเอเชียใต้ของ SAC นั้นมีลักษณะโดยการใช้พร็อกซีแอนกับกลุ่มของ SAC (764 บุคคลที่ไม่เกี่ยวข้อง) และเราทั้งสองทางเลือกของประชากรบรรพบุรุษที่ดีที่สุดและการมีส่วนร่วมทางพันธุกรรมของพวกเขา

4 1.2 ภาพรวมแรงจูงใจและวิทยานิพนธ์

บทที่ 3 เกี่ยวข้องกับการประเมินว่าการแต่งหน้าทางพันธุกรรมและความไม่สมดุลของการเชื่อมโยงที่สังเกตได้ (LD) ใน SAC เป็นผลมาจากส่วนผสมของบรรพบุรุษหรือได้รับจากผู้ก่อตั้งหรือคอขวดประชากรเพื่อแก้ไขปัญหานี้แผงของเครื่องหมายข้อมูลบรรพบุรุษสำหรับประชากรสีแอฟริกาใต้ได้รับการพิจารณาโดยการใช้อัลกอริทึมสองประเภทสำหรับการเลือกเครื่องหมายทางพันธุกรรมที่แตกต่างกันในบรรพบุรุษบทที่ 4 ตรวจสอบความสัมพันธ์ระหว่างสัดส่วนบรรพบุรุษทางพันธุกรรมและสถานะวัณโรคใน SACเนื่องจากความสัมพันธ์ที่สังเกตได้ระหว่างบรรพบุรุษทางพันธุกรรมและสถานะวัณโรคอาจเป็นผลมาจากความสับสนเนื่องจากสถานะทางเศรษฐกิจและสังคม (SES) ความเป็นไปได้นี้จะถูกตรวจสอบโดยการศึกษาตัวแปร SES สองตัวรายได้ครัวเรือนและรายได้ด้วยตนเองนอกจากนี้ความถี่อัลลีลที่แตกต่างกันระหว่างการควบคุม SAC และบุคคลที่เป็นกรณีที่ SNP ทั่วไปคำนวณจากสถิติ Chi2 เพื่อค้นหาประชากรที่ผิดปกติซึ่งเป็นสาเหตุของการดริฟท์ทางพันธุกรรมที่เป็นกลางบทที่ 5 วิเคราะห์ข้อมูลการศึกษาความสัมพันธ์ของจีโนมกว้างโดยมีการแก้ไขบรรพบุรุษทั่วทั้งจีโนมและการบัญชีสำหรับทั้งกลุ่มประชากรและความสัมพันธ์ที่ซ่อนอยู่ซึ่งอาจเป็นผลมาจากลำดับวงศ์ตระกูลบทที่ 6 ครอบคลุมถึงการใส่ร้ายของ Genotypestown ที่ไม่ได้สังเกตในตัวอย่างการศึกษาซึ่งได้ดำเนินการเพื่อเพิ่มความครอบคลุมของจีโนมใน GWAS ที่ดำเนินการในบทก่อนหน้าบทนี้ยังครอบคลุมถึงการวิเคราะห์อภิมานของการศึกษาความสัมพันธ์ของจีโนมทั่วทั้ง SAC และซีรี่ส์การควบคุมผู้ป่วยวัณโรคแอฟริกาเมื่อเร็ว ๆ นี้จากกานาแกมเบียและมาลาวีรวมถึงสี่ polymorphisms ในยีน TLR8 บนโครโมโซม X. บทที่ 7ของบรรพบุรุษท้องถิ่นในประชากรหลายทางความถูกต้องของการอนุมานบรรพบุรุษในท้องถิ่นเกี่ยวกับทั้งการจำลองและข้อมูลจริงของ SAC ได้รับการประเมินและวิธีการที่เป็นไปได้ในการประเมินวันที่มีการพูดคุยกันหลายทางบทที่ 8 แนะนำอัลกอริทึมพีชคณิตกราฟเพื่อตรวจสอบสัญญาณการเชื่อมโยงจากการควบคุมกรณี SNP และการวิเคราะห์ส่วนผสมของจีโนมทั่วทั้งจีโนมและข้อมูลการปฏิสัมพันธ์ระหว่างโปรตีนโปรตีนมนุษย์ (PPI) สำหรับการทดสอบ SNPs รวมกันมันค้นหาทั้งยีนที่มีนัยสำคัญและเครือข่ายย่อยที่ได้รับการเสริมสร้างซึ่งเป็นพื้นฐานของบรรพบุรุษที่แตกต่างกันในความเสี่ยงของโรคที่พบบ่อยโดยเฉพาะความเสี่ยงวัณโรคในที่สุดข้อสรุปและทิศทางในอนาคตบางอย่างครอบคลุมในบทสุดท้ายที่ 9 บทปัจจุบันยังคงดำเนินต่อไปด้วยการทบทวนวรรณกรรมที่เกี่ยวข้อง

5 1.3 พันธุศาสตร์ประชากรของส่วนผสม

1.3 พันธุศาสตร์ประชากรของส่วนผสม

1.3.1 ความหลากหลายทางพันธุกรรมของมนุษย์

ความกังวลที่สำคัญที่สุดในพันธุศาสตร์ประชากรมนุษย์ ได้แก่ การทำความเข้าใจความหมายของการอพยพของมนุษย์ในอดีตสาเหตุของความหลากหลายของมนุษย์ในโลกทุกวันนี้และประวัติศาสตร์วิวัฒนาการที่เกี่ยวข้องซึ่งสร้างความหลากหลายผ่านการสร้างแบบจำลองทางคณิตศาสตร์ของรูปแบบที่ซับซ้อนของความหลากหลายทางพันธุกรรมทางภูมิศาสตร์รูปแบบของความหลากหลายทางพันธุกรรมทางภูมิศาสตร์เหล่านี้เกิดจากการกลายพันธุ์การคัดเลือกโดยธรรมชาติการดริฟท์ทางพันธุกรรมและยีนที่เปลี่ยนแปลงภายในและระหว่างประชากรมีการศึกษาจำนวนมากที่ตรวจสอบว่าการเปลี่ยนแปลงทางพันธุกรรมมีการกระจายทางภูมิศาสตร์อย่างไรและได้พิสูจน์แล้วว่าประชากรมนุษย์ส่วนใหญ่เกิดจากการปรากฏตัวของอัลลีลความถี่ต่ำที่ไม่ได้ใช้ห่างไกลจากสถานที่ทางภูมิศาสตร์ของ ori- ginนอกจากนี้การศึกษาเมื่อเร็ว ๆ นี้โดย Rosenberg และเพื่อนร่วมงานแสดงให้เห็นว่าการเปลี่ยนแปลงทางพันธุกรรมของมนุษย์ทั่วโลกภายในประชากรมนุษย์มีขนาดใหญ่กว่า (93 95%) มากกว่าที่เห็นระหว่าง - ประชากร (5 7%) (Rosenberg & Pritchard, 2008; Rosenberg et al.2546) แนะนำว่า- การจำแนกประเภทของเผ่าพันธุ์มนุษย์ตามสายเชื้อชาติหรือคอนติเนนตัลดูเหมือนจะเป็นตัวบ่งชี้ที่ไม่เหมาะสมของการกระจายตัวของการแปรผันทางพันธุกรรมของมนุษย์ (Tishko ff & Kidd, 2004)วรรณกรรมถูกสำรวจเพื่อหาปริมาณการเปลี่ยนแปลงทางพันธุกรรมของมนุษย์ภายในและระหว่างมนุษย์

ประชากรที่ใช้สถิติ FST ของ Wright (Weir, 2008; Weir and co*ckerham, 1984) ดังนี้

l cape ∑i = 1 pi ∗ (1 pi ∗) fi fst = - - ((1.1) ∑l p (1 p) Ofi = 1 i ∗ - i ∗ th โดยที่ pi ∗ เป็นความถี่อัลลีลโดยเฉลี่ย (มากกว่าประชากรทั้งหมด)ของ I Allele, L คือจำนวนอัลลีลและ FI คือค่าของ FST สำหรับอัลลีลแต่ละตัวดังนั้นสำหรับสองประชากรที่เรามี

2 k 2 ∑ (p p ∗) f = k = 1 i - i, i p (1 p) ฉัน ∗ - i ∗ โดยที่ pk คือความถี่ของอัลลีล ith ในประชากร kมาตรการที่เกี่ยวข้องหลายประการสำหรับมหาวิทยาลัยที่ไม่ได้รับการเปลี่ยนแปลงทางพันธุกรรมและการประเมินส่วนผสมโบราณในประวัติศาสตร์ของมนุษย์เช่น

อัตราส่วน F4, การทดสอบประชากร 3 ครั้งและการทดสอบประชากร 4 ครั้ง (Reich Etal., 2009) ได้รับการแนะนำเพื่ออธิบายถึงประชากรที่เกี่ยวข้องอย่างใกล้ชิดและมีการผสมผสานพิจารณาเครื่องหมาย bi-allelic j ในสองประชากรที่ให้ไว้ใน Hardy-Weinberg Equilibrium

ตามลำดับปล่อยให้อัลลีลตัวแปร B1 และ B2 มีความถี่ประชากร P1 และ P2 ในประชากร 1 และ 2 ตามลำดับการตั้งค่า Q = 1 P สำหรับ i = 1, 2มาตรการอื่น ๆ ของความแตกต่าง (Pickrell I - I et al., 2012; Reich etal., 2009) ที่สถานที่ที่กำหนดโดยได้รับโดย,

J P1 (Q2 Q1) + P2 (Q1 Q2) FST = - -(1.2) P1Q2 + Q1 P2

6 1.3 พันธุศาสตร์ประชากรของส่วนผสม

ให้ S เป็นชุดของเครื่องหมาย MJ, (j = 1, ... m) จากนั้นเราจะเลือกประชากรคู่ Wrights FST ที่ฉลาดโดยเฉลี่ยสมการ 1.2 เหนือเครื่องหมายทั้งหมด (J = 1, ... M)การทดสอบประชากร 3 ครั้ง (สถิติ F) ใช้สำหรับการทดสอบว่าประชากรเฉพาะ 3 - ได้รับการผสมผสานส่วนผสมของบรรพบุรุษหรือไม่ในขณะที่การทดสอบประชากร 4 ครั้งเป็นการทดสอบที่ละเอียดอ่อนมากขึ้นสำหรับการตรวจจับส่วนผสมในประชากรแม้ว่าจะเป็นแบบจำลองสูงและสัญญาณเชิงบวกนั้นมีความหมายมากกว่าที่จะตีความ (Reich etal., 2009)ให้พิจารณา d, l, c เป็นความถี่อัลลีลในประชากรที่แตกต่างกัน d, l, c, ตามลำดับที่ polymorphism เดียว (Patterson etal., 2012)สมมติว่าประชากร C มาจาก

ส่วนผสมของ D และ L. มันเป็นไปตาม F3 -statistic ได้รับเป็น

f (c; d, l) = e [(c d) (c l)]3 - - E ที่ไหนคือค่าที่คาดหวังความถี่อัลลีลไม่ได้เป็น F3 ในการเลือกอัลลีลสำรองเพียงแค่สัญญาณของทั้งสองคำในผลิตภัณฑ์ให้ Q แสดงถึงความถี่อัลลีลของ SNP ที่กำหนดและพิจารณา E, L, C, ความถี่อัลลีลใน D, L, CTOWN (ที่ E, Land C คือความถี่อัลลีลในประชากร D, L และ C)L, C เป็นประชากรที่แตกต่างกันแล้ว,

E [(c e) (c l)] = e [(c x + x e) (c x + x l)] = e (c x) 2 0 - - - - - cape− - - - - ≥ h i ตั้งแต่ e [e x] = x และe [x l] = e [q l (q x)] = 0. |- - - - ของทั้ง D และ L เป็นบรรพบุรุษของ C ดังนั้น E ((C E) (C L)) จะเป็นลบ (Patterson - - et al., 2012)ตัวประมาณค่าสถิติ F กำหนดเป็น (a b) (a c) กับสอง 3 - - - - - - - - - -

Q = (A ′B′) (A ′C′), - - -

Q = (A ′A) (B′ B) + (A B) (A ′A) (B′ B) + (A B)- - - - - - - - - - - - - มหาวิทยาลัยโดยที่ E (A) 2 คืออคติของ Q'

2 a (1 a) e (a ′a) = -, - na โดยที่ n = α + αจำนวนอัลลีลทั้งหมดสำหรับประชากร A และ H = A (1 A)ดังนั้น 0 1 a -

f (a, b, c) = (a ′b′) (a ′c′) hˆ /n3 - - - - a

7 1.3 พันธุศาสตร์ประชากรของส่วนผสม

1.3.2 พันธุศาสตร์ของการผสม

ตลอดประวัติศาสตร์ของมนุษย์การติดต่อระหว่างประชากรที่แยกได้สองครั้งหรือมากกว่านั้นส่วนใหญ่เกิดจากการอพยพของประชากรที่แตกต่างกันคลื่นอาณานิคมหรือการบังคับใช้เนื่องจากเหตุผลหลายประการเช่นนิเวศวิทยาสภาพภูมิอากาศการเกษตรและการล่าสัตว์กระบวนการติดต่อหรือส่วนผสมของมนุษย์ส่วนใหญ่เหล่านี้ได้รับการแก้ไขโดยกฎหมายทางสังคมวัฒนธรรมเกี่ยวกับการแต่งงานระหว่างกันในบริบทของการต่อต้านชาติพันธุ์หรือการเลือกปฏิบัติการเป็นทาสและระบบตระกูลหรือวรรณะอย่างไรก็ตามมันได้แสดงให้เห็นว่าส่วนผสมของประชากรที่แยกก่อนหน้านี้ส่งผลให้ประชากรที่ได้รับการผสมซึ่งได้รับประโยชน์จากข้อได้เปรียบทางพันธุกรรมหลายประการเช่นการเปลี่ยนแปลงทางพันธุกรรมที่เพิ่มขึ้นการสร้างจีโนไทป์ใหม่และการปิดบังการกลายพันธุ์ที่เป็นอันตราย (Halder & Shriver, 2003;2548)ส่วนผสมเหล่านี้เป็นประโยชน์ต่อการมีบทบาทสำคัญในการรุกรานทางชีวภาพ (Verhoeven et al., 2010)นอกจากนี้ส่วนผสมของประชากรมีการประยุกต์ใช้ที่สำคัญในการประเมินรูปแบบของการย้ายถิ่นและโครงสร้างทางพันธุกรรม (Pritchard etal., 2002) และในการตรวจจับการคัดเลือกโดยธรรมชาติ (Lohmueller et al., 2011; Tang etal., 2006)ส่วนผสมของประชากรให้ข้อมูลพื้นฐานที่มีคุณค่าสำหรับการวิเคราะห์ความสัมพันธ์ของโรคโดยเฉพาะอย่างยิ่งการระบุยีนที่เกี่ยวข้องกับฟีโนไทป์ผ่านกลยุทธ์การทำแผนที่ส่วนผสม (Halder & Shrivertown, 2003; McKeigue, 2005; Reich et al., 2005; Seldin etal., 2011; Smith & O'Brien, 2005)เนื่องจากความถี่อัลลีลระหว่างประชากรบรรพบุรุษสมมุติการผสมผสานการเชื่อมโยงความไม่สมดุล (LD) ระหว่างตำแหน่งทางพันธุกรรมแม้ระหว่างเครื่องหมายทางพันธุกรรมที่ไม่ได้เชื่อมโยงEvans & Cardon (2005);Li & Stephenscape (2003);Schramm etal(2002) รายงานว่าระหว่างเครื่องหมายทางพันธุกรรมที่ไม่ได้เชื่อมโยงความไม่สมดุลของการเชื่อมโยงจะสลายตัวอย่างรวดเร็วด้วยการตอบสนองต่อเนื่องในขณะที่ระหว่างเครื่องหมายที่เชื่อมโยงมันยังคงมีอยู่หลายชั่วอายุคนประเภทของความไม่สมดุลของการเชื่อมโยงนี้เป็นที่รู้จักกันในชื่อ LD ซึ่งเกิดขึ้นเมื่อมีการถ่ายทอดโครโมโซมจำนวนมากจากประชากรบรรพบุรุษโดยเฉพาะสามารถให้พื้นฐานที่จำเป็นสำหรับการศึกษาความสัมพันธ์ (Hoggart etal., 2004; McKeigue, 2005; Patterson etal., 2004;Rosenberg & Pritchard, 2008)

1.3.3 การวัดธรรมชาติและความหลากหลายของความไม่สมดุลของการเชื่อมโยง

เมื่อส่วนผสมเกิดขึ้นระหว่างประชากรหลายคนที่มีความชุกของความแตกต่างสำหรับความไม่แน่นอนและความถี่อัลลีลที่แตกต่างกันลูกผสมที่เกิดขึ้นโครโมโซมจะถูกส่งไปยัง O ff spring ในช่วงไมโอซิสและกระบวนการนี้ยังคงดำเนินต่อไปผ่านรุ่นต่อ ๆ มา (McK- eigue, 2005; Rosenberg & Pritchard, 2008)เนื่องจากส่วนผสมสามารถสร้างความไม่สมดุลของการเชื่อมโยงได้แม้ระหว่างเครื่องหมายทางพันธุกรรมที่ไม่ได้เชื่อมโยง Goldstein & Weale (2001) รายงานว่าความถี่ SNP สามารถแยกออกได้หากเครื่องหมายทางพันธุกรรมในฟีโนไทป์แต่เพราะมันมีความสัมพันธ์ทางสถิติกับตัวแปรเชิงสาเหตุความจริงนี้เกิดขึ้นเนื่องจากบางครั้งอัลลีลที่ตำแหน่งที่แตกต่างกันบางครั้ง

8 1.3 พันธุศาสตร์ประชากรของส่วนผสม

พบร่วมกันบ่อยหรือน้อยกว่าที่คาดไว้ตามความถี่ของพวกเขาการเชื่อมโยง dise- quilibrium แตกต่างกันไปตามประชากรและภูมิภาคจีโนมและระหว่างคู่ของเครื่องหมายทางพันธุกรรมในบริเวณใกล้เคียง (Reich etal., 2005)มีหลายปัจจัยที่สร้างความแปรปรวนของ LD เช่นการดริฟท์ทางพันธุกรรมการผสมและการผสมพันธุ์และสิ่งเหล่านี้เป็นข้อมูลจำเพาะของประชากรมีสิ่งกีดขวางอื่น ๆ เพิ่มเติมในขอบเขตและการกระจายของความไม่สมดุลเช่นอัตราการรวมตัวกันใหม่การแปลงยีนและการเลือกโดยธรรมชาติซึ่งเป็นลักษณะเฉพาะไปยังภูมิภาคจีโนม (Kristin etal., 2002; Reich etal., 2005; Weir, 2008)Kristin etal(2002) ชี้ให้เห็นว่าสิ่งเหล่านี้ส่วนใหญ่เกี่ยวข้องกับด้านประชากรศาสตร์ของประชากรและมีแนวโน้มที่จะบิดเบือนความสัมพันธ์ระหว่างความแข็งแรงของความไม่สมดุลของการเชื่อมโยงและระยะห่างทางกายภาพระหว่างตำแหน่งทางพันธุกรรมนอกจากนี้ (Chakravati & Weiss, 1998; Kristin etal., 2002; Lewontin, 1964; Spielman etal., 1993) ระบุว่าเป็นไปได้ที่จะ จำกัด ช่วงเวลาทางพันธุกรรมรอบ ๆ สถานที่ของโรคสถานที่ของโรคหากบุคคลส่วนใหญ่ในประชากรมีอัลลีลกลายพันธุ์เดียวกันที่โลคัสเชิงสาเหตุสมมติฐานนี้ใช้ประโยชน์จากโอกาสมากมายสำหรับตัวบ่งชี้ทางพันธุกรรมและสถานที่ของโรคในช่วงหลายชั่วอายุคนนับตั้งแต่การปรากฏตัวครั้งแรกของการกลายพันธุ์ (McKeigue, 2005)ดังนั้นจึงมีความสนใจเพิ่มขึ้นในความไม่สมดุลของการเชื่อมโยงซึ่งเป็นหนี้ส่วนใหญ่กับความเชื่อที่ว่าการศึกษาของสมาคมสามารถใช้พลังงานได้มากขึ้นสำหรับการทำแผนที่ยีนโรคที่พบบ่อยความไม่สมดุลของการเชื่อมโยงเดิมถูกกำหนดให้เป็นความแตกต่างระหว่างความถี่ที่สังเกตได้ของ haplotype สองโลคัสและความถี่ที่คาดว่าจะแสดงว่าอัลลีลแยกกันด้วยการสุ่ม (Evans & Cardon, 2005; Kristin etal., 2002; Weir, 2008;).มาตรการที่ได้รับความนิยมมากที่สุดของความไม่สมดุลของการเชื่อมโยงคือ R2 ในสมการ 1.4 ด้านล่างเมื่อพิจารณาถึงสอง di ff erentof loci A และ B โดยมีอัลลีลสองตัว (A, A และ B, B) ที่แต่ละตำแหน่งทางพันธุกรรมตามลำดับการวัดความไม่สมดุลของการเชื่อมโยงนั้นได้รับการเริ่มต้นโดย

d = f f f, (1.3) ab - a b ซึ่งความถี่ที่สังเกตได้ของ haplotype ที่ประกอบด้วยอัลลีล A และ B แสดงโดย FABความถี่ haplotypeuniversity ที่คาดหวังในกรณีที่ไม่มีความไม่สมดุลของการเชื่อมโยงถูกคำนวณเป็นผลิตภัณฑ์ของอัลลีลความถี่ FA FB ของอัลลีลทั้งสองซึ่ง FA และ FB เป็นความถี่อัลลีลของอัลลีล A และ B ตามลำดับมีมาตรการทางเลือกหลายอย่างตามมาตรการ D เนื่องจากมาตรการเหล่านี้มีคุณสมบัติที่แตกต่างกันและวัดสิ่งต่าง ๆ มันอาจจะแตกต่างกันเพื่อเปรียบเทียบพอร์ตที่แตกต่างกันในขอบเขตของความไม่สมดุลของการเชื่อมโยง (Conrad etal., 2010; Kristin etal. 2002Shiheng et al., 2001;นอกจากนี้ (Falush etal., 2003) มีความโดดเด่นสามประเภทของความไม่สมดุลของการเชื่อมโยงในประชากรมนุษย์:

9 1.3 พันธุศาสตร์ประชากรของส่วนผสม

(1) ความไม่สมดุลของการเชื่อมโยงส่วนผสมซึ่งเกิดจากส่วนผสมของประชากรระหว่างเครื่องหมายทางพันธุกรรมที่ไม่ได้เชื่อมโยงและเป็นที่รู้จักกันว่าเป็นแหล่งสำคัญของข้อผิดพลาดในการศึกษาความสัมพันธ์แบบควบคุมกรณี

(2) ความไม่สมดุลของการเชื่อมโยงส่วนผสมซึ่งเกิดขึ้นเมื่อส่วนโครโมโซมจำนวนมากถูกส่งจากประชากรบรรพบุรุษโดยเฉพาะมันเป็นพื้นฐานที่จำเป็นสำหรับการดำเนินการศึกษาความสัมพันธ์

(3) ความไม่สมดุลของการเชื่อมโยงพื้นหลังซึ่งมีอยู่ภายในประชากรบรรพบุรุษเนื่องจากความสัมพันธ์ระหว่าง polymorphisms ในระยะทางสั้น ๆ และเป็นเรื่องหลักของการศึกษาสมาคมการควบคุมกรณี

การวัด D ที่กำหนดในสมการ 1.3 ขึ้นอยู่กับความถี่อัลลีลและไม่ได้ใช้ในการวัดความแข็งแรงของความไม่สมดุลของการเชื่อมโยง (Evans & Cardon, 2005; Goldstein & Weale, 2 2001)การวัดปกติ D ′ของ D และ R เป็นที่รู้จักกันดีว่าเป็นมาตรการที่ได้รับความนิยมมากที่สุดของความไม่สมดุลของการเชื่อมโยงเมือง (1) การวัดปกติ D ′ถูกกำหนดโดยการหาร D ด้วยค่าสูงสุดที่เป็นไปได้เนื่องจากความถี่อัลลีลที่ตำแหน่งทางพันธุกรรมทั้งสองด้วยอัลลีล A และ B ตามลำดับ D D = เมื่อ D <0′ |สูงสุด [f (1 f), (1 f) f] | a - b cape− a b d d = เมื่อ d> 0,  ′|min [f f, (1off) (1 f)] |a b - a - b  d ′= 1 ถ้าและเฉพาะในกรณีที่ SNP สองตัวไม่ได้ถูกแยกออกจากกันโดยการรวมตัวกันใหม่ในระหว่างประวัติของตัวอย่างและมีความไม่สมดุลของการเชื่อมโยงที่สมบูรณ์ค่าของ d ′<1 สามารถระบุได้ว่าความไม่สมดุลของการเชื่อมโยงของบรรพบุรุษที่สมบูรณ์นั้นถูกรบกวนและมี

ไม่มีการตีความที่ชัดเจนของค่าสำหรับ d ′> 1. ตาม (Evans & Cardon, 2005; Goldstein & Weale, 2001) มาตรการนี้เป็นที่รู้จักกันว่าขึ้นอยู่กับขนาดตัวอย่างอย่างมากรายละเอียดเพิ่มเติมสามารถพบได้ใน (Goldstein & Weale, 2001; Kristin etal., 2002)

2 (2) การวัด R เป็นส่วนเสริมของ D ′และเพิ่งเกิดขึ้นเมื่อเร็ว ๆ นี้เป็นตัวชี้วัดของตัวเลือกสำหรับการหาปริมาณและเปรียบเทียบความไม่สมดุลของการเชื่อมโยงในบริบทของการทำแผนที่ความสัมพันธ์ (Chakravati & Weiss, 1998; Kristin etal., 2002; Patterson etal, 2004)มันเป็นความสัมพันธ์ของเพียร์สันของอัลลีลที่ทั้งสองไซต์และได้มาจากการหาร D2 โดยผลิตภัณฑ์ของความถี่อัลลีลทั้งสี่ที่ตำแหน่งทางพันธุกรรมทั้งสอง

D2 R2 =(1.4) FA FB FA FB

10 1.4 โครงสร้างประชากรและบรรพบุรุษในท้องถิ่น

กรณีของ R2 = 1 เรียกว่าการเชื่อมโยงที่สมบูรณ์แบบไม่สมดุลและเกิดขึ้นเฉพาะในกรณีที่เครื่องหมายไม่ได้ถูกแยกออกจากกันโดยการรวมตัวกันใหม่และมีความถี่อัลลีลเดียวกัน (Chakravati & Weiss, 1998; Kristin etal., 2002)ค่าที่คาดหวังของค่าความสมดุล R2 โดยทั่วไปจะมาจากการกระจายความน่าจะเป็นซึ่งเป็นผลมาจากกระบวนการวิวัฒนาการ (Magnus, 2000; Patterson etal., 2004)กระบวนการนี้เรียกว่า coalescent (ในพันธุศาสตร์ประชากร) (Magnus, 2000)เมื่อตัวอย่างของโครโมโซมถูกดึงออกมาจากประชากรโครโมโซมทั้งหมดเกี่ยวข้องกับลำดับวงศ์ตระกูลที่ไม่รู้จักบางอย่างที่รู้จักกันในชื่อต้นไม้รวมกัน (Magnus, 2000; Patterson etal., 2004)เครื่องหมายทางพันธุกรรมที่อยู่ใกล้กันในโครโมโซมมีลำดับวงศ์ตระกูลเดียวกันหรือคล้ายกันและสิ่งนี้ทำให้เกิดการพึ่งพาระหว่างอัลลีลที่เครื่องหมายที่แตกต่างกันเครื่องหมายทางพันธุกรรมที่อยู่ห่างกันมากขึ้นอาจมีลำดับวงศ์ตระกูลบรรพบุรุษที่แตกต่างกันเนื่องจากการรวมตัวกันใหม่ (Chakravati & Weiss, 1998; Kristin etal., 2002; Magnus, 2000; Patterson etal., 2004)ด้วยเหตุนี้ความแข็งแรงของความไม่สมดุลระหว่างการเชื่อมโยงระหว่างคู่ของเครื่องหมายทางพันธุกรรมจะลดลงเป็นหน้าที่ของระยะทางพันธุกรรมระหว่างเครื่องหมายค่าที่คาดหวังของ R2 เป็นฟังก์ชันของไฟล์

พารามิเตอร์ρ = 4NEC โดยที่ C คืออัตราการรวมตัวกันทั้งหมดระหว่างเครื่องหมายทางพันธุกรรมทั้งสอง (เมื่อρ = 4NEC ถูกสันนิษฐานว่าสำหรับภูมิภาคที่มีชุดของเครื่องหมายทางพันธุกรรมโดยปกติแล้ว C จะเป็นอัตราการรวมตัวกันทั้งหมดทั่วทั้งภูมิภาค) และทาวน์คือขนาดประชากร e ff ective

1.4 โครงสร้างประชากร Andcape บรรพบุรุษท้องถิ่น

1.4.1 ภาพรวมของบรรพบุรุษของพันธุศาสตร์

การระบุความแปรปรวนทางพันธุกรรมของประชากรที่ได้รับการผสมเมื่อเร็ว ๆ นี้สามารถเปิดเผยเหตุการณ์ประชากรในประวัติศาสตร์และสามารถใช้สำหรับการระบุตัวบ่งชี้ทางพันธุกรรมที่เกี่ยวข้องกับโรคของมนุษย์ที่ซับซ้อนผ่านการศึกษาสมาคมและการแมปผสมในช่วง 80 ปีที่ผ่านมาแบบจำลองทางสถิติได้รับการพัฒนาขึ้นเพื่อตรวจจับต้นกำเนิดบรรพบุรุษที่เป็นไปได้ของกลุ่มโครโมโซมและเพื่อทำความเข้าใจโครงสร้างโมเสคของจีโนมของประชากร ampixed (Baran Euniversitytal., 2012; Falush etal., 2003; Hoggart etal, 2004;มีคำถามหลายข้อที่เกิดขึ้นในการวิเคราะห์ข้อมูลทางพันธุกรรมหลายโลคัสได้รับการแก้ไขรวมถึง: ตัวอย่างจากประชากรที่เป็นเนื้อเดียวกันหรือไม่?ขนาดตัวอย่างมีความสามารถในการอนุมานบรรพบุรุษหรือใช้การวิเคราะห์การทำแผนที่ส่วนผสมหรือไม่?ชุดข้อมูลมีกลุ่มย่อยที่มีความแตกต่างทางพันธุกรรมหรือมีหลักฐานว่าตัวอย่างในชุดข้อมูลมาจากประชากรที่มีโครงสร้างหรือไม่?แม้ว่าจะมีความคืบหน้าครั้งใหญ่ในการตอบคำถามเหล่านี้ แต่ความท้าทายยังคงอยู่ในความแม่นยำของการสร้างแบบจำลองความไม่สมดุลของการเชื่อมโยงพื้นหลังซึ่งคาดว่า

11 1.4 โครงสร้างประชากรและบรรพบุรุษในท้องถิ่น

เพื่อให้แข็งแกร่งในระยะทางสั้น ๆ และสามารถเพิ่มขึ้นได้เนื่องจากเหตุการณ์ผู้ก่อตั้งหรือเพิ่มขึ้นตามการเปลี่ยนแปลงของประชากรสิ่งเหล่านี้สามารถนำไปสู่การอนุมานของบรรพบุรุษ (Falush etal., 2003)ข้อมูลเกี่ยวกับโครงสร้างประชากรเป็นที่รู้จักกันดีว่ามีประโยชน์ในการทำแผนที่ผสมและการศึกษายีนโรค (Montana & Pritchard, 2004; Patterson etal., 2004; Rosenberg & Pritchard, 2008)การตรวจสอบล่าสุดโดยใช้เครื่องหมายทางพันธุกรรมที่หลากหลายได้แสดงให้เห็นว่าบุคคลที่สุ่มตัวอย่างทั่วโลกตกอยู่ในกลุ่มโดยประมาณตามแนวทวีปรวมถึงกลุ่มเชื้อชาติที่ระบุตัวเอง (Zhu etal., 2008)เพื่อทำความเข้าใจโครงสร้างประชากรและประเมินสัดส่วนบรรพบุรุษทั่วทั้งจีโนม (บรรพบุรุษทั่วโลก) นักวิจัยได้พัฒนาแบบจำลองทางสถิติเพื่อระบุต้นกำเนิดบรรพบุรุษที่เป็นไปได้ (Alexander etal., 2009; Falush etal., 2003; Hoggart etal., 2004) ของ Aตัวอย่าง (วิธีการจัดกลุ่มความน่าจะเป็น) และใช้เทคนิคการวิเคราะห์เช่นการวิเคราะห์องค์ประกอบหลัก (PCA) เพื่อกำหนดโครงสร้างพื้นฐานของประชากร (ราคา etal., 2006; Rosenberg & Nordborg, 2006)ตัวอย่างเช่นเพื่อตรวจสอบว่ากลุ่มตัวอย่างย่อยของตัวอย่างนั้นมีความสัมพันธ์กันอย่างใกล้ชิดมากกว่าที่พวกเขามีต่อประชากรโดยรวมหรือไม่แบบจำลองทางสถิติเหล่านี้พิจารณาประชากรที่ได้รับการผสมผสานเป็นการผสมผสานทางสถิติของแหล่งที่มาของประชากรบรรพบุรุษโดยการรักษาความถี่อัลลีลในประชากรลูกผสมเป็นการผสมผสานเชิงเส้นของอัลลีลที่มีความถี่สูงที่สุดในแหล่งที่มาของประชากรบรรพบุรุษตำแหน่งที่เฉพาะเจาะจงในจีโนมอาจสืบทอด 0, 1 หรือ 2 สำเนาของบรรพบุรุษเฉพาะการอนุมานบรรพบุรุษในท้องถิ่นของแต่ละบุคคลหรือจำนวนสำเนาของบรรพบุรุษแต่ละแห่งในแต่ละสถานที่ในจีโนมก็มีการใช้งานที่สำคัญในการทำแผนที่โรคและในการทำความเข้าใจประวัติศาสตร์ของมนุษย์ในฐานะที่เป็นจีโนมของบุคคลจากประชากร ampixedof ประกอบด้วยส่วนโครโมโซมของบรรพบุรุษ di ff erent ตำแหน่งที่เฉพาะเจาะจงในจีโนมอาจมีสำเนา 0, 1 หรือ 2 สำเนา (บรรพบุรุษเฉพาะท้องถิ่นหรือบรรพบุรุษท้องถิ่น) จากประชากรบรรพบุรุษเฉพาะมันแสดงให้เห็นว่าการอนุมานของบรรพบุรุษในท้องถิ่นของแต่ละบุคคลมีการใช้งานที่หลากหลายตั้งแต่การทำแผนที่โรคไปจนถึงการเรียนรู้เกี่ยวกับประวัติศาสตร์ (ราคา etal., 2009b; Sankararaman et al., 2008)วิธีการที่หลากหลายสำหรับการอนุมานบรรพบุรุษในท้องถิ่นได้รับการพัฒนาและวิธีการเหล่านี้สามารถรวมกันเป็นสามประเภท: มหาวิทยาลัย (1) การอนุมานตาม haplotype ของบรรพบุรุษของ locus-speci fi c รวมถึงวิธีการเช่น Hapmix (ราคา etal., 2009b), สเปกตรัม (Sohn & Sohn &Xing, 2007), Hapaa (Sundquist etal., 2008) และ Saber (Tang etal., 2006) และใช้ประโยชน์จาก SNPs ทั้งหมดของจีโนมของประชากร ampixedการอนุมานที่ใช้ haplotype ใช้ประโยชน์จากโมเดล Markov ที่ซ่อนอยู่ (HMMs) ตามความถี่ของอัลลีลวิธีการนี้เป็นที่รู้จักกันว่าถูกต้องเมื่อใช้ประชากรสองทาง

(2) วิธีการอนุมานตาม Windows ที่ทับซ้อนกันซึ่งใช้ข้อมูลจีโนมทั้งหมดจากประชากรหลายทาง (Baran etal., 2012; Qin etal., 2010)ตัวอย่างรวมถึง

12 1.4 โครงสร้างประชากรและบรรพบุรุษในท้องถิ่น

โคมไฟ (Sankararaman et al., 2008) และ WinPop (Pasaniuc etal., 2009)วิธีการนี้ทำให้บรรพบุรุษของท้องถิ่นไม่มีการแบ่งพาร์ติชันจีโนมเป็นหน้าต่างที่ซ้อนทับกันและต่อเนื่องกันของ SNPsมันเพิ่มประสิทธิภาพโมเดลความน่าจะเป็นเหนือหน้าต่างแต่ละบานและรวมโซลูชันโดยการลงคะแนนเสียงข้างมากสำหรับ SNP แต่ละตัว (Pasaniuc etal., 2009; Sankararaman et al., 2008)

(3) วิธีการอนุมานตาม haplotype ที่ใช้ haplotype และซ้อนทับกันบนข้อมูลทั้งหมด- จีโนมใช้ประโยชน์จากโครงสร้างของความไม่สมดุลของการเชื่อมโยงในประชากรบรรพบุรุษและรวมข้อ จำกัด ของการแยก Mendelian เมื่ออนุมานบรรพบุรุษท้องถิ่นในครอบครัวตัวอย่าง ได้แก่ Multimix (Churchhouse & Marchini, 2012) ซึ่งใช้ในการประเมินบรรพบุรุษของ locus-speci fi c ที่เกี่ยวข้องกับแบบจำลองบนพื้นหลัง LD ซึ่งขยายไปทั่วหน้าต่างของ SNPs และมีข้อได้เปรียบซึ่งมีรูปแบบของจีโนไทป์ที่มีอยู่ยิ่งไปกว่านั้นวิธีการดังกล่าวสามารถจัดการข้อมูลจีโนไทป์แบบแบ่งส่วนหรือไม่เป็นอิสระในการศึกษาส่วนหนึ่งและประชากรแหล่งที่มา (Churchhouse & Marchini, 2012)

(4) วิธีการวิเคราะห์ส่วนประกอบหลักเช่น PCAdmixtown ขึ้นอยู่กับส่วนประกอบหลัก analysi (PCA) เพื่อหาปริมาณข้อมูลที่ SNP แต่ละตัวมีส่วนช่วยในการแยกแยะบรรพบุรุษของภูมิภาคจีโนมของประชากรที่ได้รับการผสม (Henn etal., 2012).

(5) วิธีการใส่ข้อมูลรวมถึงโลหะผสม (Rodriguez etal., 2012) ซึ่งช่วยให้การรวมตัวกันของแบบจำลองที่ซับซ้อนสำหรับการเชื่อมโยงความไม่สมดุลในประชากรบรรพบุรุษวิธีนี้ใช้โมเดล Markov ที่ซ่อนอยู่แบบแฟคทอเรียลเพื่อจับภาพกระบวนการขนานที่ผลิต haplotypes แม่และบิดานอกจากนี้วิธีการนี้รุ่นพื้นหลัง LD ในประชากรบรรพบุรุษผ่านห่วงโซ่มาร์คอฟความยาวตัวแปรที่ไม่เหมือนกัน

วันนี้การอนุมานบรรพบุรุษในท้องถิ่นมีเงื่อนไขเกี่ยวกับประชากรบรรพบุรุษมากกว่าสองคนที่ได้รับการพิจารณาว่ายังไม่ได้รับการแก้ไข (Baran etal., 2012; Pasaniuc etal., 2009)วิธีการได้รับการปรับปรุงให้ดีขึ้นสำหรับเหตุการณ์การผสมผสานแบบโบราณและส่วนผสมระหว่างประชากรที่เกี่ยวข้องอย่างใกล้ชิดมากขึ้นโดยใช้ประชากรสองทาง แต่ความท้าทายยังคงอยู่ในการอนุมานบรรพบุรุษท้องถิ่นอย่างแม่นยำสำหรับประชากรที่ได้รับการผสมผสานหลายทางอย่างไรก็ตามจีโนไทป์หรือการเรียงลำดับสูงและวิธีการใหม่ในการอนุมานบรรพบุรุษในท้องถิ่นสามารถอนุญาตให้มีการวิเคราะห์ร่วมกันและการวิเคราะห์ความสัมพันธ์สิ่งนี้อาจเป็นประโยชน์ต่อการทำแผนที่ความสัมพันธ์ในประชากรที่ได้รับการผสมโดยการกำจัดสิ่งที่ทำให้สับสนเนื่องจากการเปลี่ยนแปลงในบรรพบุรุษ (Baran etal., 2012; ราคา etal., 2009b)

13 1.4 โครงสร้างประชากรและบรรพบุรุษในท้องถิ่น

1.4.2 การวิเคราะห์องค์ประกอบหลัก (PCA)

วิธีการนี้มุ่งเน้นไปที่การสลายตัวของความแปรปรวนและเมทริกซ์ความแปรปรวนร่วมสำหรับการลดมิติปล่อยให้ C เป็นเมทริกซ์สี่เหลี่ยมขนาดใหญ่ที่มีแถวที่จัดทำดัชนีโดยแต่ละบุคคลและคอลัมน์จัดทำดัชนีโดยเครื่องหมาย polymorphic;สำหรับแต่ละเครื่องหมายเราเลือกการอ้างอิงและตัวแปรอัลลีลโดยที่ n คือเครื่องหมายและ m เป็นบุคคล, c (i, j) จำนวนของตัวแปรอัลลีลสำหรับ marker j และบุคคล iเราสันนิษฐานว่าไม่มีข้อมูลที่ขาดหายไปให้เราลบคอลัมน์หมายถึงจากแต่ละคอลัมน์ดังนั้น (Patterson etal., 2006)

M ∑i 1 C (I, J) µ (J) = -, (1.5) M จากนั้นรายการที่ถูกต้องคือ:

C (I, J) µ (J)(1.6) - ตั้งค่า P (j) = µ (j)/2, การประมาณความถี่อัลลีลพื้นฐานจากนั้นแต่ละรายการในเมทริกซ์ที่ได้คือ Town C (I, J) µ (J) M (I, J) = -(1.7) P ((j) 1 P (J)) - สมการ 1.7 เป็นการทำให้เป็นมาตรฐานเนื่องจากค่าจริงที่การเปลี่ยนแปลงความถี่ของ SNPs ที่เกิดจากการดริฟท์ทางพันธุกรรมเกิดขึ้นที่อัตราสัดส่วนกับ P ((J) 1 P (J (J))) ต่อรุ่นนอกจากนี้ยังเป็น-ปกติหากข้อมูลอยู่ใน Hardy-Weinberg Equilibrium.p วิธีการ PCA รวมทฤษฎีเทรซี่-ไวด์สำหรับความน่าจะเป็นของค่าลักษณะเฉพาะที่ใหญ่ที่สุดให้ m n เป็นเมทริกซ์× M

1 x = มม

การกระจายกำลังสอง) เมทริกซ์ให้λi 1 ฉันเป็นค่าลักษณะเฉพาะของ X. สำหรับเมื่อ M, N, คือ {} ≤≤ขนาดใหญ่การกระจายของค่าลักษณะเฉพาะที่ใหญ่ที่สุดλ1เป็นการกระจายเทรซี่การตั้งค่า

(√n 1 + √m) 2 µ (m, n) = -, (1.8) n

1 (√n 1 + √m) 1 1 3 S (m, n) = - +, n √n 1 √m -

14 1.4 โครงสร้างประชากรและบรรพบุรุษในท้องถิ่น

โดยที่σคือความแปรปรวนของการกระจายปกติที่ใช้สำหรับเซลล์ของเมทริกซ์รูปสี่เหลี่ยมผืนผ้าตอนนี้การตั้งค่า

λ (m n) x = 1 - -(1.9) S (M, N)

ปล่อยให้ความแตกต่าง N จำนวนคอลัมน์จริงของอาร์เรย์ข้อมูลของเราและ n ′ซึ่งเป็นพารามิเตอร์ทางสถิติเชิงทฤษฎีเรา fi t σ, n ที่มีโอกาสสูงสุดความน่าจะเป็นมีฟังก์ชั่นของพารามิเตอร์สองตัวมีสถิติสองสถิติซึ่ง ได้แก่ ∑i λiและ ∑i log λiในการใช้งานทางพันธุกรรมความเป็นไปได้สูงสุดอาจเกิดจาก ∑i log λiซึ่งไม่น่าเชื่อถือกับค่าลักษณะเฉพาะขนาดเล็กดังนั้นเราจึงกังวลเกี่ยวกับค่าลักษณะเฉพาะขนาดใหญ่ (Patterson etal., 2006)2 (m + 1) (∑i λi) n ′=(1.10) (M 1) ∑ λ2 (∑ λ) 2 - I I - I I เพื่อศึกษาว่าประชากรที่วิเคราะห์นั้นมีโครงสร้างในชุดข้อมูล biallelic อัลกอริทึมด้านล่างทำงานหรือไม่

อัลกอริทึม 1 การทดสอบโครงสร้างอัลกอริทึมโครงสร้างประชากร (1) คำนวณเมทริกซ์ M เช่นเดียวกับในสมการ 1.5 และ 1.6 และ 1.7sM A M ROWS และ N คอลัมน์;

(2) คำนวณ x = มม.x คือ m n;′× cape 1. สั่งค่าลักษณะเฉพาะของ x ดังนั้นthetλ> λ,> λ> 0;โดยที่ m = m 1. (บน 1 2 ··· M ′′ - ชุดข้อมูลขนาดใหญ่ X จะมีอันดับของ m ′) เสมอ

(3) การใช้ค่าลักษณะเฉพาะλ (1 i m) ประมาณ N จากสมการ 1.10I ≤≤ ′′

(4) ค่าลักษณะเฉพาะที่ใหญ่ที่สุดของ M คือλiชุด

(m) λ l = ′iมหาวิทยาลัย ∑i λi (5) ทำให้ L ปกติด้วยสมการ 1.8 และ 1.9 ซึ่งจำนวนเครื่องหมายของเครื่องหมาย n ′แทนที่ nสิ่งนี้ให้ผลสถิติการทดสอบ x = x (m)

X (M) คือการกระจายเทรซี่-วิดัมโดยประมาณ

1.4.3 วิธีการที่น่าจะเป็น

ขึ้นอยู่กับโมเดล (Falush etal., 2003; Pritchard etal., 2002) เราพิจารณาตัวอย่างของบุคคล N แต่ละจีโนไทป์ที่ l loci โดยสมมติว่ามีประชากรที่แตกต่างกัน

15 1.4 โครงสร้างประชากรและบรรพบุรุษในท้องถิ่น

ถึงบรรพบุรุษของตัวอย่างการศึกษาของเราบุคคลมีบรรพบุรุษในประชากรมากกว่าหนึ่งคนบรรพบุรุษของแต่ละคนสามารถกำหนดได้ตามสัดส่วนของจีโนมของแต่ละบุคคลที่สืบทอดมาจากประชากร K แต่ละตัวตัวอย่างเช่นบรรพบุรุษของแต่ละบุคคลที่ฉันเป็นเวกเตอร์

(i) (i) (i) (n) q = q1, q2, ... , qk () (i) j q i = pr z, = k r, q, l = 1,--, l.i = 1,--, n (1.11) k l |k (i) ∑ qk = 1, (1.12) k = 1

(i) โดยที่ QK เป็นสัดส่วนบรรพบุรุษของแต่ละบุคคลจากประชากร kในฐานะที่เป็นจีโนมของบุคคลที่ได้รับการผสมเมื่อเร็ว ๆ นี้ถูกมองว่าเป็นชุดของกลุ่มโครโมโซมแต่ละคนลงมาเป็นหน่วยที่ไม่บุบสลายโดยไม่มีการรวมตัวกันใหม่จากหนึ่งในประชากรบรรพบุรุษเราแสดงให้เห็นว่า Q เป็นเวกเตอร์หลายมิติและส่วนประกอบของมัน(ฉัน).เราสมมติว่าสำหรับแต่ละคนฉันแต่ละส่วนโครโมโซมมาจาก Pumperstownk อย่างอิสระด้วยความน่าจะเป็น (i) QKนี่คือการสันนิษฐานว่าถูกดึงออกมาอย่างอิสระจากประชากรต้นกำเนิด (1, ... , k), สมการ (i, j) th 1.11ZL คือประชากรของแหล่งกำเนิด (1, ... , k) ของสำเนา j ของเครื่องหมายทางพันธุกรรม l ในแต่ละบุคคลเราแสดงถึง Z เป็นเวกเตอร์หลายมิติที่มีค่าทั้งหมดของค่า zสำหรับข้อมูล haploid อย่างอิสระสำหรับแต่ละบุคคล i, ประชากรของแหล่งกำเนิด (1,. ... , k) ตามแต่ละบุคคล

ฉันเป็นโซ่มาร์คอฟอิสระ (Flush et al., 2003; Pritchard et al., 2002) ที่น่าพอใจ

(d r) (d r) (i) e - l + 1 + e - l q ถ้า k ′= k (i) (i) k′ pr z = k ′z = k, r, q = (1.13) l + 1|l  h (i) ฉัน 1 e (dlr) q มิฉะนั้น-- k h ฉันมหาวิทยาลัยโดยที่ dl คือระยะทางพันธุกรรมจากlocuslถึง locus l + 1 (Montana & Pritchard, 2004)ขนาดเฉลี่ยของส่วนโครโมโซมเป็น CM โดยที่ R ถูกมองว่าเป็นเวลาเฉลี่ย R นับตั้งแต่ส่วนผสมและจุดพักจากส่วนหนึ่งไปยังส่วนต่อไปจะเกิดขึ้นเป็นกระบวนการปัวซองโดยมีอัตรา R ต่อมอร์แกน (Falush etal etal., 2003;เราสามารถใช้ชุดของเครื่องหมายทางพันธุกรรมตามแต่ละโครโมโซมเพื่ออนุมานรูปแบบที่ซ่อนอยู่ของส่วนโครโมโซมประชากรแต่ละคนได้รับการตรวจสอบโดยรายการความถี่อัลลีลที่เครื่องหมายจีโนไทป์แต่ละตัวเราแสดงว่า p เป็น

เวกเตอร์หลายมิติที่มีความถี่อัลลีล pklj ของอัลลีล j ที่เครื่องหมายทางพันธุกรรมแต่ละตัว l ในแต่ละประชากร k ซึ่งไม่ทราบความถี่อัลลีลล่วงหน้า แต่มักจะเป็น

16 1.4 โครงสร้างประชากรและบรรพบุรุษในท้องถิ่น

ตัวอย่างของตัวแทนที่ไม่ได้ติดอันดับจากประชากรดั้งเดิมเพื่อช่วยในการประเมินของพวกเขา (Montana & Pritchard, 2004; ราคา etal., 2007; Zhu etal., 2006)กรอบเบย์สามารถดำเนินการเพื่อจุดประสงค์ของการอนุมานและต้องการข้อมูลก่อนหน้าสำหรับ p และ q (Falush etal., 2003; Pritchard etal., 2002):

(1) P หลายมิติคือเวกเตอร์ของความถี่อัลลีลที่โลคัสทางพันธุกรรม l ในประชากร k และถูกดึงมาจากการกระจาย dirichlet แบบสมมาตร parametrized โดยพารามิเตอร์ไฮเปอร์เดี่ยวλเป็นอิสระสำหรับประชากรบรรพบุรุษแต่ละคน K (Falush etal2546)

(2) สัดส่วนส่วนผสม Q (i) สำหรับแต่ละบุคคลฉันยังถูกดึงออกมาจากการกระจาย dirichlet แบบสมมาตรด้วยพารามิเตอร์ไฮเปอร์พารามิเตอร์αพารามิเตอร์αถูกมองว่าเป็นเวกเตอร์ของค่า k

ด้วยαKที่แสดงถึงการมีส่วนร่วมของประชากรบรรพบุรุษ K ต่อวัสดุทางพันธุกรรมในตัวอย่างรายละเอียดเพิ่มเติมสามารถพบได้ใน (Falush etal., 2003; Pritchard etal., 2002)

1.4.3.1 มาร์คอฟโซ่มอนติคาร์โลมาร์คอฟเชนมอนติคาร์โลมักใช้เพื่อสุ่มตัวอย่างจากการกระจายหลังของ P, Q, Z, λ, R, และα, ให้ข้อมูลจีโนไทป์ X และจำนวน K ของประชากรบรรพบุรุษ (Falush et etอัล, 2003;Cape PR (P, Q, Z, R, α, λ X, K) ของ |Markov Chain Monte Carlo (MCMC) สามารถใช้ตัวเลือกเริ่มต้นโดยพลการสำหรับแต่ละพารามิเตอร์จากนั้นเสนอการอัปเดตที่เปลี่ยนชุดย่อยของสิ่งเหล่านี้ตามเงื่อนไขของพารามิเตอร์อื่น ๆ และข้อมูล (Sohn & Xing, 2007; Xing etal., 2007)เราจัดทำโครงการ MCMC สั้น ๆ สำหรับการสุ่มตัวอย่างจากห่วงโซ่มาร์คอฟที่มีการกระจายแบบหยุดนิ่ง P (P, Q, Z, R, α, λ X, K) คำอธิบายทั้งหมดของ |ซึ่งสามารถพบได้ใน (Falush etal., 2003; Hubisz etal., 2009)

(1) ตัวอย่าง Z จาก PR (Z P, R, Q, X)มหาวิทยาลัย |(2) ตัวอย่าง P จาก PR (P Z, R, Q, X) = P (P Z, X)--(3) อัปเดต R, F, Q โดย Metropolis-Hastings Update (Falush etal., 2003; Pritchard etal., 2002)พารามิเตอร์αและλสามารถอัปเดตได้โดย Metropolis-Hastings (Falush etal., 2003; Hubisz etal., 2009; Montana & Pritchard, 2004; Terry, 2003; Warren & Grant, 2005)

ขั้นตอนที่ 1 ทำแยกต่างหากสำหรับแต่ละคนโดยใช้โมเดล Markov ที่ซ่อนอยู่ภายในอัลกอริทึมไปข้างหน้า- ย้อนกลับในส่วน 1.4.3.2

17 1.4 โครงสร้างประชากรและบรรพบุรุษในท้องถิ่น

1.4.3.2 รุ่น Markov ที่ซ่อนอยู่

ให้ ϑ t หมายถึงคำสั่ง, จีโนไทป์ที่สังเกตได้ตามโครโมโซมและ z t the unob- {t} t = 1 {t} t = 1 จำนวนการให้บริการของอัลลีลบรรพบุรุษที่ตำแหน่งเครื่องหมายทางพันธุกรรมที่สอดคล้องกันเราแสดงถึง A และอัลลีลทั้งสองที่เครื่องหมายทางพันธุกรรมโลคัส t, x 0, 1, 2 หมายถึงจีโนไทป์ที่พันธุกรรม t ∈ {} marker locus t0 สำหรับจีโนไทป์ AA 1สำหรับจีโนไทป์ AA (1.14) 2สำหรับจีโนไทป์ AA

เราคิดว่า x ขึ้นอยู่กับใน Z เท่านั้น แต่ยังรวมถึงประวัติศาสตร์ที่ผ่านมาเราแสดงถึง x, z t t t {t t} t = 1 เป็นกรอบโมเดล Markov ที่ซ่อนอยู่, จีโนไทป์ที่สังเกตได้ x x ...... x 1 → 2 → t ↑↑สถานะที่ซ่อนอยู่ Z z ...... z1 → 2 → 1 การประมาณสถานะที่ซ่อนอยู่ของห่วงโซ่มาร์คอฟสำหรับ Z ISTOWN จากนั้นดำเนินการอย่างอิสระสำหรับแต่ละบุคคลโดยการใช้อัลกอริทึม Baum-Welch (ไปข้างหน้ากลับด้านหลัง) ตามปริมาณความน่าจะเป็นไปข้างหน้าและย้อนกลับ2547)ที่นี่อัลกอริทึมนี้จะถูกนำเสนอเพื่อคำนวณความน่าจะเป็นด้านหลังที่กำหนดไว้เล็กน้อยในแต่ละสถานที่เพื่อจุดประสงค์ของบรรพบุรุษของสถานที่ที่สามารถใช้ในการวิเคราะห์การทำแผนที่ส่วนผสมสำหรับโครโมโซมแต่ละตัวจากแต่ละคนเราได้รับความน่าจะเป็นไปข้างหน้าและไปข้างหน้าสมการ 1.15 และ 1.16 ตามลำดับและความน่าจะเป็นเหล่านี้จะถูกกำหนดไว้สำหรับทุกรัฐ K และสำหรับตำแหน่งทางพันธุกรรมทั้งหมดจาก 1 ถึง L.

α = pr (x, ... , x, z = k p, r, q) (1.15) lk 1 l l |β = pr (x, ... , x z = k, p, r, q)(1.16) LK L+1 L |l ตามนั้นมหาวิทยาลัย

αβ = pr (x, ... , x, z = k p, r, q)lk lk 1 l l |ดังนั้นสำหรับสถานที่ที่กำหนด l โอกาสสามารถคำนวณได้ดังนี้

k ∑ αlkβlk = pr (x1, ... , xl p, r, q) = ll(1.17) K = 1 |ความน่าจะเป็นแบบมีเงื่อนไขสำหรับสถานที่ทั้งหมดและประชากรทั้งหมด k เขียนดังนี้ pr (x, ... , x, z = k p, r, q) αβ pr (z = k x, p, r, q)= 1 L L |= LK LK(1.18) L |... , pr (x, x p, r, q) l 1 l |l

18 1.4 โครงสร้างประชากรและบรรพบุรุษในท้องถิ่น

พิจารณาความน่าจะเป็นในการเปลี่ยนผ่านของห่วงโซ่มาร์คอฟสมการ 1.18 เราแสดงถึง

(i) (i) p = pr z = k ′z = k, r, qKK ′L+1 |l เริ่มต้นด้วยกรณีของข้อมูลเฟสที่สมบูรณ์ความน่าจะเป็นไปข้างหน้าคือ

α1K = QK PK1X1, K = 1,--, K  (1.19) α = ∑K α p p x, l = 1,--, L.  (l+1) k ′k = 1 lk kk′ k ′(l+1) l+1 h i ความน่าจะเป็นย้อนหลัง

β1k = 1, k = 1,--, K (1.20) β = ∑K β P x P, L = 1,--, L.  lk ′k = 1 (l+1) k kk′ l+1 k (l+1) เมื่อข้อมูลเฟสหายไปหรือที่รู้จักกันเพียงบางส่วนความน่าจะเป็นไปข้างหน้าและข้างหลังและความน่าจะเป็นเงื่อนไขร่วมที่เกิดขึ้นของรัฐบรรพบุรุษในสำเนาอัลลีลทั้งสองมีดังนี้เมือง

1 2 1 2 1 1 2 2 α 1 2 = pr x, x, ... , x, x;z = k, z = k p, r, q (1.21) lk k 1 1 l l l l |1 2 1 2 1 1 2 2 β 1 2 = pr x, x, ... , x, x z = k, z = k, p, r, q (1.22) lk k l+1 l+1 l capel |l l จาก

1 1 2 2 αlk1k2βlk1k2 pr zl = k, zl = k x, p, r, q =, (1.23) |ll โดยที่ superscripts (1) และ (2) ในสมการ 1.21, 1.22 และ 1.23 อ้างถึง fi rst และ

สำเนาอัลลีลที่สองในแต่ละสถานที่ตามลำดับให้ CL แสดงถึงความน่าจะเป็นที่อัลลีลครั้งแรกของตำแหน่งที่อยู่ติดกัน L และ L + 1 อยู่ในโครโมโซมเดียวกันสำหรับข้อมูลที่ไม่ได้เกิดขึ้นคำสั่งของสำเนาอัลลีลนั้นเป็นแบบสุ่มมหาวิทยาลัยและ CL สามารถตั้งค่าเป็น 0.5เริ่มต้นด้วยกรณีของข้อมูลที่ไม่ได้เป็นเฟสความน่าจะเป็นไปข้างหน้าคือ

1 2 1 2 αLK1K2 = QK1 QK2 PK11X1 PK21X1, K, K = 1,--, k.

 k k 1 2 α 1 2 = ∑ 1 ∑ 2 αlk1k2 p 1 x p 2 x [ (l+1) k ′k′ k = 1 k = 1 k ′(l+1) l+1 k′ (l (l+1) l +1  (1.24) C P 1 1 P 2 2 +(1 C) P 1 2 P 2 1  L K ′K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K K--, L. 

19 1.4 โครงสร้างประชากรและบรรพบุรุษในท้องถิ่น

ความน่าจะเป็นย้อนหลังคือ

b1k1k2 = 1

k1, k2 = 1, ... , K.  k k 1 2 β 1 2 = ∑ 1 ∑ 2 = β (l+1) k1k2 pk1 (l+1) xl+1pk2 (l+1)XL + 1 [(1.25)  LK ′K′ K = 1 K 1  C P P + (1 C) P P L K1K′1 K2K′2 - L K1K′2 K2K′1 สำหรับ L = L +1,.--, L.  1.4.3.3 locus-speci fi c บรรพบุรุษ

จากการประมาณหลังของ P, Q และ R ที่ได้มาจากการวนซ้ำแต่ละครั้งของมาร์คอฟโซ่มอนเต้- คาร์โลเราแสดงถึงค่าเฉลี่ยหลังของ P, Q และ R โดย Pˆ, Qˆ และ Rˆ ตามลำดับการประมาณค่าเฉลี่ยด้านหลังเหล่านี้สามารถประเมินได้ผ่านโมเดล Markov ที่ซ่อนอยู่ที่อธิบายไว้ในส่วนย่อย 1.4.3.1 ในหน้า 17 ดังนั้นปริมาณเฉลี่ยหลังจะถูกกำหนดเพื่อประเมินสัดส่วนบรรพบุรุษเฉลี่ยของบุคคลที่ถูกมองข้ามและการควบคุมในสมการ 1.261.27 ตามลำดับ

nd 1 (i) q¯d = ∑ e q x (1.26) nd |i = 1 capeh i nc 1 (i) q¯c = of∑ e q x, (1.27) nc |i = 1 h ฉันโดยที่ NC และ ND เป็นจำนวนการควบคุมและกรณีในข้อมูลตัวอย่างตามลำดับต่อไปให้ (i) ˆ ˆ us แสดงถึงz¯lเป็นบรรพบุรุษเฉลี่ยหลังของแต่ละบุคคลที่ locus l ประเมินที่ p, q และ rˆ

2 () 1 (i) j Universityz¯ i = ∑ p z, = k x, pˆ, qˆ, rˆ(1.28) L 2 L |j = 1 สมการ 1.28 ถูกมองว่าเป็นบรรพบุรุษของ locus-speci fi c ของแต่ละบุคคลที่ locus l และ j เป็นดัชนีสำเนาทางพันธุกรรมดังนั้นค่าเฉลี่ยด้านหลังของ Z ที่ locus l ระหว่างกรณีและการควบคุมจะถูกแสดงโดยz¯l, d และz¯l, c และให้ในสมการ 1.29 และ 1.30 ตามลำดับ

nd 2 1 (i), j ˆ ˆ z¯l, d = ∑ ∑ p zl = k x, p, q, rˆ (1.29) 2nd |i = 1 j = 1 nc 2 1 (i), j ˆ ˆ £z¯l, c = ∑ ∑ p zl = k x, p, q, rˆ (1.30) 2nc |i = 1 j = 1

20 1.5 โรคทางพันธุกรรม

สมการ 1.29 และ 1.30 ถูกมองว่าเป็นบรรพบุรุษโดยเฉลี่ยของโลคัส-สเปคซีของแต่ละบุคคลที่โลคัส l ในกรณีและการควบคุม

1.5 โรคทางพันธุกรรม

1.5.1 ภาพรวมของโรคทางพันธุกรรม

โรคทางพันธุกรรมเป็นโรคที่เกิดจากความผิดปกติในสารพันธุกรรมของแต่ละบุคคล (จีโนม)การกลายพันธุ์หรือตัวแปรเดียวในจีโนมมนุษย์สามารถเป็นโรคที่จะทำให้เกิดโรคและในกรณีอื่น ๆ ตัวแปรอาจโต้ตอบกับสายพันธุ์ทางพันธุกรรมอื่น ๆ และปัจจัยด้านสิ่งแวดล้อมที่จะนำไปสู่โรคโรคทางพันธุกรรมสามารถจำแนกประเภทได้เป็นสามประเภทรวมถึง (1) ยีนเดี่ยว (ในบางกรณีโรคไมโตคอนเดรีย (หยุด, 1996)), (2) หลายปัจจัย (โรค polygenic), (3) โครโมโซมโรคยีนเดี่ยวที่รู้จักกันในชื่อ Mendelian หรือ monogenic โรคเกิดจากการกลายพันธุ์ที่เกิดขึ้นในลำดับดีเอ็นเอของยีนเดี่ยวและได้รับการสืบทอดในรูปแบบที่เป็นที่รู้จักเช่น autosomal dominant, autosomal recessive และ X-linkedมีความผิดปกติของยีนเดี่ยวมากกว่า 6, 000 ซึ่งเป็นที่รู้จักกันว่าเกิดขึ้นในประมาณ 1 ในทุก ๆ การเกิดทุกครั้งเช่นเรื้อรัง fi brosis, โรคโลหิตจางเซลล์เคียว, โรคมาร์ฟาน, โรคฮันติงตัน.นอกจากนี้ความผิดปกติของไมโตคอนเดรียเป็นโรคที่เป็นโรคยีนเดี่ยวซึ่งเป็นความผิดปกติทางพันธุกรรมที่หายากที่เกิดจากการกลายพันธุ์ใน DNA ที่ไม่ใช่ chromosomal ของไมโตคอนเดรียCape Multi-factorial (ซับซ้อนหรือ polygenic) ของโรคเกิดจากการรวมกันของปัจจัยด้านสิ่งแวดล้อมและการกลายพันธุ์ในหลายยีนโรคที่ซับซ้อนเกิดขึ้นจากการเปลี่ยนแปลงทางพันธุกรรมที่ตำแหน่งทางพันธุกรรมหลายตำแหน่งในจีโนมของมนุษย์แต่ละการแทรกซึมต่ำและหมายความว่าการกลายพันธุ์แต่ละครั้งมีความอ่อนแอในตัวของมันเอง (หยุด, 1996)โรค Polygenic เกิดจากการกระทำรวมของยีนมากกว่าหนึ่งตัวอย่างของเงื่อนไข polygenic รวมถึงความดันโลหิตสูงโรคหลอดเลือดหัวใจและโรคเบาหวานเนื่องจากความผิดปกติดังกล่าวขึ้นอยู่กับการปรากฏตัวของยีนหลายตัวพร้อมกันพวกเขาจึงไม่ได้รับมรดกเหมือนโรคยีนเดี่ยวโครโมโซมเป็นโครงสร้างที่แตกต่างกันซึ่งประกอบด้วย DNA และโปรตีนตั้งอยู่ในนิวเคลียสของแต่ละเซลล์เนื่องจากโครโมโซมเป็นพาหะของวัสดุทางพันธุกรรมความผิดปกติในโครงสร้างโครโมโซมเช่นสำเนาที่หายไปหรือพิเศษหรือการหยุดพักขั้นต้นและการเข้าร่วม (translocations) อาจส่งผลให้เกิดโรค (ความผิดปกติของโครโมโซม)

1.5.2 Mendelian กับโรคที่ซับซ้อน

ในช่วงต้นทศวรรษ 1900 เป็นที่ชัดเจนว่าโรคมนุษย์ทั่วไปหลายโรคแสดงให้เห็นถึงการรวมตัวของครอบครัวที่ไม่เป็นไปตามรูปแบบการสืบทอดของ Mendelian อย่างง่าย แต่ดูเหมือนว่าจะเกิดขึ้นแทนที่จะเป็นยีนที่มีขนาดใหญ่และไม่ทราบจำนวนมาก

21 1.5 โรคทางพันธุกรรม

2550;Smith & Ebrahim, 2004)โรคเช่นโรคจิตเภท, โรคหอบหืด, โรคเบาหวาน, โรคอ้วน, โรคหลอดเลือด, โรคหลอดเลือดหัวใจ, ความดันโลหิตสูง, โรคมะเร็งชนิดต่าง ๆ , โรคอัลไซเมอร์และโรคพาร์กินสันในบุคคลที่เกี่ยวข้องเป็นตัวอย่างของโรคที่ซับซ้อนของมนุษย์ที่สำคัญ2551)ในโรคดังกล่าวมีเพียงส่วนเล็ก ๆ ของความไวต่อโรคที่สามารถนำมาประกอบกับยีนกลายพันธุ์ใด ๆ ที่ได้รับ (Smith, 2004)โรค Mendelian นั้นได้มาจากการกลายพันธุ์ในนิวคลีโอไทด์เดี่ยวที่มีการแทรกซึมสูงและมีขนาดใหญ่ในการทำงานของโปรตีนซึ่งสอดคล้องกับความจริงที่ว่าโรคเหล่านี้เกี่ยวข้องกับการเกิดโรคเดียวที่มีฟีโนไทป์ที่แข็งแกร่ง (Magnus, 2000; Spielman etal. 1993.การกลายพันธุ์ดังกล่าวเป็นของหายากในระดับประชากร (Chakravati & Weiss, 1998; Goldstein & Weale, 2001; Halder & Shriver, 2003), ส่งโดยมรดกของ Mendelian และมักจะถูกระบุด้วยรูปแบบลักษณะของการส่งสัญญาณถอย).ความสำเร็จในการศึกษาโรค Mendelian เป็นหนี้มากกับความจริงที่ว่าโรคทางพันธุกรรมภายใต้การสืบสวนในมนุษย์นั้นค่อนข้างง่ายเช่น monogenic, ความผิดปกติของการรับรู้สูงและเชื่อฟังหลักการของการสืบทอด Mendelian (Halder & Shriver, 2003; McKeigue, McKeigue,2548)สิ่งเหล่านี้ส่วนใหญ่เป็นตัวระบุโดยการวิเคราะห์การเชื่อมโยงโดยใช้ข้อมูลที่รวบรวมจากครอบครัวนอกจากนี้ภูมิภาคของจีโนมก็ยังระบุว่าการแยกร่วมกับโรคในครอบครัวอิสระจำนวนมากในหลายชั่วอายุคนของสายเลือดที่ยาว (Kristin etal., 2002; Patterson etal., 2004)(Exco ffi er & Hamilton, 2003; Halder & Shriver, 2003; McKeigue, 2005) ซึ่งระบุว่ายีนโรคโดยทั่วไปสามารถแปลได้เฉพาะกับช่วงเวลาขนาดใหญ่โดยใช้วิธีนี้ความถี่ค่อนข้างต่ำอย่างไรก็ตามโรคที่ซับซ้อนมักเกิดจากการเปลี่ยนแปลงทางพันธุกรรมที่ตำแหน่งทางพันธุกรรมหลายตำแหน่งในจีโนมของมนุษย์Halder & Shriver, 2003)โรคและลักษณะเฉพาะของมนุษย์ทั่วไปเชื่อว่าเป็นปัจจัยทางพันธุกรรมและสิ่งแวดล้อมหลายประการโรคเหล่านี้ไม่มีรูปแบบการสืบทอดที่ชัดเจนเนื่องจากยีนมีส่วนทำให้โรคที่มีสถาปัตยกรรมการสืบทอดที่ซับซ้อนมีเพียงเศษเสี้ยวเล็ก ๆ (น้อยกว่า 1% 7% ของความหลากหลายของบุคคลที่เป็นตัวตน) เป็นหนี้ที่มาของยีนกลายพันธุ์เดียวที่ส่งผ่านโดยมรดก Mendelian (Scheuner etal., 2004)ในขั้นต้นอัลลีลได้รับการสันนิษฐานว่าเป็นปัจจัยทางพันธุกรรมที่เป็นพื้นฐานของโรคที่พบบ่อยสถาปัตยกรรมอัลลีลิก (ขนาดและความถี่ของตัวแปรที่ไวต่อความไว) อาจแตกต่างกันไปทั่วฟีโนไทป์และความสามารถในการถ่ายทอดทางพันธุกรรมอาจใช้รูปแบบที่แตกต่างกันสำหรับโรคที่แตกต่างกันปัจจุบันความรู้เกี่ยวกับธรรมชาติของการเปลี่ยนแปลงทางพันธุกรรมที่เกิดจากโรคที่ซับซ้อนในมนุษย์มี จำกัด ซึ่งทำให้การกำหนดความเสี่ยงต่อการสืบทอดของบุคคล (Manolio etal., 2004)แม้ว่าการศึกษาความสัมพันธ์ของจีโนมทั่วทั้งจีโนม (GWAS) ได้รับการออกแบบให้เป็นเครื่องมือที่ทรงพลังสำหรับการตรวจสอบสถาปัตยกรรมทางพันธุกรรมของโรคที่ซับซ้อน (ส่วน 1.6.2 และ 1.7) แต่ความท้าทายจำนวนหนึ่งยังคงอยู่ (มาตรา 1.7)

22 1.6 วิธีการทำแผนที่โรค

1.6 วิธีการทำแผนที่โรค

การระบุตัวตนของยีนที่เป็นพื้นฐานของโรคทางพันธุกรรมเป็นปัญหาที่สำคัญของนักพันธุศาสตร์ในอดีตยีนโรคครั้งแรกนั้นถูกระบุด้วยวิธีการอิสระตำแหน่งที่บริสุทธิ์เนื่องจากไม่มีข้อมูลการทำแผนที่ที่เกี่ยวข้องและเทคนิคยังไม่ได้รับการพัฒนา (Strachan & Read, 1999)ดังนั้นวิธีการทางสถิติและคณิตศาสตร์ได้รับการพัฒนาจนถึงจุดสิ้นสุดนี้โดยเฉพาะอย่างยิ่งการศึกษาความผิดปกติของ Mendelian ได้รับการปรับปรุงอย่างมากในช่วงไม่กี่ทศวรรษที่ผ่านมาโดยความสำเร็จที่น่าทึ่งในการทำแผนที่ยีนและการพัฒนาวิธีการทางสถิติที่เข้มงวด (Lee & Yen, 2003; Martin etal., 2001; Schaid, 1998; Smith, 2004)).ความคืบหน้าส่วนใหญ่ในพันธุศาสตร์ของมนุษย์ในช่วงเวลานั้นมาจากการศึกษาของครอบครัวที่มีอัลลีลที่มีความเสี่ยงสูงที่หายากเมื่อพิจารณาถึงข้อ จำกัด ของการศึกษาสายเลือดและวิธีการตามครอบครัววิธีการอื่น ๆ ได้ถูกหาเพื่อลดช่วงเวลาที่ยีนโรคอาจโกหกและใช้ข้อมูลที่เกิดจากการผสมผสานของประชากรจากต้นกำเนิดทางภูมิศาสตร์ที่แตกต่างกันในอดีตวิธีการเหล่านี้รวมถึงการศึกษาการเชื่อมโยงทางพันธุกรรมและการศึกษาสมาคมการควบคุมกรณีการควบคุมจีโนมทั่วทั้งประชากร

1.6.1 สายเลือดและวิธีการตามครอบครัวในช่วงกลางทศวรรษที่ 1990 วิธีการเลือกสำหรับการทำแผนที่โรคกลายเป็นวิธีการของครอบครัวและเทคนิคที่ได้รับความนิยมมากที่สุดในการตรวจจับการเชื่อมโยงหรือการเชื่อมโยงระหว่างสถานที่ทางพันธุกรรมและความอ่อนแอของโรคโลคัสคือการทดสอบความไม่สมดุลของการส่งสัญญาณและส่วนขยาย (Zhu etal., 2008)วิธีการเหล่านี้มุ่งเน้นไปที่การส่งอัลลีลจากผู้ปกครอง heterozygous ไปยังฤดูใบไม้ผลิของพวกเขาการทดสอบการส่งสัญญาณแบบดั้งเดิม (TDT) ถูกนำมาใช้เพื่อทดสอบความไม่สมดุลของการเชื่อมโยงใน Triads ครอบครัวที่มีผู้ปกครองสองคนและสปริงที่ได้รับการรับรอง (Spielman Etal., 1993)สำหรับสถานที่มาร์กเกอร์ที่มีอัลลีลสองตัว TDT เปรียบเทียบจำนวนผู้ปกครอง heterozygous ที่ถ่ายทอดอัลลีลหนึ่งกับจำนวนพ่อแม่ heterozygous ที่ส่งอัลลีลอื่น ๆ ไปยัง A ff ected O ff spring (Dinga & Lina, 2006; Zhu etal, 2008)ครอบครัวนิวเคลียร์ที่ให้ข้อมูลที่เรียกว่ามีเด็กอย่างน้อยหนึ่งคนผู้ปกครองทั้งสองจีโนไทป์ที่เครื่องหมายและอย่างน้อยหนึ่งผู้ปกครองเป็น heterozygoussibships ที่ไม่ลงรอยกันข้อมูล (เด็ก ๆ ที่ผลิตโดยพ่อแม่คู่หนึ่ง) มีอย่างน้อยหนึ่ง at ected และหนึ่งในพี่น้องที่ไม่ได้รับการคัดค้าน (DSP) ที่มีจีโนไทป์ทางพันธุกรรมที่แตกต่างกันและอาจมีข้อมูลจีโนไทป์ของผู้ปกครองสายเลือดขยายที่ให้ข้อมูลมีครอบครัวนิวเคลียร์ที่ให้ข้อมูลอย่างน้อยหนึ่งครอบครัวและ (หรือ) sibship ที่ไม่ลงรอยกัน (Lee & Yen, 2003)

เมื่อพิจารณาถึงเครื่องหมายทางพันธุกรรมที่มีอัลลีลสองตัว A1 และ A2;ηa1คือจำนวนอัลลีล

A1 ที่ส่งและζA1คือจำนวนอัลลีล A1 ที่ไม่ได้ส่งสำหรับครอบครัวสามคนอาจมีอัลลีลคู่หนึ่งที่สามารถส่งไปยังสปริงและอัลลีลคู่หนึ่งได้

23 1.6 วิธีการทำแผนที่โรค

ไม่ได้ส่งสำหรับสามสามภายในตระกูลนิวเคลียร์ที่ให้ข้อมูลเราสามารถกำหนดตัวแปรสุ่มได้

x = ηζ(1.31) T A1 - A1 ¯เราแสดงโดยη¯A1เป็นจำนวนอัลลีล A1 ใน SIB และζA1จำนวนอัลลีล A1 ใน SIB ที่ไม่ได้รับเราสามารถกำหนดตัวแปรสุ่มอื่นได้ในทำนองเดียวกันสำหรับ DSP แต่ละตัวภายใน sibship ที่ไม่ลงรอยกันข้อมูล

x = η¯ζζ(1.32) S A1 - A1

ตัวแปรสุ่มสรุปสามารถกำหนดได้สำหรับสายเลือดที่มี mt triads จากตระกูลนิวเคลียร์ที่เป็นข้อมูลและ MS DSPs จาก sibships ที่ไม่ลงรอยกันข้อมูล

1 mt ms d = ∑ xtk + ∑ xsk, (1.33) mt + ms k = 1 k = 1!D ในสมการ 1.32 ข้างต้นเป็นค่าเฉลี่ยที่รวมถึง triads ที่เป็นไปได้ทั้งหมดจากตระกูลนิวเคลียร์ที่ให้ข้อมูลและ DSP ที่เป็นไปได้ทั้งหมดจาก Sibships Discordanttown ที่ให้ข้อมูลจากสายเลือด

มันตามมาภายใต้สมมติฐานว่างของไม่มีการเชื่อมโยง disequilibrium, e (xt) = 0 สำหรับ triads ทั้งหมด

และ E (xs) = 0 สำหรับ DSP ทั้งหมดดังนั้นสำหรับสายเลือด E (D) = 0. M คือจำนวนทั้งหมดของสายเลือดที่ไม่เกี่ยวข้องกับ TH ในตัวอย่างและ Capapedi เป็นตัวแปรสุ่มสรุปสำหรับสายเลือด Iดังนั้นภายใต้สมมติฐานว่างของไม่มีความไม่สมดุลของการเชื่อมโยง

m e ∑ dk = 0 k = 1!

แล้ว,

M M M = = 2 UniversityVAR ∑ dk ∑ var (dk) e ∑ dkk = 1!k = 1 k = 1!การทดสอบความไม่สมดุลของการส่งสายเลือด (PDT) ขึ้นอยู่กับสถิติ T

∑m d t = k = 1 k (1.34) m 2 ∑k = 1 dk q สถิติในสมการ 1.34 เป็นปกติแบบไม่แสดงผลโดยมีค่าเฉลี่ย 0 และความแปรปรวน 1 ภายใต้สมมติฐานว่างของไม่มีการเชื่อมโยงที่ไม่สมดุลและต้องการจีโนไทป์ของพ่อแม่ในคำสั่งที่จะคำนวณTDT ยังได้รับการขยายเพื่ออนุญาตให้มีการทดสอบหลายครั้งในขณะที่ยังคงทดสอบความไม่สมดุลของการเชื่อมโยงที่ถูกต้อง (Martin etal., 2001)TDT ได้รับการขยายไปสู่ ​​Sibships

24 1.6 วิธีการทำแผนที่โรค

อย่างน้อยหนึ่งคนและบุคคลที่ไม่ได้รับหนึ่งคนและส่วนขยายนี้เรียกว่าการทดสอบการส่งสัญญาณการส่งสัญญาณแบบพี่น้อง (S-TDT)สำหรับอัลลีลที่น่าสนใจที่สถานที่ทางพันธุกรรมของโลคัส S-TDT นั้นเปรียบเทียบความถี่ของอัลลีลนั้นในหมู่บุคคลที่มีความถี่ของอัลลีลในหมู่บุคคลที่ไม่ได้รับมันถูกใช้เมื่อข้อมูลมีจีโนไทป์ที่ขาดหายไปในหมู่ผู้ปกครองดังนั้น S-TDT สามารถใช้จีโนไทป์ของ sibships ที่ไม่ลงรอยกันฟีโนไทป์และสร้างจีโนไทป์ของผู้ปกครองจากจีโนไทป์ของ O ff Spring (Dinga & Lina, 2006; Schaid, 1998)(Dinga & Lina, 2006; Horvath etal., 2000; Schramm etal., 2002) ได้เสนอส่วนขยายของ TDT เพื่อความน่าจะเป็นสูงสุดตามขั้นตอนองค์ประกอบความแปรปรวนและการเลือกทางสถิติสำหรับการทำแผนที่ตำแหน่งทางพันธุกรรมเชิงปริมาณวิธีการนี้อนุญาตให้มีการทดสอบร่วมกันของทั้งการเชื่อมโยงและสมาคมอัลลีลมันเกี่ยวข้องกับการสร้างแบบจำลองของวิธีการอัลลีลสำหรับการทดสอบการเชื่อมโยงกับการสร้างแบบจำลองพร้อมกันของโครงสร้างความแปรปรวนร่วม SIB-pair สำหรับการทดสอบการเชื่อมโยง (Dinga & Lina, 2006; Martin etal., 2001)ในความเป็นจริงองค์ประกอบความแปรปรวนความน่าจะเป็นสูงสุดที่ควบคุมการเชื่อมโยงปลอมเนื่องจากโครงสร้างประชากรและส่วนผสมโดยการจัดกลุ่มค่าเฉลี่ยของโลคัสทางพันธุกรรมในระหว่างและภายในส่วนประกอบ (Dinga & Lina, 2006; Horvath etal., 2000)(Dinga & Lina, 2006; Martin etal., 2001town; Schaid, 1998) ได้แนะนำการสร้างแบบจำลองโครงสร้างความแปรปรวนร่วมของ Starship เต็มรูปแบบโดยการเพิ่มบันทึกตามธรรมชาติของความน่าจะเป็นของข้อมูลปกติหลายตัวแปร (สมการ 1.34)

lk 1 1 m () () cape () 1 l = ∏ (2π) - 2 (σ) - 2 (e) - 2 (y µ) σ− (y µ), (1.35) |K |K - K K K - K K = 1 ของ H I โดยที่ M คือจำนวนครอบครัวและ YK เป็นเวกเตอร์ของคะแนนที่สังเกตได้ที่ได้รับสำหรับพี่น้องในครอบครัว KLK คือจำนวนตัวแปร (พี่น้องในกรณีฟีโนไทป์เดี่ยว) ที่วัดได้ในตระกูล kสำหรับครอบครัว K, µK เป็นเวกเตอร์ของวิธีการที่คาดหวังซึ่งใช้ในการจำลองพารามิเตอร์การเชื่อมโยงและσkเมทริกซ์ความแปรปรวนร่วมที่คาดหวังในหมู่พี่น้องถูกใช้เพื่อจำลองการเชื่อมโยง

องค์ประกอบของเมทริกซ์ความแปรปรวนร่วมσkและเวกเตอร์เฉลี่ย µK สามารถประเมินได้โดยตรงและทำหน้าที่ของความหลากหลายพารามิเตอร์ทางทฤษฎีที่น่าสนใจ (Horvath etal., 2000)สมการ 1.35 ใช้สำหรับการสร้างแบบจำลองของฟีโนไทป์เชิงปริมาณที่ได้รับจาก sibships หรือครอบครัวขยาย (Dinga & Lina, 2006; Martin etal., 2001)พารามิเตอร์ทางทฤษฎีเหล่านี้ได้รับการทดสอบสำหรับความสำคัญทางสถิติโดยการสร้างแบบจำลองด้วยพารามิเตอร์ที่น่าสนใจและการคำนวณบันทึกความน่าจะเป็น L ของบันทึกข้อมูล (1);โดยการปรับเปลี่ยนโดยไม่มีพารามิเตอร์ทางทฤษฎีเหล่านี้ (เช่นเริ่มต้น

พารามิเตอร์ที่ได้มาจากองค์ประกอบของเมทริกซ์ความแปรปรวนร่วมσkและเวกเตอร์เฉลี่ย µK) และคำนวณบันทึกความน่าจะเป็นของข้อมูลบันทึก (L0) (Horvath etal., 2000)ดังนั้นสำหรับชุดข้อมูลขนาดใหญ่

2 [log (l) log (l)], (1.36) 1 - 0

25 1.6 วิธีการทำแผนที่โรค

มีการแจกแจงแบบ asymptotically เป็นสถิติχ2พารามิเตอร์ทั้งหมดถูกประเมินเป็นแบบจำลองเต็มรูปแบบเมื่อเทียบกับโมเดลย่อยต่างๆซึ่งอนุญาตให้ทดสอบการเชื่อมโยงและการเชื่อมโยงแต่ละรายการรายละเอียดเพิ่มเติมสามารถพบได้ใน (Dinga & Lina, 2006; Horvath etal., 2000; Martin etal., 2001)เนื่องจากการแทรกซึมต่ำของโรคที่ซับซ้อนการระบุตำแหน่งทางพันธุกรรมที่นำไปสู่โรคที่ซับซ้อนจำเป็นต้องมีข้อมูลจำนวนมากและสายเลือดที่มีขนาดเพียงพอมีค่าใช้จ่ายสูงมาก (Exco ffi er & Hamilton, 2003; Halder & Shriver, 2003)แม้ว่าภูมิภาคของผู้สมัครสามารถระบุได้จากสายเลือด (Exco ffi er & Hamilton, 2003; McKeigue, 2005) ระบุว่าการแก้ปัญหาการศึกษาเชื่อมโยงนั้นอยู่ในลำดับของ centimorgans สองสามซึ่งในแง่ของจีโนมมนุษย์อาจสอดคล้องกับฐานขนาดใหญ่หลายแห่งของ DNA และยีนหลายพันยีน (Exco ffi Er & Hamilton, 2003)แม้ว่าการศึกษาสายเลือดสามารถแก้ไขตำแหน่งโรคที่ซับซ้อนในระดับยีน (Kristin etal., 2002) กล่าวว่ามีอคติการค้นพบที่แข็งแกร่งต่อสายพันธุ์ที่ทำให้เกิดโรคที่ซับซ้อนของ Mendelianมาตราส่วน.การศึกษาการเชื่อมโยงนั้นครอบคลุมและ จำกัด ยีนใด ๆ ที่ออกแรงสัญญาณสำคัญเกี่ยวกับความอ่อนแอของโรค แต่มีพลังงานค่อนข้างต่ำและยังคงล้มเหลวในการระบุยีนที่มีสัญญาณความเสี่ยงทางพันธุกรรมเพียงระดับปานกลาง (Hoggart et al., 2004; Montana & Pritchard, 2004;ประการแรกมันต้องการข้อมูลจำนวนมากอย่างน้อยสามคนจะต้องมีจีโนไทป์สำหรับแต่ละจุดข้อมูลประการที่สองการได้รับจีโนไทป์ของผู้ปกครองสามารถเป็นได้ในที่สุดเพื่อที่จะได้รับข้อมูลที่โลคัสผู้ปกครองจะต้องเป็น heterozygouscape ที่โลคัสทางพันธุกรรมแม้ว่า e ff ort สามารถใช้ตำแหน่งทางพันธุกรรมที่มี heterozygosity สูงของ Chakravati & Weiss (1998);Patterson และคณะ(2004);Spielman etal(1993) รายงานว่าส่วนที่มีนัยสำคัญของบุคคลที่ถูกมองเห็นและพ่อแม่ของพวกเขาจะไม่เป็นไปตามข้อมูลเสมอในหลอดเลือดดำเดียวกัน (Chakravati & Weiss, 1998; McKeigue, 2005) ระบุว่าความหลากหลายของอัลลีลิกวิธีการประชากรด้วยเหตุผลเหล่านี้ McKeigue (2005) กล่าวว่าการมองเห็นประชากรของโรคที่ซับซ้อนอาจเป็นที่นิยม1.6.2 สมาคมทั่วทั้งประชากรจีโนม

การศึกษาความสัมพันธ์ของจีโนมทั้งหมดมักใช้การออกแบบการควบคุมกรณีเพื่อระบุตัวแปรทางพันธุกรรมที่เกี่ยวข้องกับโรคทางพันธุกรรมที่ซับซ้อนซึ่งเป็นผลมาจากความสัมพันธ์ของจีโนไทป์ฟีโนไทป์ที่อ่อนแอ (Draghici, 2003; Exco ffi Er & Hamilton, 2003; McKeigue, 2005)สิ่งนี้เปรียบเทียบความถี่อัลลีลระหว่างบุคคลที่ไม่เกี่ยวข้องซึ่งเป็นสิ่งที่เกิดขึ้นกับผู้ที่ไม่ได้รับการศึกษาความสัมพันธ์มีพลังที่ดีกว่ามาก แต่เนื่องจากความสัมพันธ์สามารถตรวจพบได้ในภูมิภาคที่มีขนาดเล็กกว่าการวิเคราะห์การเชื่อมโยง (ส่วน 1.6.1) คาดว่าการทดสอบจีโนมด้วย SNP ที่หนาแน่นสามารถจับภาพได้

26 1.6 วิธีการทำแผนที่โรคเชื่อมโยงความไม่สมดุลและให้ผลลัพธ์ที่อธิบายถึงความเสี่ยงมากไม่ว่าจะมีเครื่องหมายอีกมากมายที่จะต้องพิมพ์เพื่อทำการศึกษาความสัมพันธ์ที่กว้างของจีโนมซึ่งมีค่าใช้จ่ายสูงมาก (Exco ffi Er & Hamilton, 2003) แต่ตอนนี้กำลังกลายเป็น ff edableโดยหลักการแล้วการศึกษาความสัมพันธ์ของจีโนมได้รับการแนะนำให้ใช้ยีนที่อ่อนแอ (SNPs ที่มีความถี่มากกว่า 1% มีหน้าที่รับผิดชอบในการหารือถึงความเสี่ยงของความผิดปกติทางพันธุกรรมที่ซับซ้อนที่สุด) และตรวจจับปัจจัยเสี่ยงที่อาจนำไปสู่โรคมนุษย์ทั่วไป (Rosenberg & Pritchard, 2008)โดยทั่วไป GWAS ต้องการองค์ประกอบที่สำคัญสามประการรวมถึงตัวอย่างการศึกษาขนาดใหญ่จากประชากรภายใต้การศึกษาอัลลีล polymorphic ที่สามารถราคาไม่แพงและมีจีโนไทป์และครอบคลุมจีโนมทั้งหมดอย่างเพียงพอและวิธีการวิเคราะห์ที่มีประสิทธิภาพทางสถิติการเชื่อมโยงในลักษณะที่เป็นกลางจำนวนมากของ GWAs ที่ได้รับการตีพิมพ์เมื่อเร็ว ๆ นี้ส่วนใหญ่ดำเนินการเกี่ยวกับการเติมเต็มในยุโรปหรือประชากรของเชื้อสายยุโรปซึ่งมีตัวอย่างขนาดใหญ่ของบุคคลที่เป็นเนื้อเดียวกันจากบรรพบุรุษจากสภาพแวดล้อมที่ค่อนข้างเป็นเนื้อเดียวกัน (Cantor etal., 2010; Rosen- berg et al., 2010).ความก้าวหน้าทางเทคโนโลยีล่าสุดในจีโนไทป์ที่มีปริมาณงานสูงได้อนุญาตให้มีการขยายตัวของการศึกษาทางพันธุกรรมของมนุษย์เพื่อรวมถึงประชากรที่ไม่ได้มีความหลากหลายในยุคยุโรปเพื่อ: (1) ตรวจจับตำแหน่งที่ขาดหายไปหรือไม่สามารถระบุได้อย่างง่ายดายในประชากรยุโรปเนื่องจากพลังทางสถิติต่ำและอัลลีล(Cantor etal., 2010)(2) ค้นหาขอบเขตที่ GWAS ผลลัพธ์จากการศึกษาของประชากรยุโรปสามารถขยายไปยังประชากรที่ไม่ใช่ยุโรป (Cantor etal., 2010)จาก (3) ตรวจสอบฟีโนไทป์หรือโรคที่เป็นไปได้ของความชุกสูงที่มีอยู่ในประชากรที่ไม่ใช่ชาวยุโรปเช่น trypanosomiasis ในแอฟริกามนุษย์ที่รู้จักกันดีว่าเป็นโรคนอนหลับ (Cantor etal., 2010)

แม้จะมีความสำเร็จเหล่านี้ในประชากรยุโรป แต่สำหรับความผิดปกติทางพันธุกรรมส่วนใหญ่พบว่ามีเพียงไม่กี่สายพันธุ์ที่เกี่ยวข้องและตำแหน่งที่เกี่ยวข้องอธิบายเพียงส่วนเล็ก ๆ ของความเสี่ยงทางพันธุกรรมยิ่งไปกว่านั้นมหาวิทยาลัยระดับความไม่สมดุลของการเชื่อมโยง (LD) ที่เล็กลงระหว่างตัวแปรในประชากรแอฟริกันเป็นข้อได้เปรียบสำหรับการทำแผนที่ระดับสูงซึ่งยังคงเป็นสิ่งที่ดีสำหรับ GWAS (Cantor etal., 2010)ความเสี่ยงของการเชื่อมโยงจีโนไทป์ที่เป็นบวกเท็จเนื่องจากความแตกต่างในบรรพบุรุษเป็นความท้าทายที่สำคัญสำหรับการศึกษาสมาคมในประชากรที่ได้รับการผสม (Rosenberg & Nordborg, 2006)ด้วยเหตุนี้จึงมีการพัฒนาวิธีการหลายวิธีเพื่อควบคุมผลลัพธ์เชิงบวกที่ผิดพลาดในตัวอย่างของบุคคลที่เป็นเนื้อเดียวกันในบรรพบุรุษรวมถึงส่วนประกอบหลักการควบคุมจีโนม, การทดสอบความสัมพันธ์ที่มีโครงสร้าง, คะแนนความชอบและส่วนประกอบความแปรปรวน (Epstein etal., 2007;., 2010;วิธีการเหล่านี้ใช้ประโยชน์จากสัดส่วนบรรพบุรุษของจีโนมกว้างจากบุคคล

27 1.6 วิธีการทำแผนที่โรค

ในฐานะที่เป็น covariate เพื่อควบคุมการสับสนเนื่องจากการเปลี่ยนแปลงในบรรพบุรุษของแต่ละบุคคล (Red- den et al., 2006)การใช้แบบจำลองเชิงเส้นผสม (LMMs) ในการศึกษาความสัมพันธ์ของจีโนมทั่วทั้งจีโนม (GWAS) ได้รับการยอมรับอย่างกว้างขวาง (Kang etal., 2010; Zhou & Stephens, 2012) เนื่องจาก LMM ได้รับการแสดงเพื่อแก้ไขหลายรูปแบบความเกี่ยวข้องเช่นโครงสร้างประชากรและความเกี่ยวข้องกับครอบครัว (Zhou & Stephens, 2012)ที่นี่เราอธิบายวิธีการที่คล้ายกันที่พัฒนาขึ้นใน (Kang etal., 2010)

1.6.2.1 ภาพรวมของโมเดลผสมใน GWAS

ให้เราพิจารณาการวัดฟีโนไทป์ของบุคคล Iแบบจำลองเชิงเส้นแบบผสมสามารถเขียนได้ในโหมดการทำแผนที่ของสมาคมสิ่งมีชีวิต (Kang etal., 2010; Zhou & Stephens, 2012)

y = xb + zm + ǫ, (1.37)

โดยที่ y คือเวกเตอร์ n 1 ของฟีโนไทป์ที่สังเกตได้ x คือเมทริกซ์ n q ของ fi xed e ff ects××βเป็นเวกเตอร์ q 1 ของ coe eced e ects coe ffi cientsZ เป็นเมทริกซ์อุบัติการณ์ของฉันจากแต่ละฟีโนไทป์××ที่สังเกตไปยังหนึ่งในบุคคล Iµ คือการสุ่มทาวน์ e ff ect ของแบบจำลองผสมกับ var (µ) = σ2k;โดยที่ k คือเมทริกซ์ความสัมพันธ์ I I ที่อนุมานจากจีโนไทป์และǫคือเมทริกซ์ g × n n ของการตกค้างเช่น var (ǫ) = σ2iฉันเป็นตัวตนแทนที่จะเป็น×ǫการแก้โมเดลผสมนี้โดยใช้การทำนายเชิงเส้นที่ไม่เอนเอียงที่ดีที่สุดของการสุ่ม ect u สามารถประมาณการโดยตรงของพารามิเตอร์การกระจายตัวของความน่าจะเป็นสูงสุดที่ จำกัด (REML)ดังนั้นภายใต้สมมติฐานของ Gauss-Markov โดยใช้สมการ 1.37 ตามด้วย µ n 0, σ2kและǫ n 0, σ2i(1.38) ∼ G ∼ ǫความน่าจะเป็นที่ถูก จำกัด จะหลีกเลี่ยงอคติที่ลดลงของการประมาณความน่าจะเป็นของส่วนประกอบความแปรปรวนโดยคำนึงถึงการสูญเสียระดับอิสระที่เกี่ยวข้องกับ fi xed e ff ectsภายใต้สมมติฐานว่างฟังก์ชันการบันทึกความน่าจะเป็นแบบเต็มสามารถเขียนได้

1 2 1 1 L (y; β, σ, Δ) = Universityn log 2πσ log h (y xβ) ′h− (y xβ), (1.39) f 2 - - |--σ2--และฟังก์ชั่นความน่าจะเป็นบันทึกที่ จำกัด

2 1 2 1 L (y; σ, Δ) = l y: βˆ, σ, Δ + q log 2πσ + log x′x log x ′h− x, r f 2 - |-|-H I 2 2 สมมติว่าΔ = σǫ /σgไม่เปลี่ยนแปลงอย่างเห็นได้ชัดในการสแกน GWASชุดโมเดลη = zµ + ǫดังนั้นสมการ 1.37 สามารถเขียนได้

y = xb +

28 1.6 วิธีการทำแผนที่โรค

กับ

var (η) = var (zµ) + var (ǫ)

ดังนั้น

2 2 vars (h) ∝σgk + σ I.

เมทริกซ์ความแปรปรวนของฟีโนไทป์โดยรวมสามารถแสดงเป็นσgและσǫซึ่งจะช่วยเพิ่มโอกาสสูงสุด 2 2 V = σg zkz ′ + σǫฉันจะได้รับการเขียนใหม่

y ∗ = x ∗ β + ǫ ∗, (1.40)

1 การแก้สมการ (1.40) โดยกำลังสองน้อยที่สุด (OLS) เรามี y ∗ = m− y, 1 1 x ∗ = m− x, ǫ ∗ = m− ǫ, η = mm ′1 1 1 ในที่สุดสมการ (1.40) จะถูกขยายให้ใหญ่สุดเมื่อβคือ βˆ = townx ′h− x - h′h− y และ 2 r 2 r องค์ประกอบความแปรปรวนที่เหมาะสมที่สุดคือ σˆ f = n สำหรับความน่าจะเป็นเต็มและ σˆr = n qสำหรับการ จำกัด 1 - ความเป็นไปได้ที่มี r = y xβˆ - h 1 y xβˆ ซึ่งเป็นฟังก์ชันของΔ----1.6.2.2 การเชื่อมโยงส่วนผสมของจีโนมทั่วทั้งจีโนม

มันแสดงให้เห็นว่าวิธีการที่อธิบายไว้ในส่วนย่อย 1.6.2.1 ด้านบนไม่สามารถควบคุมการก่อตั้งที่ระดับของ snps ที่เฉพาะเจาะจง (Redden etal., 2006)ดังนั้นเนื่องจากบรรพบุรุษในท้องถิ่นและบรรพบุรุษโดยเฉลี่ยทั่วทั้งจีโนมมีความสัมพันธ์กันอย่างอ่อน (Qin etal., 2010) จึงแนะนำให้ควบคุมการสับสนเนื่องจากส่วนผสมโดยการปรับสภาพทั้งในท้องถิ่นสเปคและบรรพบุรุษโดยเฉลี่ยจีโนมอีกทางเลือกหนึ่งสำหรับวิธีการเหล่านี้สำหรับตัวแปรความเสี่ยงที่มีความเสี่ยงต่ำสำหรับโรคมนุษย์ทั่วไปคือการทำแผนที่ส่วนผสม (Exco ffi Er & Hamilton, 2003; McKeigue, 2005; Zhu etal., 2008)Admixture Mappinguniversity ขยายไปถึงประชากรมนุษย์หลักการที่รองรับการวิเคราะห์การเชื่อมโยงของการทดลองข้าม (Hoggart etal., 2004; Montana & Pritchard, 2004)ปัจจุบันเป็นที่ทราบกันดีว่าเป็นวิธีที่มีต้นทุนต่ำและมีประสิทธิภาพสำหรับการ จำกัด ยีนของโรคในประชากรของบรรพบุรุษผสมเมื่อเร็ว ๆ นี้ซึ่งประชากรบรรพบุรุษมีความเสี่ยงทางพันธุกรรมที่แตกต่างกัน (Exco ffi er & Hamilton, 2003; Montana & Pritchard, 2004)มันได้รับการกล่าวถึงอย่างกว้างขวางว่าเป็นกลยุทธ์ที่มีศักยภาพสำหรับการแปลยีนที่อ่อนไหว (Falush etal., 2003; McKeigue, 2005; Pritchard etal., 2002) ขึ้นอยู่กับความไม่สมดุลของการเชื่อมโยงส่วนผสมทฤษฎีที่อยู่เบื้องหลังการทำแผนที่ส่วนผสมได้ถูกระบุไว้เมื่อหลายปีก่อนการใช้งานของมันได้รับการเพิ่มขึ้นจากความพร้อมของแผงจีโนมทั่วทั้งจีโนมของเครื่องหมายทางพันธุกรรมที่ให้ข้อมูลสำหรับบรรพบุรุษระหว่างประชากรมนุษย์ทั่วโลก(Exco ffi er

29 1.7 ประเด็นในการศึกษาสมาคม

& Hamilton, 2003;Hoggart etal., 2004;Sankararaman et al., 2008;Santafe etal., 2006)ความพยายามครั้งแรกในการทำแผนที่ผสมได้ดำเนินการกับประชากรแอฟริกัน-อเมริกันที่เพิ่งผสมผสานเมื่อเร็ว ๆ นี้ตามด้วยประชากรเม็กซิกัน-อเมริกันซึ่งประชากรผู้ก่อตั้งคือยุโรปพื้นเมืองอเมริกันและแอฟริกา (Exco ffi er & Hamilton, 2003; Patterson etal., 2004; Zhu;etal., 2008)นอกจากนี้ข้อมูลเกี่ยวกับโครงสร้างประชากรและการอนุมานบรรพบุรุษในท้องถิ่นเป็นที่รู้จักกันดีว่ามีประโยชน์ในการศึกษาการทำแผนที่ส่วนผสมของยีนโรค (Montana & Pritchard, 2004; Patterson etal., 2004; Rosenberg & Pritchard, 2008)วิธีการในปัจจุบันที่พัฒนาขึ้นสำหรับการให้คะแนนโรคในประชากรที่ได้รับการผสมได้ประสบความสำเร็จในการศึกษาประชากรสองทาง แต่ไม่ได้ใช้กับประชากรที่ได้รับการผสมหลายทางเช่นประชากร admixed (Pasaniuc etal., 2011; Rosenberg etal., 2010)

1.7 ประเด็นในการศึกษาสมาคม

วันนี้ SNPs ที่เกี่ยวข้องส่วนใหญ่เป็นผลมาจากการศึกษาส่วนผสมและความสัมพันธ์อธิบายเพียงส่วนเล็ก ๆ ของความเสี่ยงทางพันธุกรรม (ขนาดเล็ก e ect) (Cantor etal., 2010; Jia etal., 2010)ผู้เขียนหลายคนชี้ให้เห็นว่า GWAS อาจไม่ตรวจพบ SNP ที่มีความเสี่ยงต่ำหรือปานกลางซึ่งอาจไม่ถึงความสำคัญของจีโนมที่มีความสำคัญetal., 2010;GWAS อาจล้มเหลวในการเปิดเผยสัญญาณที่มีนัยสำคัญของความหลากหลายของยีนหากการเปลี่ยนแปลงของตัวแปรในยีนอื่นไม่ได้ถูกนำมาพิจารณาดังนั้นการวิเคราะห์ตามการค้นพบครั้งเดียวใน GWAS อาจสร้างเท็จของเชิงลบ (Jia etal., 2010; Peng etal., 2008) หรือผลลัพธ์ที่ไม่สามารถสรุปได้นอกจากนี้คำถามยังคงเกิดขึ้นว่าทำไมความสามารถในการถ่ายทอดทางพันธุกรรมจำนวนมากจึงไม่สามารถอธิบายได้โดย gwa fi ndingsคำถามนี้มีความเกี่ยวข้องเนื่องจากสัดส่วนที่สำคัญของความแตกต่างของโรคการทำความเข้าใจกับความแปรปรวนทางพันธุกรรมนี้อาจนำไปสู่การวินิจฉัยการรักษาและการป้องกันโรค (Manolio etal., 2004)มีการแนะนำคำอธิบายจำนวนมากสำหรับการถ่ายทอดทางพันธุกรรมที่ขาดหายไปนี้รวมถึงตัวแปรที่หายากกว่ามาก (อาจมีความพร้อมที่ใหญ่กว่า) หรือตัวแปรของความถี่อัลลีลน้อย (MAF), ประมาณ 0.5%

30 1.7 ประเด็นในการศึกษาสมาคม

ปัจจัยทางพันธุกรรมและสิ่งแวดล้อมหลายอย่างที่นำไปสู่การพัฒนาของความซับซ้อนที่ซับซ้อน GWAS ด้วยตัวเองอาจไม่มั่นใจในการตรวจสอบโครงสร้างทางพันธุกรรมที่ซับซ้อนของโรคที่ซับซ้อน (Cantor etal., 2010; Jia etal., 2010; Peng etal., 2008).อีกวิธีหนึ่งเช่นการวิเคราะห์ของ epistasis ซึ่งใช้การศึกษา GWAS เดี่ยวได้รับการแนะนำเพื่อระบุผลลัพธ์ที่แข็งแกร่งซึ่งถูกเปิดเผยเมื่อยีนโต้ตอบ (Anton etal., 1998; Wu et al., 2009)นอกจากนี้ยังมีข้อเสนอแนะในการศึกษาการจัดลำดับเพื่อตรวจจับการมีส่วนร่วมของตัวแปรที่หายากไปสู่ความผิดปกติทางพันธุกรรมเดียวกับที่ GWAs มาตรฐานไม่สามารถตรวจจับได้ (Dickson etal., 2010)ตัวแปรที่หายากพบได้ในน้อยกว่า 1% ของประชากร (Cantor etal., 2010) อย่างไรก็ตามการใช้ลำดับขนาดใหญ่ซึ่งเป็นไปได้มากขึ้นในปัจจุบันสามารถให้ข้อมูลเพิ่มเติมเกี่ยวกับสาเหตุทางพันธุกรรมของความผิดปกติที่ซับซ้อนการตรวจสอบตัวแปรทั่วไปและหายาก (Cantor etal., 2010; Dickson etal., 2010; Gronau etal., 2011)การวิเคราะห์ตัวแปรที่หายากจะนำเสนอความท้าทายทางสถิติจำนวนมากและควรส่งผลให้เกิดการพัฒนาวิธีการที่น่าสนใจและมีประโยชน์ซึ่งจะเปิดเผยผลลัพธ์ที่สำคัญ (Cantor etal., 2010; Dickson etal., 2010)การวิเคราะห์โพสต์และการวิเคราะห์ความสัมพันธ์ได้ถูกนำไปใช้เพื่อรวมผลลัพธ์ที่แตกต่างกันของ GWAs เพื่อเปิดเผยสิ่งที่มีขนาดใหญ่ขึ้นเพื่อให้ข้อมูลที่มีค่าซึ่งจะเป็นประโยชน์สำหรับการจัดลำดับความสำคัญของผลลัพธ์ที่สำคัญที่สุด (Han & Eskin, 2011; Wray etal., 2010)เพื่อรวมความสัมพันธ์ในการศึกษาความสัมพันธ์ที่แตกต่างกันแม้ว่าข้อมูลดั้งเดิมจะไม่พร้อมใช้งานการวิเคราะห์อภิมานMeta-Analysis Pools ข้อมูลจาก GWAs หลายตัวเพื่อเพิ่มโอกาสในการเป็นบวกที่แท้จริงในหมู่ falsecape positives (Cantor etal., 2010; Han & Eskin, 2011)การตรวจสอบการรวมกันของยีนของยีนโดยการตรวจจับสัญญาณทางพันธุกรรมนอกเหนือจากความหลากหลายของยีนเดี่ยวมีประโยชน์เพิ่มขึ้นของการจำแนกลักษณะของยีนที่อ่อนแอและโครงสร้างทางพันธุกรรมของโรคที่ซับซ้อน (Jia etal., 2010; Peng etal., 2008)ดังนั้นการรวมทั้งสัญญาณการเชื่อมโยงจาก GWAS และข้อมูลการปฏิสัมพันธ์ระหว่างโปรตีนโปรตีนของมนุษย์ (PPI) ที่มีอยู่อาจมีประโยชน์ในการทดสอบ E-ects รวมกันของ SNPs และค้นหาเครือข่ายย่อยที่มีความหมายอย่างมีนัยสำคัญสำหรับโรคที่ซับซ้อนโดยเฉพาะวิธีการนี้ถูกเสนอให้นำเสนอกระบวนทัศน์ใหม่สำหรับ GWAS (Jia etal., 2010; Peng etal., 2008) เพื่ออธิบายความอ่อนแอทางพันธุกรรมของโรคในมหาวิทยาลัยรายละเอียดเพิ่มเติมได้รับการพัฒนาในบทที่ 8

31 บทที่ 2

วิธีการเลือกบรรพบุรุษพร็อกซี: ส่วนประกอบบรรพบุรุษของประชากรที่มีหลายทาง

เมือง 2.1 บทนำ

2.1.1 พื้นหลังและแรงจูงใจ

ข้อมูล polymorphism นิวคลีโอไทด์เดี่ยวได้กลายเป็นความหมายที่แพร่หลายมากขึ้นในช่วงสามปีที่ผ่านมาความพร้อมใช้งานของจีโนมหลายโลคัสจีโนไทป์โปรเจ็กต์ได้กระตุ้นให้เกิดความสนใจมายาวนานในการวิเคราะห์รูปแบบของการเปลี่ยนแปลงทางพันธุกรรมเพื่อย้อนกลับองค์ประกอบบรรพบุรุษของประชากรมนุษย์ที่ได้รับการผสมผสานเมื่อเร็ว ๆ นี้ความหลากหลายของนิวคลีโอไทด์เดี่ยว (SNPs) สามารถเป็นตัวแทนของชั้นเรียนที่สอดคล้องกันของแต่ละ DNA และ SNPs ความถี่สูงสามารถแสดงให้เห็นถึงประวัติศาสตร์วิวัฒนาการและการอพยพของประชากรมนุษย์ที่ได้รับการผสมผสานเมื่อเร็ว ๆ นี้ (Rosenberg & Pritchard, 2008)นอกจากนี้ SNPs ความถี่สูงสามารถทำนายความหลากหลายของประชากรมนุษย์ได้อนุมานถึงตำแหน่งของบรรพบุรุษที่สามารถนำไปใช้เพื่อการวิเคราะห์ทางพันธุกรรมที่แม่นยำยิ่งขึ้นของโรคที่ซับซ้อนของมนุษย์มหาวิทยาลัยและเป็นประโยชน์สำหรับปัญหาพันธุกรรมของประชากรอื่น ๆ (Nianjun etal2549)เพื่อให้เข้าใจถึงความแปรปรวนทางพันธุกรรมซึ่งสามารถสังเกตได้ที่สถานที่ทำเครื่องหมายทางพันธุกรรมภายในและระหว่างประชากรการอนุมานของบรรพบุรุษของสถานที่ทั้งสอง (Baran et al., 2012; Pasaniuc etal., 2009; Patterson etal., 2006; ราคา etal etal., 2009b; Sankararaman et al., 2008) และโครงสร้างประชากร (Alexander etal., 2009; Falush etal., 2003; Hoggart etal., 2004; Patterson etal., 2006) จากจีโนไทป์ของ polymorphisms นิวเคลียสเดี่ยว.การอนุมานของบรรพบุรุษและบรรพบุรุษและบรรพบุรุษทั่วโลก (บรรพบุรุษทั่วโลก) และการใส่จีโนไทป์ที่ขาดหายไปในการศึกษาความสัมพันธ์ของจีโนมทั่วทั้งจีโนม (GWAS) ใช้แผงการอ้างอิงของประชากรบรรพบุรุษความสัมพันธ์

32 2.1 บทนำ

(Browning & Browning, 2009; Li etal., 2012; Marchini & Howie, 2008)ความพร้อมใช้งานของข้อมูลจีโนไทป์ความเร็วสูงจากประชากรต่าง ๆ อาจอำนวยความสะดวกในการเลือกบรรพบุรุษพร็อกซีที่ดีที่สุดของประชากรที่ได้รับการผสมเมื่อเร็ว ๆ นี้จากกลุ่มประชากรอ้างอิงตัวเลือกนี้มีความสำคัญในการศึกษาพันธุศาสตร์ประชากรและในการระบุยีนที่มีความเสี่ยงทางพันธุกรรมในความเสี่ยงทางพันธุกรรม (Hoggart etal., 2004; McKeigue, 2005; Seldin etal., 2011; Winkler et al., 2010)นอกจากนี้ความถูกต้องของการอนุมานเหล่านี้เป็นส่วนที่เกี่ยวข้องกับการเลือกของประชากรอ้างอิงพร็อกซีบรรพบุรุษที่ไม่ถูกต้องหรือไม่ถูกต้องสามารถทำให้การอนุมานเหล่านี้อ่อนแอลงส่งผลให้บรรพบุรุษที่อนุมานได้ผิดพลาดและข้อผิดพลาดและความไม่แน่นอนในจีโนไทป์ที่ถูกกำหนดปัญหาเหล่านี้อาจเป็นการอนุมานของบรรพบุรุษและพลังการตรวจจับของ GWAS และการวิเคราะห์อภิมานเมื่อใช้การใส่ร้ายโดยเฉพาะอย่างยิ่งในประชากรหลายทาง

2.1.2 ผลกระทบของการเลือกบรรพบุรุษพร็อกซีทั้งในการประเมินบรรพบุรุษและการใส่จีโนไทป์ที่หายไปในประชากร

เนื่องจากประชากรที่แตกต่างกันมีความแปรปรวนอย่างมากในความเสี่ยงของโรคทางพันธุกรรมการเลือกประชากรอ้างอิงสำหรับประชากรที่มีหลายทางอาจมีความไวต่อความรู้สึกและมีความสำคัญในการวิจัยทางชีวการแพทย์อัลกอริธึมปัจจุบันสำหรับการระบุประชากรบรรพบุรุษพร็อกซีที่ดีที่สุดนั้นไม่เพียงพอสำหรับประชากรที่มีหลายทางเพื่อจัดการกับความท้าทายเหล่านี้และความไม่แน่นอนในประชากรบรรพบุรุษเราได้พัฒนา Proxyanc ซึ่งเป็นวิธีการเลือกบรรพบุรุษพร็อกซีสำหรับประชากรที่ได้รับการผสมผสานเมื่อเร็ว ๆ นี้เราใช้อัลกอริทึม Novelcape สองตัวในพร็อกซีแองค์ขึ้นอยู่กับความแตกต่างทางพันธุกรรมทางพันธุกรรมและการเขียนโปรแกรมสี่เท่าที่ดีที่สุดตามลำดับเราแสดงให้เห็นถึงการจำลองประชากรหลายทางที่ซับซ้อนซึ่งอัลกอริธึมทั้งสองนี้สามารถตรวจสอบบรรพบุรุษของพร็อกซีที่ดีที่สุดสำหรับประชากรที่ได้รับการผสมผสานเนื่องจากกลุ่มของกลุ่มอ้างอิงที่เกี่ยวข้อง/ไม่เกี่ยวข้องหรือผสมการจำลองของเราแสดงให้เห็นว่าอัลโก้เสริมของเรามีข้อได้เปรียบในการเลือกบรรพบุรุษพร็อกซีที่ดีที่สุดอย่างแม่นยำสำหรับประชากรหลายทางที่ได้รับการผสมผสานอย่างแม่นยำมากกว่าสถิติ F 3 (Patterson etal., 2012)นอกจากนี้เรายังได้รับผลกระทบจากการเลือกประชากรบรรพบุรุษพร็อกซีที่ดีที่สุดในการประเมินสัดส่วนการผสมและความหลากหลายของจีโนไทป์ที่ขาดหายไปในประชากรหลายทาง

2.1.3 SAC ให้ประชากรในอุดมคติในการศึกษาทางเลือกของบรรพบุรุษพร็อกซีที่ดีที่สุด

ประชากรสีแอฟริกาใต้ (SAC) มีส่วนผสมของอินเตอร์คอนติเนนตัลระดับสูงและเป็นบรรพบุรุษที่หลากหลาย (Davis & Dollard, 1994; Mountain, 2003; Tishko ff etal., 2009)แหล่งประวัติศาสตร์ (มาตรา 1.1.1) และการศึกษาทางพันธุกรรมสองสามครั้งรายงานว่าประชากรกลุ่มนี้เป็นผลมาจากสหภาพแรงงานระหว่างชาวยุโรปแอฟริกา (กลุ่ม Bantu-Speaker และ Click-Speaker) และกลุ่ม

33 2.1 บทนำ

กลุ่มประชากรอื่น ๆ ของเชื้อสายอินเดียหรืออินโดนีเซีย (Botha, 1972; Dewit etal., 2010a; Ross, 1993; Tishko ff etal., 2009)การศึกษาที่ดำเนินการโดย (Tishko ff etal., 2009) เกี่ยวกับลักษณะของการเปลี่ยนแปลงทางพันธุกรรมและความสัมพันธ์ระหว่างประชากรทั่วทั้งทวีปแอฟริกาเปิดเผยว่าองค์ประกอบบรรพบุรุษใน SAC รวมถึงระดับสูงของแอฟริกาตอนใต้ในแอฟริกาซาน, ไนเจอร์-Kordofanian), อินเดีย, ยุโรปและระดับล่างของบรรพบุรุษเอเชียตะวันออก (Tishko ff etal., 2009)อย่างไรก็ตามการศึกษาของพวกเขาใช้ 39 ตัวอย่างจากกลุ่มย่อยของ SAC ซึ่งอาจรวมถึง Cape Malays (Dewit etal., 2010a)จาก 20 ตัวอย่างจากประชากร SAC การศึกษาโดย Patterson etal(2009) แสดงให้เห็นว่ามีการมีส่วนร่วมทางพันธุกรรมอย่างมากจากกลุ่มประชากรที่แตกต่างกันอย่างน้อยสี่กลุ่มใน SAC รวมถึงชาวยุโรปชาวเอเชียใต้อินโดนีเซียและประชากรทางพันธุกรรมใกล้เคียงกับ Isixhosa, sub-Saharan BantuQuintana-Murci และคณะ(2010) ตรวจสอบการมีส่วนร่วมของบรรพบุรุษใน SAC โดยใช้ DNA ไมโตคอนเดรีย (n = 563) และการวิเคราะห์การเปลี่ยนแปลง Y-chromosome (n = 228)การศึกษาล่าสุดซึ่งรวมถึง mtDNA, y-chromose และผลลัพธ์ autosomal ของตัวอย่างที่แตกต่างกันของ SAC รวมถึง pickrell etal(2012);Schlebusch และคณะ(2012), ได้อนุมานทั่วโลกอย่างน้อยก็มีประชากรบรรพบุรุษ (คลิก, ลำโพง, bantu-speakers, ยุโรป, อินเดีย, และเอเชียตะวันออกเฉียงใต้) (Quintana-Murci et al., 2010)การสอบสวนเชิงลึกในช่วงต้นโดย Dewit etal(2010a) เสร็จสิ้นซึ่งมีข้อได้เปรียบในการใช้กลุ่มที่มีขนาดใหญ่มากของ SAC (959 ตัวอย่าง) และ 75, 000 autosomal nucleotide polymorphisms (SNPs) ทั่วไปของ HAPMAP และแหล่งข้อมูลความหลากหลายของจีโนมของมนุษย์ (HGDP)การศึกษาใช้ประโยชน์ทั้งสองส่วนย่อยของ SNPs สุ่มที่เลือกและเครื่องหมายที่ให้ข้อมูลบรรพบุรุษ (AIMS) CAPE จาก 75, 000 SNPs autosomal เพื่อตอบคำถามเกี่ยวกับการมีส่วนร่วมของบรรพบุรุษใน SACการตรวจสอบครั้งแรกนี้ใช้ตัวอย่างเล็ก ๆ ของ SAN (5 ตัวอย่างที่ได้รับจาก HGDP) และไม่มีตัวอย่างประชากรบรรพบุรุษที่เหมาะสมจากประชากรแอฟริกาตอนใต้ในท้องถิ่นและแสดงให้เห็นถึงการสนับสนุนที่สำคัญสี่ครั้งต่อ SACตามด้วยชาวแอฟริกันที่ไม่ได้เขย่าลำโพงชาวยุโรปและการมีส่วนร่วมในเอเชียตะวันออกขนาดเล็ก (Dewit etal., 2010a)อย่างไรก็ตามขนาดตัวอย่างต่ำของ SAN อาจมีอคติต่อการประเมินของบรรพบุรุษโดยรวมแล้วการสืบสวนเมื่อเร็ว ๆ นี้เหล่านี้ได้บันทึกสัดส่วนการผสมค่าเฉลี่ยของจีโนมทั่วทั้ง SAC ในช่วง 23% ของมหาวิทยาลัยถึง 65% สำหรับแอฟริกา, 19% ถึง 40% สำหรับยุโรปและ 7% ถึง 10% สำหรับเอเชียตะวันออกการเปลี่ยนแปลงระดับภูมิภาคบางอย่างและมีการเปลี่ยนแปลงอย่างมากในหมู่บุคคลการเปลี่ยนแปลงเหล่านี้ที่ตำแหน่งทางพันธุกรรมมักจะแสดงโครงสร้างทางภูมิศาสตร์และอาจนำไปสู่ฟีโนไทป์ di ff erences ระหว่างประชากร (Campbell & Tishko ff, 2008)ในขณะที่ผู้เขียนที่แตกต่างกันได้มุ่งเน้นไปที่การผสมทั่วโลกนอกจากนี้การศึกษาเมื่อเร็ว ๆ นี้แสดงให้เห็นถึงการมีอยู่ของความหลากหลายทั้งในแอฟริกา Bantu-speaker และการคลิกที่พูดได้

34 2.2 วัสดุและวิธีการ

จากการอ้างอิงที่ดีที่สุดกลุ่มบรรพบุรุษแอฟริกันสำหรับ SACทางเลือกที่ละเอียดอ่อนของการอ้างอิงประชากรบรรพบุรุษเป็นวิธีการทำแผนที่ส่วนผสมการผสมผสานการใส่จีโนไทป์ที่ขาดหายไปและการประเมินทั้งบรรพบุรุษทั่วโลกและระดับท้องถิ่นในประชากรหลายทาง

2.1.4 ภาพรวมการศึกษา

ในบทนี้เราพัฒนา Proxyanc วิธีการเลือกบรรพบุรุษพร็อกซีที่ดีที่สุดสำหรับประชากรที่ได้รับการผสมหลายทางProxyanc ใช้ประโยชน์จากอัลกอริธึมสองใหม่รวมถึงความสัมพันธ์ระหว่างความไม่สมดุลของการเชื่อมโยงที่สังเกตได้ในประชากรที่ได้รับการผสมและการแตกต่างทางพันธุกรรมของประชากรในประชากรบรรพบุรุษและการเขียนโปรแกรมกำลังสองที่ดีที่สุด

ในการรวมกันเชิงเส้นของระยะทางพันธุกรรมของประชากร (FST)เราตรวจสอบอัลกอริทึมเหล่านี้ผ่านการจำลองประชากรหลายทางที่ได้รับการผสมและประเมินผลกระทบของการเลือกประชากรบรรพบุรุษพร็อกซีที่ดีที่สุดในการประเมินสัดส่วนส่วนผสมทั้งสองเราใช้วิธีการนี้สำหรับการวิเคราะห์ดาวน์สตรีมในประชากรสีผสมที่ไม่เหมือนใครจากแอฟริกาใต้เราโดดเด่นจากต้นกำเนิดของแอฟริกายุโรปตะวันออกและเอเชียใต้ของ Sactown โดยการใช้พร็อกซีไปกับกลุ่มของ SAC (764 บุคคลที่ไม่เกี่ยวข้อง) และการมีส่วนร่วมของส่วนประกอบทางพันธุกรรมเรายอมรับว่า SAC มีส่วนผสมที่สำคัญจาก Isixhosa, Khomani, ยุโรปกลาง, อินเดีย (Gujarati) และประชากรจีนโดยใช้ประชากรบรรพบุรุษที่ดีที่สุดของ SAC โดยประมาณเราแสดงให้เห็นว่ามีความถี่อัลลีลอัลลีลของบรรพบุรุษมีความสัมพันธ์กับการเชื่อมโยงที่เพิ่มขึ้นของความไม่สมดุล (LD) ใน SAC ซึ่งบ่งชี้ว่ามีการผสมผสาน LD ในประชากรกลุ่มนี้ต้นกำเนิดจากเหตุการณ์การผสมผลลัพธ์นี้สนับสนุนการปฏิเสธหลักฐานของผู้ก่อตั้ง e ff ects หรือคอขวดที่มีความสามารถเนื่องจากการแยกทางเชื้อชาติในอดีตอย่างเป็นทางการในช่วงการแบ่งแยกสีผิวเมื่อเร็ว ๆ นี้ในแอฟริกาใต้ (http://ww.sahistory.org.za/หน้า/เหตุการณ์/พิเศษ- Chrono/การกำกับดูแล/การแบ่งแยกสีผิว- Legislation.html)มหาวิทยาลัย 2.2 วัสดุและวิธีการ

2.2.1 ตัวอย่างข้อมูลจีโนไทป์และการควบคุมคุณภาพจีโนไทป์

ประชากรสีแอฟริกาใต้ (SAC) ภายใต้การศึกษาตั้งอยู่ในเขตเมืองเคปทาวน์ในจังหวัดเวสเทิร์นเคปในแอฟริกาใต้ (Hoal etal., 2004)ตั้งแต่เชื้อชาติสถานะทางเศรษฐกิจและสังคมและการติดเชื้อเอชไอวีอาจเป็นผู้รบกวนในการศึกษาความสัมพันธ์ของวัณโรค (สไตน์, 2011) พื้นที่นี้ได้รับการคัดเลือกเนื่องจากอุบัติการณ์สูงของวัณโรคเช่นเดียวกับเชื้อชาติสม่ำเสมอสถานะทางเศรษฐกิจและสังคมและความชุกต่ำของเอชไอวี (Hirschhorn & Daly, 2003)นี่เป็นเพราะเหตุผลดังต่อไปนี้:

35 2.2 วัสดุและวิธีการ

(1) สภาพชาติพันธุ์และสถานะทางเศรษฐกิจและสังคมเป็นสิ่งสำคัญในการศึกษาความสัมพันธ์ของโรคเนื่องจากจะลบตัวแปรที่ทำให้สับสนบางอย่าง

(2) ความชุกของเอชไอวีในระดับต่ำมีความสำคัญ เนื่องจากเมื่อมีการติดเชื้อเอชไอวี บุคคลจะมีโอกาสเพิ่มขึ้นอย่างมากที่จะเป็นโรควัณโรคเมื่อติดเชื้อ เพียงเพราะระบบภูมิคุ้มกันบกพร่อง และไม่จำเป็นต้องเป็นเพราะความอ่อนแอทางพันธุกรรม

การพิจารณาการวินิจฉัยวัณโรคและการสรรหาการควบคุมที่เหมาะสมสำหรับโรคติดเชื้อเช่นวัณโรคแสดงให้เห็นว่ามีความสำคัญในการตีความผลลัพธ์ของ GWAS (Stein, 2011)ดังนั้นผู้ป่วยวัณโรคจึงถูกระบุผ่านการตรวจทางแบคทีเรีย (smear pos- itive และ/หรือวัฒนธรรมบวก)การควบคุมได้รับการคัดเลือกจากชุมชนเดียวกันที่อาศัยอยู่ภายใต้เงื่อนไขเดียวกันรวมถึงสถานะทางเศรษฐกิจและสังคมและความพร้อมของสถานพยาบาลบุคคลที่มีสุขภาพดีเหล่านี้ไม่มีประวัติโรควัณโรคหรือการรักษามาก่อนได้รับการอนุมัติจากคณะกรรมการจริยธรรมของคณะวิทยาศาสตร์สุขภาพมหาวิทยาลัย Stellenbosch (หมายเลขโครงการ 95/072) ได้รับก่อนที่จะเก็บตัวอย่างเลือดด้วยความยินยอมที่ได้รับการบอกกล่าวคำศัพท์ร่วมสำหรับผู้คนที่มีเชื้อสายผสมในแอฟริกาตอนใต้มีสีและนี่คือการเข้าเมืองแอฟริกาใต้ที่ได้รับการยอมรับอย่างมากเป็นคำศัพท์การสำรวจสำมะโนประชากรและสำหรับการจัดประเภทตนเองในขณะที่เรารับทราบว่าบางวัฒนธรรมอาจใช้คำนี้ในลักษณะที่เสื่อมเสียความหมายแฝงเหล่านี้ไม่ได้อยู่ในแอฟริกาใต้และไม่ได้ตั้งใจไว้ที่นี่อย่างแน่นอนเคปตัวอย่างการศึกษาถูกจีโนไทป์บนชิป A ff ymetrix 500K และการโทร SNP ได้ทำตามที่อธิบายโดย Dewit etal(2010a)คุณภาพการควบคุมคุณภาพถูกนำไปใช้กับข้อมูล 500K a ff ymetrix จาก 797 รายและ 91 การควบคุมทั้งหมด 6, 450 SNPs ล้มเหลวความถี่อัลลีลเล็กน้อย (MAF <1%) และการทดสอบการหายไป (Geno> 0.05) เช่นเดียวกับการทดสอบ Hardyweinberg Equilibrium (HWE) ในการควบคุม (ระดับอัลฟา 0.0001)ค่าผิดปกติบุคคลที่เกี่ยวข้องและบุคคลที่มีอัตราจีโนไทป์น้อยกว่า 95% ถูกลบออกเราเก็บรักษา 390, 887 SNPs สำหรับ 888 คน (381558 autosomal SNPs; 797 รายและ 91 การควบคุม; 489 เพศชายซึ่ง 444 เป็นกรณีและ 45 การควบคุม) ที่จะใช้ในการศึกษาสมาคมในบทที่ 5 และ 6Plink (Purcell etal., 2007) ได้ดำเนินการและส่งผลให้มีการกำจัดบุคคลที่เกี่ยวข้อง 155 คนสร้างชุดข้อมูลที่เหมาะสมสำหรับวิธีการที่ถือว่าตัวอย่างอิสระมันมี 390, 887 SNPs สำหรับ 733 คน (381, 558 Autosomal SNPs, 642 รายและ 91 การควบคุม; 406 ตัวผู้ซึ่ง 361 เป็นกรณีและ 45 การควบคุม)เพื่อประเมินว่าการควบคุมมีความคล้ายคลึงกันทางพันธุกรรมกับกรณียกเว้นการมีวัณโรคหรือไม่เราทำการวิเคราะห์ PCA ในชุดข้อมูลที่ได้ (บทที่ 4)เพื่อตรวจสอบความสม่ำเสมอของตัวอย่างต่อไปเราได้ทำการทดสอบการเปลี่ยนรูปแบบเอกลักษณ์ต่อรัฐ (IBS) ซึ่งมีการอนุญาตให้ใช้ฉลากกรณีการควบคุมกรณีและจากนั้นคำนวณใหม่ระหว่างตัวชี้วัดกลุ่มตามค่าเฉลี่ย IBS

36 2.2 วัสดุและวิธีการ

เพื่อตรวจสอบทางเลือกของบรรพบุรุษพร็อกซีที่ดีที่สุดในประชากรที่ได้รับการผสมหลายทางบทนี้ใช้ตัวอย่างของ 733 คนที่ไม่เกี่ยวข้องกับคนในแอฟริกาใต้ตัวอย่างทั้งหมด 77 ตัวอย่างจาก Bantu แอฟริกาตอนใต้ (Isixhosa, Sotho-Tswana, Zulu และ Herero) และ 23 คนในเมืองนามิเบียจากนามิเบียนอกจากนี้ข้อมูล SNP ทั่วทั้งจีโนมจากแหล่งข้อมูลสาธารณะสามแหล่งรวมถึงแผงเซลล์ความหลากหลายของจีโนมของมนุษย์ (http://hagsc.org/hgdp/ fi les.html) (Cann etal., 2002), แผนที่ haplotype ระหว่างประเทศ (http: //hapmap.ncbi.nlm.nih.gov/) โครงการระยะที่ 3 (Frazer & et al, 2007) และประชากรแอฟริกาเพิ่มเติมจาก (Henn Etal., 2011) รวมอยู่ด้วยข้อมูลรายละเอียดเกี่ยวกับจำนวนบุคคลที่รวมอยู่ในการวิเคราะห์นี้มีอยู่ในตารางที่ 2.1การควบคุมคุณภาพในแต่ละประชากรอ้างอิงจะดำเนินการแยกต่างหากโดยใช้ PLINK (Purcell etal., 2007) ส่งผลให้การกำจัด SNPs ที่ล้มเหลวการทดสอบที่แน่นอนของ Hardy-Weinberg P <0.000001 และมีอัตราการโทร> 95% ในตัวอย่างทั้งหมดต่อประชากร.ค่าใช้จ่ายประชากรและความเกี่ยวข้องที่ไม่รู้จักได้รับการประเมินโดยใช้โปรแกรม SmartPCA ที่ใช้ใน Eigensoft (Patterson etal., 2006; Price et al., 2006)หลังจากใช้การควบคุมคุณภาพกับแต่ละประชากรแยกกันแล้ว SNPS จีโนไทป์ในบทนี้จะลดลงเป็นเซตย่อย (n = 49, 930) ที่ใช้ร่วมกันระหว่าง SAC แหล่งข้อมูลสาธารณะทั้งสามและ Bantu ใต้จาก Southtown Africa (ตาราง2.1)การจัดกลุ่มประชากรแต่ละคนต่อทวีปแอฟริกันยุโรปเอเชียใต้ชุดเอเชียตะวันออกและตะวันออกกลางถูกรวมเข้าด้วยกันในข้อมูลเดียวกับข้อมูลของ SACCape Table 2.1: รายการประชากรบรรพบุรุษสมมุติที่รวมอยู่ในการวิเคราะห์โครงสร้างทางพันธุกรรมของประชากรสีแอฟริกาใต้

POP.LABEL แหล่งที่มาป๊อปบุคคลที่ได้รับการผสมผสาน SAC SAC สีของแอฟริกาใต้ DEWIT ETAL(2010a) ประชากรสีแอฟริกาใต้ 764 แอฟริกา: ไม่ใช่ผู้เข้าร่วมการคลิก Moz Universityhgdp Mozabite-Algeria 9 Yor Hgdp Yoruba ใน Ibadan-Nigeria 21 Man Hgdp Mandenka-Senegal 24 Bpg Hgdp BiakaHGDP ทางเหนือของแอฟริกากลาง 17 Fang HGDP Equatorial -Bantu 15 Fulani HGDP WEST -CENTRAL AFRICA 2 BULALA HGDP Central Chad 12 ดำเนินการต่อในหน้าถัดไป

37 2.2 วัสดุและวิธีการ

ตารางที่ 2.1 - ต่อจากหน้าก่อนหน้า pop.label แหล่งที่มาป๊อปบุคคลบุคคล Mada hgdp Cameroon 12 Hausa HGDP แอฟริกาตะวันตกไนเจอร์ไนเจอร์และไนจีเรีย 12 Bamoun Hgdp Cameroon 18 Kongo HGDP ชายฝั่งแอตแลนติกของคองโก 9 Brong HGDP Ghana 8 LWK HAPMAP3 LUHYAHapmap3 Maasai ใน Kinyawe, Kenya 108 Yri Hapmap3 Yoruba ในอิบาดัน, ไนจีเรีย 147 Igbo (Henn etal., 2012) Nigeria ตะวันออกเฉียงใต้ 15 Man Hapmap3 Mandenka จากแอฟริกาแอฟริกา., 2013) Jul'huan, Namibia 22 kho (Henn etal., 2012) Khomani, แอฟริกาใต้ 8 ‡ Zul (Chimusa etal., 2013) Zulu-South-Africatown 18 STS (Chimusa etal., 2013) Sotho-Tswanaแอฟริกาใต้ 24 XHS (Chimusa etal., 2013) Xhosa-South-Africa 20 เธอ (Chimusa etal., 2013) Herero, แอฟริกาใต้-นามิเบีย 14 มี (Henn etal., 2011) Capehadza, แทนซาเนีย 17 บัส2011) ของ Bushmen, แอฟริกาใต้ 16 แอฟริกา: Afroasiatic TNS (Henn etal., 2011) Berber จากตูนิเซีย 18 European Bas HGDP Basque-France 24 SAR HGDP SARDINIAN-ITALY 27 ITA HGDP ITALIAN-ITALY-ITALY-BERGAMO 13 ORC UniversityFRE HGDP French-France 29 ADY HGDP ADYGEI-RUSSIA-CAUCASUS 15 RUS HGDP รัสเซีย-รัสเซีย 24 CEU HAPMAP3 ยุโรปตอนเหนือ 112 เอเชียตะวันออก MIA HGDP MIAO-China 10 JAP HGDP ญี่ปุ่น-ญี่ปุ่น

38 2.2 วัสดุและวิธีการ

ตารางที่ 2.1-ต่อจากหน้าก่อนหน้า pop.label แหล่งที่มาป๊อปบุคคลบุคคล Dai hgdp dai-china 10 yi hgdp yi-china 10 tuj hgdp tujia-china 10 เธอ hgdp she-china 10 lah hgdp lahu-china 7 oro hgdp oroqen-china 10UYG HGDP UYGUR-China 9 Hez HGDP Hezhen-China 9 Yak HGDP Yakut-Siberia 19 Dau Hgdp Daur-china 9 XIB HGDP XIBO-CHINA 9 TUU HGDP TU-CHINA 10 MON HGDP MONGOLA-ChinaHan-Chinese Intown Beijing 137 CHD HAPMAP3 จีนในเดนเวอร์, โคโลราโด 109 JPT HAPMAP3 ญี่ปุ่นในโตเกียว 113 เอเชียใต้ Han HGDP Capehan-Chinese 43 Bra Hgdp Brahui-Pakistan 23 Bal Hgdp ของ Balochi-Pakistan 23-Pakistan 25 PAT HGDP Pathan-Pakistan 23 Sin HGDP Sindhi-Pakistan 25 Bur HGDP Burusho-Pakistan 23 HAZ HGDP HAZARA-PAKISTAN 22 GIH UniversityHAP3 Gujarati อินเดียในเท็กซัส 93คาร์เมล 26 กาตาร์ (Henn Etal., 2012) กาตาร์ 22 PAL HGDP ปาเลสไตน์-อิสราเอล-กลาง 40 40

39 2.2 วัสดุและวิธีการ

2.2.2 Proxyanc: การเขียนโปรแกรมกรวยกำลังสองที่ดีที่สุด

คำถามที่เราต้องการที่อยู่คือการได้รับกลุ่มของทวีปคอนติเนนตัล (ยุโรปแอฟริกา ฯลฯ ) ประชากรซึ่งประชากรอาจเป็นบรรพบุรุษของยุโรปแอฟริกา ฯลฯ ที่ดีที่สุดของประชากรพร็อกซีของประชากรที่ได้รับการศึกษาในการ จำกัด e -ect ของความไม่สมดุลของการเชื่อมโยงพื้นหลังให้เราสมมติว่า SNPs ที่อยู่ติดกันในแต่ละประชากรมีระยะห่าง 10 kb จากกันและกันให้แสดงถึง Z ชุดของพูล (ชุด) ของประชากรบรรพบุรุษอ้างอิงที่แตกต่างกันสมมติว่าเรามี SNP J

ให้ NJ และ PJ เป็นจำนวนอัลลีลตัวแปรทั้งหมดและสังเกตประชากรอัลลีล-ความถี่ใน

ประชากร ampixed (Mix) และ NJK และ PJK เป็นจำนวนอัลลีลตัวแปรรวมและประชากรสังเกตความถี่อัลลีลในประชากรอ้างอิง k = 1, 2,--K ของบุคคลที่ไม่เกี่ยวข้องได้รับชุดค่าผสม di -erent c ของ l = z อ้างอิงประชากรของบุคคลที่ไม่เกี่ยวข้องจากแต่ละ |-Pool Si z, (i = 1,..,., z)การรวมกันของแต่ละ c ของประชากรอ้างอิง z สามารถรับได้∈ |-Z |-จากชุดผลิตภัณฑ์คาร์ทีเซียน t = ∏ |-S, C Z. ดังนั้นจากแต่ละ c z เราสร้างฉันฉัน⊆⊆ประชากรสังเคราะห์ซึ่งประกอบด้วยประชากร L ดังต่อไปนี้การรวมกันเชิงเส้น

l PJα = ∑ αl PJL, (2.1) K = 1 เมือง

โดยที่αLเป็นสัดส่วนของบรรพบุรุษการรวมกันของประชากร L (ประชากรสังเคราะห์ที่ได้รับการผสม) ประกอบด้วยบรรพบุรุษพร็อกซีที่ดีที่สุดของการผสมถ้าการรวมกันเชิงเส้นของพวกเขา (ในสมการ 2.1) ลด FST (Mix, PJα) (ใน EquationCape2.2)ปัญหานี้เกี่ยวข้องกับการเขียนโปรแกรมกรวยกำลังสองที่ดีที่สุดโดยที่ฟังก์ชันวัตถุประสงค์ (FST) ได้รับโดย, L (1 PJ) (1 PJ) 1 FJ (α) = (P P) 2 P - ∑ α2 P -, (2.2) St Jα - J - J N - L J N × P (1 P) .L "J L = 1 JL # J - J L ที่ SNP J. ภายใต้ ∑L = 1 αL = 1 และ

α 6 0, l 1,--, l.l ∀∈ {} สมการ 2.2 เป็นรูปแบบทั่วไปของรูปแบบของรูปแบบที่อธิบายไว้ใน (ราคา etal., 2009a) และเป็น A

ฟังก์ชั่นนูนกำลังสองเกี่ยวกับαL (สัดส่วนบรรพบุรุษ) ดังนั้นจึงสามารถพบขั้นต่ำระดับโลกได้เพื่อให้ได้การแสดงเมทริกซ์ของการเขียนโปรแกรมกรวยที่ดีที่สุดสมการ 2.2 1 (1 PJ) สามารถขยายได้ให้เราแทน c1 =, c2 = pj (1 pj) และ c3 = pj -ดังนั้นสมการ PJ (1 PJ) K - NJ 2.2 กลายเป็น, -

L 2 j 2 αl FST(α) = (pjα pj) C3 ∑ C2 C1. (2.3) " − − lin=1 Njl # × ตามนี้

40 2.2 วัสดุและวิธีการ

L 2 J 2 2 αl FST (α) = PJα2PJα PJ + PJ C3 ∑ C2 C1(2.4) - - - l = 1 njl × C  4 การแทนที่สมการ 2.1 ลงในสมการ 2.4 | เรา {z ได้รับ}

L L L 2 J 2 αl FST (α) = (∑ αL PJJ) 2 ααL PJL PJ + C4 ∑ C2 C1(2.5) "l = 1 - l = 1 - l = 1 njl # ×

L 2 L 2 ตอนนี้ขยายสมการ 2.5 โดยใช้ผลรวม squared fi nite, (∑l = 0 xl) = ∑l = 0 xl + ∑l = n xl xn, 6 s.t x เป็นตัวแปร

L L L 2 J 2 2 αl FST (α) = ∑ αl PJK + ∑ (αLαN) PJL PJN 2 ∑ αL PJL PJ + C4 ∑ C2 C1 "L = 1 L = N - L = 1 - L = 1 NJL # × 6 NJL # × 6Town L L 2 2 C2 = ∑ αl (PJL) + ∑ (αLαN) PJL PJN 2 ∑ αL PJL PJ + C4 C1สัดส่วนจะต้องรวมเป็น, ∑l = จากนั้น cape1 l = 1 αl 1 l ∑ αoflc4 = c4, l = 1 สมการ 2.6 กลายเป็น

l l l j 2 2 fst (α) = ∑ αl (pjl f racc2 njl) c1 + ∑ (αlαn) pjl pjnc1 2 ∑ αl pjl pjc1 + ∑ αlc4c1 "l = 1 - #" l = n #1 มหาวิทยาลัย 6 L L 2 2 C2 = ∑ αL (PJL) C1 + ∑ (αLαN) PJL PJNC1 + ∑ αL (C4 2PJL PJ) C1(2.7) "l = 1 - njl #" l = n # "l = 1 - # 6 ดังนั้นการแสดง matrice ของการเขียนโปรแกรมกรวยที่ดีที่สุดสามารถรับได้ดังนี้

l 1 t t minα = αpα + q αอยู่ภายใต้α 6 0 และ ∑ α = 1, (2.8) 2 - l l = 1

41 2.2 วัสดุและวิธีการ

โดยที่αเป็นเวกเตอร์ของ L-dimensions ของสัดส่วนบรรพบุรุษที่ไม่รู้จัก G คือเวกเตอร์ตัวตนของ L-dimensions, A คือเวกเตอร์ของความถี่อัลลีลของ L-dimensions, p เป็น matrice กึ่งบวกและองค์ประกอบในแนวทแยงCoe ffi cients ของα2:

P (1 P) 2 J - J PJL N (α2) = 2 - JL, (2.9) L P (1 P) L J - J และ Coe ส่วนผสมαlαnประกอบด้วยองค์ประกอบสมมาตรและให้โดย: PJL PJN (PJL PJN (α) = 2, สำหรับ k = n, (2.10) ln p (1 p) l 6 j - j และ coe ffi cients เชิงเส้นαlเป็นองค์ประกอบของเวกเตอร์ q ในสมการ 2.8 และแสดงโดย:

(1 P) 2 - J (PJ PJ N 2PJL PJ) (α) = - J -(2.11) L P (1 P) L J - J สำหรับการเพิ่มประสิทธิภาพของสมการ (3) หรือ (2) เกี่ยวกับαL (สัดส่วนบรรพบุรุษ, l = 1,..,., l), เมทริกซ์ในสมการ (3) สร้างสมการการรวมของทาวน์ (2), (4), (5) และ (6) อย่างอิสระใน SNP ทั้งหมด

2.2.3 Proxyanc: Proxy-Ancestrycape คะแนนเมื่อส่วนผสมเกิดขึ้นระหว่างสองหรือมากกว่าของประชากรที่แยกก่อนหน้านี้กับ di ff erences ในความถี่อัลลีล, ส่วนผสมสร้างความไม่สมดุลของการเชื่อมโยง (LD) ระหว่างตำแหน่งทางพันธุกรรมการบัญชีสำหรับสมมติฐานนี้เราสามารถคำนวณคะแนนบรรพบุรุษพร็อกซีจากข้อมูลของประชากรที่ได้รับการผสมและประชากรอ้างอิงคู่ที่ชาญฉลาดการคำนวณความสัมพันธ์ระหว่าง LD ในประชากร admixed และความถี่อัลลีลที่แตกต่างกันในแต่ละคู่ของประชากรบรรพบุรุษอัลกอริทึมคะแนนพร็อกซี-อัลกอริทึมมีดังนี้: (1) ให้ตัวอย่าง N จากข้อมูลของประชากร Admixed และข้อมูลของกลุ่ม K กลุ่ม Kของประชากรอ้างอิงที่ไม่มีข้อมูลจีโนไทป์ที่หายไปเราคำนวณความสัมพันธ์กำลังสองที่คาดหวังρ2ระหว่างจีโนไทป์ Diploid ที่แต่ละคู่ของ SNPS S และ S (i = J)ฉัน j 6

2 COV (SI, SJ) ρs, S =I J var (s) var (s) ฉัน× j ใช้การเปลี่ยนแปลงของฟิชเชอร์ในρ2

1 1 + ρ2 y = log, (2.12) 2 1 rho2 −

42 2.2 วัสดุและวิธีการ

ดังนั้นเราจึงคำนวณ LD สำหรับ SNP แต่ละคู่ที่อยู่ที่ระยะทาง (<0.2 Morgans), y l si, sj =, (2.13) √n 3 - (2) สำหรับแต่ละคู่ของประชากรอ้างอิงคู่เราคำนวณความถี่อัลลีลความแตกต่าง

D (SI) และ D (SJ) ตามลำดับ

(3) เราถดถอย l (s, s) d (s) d (s) และรับ p-value pn, n = 1,--, N. I J ∼ I × J (4) สำหรับ n = 1,--, n การรวมกันที่เป็นไปได้ของแต่ละประชากรอ้างอิง (k) กับการอ้างอิงอื่น ๆ- 1 ence ประชากรบรรพบุรุษเราคำนวณการแจกแจงแบบปกติผกผัน φ−

N 1 N P = φ− (1 P), (2.14) K-โดยใช้ค่า p ที่ได้รับในขั้นตอนก่อนหน้าด้วยวิธีนี้ค่า p ที่เล็กกว่าจะสอดคล้องกับ pk ที่ใหญ่กว่า(5) ดังนั้นสำหรับแต่ละประชากรอ้างอิง K = 1,--, K, เราคำนวณคะแนนบรรพบุรุษพร็อกซีดังนี้ PN pscore = ∑ k(2.15) K Cape√k (6) เพื่อตรวจสอบว่าคะแนนบรรพบุรุษของพร็อกซีในสมการ 2.15 สูงกว่าที่คาดไว้หรือไม่เพื่อแก้ไขปัญหานี้เราจะพิจารณาเวกเตอร์ของคะแนนบรรพบุรุษพร็อกซีทั้งหมด V = คะแนนคะแนนคะแนนคะแนนคะแนน (P1, ... , PK 1, PK+1, ... , PK) ไม่รวม PK และเราคำนวณการทำให้เป็นมาตรฐานของ - มันดังนี้

คะแนน PK หมายถึง (v) zk = -(2.16) มหาวิทยาลัย VAR (V) P อัลกอริทึมในส่วน 2.2.2 และ 2.2.3 ถูกนำไปใช้ในโปรแกรมพร็อกซีแอนประชากรบรรพบุรุษที่มีศักยภาพทางภูมิศาสตร์ทั้งสองรุ่นจัดการกับปัญหาต่อไปนี้: เนื่องจากกลุ่มของประชากรบรรพบุรุษที่มีศักยภาพทางภูมิศาสตร์ตัวอย่างเช่นได้รับกลุ่มประชากรยุโรป/ แอฟริกาซึ่งประชากรเป็นบรรพบุรุษที่ดีที่สุดในยุโรป/ แอฟริกา

43 2.2 วัสดุและวิธีการ

2.2.4 ข้อมูลการทดลองที่ได้รับการทดลองเพื่อประเมินพร็อกซี

ในการเริ่มต้นการจำลองของเราเราจะแบ่งกลุ่มประชากรบรรพบุรุษสมมุติแต่ละครั้งอย่างอิสระจากประชากรบรรพบุรุษสมมุติเหล่านี้โดยใช้ Beagle (Browning & Browning, 2009) เราเลือกต่อไปนี้เป็นประชากรของผู้ปกครองสำหรับประชากรจำลอง: ยุโรป (CEU), Isixhosa, Khomani, เอเชียตะวันออก (CHD) และรัฐคุชราตK Diploid Admixed บุคคลกรอบการจำลองของเราใช้ haplotypes บรรพบุรุษ 2K ซึ่ง k ควรเป็นขนาดตัวอย่างน้อยที่สุดในหมู่ประชากรของผู้ปกครองดังนั้นเราจึงขยายประชากรบรรพบุรุษสมมุติแต่ละคนตามรูปแบบของ Rogers และ Harpendings (1992) ของการเติบโตของประชากรทวีคูณเราใช้โมเดลนี้โดยใช้พารามิเตอร์สามตัวคือθ = 2 n µ, θ = 2 n µ และ 0 ∗ 0 ∗ 1 ∗ 1 ∗ τ = 2 µ t เป็นขนาดรวม 1500 บวกขนาดดั้งเดิมจำนวนประชากรเริ่มต้นของขนาด e ite ∗ ∗ n0 จะถือว่าเติบโตแบบทวีคูณเป็นขนาดใหม่ของ N1 ในแต่ละรุ่น t รุ่นย้อนกลับจากปัจจุบันอัตราการกลายพันธุ์ µ คือความน่าจะเป็นต่อรุ่นที่การกลายพันธุ์จะโจมตีนิวคลีโอไทด์แบบสุ่มตามจีโนมจากประชากรบรรพบุรุษที่ขยายตัวเราแยกตัวอย่างที่เกิดขึ้นในสองกลุ่มแยกกันตัวอย่าง 1,500 ตัวอย่างจากแต่ละประชากรอ้างอิงเหล่านี้ถูกนำมาใช้เพื่อจำลองบุคคลที่ได้รับการผสมและตัวอย่างที่เหลืออยู่ถูกทิ้งดังนั้นตัวอย่างประชากรดั้งเดิมจึงถูกนำมาใช้เพื่อทดสอบพร็อกซีเพื่อจำลองจีโนมของบุคคลที่ได้รับการผสมที่สามารถเลียนแบบการแต่งหน้าทางพันธุกรรมของ SAC เราได้ลองตัวอย่าง haplotypes จากยุโรป (CEU), Isixhosa, Khomani, เอเชียตะวันออก (CHD) และ‡ Gujarati Indian ที่มีความน่าจะเป็นจากแต่ละประชากรบรรพบุรุษสมมุติ (20%, 32%, 29%, 8%และ 11%ตามลำดับ)สัดส่วนบรรพบุรุษเหล่านี้ได้รับเลือกให้เลียนแบบโครงสร้างทางพันธุกรรมของถุงเมื่อพิจารณาจากรุ่นยีน fl ow ต่อเนื่อง (ราคา etal., 2009b) ใน 100 ชั่วอายุคนและบัญชีสำหรับโมเดล Wright-Fisher ด้วยการผสมพันธุ์แบบสุ่มตั้งแต่ต้นถึงจุดสิ้นสุดของแต่ละโครโมโซมบรรพบุรุษจะถูกสุ่มตัวอย่างอีกครั้งโดยใช้สัดส่วนบรรพบุรุษที่เกี่ยวข้องด้านบนในแต่ละ SNP เพื่อระบุเหตุการณ์ที่เกิดขึ้นตามกระบวนการนี้ส่วนโครโมโซมของประชากรบรรพบุรุษจะถูกคัดลอกไปยังจีโนมของบุคคลที่ได้รับการผสมและบันทึกบรรพบุรุษของสถานที่ (บรรพบุรุษที่แท้จริง) ซึ่งจะทำหน้าที่ประเมินความหลากหลายของบรรพบุรุษการใช้ขั้นตอนนี้เราจำลองจีโนมของ 750 คนของบรรพบุรุษผสมจากชาวยุโรป (CEU), Isixhosa, Khomani, เอเชียตะวันออก (CHD) ‡และรัฐคุชราตอินเดียในการประเมินพร็อกซีเราได้ใช้ทั้งสองวิธีที่ใช้ในพร็อกซี (FST- การเขียนโปรแกรมกรวยกำลังสองที่ดีที่สุดและคะแนนพร็อกซี- แวดวง) เพื่อเลือกพร็อกซีบรรพบุรุษที่ดีที่สุดสำหรับข้อมูลจำลองข้างต้นเนื่องจากจำนวนประชากรบรรพบุรุษที่แท้จริงเป็นที่รู้จักกันจึงสามารถเลือกประชากรที่เกี่ยวข้องอย่างใกล้ชิดหรือใกล้ชิดกับประชากรบรรพบุรุษที่แท้จริงหรือทำการวิเคราะห์โครงสร้างก่อนประชากรที่นี่เราใช้กลุ่มประชากรอ้างอิง 20 แห่งที่อยู่ใกล้กับบรรพบุรุษที่แท้จริงรวมถึง CEU, อิตาลี, ฝรั่งเศส, รัสเซีย, คุชราต, Pathan, Druze, Isixhosa, Zulu, Herero, Kongo, Yoruba, Khomani, Jul'huan, San, San, San, San, San, San, San,Bushmen, Dai, จีน (CHD) ‡

44 2.2 วัสดุและวิธีการ

ญี่ปุ่น (JPT) และ Daurโดยเฉพาะอย่างยิ่งสำหรับประชากรบรรพบุรุษสมมุติ (CEU, Isixhosa, Khomani, East CHD และ Gujarati) ที่ใช้ในกรอบการจำลองของเราเราใช้ตัวอย่างเริ่มต้นที่ไม่ได้ใช้ในการจำลองประชากรเพื่อประเมินผลกระทบของการเลือกประชากรบรรพบุรุษที่ดีที่สุดสำหรับประชากรที่ได้รับการผสมในการประเมินสัดส่วนส่วนผสมเราแยกซอฟต์แวร์ส่วนผสม (Alexander Etal., 2009) จากข้อมูลจำลองพร้อมกับตัวอย่างที่ขยายและเริ่มต้นจากประชากรบรรพบุรุษ (CEUIsixhosa, Khomani, CHD และ Gujarati Indian) ตามลำดับ (ตามที่อธิบายไว้ข้างต้น)เรา‡วิ่งอีกครั้ง admixture บนข้อมูลจำลองพร้อมกับแผงซึ่งรวมถึงประชากรอ้างอิงที่อยู่ใกล้กับประชากรบรรพบุรุษพร็อกซีที่เลือกรวมถึงรัสเซีย, ญี่ปุ่น, ปาเลสไตน์, โยรูบาและ Jul'huanสิ่งนี้ทำให้เราสามารถประเมินสัดส่วนส่วนผสมโดยประมาณเมื่อเทียบกับสัดส่วนที่แท้จริงในการตรวจสอบว่าแผง จำกัด เฉพาะของบรรพบุรุษพร็อกซีที่ดีที่สุดที่เลือกไว้ของประชากร ampixed นั้นมีประโยชน์ในการใส่จีโนไทป์ที่ขาดหายไปอย่างถูกต้องหรือไม่เนื่องจากเป็นกรณีของการใช้ประชากรอ้างอิงทั้งหมดที่มีอยู่เราประเมินผลกระทบของการเลือกประชากรบรรพบุรุษที่ดีที่สุดในการใส่จีโนไทป์ที่ขาดหายไปของประชากรที่ได้รับการผสมเราได้ลบ 2, 044 จาก 39, 064 SNPs บนโครโมโซม 1 จากข้อมูล SimulatedTown และเราใช้พวกเขาโดยใช้กลุ่มผู้อ้างอิงจำนวน 4 ชุดรวมถึงกลุ่มประชากร (CEU, CHDGih, isixhosa, khomani) ใช้โดยตรงในการจำลองแผงนี้ใช้ในการทดสอบพร็อกซี, แผง‡ของประชากรทั้งหมด 20 คนที่ระบุไว้ข้างต้นและแผงที่จัดตั้งขึ้นโดยประชากรรัสเซียญี่ปุ่นปาเลสไตน์โยรูบันและจูลสิ่งนี้อนุญาตให้เราประเมินอัตราการโทรทางพันธุกรรมหลังจากการใส่ข้อมูลโดยใช้แผงอ้างอิงที่แตกต่างกันเหล่านี้

2.2.5 การวิเคราะห์ส่วนผสมและส่วนประกอบหลัก

เพื่อระบุประชากรบรรพบุรุษที่มีส่วนร่วมผ่านส่วนผสมของ SAC และข้อมูลการจำลองเราใช้อัลกอริทึมที่ใช้ในส่วนผสม (Alexander et al., 2009) เพื่อกำหนดกลุ่มประชากรบรรพบุรุษในชุดข้อมูลทั่วโลกซึ่งรวมถึงแอฟริกัน, ยุโรป, มหาวิทยาลัยเอเชียใต้, เอเชียตะวันออกและประชากรตะวันออกกลางรวมกับข้อมูล SACนอกจากนี้เมื่อมีการเลือกประชากรบรรพบุรุษพร็อกซีสำหรับ SAC และข้อมูลการจำลองโดยใช้พร็อกซีแอนเราสร้างชุดข้อมูลที่ผสานของ SAC และประชากรบรรพบุรุษพร็อกซีของมันจากนั้นส่วนผสม (Alexander etal., 2009)สัดส่วนในประชากรกลุ่มนี้ (เหมือนกันสำหรับข้อมูลจำลอง)ค่าเฉลี่ยสัดส่วนส่วนผสมของแต่ละส่วนของ SAC เราได้รับสัดส่วนส่วนผสมของประชากรจีโนมทั่วทั้งจีโนม (การบริจาคบรรพบุรุษ)โปรแกรม Distruct (Rosenberg, 2004) ถูกนำไปใช้กับผลลัพธ์ Q-matrices จากส่วนผสมเพื่อพล็อตผลลัพธ์จากข้อมูลจริงและการจำลองของประชากร ampixedเพื่อทำการวิเคราะห์องค์ประกอบหลัก (PCA) เพื่อประเมินขอบเขตของ

45 2.3 ผลลัพธ์และการอภิปราย

โครงสร้างย่อยของประชากรสีแอฟริกาใต้โปรแกรม SmartPCA ในแพ็คเกจ Eigen- Soft ถูกนำไปใช้กับชุดข้อมูลที่ผสานของ SAC และประชากรทั่วโลก (แอฟริกา, ยุโรป, เอเชียใต้, เอเชียตะวันออกและประชากรตะวันออกกลาง)พร็อกซี ances- ประชากรตามลำดับ

2.3 ผลลัพธ์และการอภิปราย

2.3.1 การประเมินผลของอัลกอริทึมพร็อกซี

เราพัฒนาวิธีการ Proxyanc (http://www.cbio.uct.ac.za/proxyanc) ที่ค้นหา

การผสมผสานที่ดีที่สุดของประชากรอ้างอิงที่สามารถลดระยะห่างทางพันธุกรรม (โดยใช้ FST เป็นฟังก์ชั่นวัตถุประสงค์ของสัดส่วนของบรรพบุรุษเป็นตัวแปรผ่านอัลกอริทึมการเขียนโปรแกรมกรวยกำลังสองที่ดีที่สุด) ระหว่างประชากรที่ได้รับการผสมและประชากรสังเคราะห์ที่เป็นไปได้ทั้งหมด(ส่วน 2.2.2)ในหลอดเลือดดำเดียวกันพร็อกซีแอนยังคำนวณคะแนนพร็อกซี-อัมพาตโดยการถดถอยสถิติสำหรับ LD (ในระยะทางสั้น ๆ <0.25 มอร์แกน) ระหว่าง SNPs คู่หนึ่งในประชากร Admixedtown กับอัลลีลเฟรลเฟรลค์ในการประเมินพร็อกซีเราเลียนแบบสถานการณ์การผสม 5 ทางโดยการจำลอง (ดูหัวข้อ 2.2.1) จีโนมของ 750 คนของบรรพบุรุษผสมผ่านตัวอย่าง haplotype จากชาวยุโรป (CEU), Khomani, Isixhosa, ‡จีน (CHD) และ Gujarati และ Gujaratiอินเดียที่มีความน่าจะเป็นแคปที่เกี่ยวข้องกับสัดส่วนบรรพบุรุษที่กำหนดจากประชากรบรรพบุรุษแต่ละกลุ่ม 20%, 32%ของ, 29%, 8%และ 11%ตามลำดับ

มหาวิทยาลัย

46 2.3 ผลลัพธ์และการอภิปราย

เราดำเนินการทั้งสองวิธีที่ใช้ในพร็อกซีเพื่อเลือกพร็อกซีบรรพบุรุษที่ดีที่สุดสำหรับข้อมูลจำลองข้างต้นโดยใช้กลุ่มประชากรอ้างอิง 5 กลุ่มที่แตกต่างกันรวมถึงกลุ่มพูดที่ไม่ใช่คลิกแอฟริกา (Isixhosa, Zulu, Yoruba, Kongo, Herero) เอเชียใต้ (GujaratiPathan, Druze), เอเชียตะวันออก (CHD, Dai, Daur, ญี่ปุ่น), ยุโรป (CEU, รัสเซีย, อิตาลี, ฝรั่งเศส) และกลุ่มผู้ฟัง (Khomani, Jul'huan, Bushmen, San)จากแต่ละกลุ่มอัลกอริทึมของเรา‡ต้องเลือกประชากรบรรพบุรุษที่ดีที่สุดสำหรับข้อมูลจำลองของเราผลลัพธ์จากการจำลองแสดงให้เห็นถึงคะแนนพร็อกซี-ถ้ำสูงสุด (ตารางที่ 2.2) มาจากประชากรอ้างอิงที่มีส่วนร่วมในการผสมในข้อมูลจำลอง (รูปที่ 2.1)

เมือง

แหลม

รูปที่ 2.1: คะแนนพล็อตของความเป็นพล็อตพล็อตพร็อกซี-ของแต่ละประชากรในแต่ละกลุ่มของประชากรอ้างอิงยอดเขาสูงสุดทั้งหมดสามารถสังเกตได้จากประชากรบรรพบุรุษที่มีส่วนทำให้ส่วนผสมในข้อมูลจำลอง

นอกจากนี้ในการรวมกันเชิงเส้นของประชากรอ้างอิงเชิงเส้นที่เกิดขึ้นจากประชากรที่ใช้ในการจำลองของเรา (CEU, Khomani, Isixhosa, ‡จีนและคุชราต) ลดระยะห่างทางพันธุกรรม (FST)ตารางที่ 2.3)

47 2.3 ผลลัพธ์และการอภิปราย

ตารางที่ 2.2: คะแนนพร็อกซี-สระว่ายน้ำ 5 สระที่แตกต่างกันรวมถึงแอฟริกา (Isixhosa, Zulu, Yoruba, Kongo, Herero), เอเชียใต้ (Gujarati, Pathan, Druze) เอเชียตะวันออก (CHD, Dai, Daur, ญี่ปุ่น), ยุโรป (CEU, รัสเซีย, อิตาลี, ฝรั่งเศส) และกลุ่มลำโพงคลิก (Khomani, Jul'huan, Bushmen, SAN) โดยใช้ข้อมูลจำลองผลการวิจัยพบว่าคะแนนสูงสุดมาจาก CEU, Khomani, Isixhosa, จีน (CHD) และ Gujarati ในสระว่ายน้ำประชากร PSCORE ข้อผิดพลาดมาตรฐาน z

กลุ่มลำโพงที่ไม่ใช่คลิกแอฟริกัน Isixhosa 0.124 1.138 219.793-Zulu 0.015 0.001 28.648-Yoruba 0.010 0.001 27.101-Kongo 0.008 0.001 40.658 7 - Druze 0.008 0.001 22.115 - CapeEastof Asia Group CHD 0.001 0.003 118.144 - DAI 0.008 0.001 30.695 - Daur 0.007 0.001 42.628 - ญี่ปุ่น 0.008 0.001 26.847 16-กลุ่มผู้ฟังการคลิกแอฟริกัน Khomani0.010 0.007 174.846 ‡ Jul'huan 0.007 0.001 35.968 - Bushmen 0.007 0.001 34.664 - SAN 0.008 0.001 25.196 −

48 ตารางที่ 2.3: การรวมกันเชิงเส้น 16 อันดับแรกที่ลด FST ระหว่างข้อมูลจำลองและการรวมกันของ 5 ประชากรอ้างอิงการผสมผสานเชิงเส้นสุดยอดคือ CEU, Khomani, Isixhosa, จีน (CHD) และ Gujarati สอดคล้องกับ‡ตารางที่ 2.2 และด้วยรูปแบบการจำลองของเราการรวมกันเชิงเส้นของประชากร f ข้อผิดพลาดมาตรฐาน 95%CI

(อังกฤษ, คุชราต, CHD, CEU, Khomani) 0.00075 0.0005599 ( 0.001, 0.0005) − − (อังกฤษ, GIH, CHD, CEU, San) 0.00058 0.00,5 X00,0.059 H, CHD, อิตาลี, San) 0.00057 0.0005599 ( 0.001, 0.0005) − (อังกฤษ, GIH, CHD, อิตาลี, โคมานี) 0.00054 0.0005599 ( 0.001, 0.0005, 5. GI 0,X0 −อังกฤษ, อิตาลี 0.0005586Town ( 0.001, 0.0005 ) − − (อังกฤษ, , ภาษาญี่ปุ่น, อิตาลี, โคมานี) 0.00054 0.0005586 ( 0.001, 0.0005 ‡ − − (อังกฤษ, GIH, ญี่ปุ่น, CEU, ซาน) 0.00051 0.05 (isi GIH, ญี่ปุ่น, CEU, โคมานี) 0.00054 0.0005586 ( 0.001, 0.0005) 49 ‡ −เคป − (โยรูบา , GIH, CHD, อิตาลี, ซาน) 0.000371 0.0001110 ( 0,1,0,n −HH −GI ( Command) of 0.000361 0.0001110 ( 0.0005, 0.0001) ‡ − − (Yoruba, GIH, CHD, CEU, San) 0.000371 0.0001110 ( 0.0005, 0.0001) − 3 − 7 U 7, 0 D 0 Kho, 0 D 001110 ( 0.0005, 0.0001) − − (โยรูบา, GIH, ญี่ปุ่น, อิตาลี, ซาน) 0.000362 0.0001085 ( 0.0 005, 0.0001) - - - (Yoruba, Gih, ญี่ปุ่น, อิตาลี, Khomani) 0.000365 0.000,0.01 S2.085 (‡‡ - - - - (Yoruba, Gih, ญี่ปุ่น, Ceu, San) 0.000362 0.0001085 (0.0005, 0.0001) , ญี่ปุ่น, CEU, Khomani) 0.000362 0.000, 3 −0 2 080 ( 5 ผลลัพธ์และการสนทนา

ผลลัพธ์ของเราแสดงให้เห็นว่าบรรพบุรุษพร็อกซีที่เลือกนั้นสอดคล้องกับข้อตกลงและสอดคล้องกับประชากรบรรพบุรุษที่ใช้ในการสร้างบุคคลที่ได้รับการผสมผสาน 750 คน (ข้อมูลการจำลอง)คะแนนพร็อกซีที่สูงขึ้นมีโอกาสมากขึ้นที่ประชากรอ้างอิงที่เกี่ยวข้องเป็นบรรพบุรุษของพร็อกซีที่ดีเพื่อเปรียบเทียบอัลกอริทึมของเรากับสถิติ F 3 (Patterson et al. 2012) ซึ่งเป็นการทดสอบ 3 ประชากรสำหรับส่วนผสมที่ได้รับจากประชากรอ้างอิงสองตัวและประชากร admixed (เป้าหมาย) เราใช้สถิติ F 3 กับข้อมูลจำลองเดียวกันข้างต้นภายในแต่ละคู่ของประชากรจาก 5 กลุ่มจาก 20 ประชากรอ้างอิงที่อธิบายไว้ข้างต้นผลลัพธ์ในตารางที่ 2.4 แสดงให้เห็นว่าในหลายกรณีสถิติ F 3 ล้มเหลวในการให้หลักฐานที่ชัดเจน/ไม่ใช่หลักฐานของส่วนผสมในข้อมูลจำลองของเราซึ่งเลียนแบบประชากรที่มีหลายทางเมื่อพิจารณาจากกลุ่มประชากรอ้างอิงที่แตกต่างกันสำหรับประชากรที่มีหลายทางแล้วสถิติ F 3 อย่างชัดเจนอาจไม่เปิดใช้งานการเลือกที่แม่นยำของบรรพบุรุษพร็อกซีที่ดีที่สุดจากแต่ละสระแม้ว่าประชากรอ้างอิงภายในกลุ่มที่กำหนดอาจเกี่ยวข้องอย่างใกล้ชิด แต่การจำลองแสดงให้เห็นว่าทั้งสองวิธีที่พัฒนาขึ้นในพร็อกซีจะให้คะแนนสูงสุดจากพร็อกซีบรรพบุรุษที่ดีที่สุดเมือง

แหลม

มหาวิทยาลัย

50 2.3 ผลลัพธ์และการอภิปราย

2.3.1.1 ผลกระทบของการเลือกบรรพบุรุษพร็อกซีทั้งในการประเมินบรรพบุรุษและการใส่จีโนไทป์ที่หายไปในประชากรที่ได้รับการผสม

ในการประเมินผลกระทบของการเลือกประชากรบรรพบุรุษที่ดีที่สุดสำหรับประชากรที่ได้รับการประเมินในการประเมินสัดส่วนส่วนผสมเราเรียกใช้ซอฟต์แวร์ส่วนผสมบนข้อมูลจำลองพร้อมกับประชากรบรรพบุรุษ (CEU, Isixhosa, Khomani, CHD และ Gujarati Indian)แต่ละคนมี 1,500 คนที่ใช้ในการจำลองข้อมูลการวิเคราะห์ที่คล้ายกันนั้นถูก preformed โดยใช้ประชากรบรรพบุรุษที่ดีที่สุด (ตัวอย่างดั้งเดิม) แต่ละคนมีขนาดตัวอย่างเริ่มต้นก่อนการขยายตัวและรวมถึง CEU, Isixhosa, Khomani, CHD และ Gujarati Indian, ‡ส่วนที่ 2.2.4) ที่ได้รับจากพร็อกซีนอกจากนี้เรายังดำเนินการวิเคราะห์เดียวกันโดยใช้แผงของประชากรบรรพบุรุษพร็อกซีที่ไม่เหมาะสมที่เลือก

เมือง

แหลม

รูปที่ 2.2: พล็อตสำหรับบรรพบุรุษของแต่ละบุคคลพล็อตสองอันดับแรกขึ้นอยู่กับการขยายตัวของคอมพ์ (อันดับแรก) และต้นฉบับ (อันดับสอง) แผงอ้างอิงประชากร (ส่วนที่ 2.2.1) พร้อมกับข้อมูลจำลองตามลำดับพล็อตด้านล่างขึ้นอยู่กับแผงของประชากรบรรพบุรุษพร็อกซีที่ไม่เหมาะสมของข้อมูลการจำลองสัดส่วนที่ไม่เหมาะสมไม่เหมาะสมในพล็อตด้านล่างและไม่สอดคล้องกับสัดส่วนส่วนผสมที่แท้จริงในข้อมูลจำลองของเรา 2.9% จากทั้งรัสเซียและ Pales- 2.6% จากญี่ปุ่น 2.6% จากทั้งโยรูบาและจูล% และ 50% จากสองประชากรที่ไม่รู้จักผลลัพธ์นี้แสดงให้เห็นถึงการใช้บรรพบุรุษพร็อกซีที่ไม่เหมาะสมสำหรับประชากรที่ได้รับการผสมในการประเมินสัดส่วนส่วนผสมอาจส่งผลให้เกิดการประมาณบรรพบุรุษของแต่ละบุคคล

สัดส่วนบรรพบุรุษที่ได้รับจากทั้งสองแผง CEU: (20% 0.0999 และ 19% 0.1039), ±± CHD: (8% 0.0709 และ 8% 0.0691), รัฐคุชราต: (11% 0.0784 และ 11% 0.0839), Isikhosa: (32%±±±±± 0.1169 และ 34% 0.1545 และ KHOMANI: (29% 0.1201 และ 27% 0.1428) ตามลำดับคือ±‡±±

51 2.3 ผลลัพธ์และการอภิปราย

ในข้อตกลงกับสัดส่วนบรรพบุรุษที่ใช้ในการจำลองของเรา (รูปที่ 2.2)เราเรียกใช้ซอฟต์แวร์ Admixture อีกครั้งในข้อมูลจำลองภายในแผงซึ่งตอนนี้มีประชากรอ้างอิงหรือประชากรที่เป็นไปได้ซึ่งอยู่ใกล้กับประชากรบรรพบุรุษของพร็อกซีที่เลือกมากขึ้นหรือน้อยลงรวมถึงรัสเซียญี่ปุ่นปาเลสไตน์โยรูบาและ Jul'huan (รูปที่ 2.2).เมื่อเปรียบเทียบผลลัพธ์กับสัดส่วนของบรรพบุรุษที่แท้จริงที่ใช้ในการจำลองของเราเราได้รับอคติและสัดส่วนส่วนผสมที่ไม่สอดคล้องกัน 2.9% 0.2540 จากทั้งรัสเซียและปาเลสไตน์, ± 2.6% 0.0229 จากญี่ปุ่น, 2.6% 0.023 จากทั้งโยรูบา% 0.2074 ±±±และ 50% 0.2056 จากประชากรสองคนที่ไม่รู้จักจากการสังเกตกรณีบรรพบุรุษแอฟริกาที่มีความละเอียดอ่อน± (ISIXHOSA กับการมีส่วนร่วมของ Yoruba ในข้อมูลจำลอง) จะแสดงในรูปที่ 2.3ในสิ่งนี้เราได้เปรียบเทียบสัดส่วนการผสมที่แท้จริงของแต่ละบุคคลเมื่อเทียบกับที่ประเมินจากบรรพบุรุษพร็อกซีที่ดีที่สุด (ISIXHOSA) และบรรพบุรุษพร็อกซีที่ไม่เหมาะสม (Yoruba) ตามลำดับสัดส่วนส่วนผสมของแต่ละส่วนผสมจาก Isixhosa นั้นใกล้เคียงกับสัดส่วนบรรพบุรุษของแต่ละบุคคลที่แท้จริงมากกว่าที่มาจาก Yoruba (รูปที่ 2.3)ผลลัพธ์นี้แสดงให้เห็นถึงผลกระทบและความไวของการเลือกบรรพบุรุษพร็อกซีที่ดีที่สุดในสัดส่วนส่วนผสมของการผสมพันธุ์ซึ่งมักจะใช้ในการเชื่อมโยงส่วนผสมและการศึกษาความสัมพันธ์ของจีโนมกว้างเพื่อแก้ไขการแบ่งชั้นนอกจากนี้เมืองความไวและผลกระทบไม่เพียง แต่ จำกัด เฉพาะการประเมินบรรพบุรุษทั่วโลก แต่มีผลกระทบโดยตรงต่อบรรพบุรุษที่อนุมานได้ในแต่ละสถานที่ในประชากรหลายทางรวมถึงประชากรอ้างอิงที่มีอยู่ทั้งหมดในการใส่เงินได้รับการหารือเมื่อเร็ว ๆ นี้ว่ามีประโยชน์ในการอนุมานจีโนไทป์ที่ถูกต้องที่ถูกต้องอย่างไรก็ตาม CAPE มันจะมีราคาแพงสำหรับเอ็นจิ้นการใส่ข้อมูลเพื่อเลือก haplotypeof ที่ดีที่สุดในหมู่ประชากรอ้างอิงที่มีอยู่หลายแห่งในการแก้ไขปัญหานี้เราประเมินผลกระทบของการเลือกประชากรบรรพบุรุษที่ดีที่สุดในการอ้างอิงจีโนไทป์ที่หายไปของประชากรที่ได้รับการผสมเราได้ลบ 2, 044 SNPs จาก 39, 064 SNPs บนโครโมโซม 1 จากข้อมูลจำลองชุดข้อมูลอ้างอิงที่แตกต่างกันประชากรอ้างอิงทั้งสี่ชุดนี้รวมถึงแผงของประชากร (CEU, CHD, Gujarati, Isixhosa, Khomani) ที่ใช้โดยตรงในการจำลอง (มีตัวอย่างเท่ากัน‡ขนาด 1,500 ต่อคนดูวัสดุและวิธีการ) แผงของประชากร (CEUCHD, Gujarati, Isixhosa, Khomani) มหาวิทยาลัยใช้ทดสอบพร็อกซี (ดูวัสดุและวิธีการ) แผงของทั้งหมด‡ประชากรที่ระบุไว้ใน 5 สระว่ายน้ำด้านบนและแผงที่เกิดขึ้นโดยรัสเซียญี่ปุ่นปาเลสไตน์โยรูบาและจูลผลลัพธ์ในรูปที่ 2.4 หมายถึงอัตราการโทรที่สูงเมื่อมีการเพิ่มจีโนไทป์ที่ขาดหายไปของข้อมูลจำลองโดยใช้บรรพบุรุษที่แท้จริงการใส่ข้อมูลโดยใช้แผงแรกของประชากร (บรรพบุรุษที่แท้จริง) ใช้โดยตรงในการจำลองของเราที่สำคัญการจำลองของเราแสดงให้เห็นว่าแผงบรรพบุรุษพร็อกซีได้รับความแม่นยำคล้ายกันเช่นเดียวกับเมื่อรวมถึงประชากรที่มีอยู่ทั้งหมดในการ จำกัด จีโนไทป์ที่ขาดหายไปของประชากรที่ได้รับการผสม

52 2.3 ผลลัพธ์และการอภิปราย

เมือง

แหลม

รูปที่ 2.3: (a) พล็อตของบรรพบุรุษของบุคคลโดยประมาณจากบรรพบุรุษพร็อกซีที่ดีที่สุด (Isixhosa) และบรรพบุรุษของบุคคลที่แท้จริงจาก 750 ampixed บุคคลที่ได้รับจากการจำลองพล็อตของบรรพบุรุษพร็อกซีที่ไม่เหมาะสม (Yoruba) ประเมินบรรพบุรุษของบุคคลและบรรพบุรุษของบุคคลที่แท้จริงจาก 750 ampixed บุคคลที่ได้รับจากการจำลองความหลากหลาย (ดูวัสดุและวิธีการ)(b) พล็อตเรื่องที่แท้จริงกับบรรพบุรุษของบุคคลโดยประมาณจากบรรพบุรุษพร็อกซีที่ดีที่สุด (ISIXHOSA) และบรรพบุรุษของบุคคลโดยประมาณจากบรรพบุรุษที่ไม่เหมาะสม (Yoruba) ตามลำดับค่าใช้จ่ายในการคำนวณของเอ็นจิ้นการใส่ข้อมูลเพื่อค้นหา haplotype ที่ดีที่สุดในหมู่ประชากรที่มีอยู่ทั้งหมดในระหว่างกระบวนการใส่ร้ายการใส่ข้อมูลโดยใช้แผงที่สองและสามยังให้จีโนไทป์ที่มีความสมจริงเนื่องจากขนาดตัวอย่างขนาดเล็กที่ใช้ในแผงที่สอง (วัสดุและวิธีการ) การใส่ข้อมูลตามแผงนี้ (ประกอบด้วยประชากรบรรพบุรุษพร็อกซี (ดูตารางที่ 2.2) ด้วยต้นฉบับของพวกเขา

53 2.3 ผลลัพธ์และการอภิปราย

รูปที่ 2.4: พล็อตของอัตราการโทรจีโนไทป์ในการใส่ 2, 044 SNPs บนข้อมูลจำลองโดยใช้ประชากรอ้างอิง 4 ชุดพาเนลรวมถึงสีดำ (ตัวอย่างที่ขยาย (ใช้เพื่อจำลองข้อมูล) จาก CEU, CHD, GIH, Isixhosa, Khomani), สีเขียว: (ตัวอย่างเริ่มต้น‡จาก CEU, CHD, GIH, Isixhosa, Khomani), สีน้ำเงิน: ประชากรทั้งหมดใช้ในการประเมินProxyanc ‡ (ดูวัสดุและวิธีการ) และสีแดง: (รัสเซีย, ญี่ปุ่น, ปาเลสไตน์, โยรูบาและ Jul'huan)พล็อตนี้เน้นถึงความสำคัญของการใช้ประชากรบรรพบุรุษพร็อกซีที่ถูกต้องสำหรับการใส่จีโนไทป์ที่หายไปในประชากรหลายทางขนาดตัวอย่างเมือง) ไม่ถึงอัตราการโทรจีโนไทป์เดียวกันกับแผงแรกการใช้แผงควบคุมสุดท้ายซึ่งไม่รวมถึงบรรพบุรุษพร็อกซีเราได้รับการใส่ความแม่นยำที่ไม่ดีของจีโนไทป์ที่หายไปในข้อมูลการจำลองของเรา (รูปที่ 2.4CAPE)2.3.2 ลักษณะทางพันธุกรรมที่ละเอียดของส่วนประกอบบรรพบุรุษของประชากรสีแอฟริกาใต้

2.3.2.1 Proxyanc: การเลือกบรรพบุรุษพร็อกซีใน SAC

ในการเลือกประชากรบรรพบุรุษพร็อกซีโดยใช้ข้อมูลจริงของ SAC เราใช้พร็อกซีแอนซ์กับ 5 กลุ่มของประชากรอ้างอิงความหลากหลายที่เกี่ยวข้องกับทั้ง PCA (รูปที่ 2.5) และการวิเคราะห์ส่วนผสม (รูปที่ 2.9, 2.10, 2.11, 2.12 และ 2.13)เราสร้างชุดข้อมูลประชากรแอฟริกันยุโรปเอเชียใต้และชุดข้อมูลประชากรเอเชียตะวันออกโดยใช้ประชากรที่อธิบายไว้ในตารางที่ 2.1 แต่ละชุดรวมถึงตัวอย่าง SAC ที่ไม่เกี่ยวข้อง 764ข้อมูลที่วิเคราะห์มาจากสี่แหล่ง: แผงประชากรแอฟริกา (Henn etal., 2011), n ​​= 169 ตัวอย่างจาก 11 ประชากรแอฟริกาจีโนไทป์บนชิป V2 ที่กำหนดเองของ Illumina Beadchip 550K, แผงเซลล์ความหลากหลายของจีโนมมนุษย์ (Cann etal.2002), n = 732 ตัวอย่างจาก 54 ประชากรจีโนไทป์บนอาร์เรย์ Illumina 650k), แผนที่ International Haplotype (HAPMAP) ระยะที่ 3 ข้อมูล ((Frazer & et al, 2007), n = 856 ตัวอย่างจาก 10 ประชากรจีโนไทป์บน Illumina 1MArray) และตัวอย่างทางใต้ของ Bantu จากแอฟริกาใต้ (n = 77) และ San พื้นเมืองที่ไม่เกี่ยวข้อง

54 2.3 ผลลัพธ์และการอภิปราย

6.0)เราทำการวิเคราะห์การผสมผสานโดยใช้ซอฟต์แวร์ Admixture (Alexander Etal., 2009) และการวิเคราะห์ส่วนประกอบหลัก (n = 49, 930 Autosomal SNPs) ในแต่ละชุดข้อมูลที่อธิบายไว้ข้างต้นเราสามารถระบุประชากรอ้างอิงที่เกี่ยวข้องมากที่สุดเพื่อเป็นผู้สมัครสำหรับการวิเคราะห์บรรพบุรุษพร็อกซี (รูปที่ 2.5 และตัวเลข 2.9, 2.10, 2.11, 2.12 และ 2.13)

เมือง

CAPE รูปที่ 2.5: การวิเคราะห์องค์ประกอบหลักของ (PCA) ของ SAC และยอดนิยมทั่วโลกครั้งแรกและ eigenvectors ที่สองใน PCA ของ SAC รวมและประชากรทั่วโลกจะแสดง

มหาวิทยาลัย

55 2.3 ผลลัพธ์และการอภิปราย

เมือง

แหลม

รูปที่ 2.6: พล็อตของคะแนนพร็อกซี-เซสท์สำหรับแต่ละประชากรในแต่ละกลุ่มของประชากรอ้างอิงจุดสูงสุดที่สูงที่สุดบ่งบอกถึงบรรพบุรุษที่ดีที่สุดสำหรับประชากรสีแอฟริกาใต้

เราดำเนินการทั้งคะแนนบรรพบุรุษพร็อกซีและการเขียนโปรแกรมกรวยกำลังสองที่เหมาะสมที่สุดในกลุ่มประชากรอ้างอิงที่แตกต่างกัน 5 กลุ่มผลลัพธ์จากคะแนนบรรพบุรุษพร็อกซีทั้งสอง (ตารางที่ 2.5

และรูปที่ 2.6) และการเขียนโปรแกรมกรวยกำลังสองที่ดีที่สุด (ตารางที่ 2.6) ได้เห็นพ้องกันและเปิดเผยว่าการรวมกันของ CEU, Isixhosa, Gujarati, CHD และ Khomani ได้สร้างบรรพบุรุษที่ดีที่สุดสำหรับ SAC (ตารางที่ 2.5 และตารางที่ 2.6).ผลลัพธ์ในรูปที่ 2.6 และตารางที่ 2.5 แนะนำว่าประชากร Bantu ภาคใต้ (Isixhosa) และผู้พูดคลิกของแอฟริกาใต้ (Khomani) เป็น Bantu-Speaker ที่ดีที่สุดYoruba และนามิเบียซาน (Jul'huan) ของการศึกษาก่อนหน้านี้ (Dewit etal., 2010a; Quintana-Murci et al., 2010; Tishko ff etal., 2009)

56 2.3 ผลลัพธ์และการอภิปราย

ตารางที่ 2.4: สถิติ F 3: สัญญาณของส่วนผสมในข้อมูลการจำลอง (การจำลองที่ได้จากส่วนผสม 5 ทางของ Khomani, Isixhosa, จีน (CHD) รัฐคุชราตอินเดีย‡และ CEU) โดยใช้ประชากรบรรพบุรุษคู่สถิติ F 3 ล้มเหลวในการให้หลักฐานที่ชัดเจน/ไม่ใช่หลักฐานของส่วนผสมของประชากรตามข้อมูลจำลองของประชากร 5 ทางป๊อป 1 ป๊อป 2 เป้าหมาย F3 ข้อผิดพลาดมาตรฐาน z

CEU SAN ข้อมูลการจำลอง 0.00827 0.00149 5.57 - - CEU CHD ข้อมูลจำลอง 0.01321 0.00085 15.58 CEU Gujarati ข้อมูลจำลอง 0.02476 0.00079 31.33 CEU Herero Simulated Data 0.00586 0.00140 4.18 ฉันจำลองข้อมูล 0.0163 0.00051 32.13 ‡ -- ข้อมูลการจำลอง Pathan CEU 0.00602 0.00156 3.86 - - CEU Russian Simulated Data 0.00451 0.00137 3.29 - - CHD SAN Simulated Data 0.00289TOWN 0.00208 1.39 - CHD Gujarati Data 0.02148 0. - ข้อมูลจำลองการจำลองของอิตาลี CHD 0.001780.00166 1.07 Cape− - CHD ข้อมูลจำลองของญี่ปุ่น 0.00352 0.00157 2.24 ของ - - CHD Khomani Simulated Data 0.01133 0.00058 19.53 ‡ - Data Simulated 0.0013 0.003 0.003 01537 0.00049 31.34- ข้อมูลจำลองการจำลองของ Gujarati Khomani 0.01452 0.00051 28.27 ‡‡ - Khomani Druze Simulated Data 0.00139 0.00106 1.32 ‡มหาวิทยาลัย Khomani (Khomani Simulated 0.00151 0.00151 0.00098 1.54 ข้อมูลจำลอง OSA 0.00247 0.00036 6.79‡ Khomani Italian Simulated Data 0.00128 0.00103 1.24 ‡ - - Khomani Simulated Data 0.00042 0.00104 0.40 ‡‡ - Khomani Kongo Simulated ข้อมูล 0.00076 0.00096 0.79 ‡ − 1.1 ‡ --

57 2.3 ผลลัพธ์และการอภิปราย

ตารางที่ 2.5: คะแนนพร็อกซี-สระว่ายน้ำ 5 สระที่แตกต่างกันรวมถึงกลุ่มการพูดที่ไม่ใช่คลิกแอฟริกันเอเชียตะวันออกยุโรปกลุ่มผู้เขย่าและประชากรเอเชียใต้โดยใช้ข้อมูล SACผลการวิจัยพบว่าคะแนนสูงสุดมาจาก CEU, Khomani, ‡ isixhosa, จีนและรัฐคุชราตในสระที่เกี่ยวข้องประชากร PSCORE ข้อผิดพลาดมาตรฐาน z

กลุ่มเอเชียใต้ Kalash 0.003 0.001 1483.76-Gujarati 0.003 0.001 2224.43 Pathan 0.002 0.001 1511.30-กลุ่มที่ไม่ใช่แอฟริกาที่ไม่ได้เข้ามา HOSA 0.003 0.001 2320.63TOWN BAMOUN 0.002 0.001 1769.27-Brong 0.001 0.001 2013.24 Herero 0.002 0.001 2180.48 กลุ่มการคลิกแอฟริกัน SAN 0.002Cape 0.001 2150.70 Hadza 0.003 0.001 1783.85-Sandawe 0.001of 0.001 2064.319 Bushmen 0.003 0.001 001 2612.07 ‡กลุ่มเอเชียตะวันออกเธอ 0.0070.001 1181.64 - DAI 0.003 0.001 1579.25 - Daur 0.004 0.001 1329.53 - CHB 0.003 0.001 1523.72 - CHD 0.003 0.001 1544.38 มหาวิทยาลัย - ญี่ปุ่น 0.003 0.001 1443.25 0.000 0.001 1891.314 รัสเซีย 0.002 0.001 1535.53 -ฝรั่งเศส 0.001 0.001 1723.62 -

58 ตารางที่ 2.6: การรวมกันเชิงเส้น 12 อันดับแรกที่ลด FST ระหว่างข้อมูล SAC และการรวมกันของกลุ่มประชากรอ้างอิง 5 กลุ่มการรวมกันเชิงเส้นสุดยอดคือ CEU, Khomani, Isixhosa, จีน (CHD) และ Gujarati สอดคล้องกับ‡ตารางที่ 2.5 และด้วยรูปแบบการจำลองของเราการรวมกันเชิงเส้นป๊อป f ข้อผิดพลาดมาตรฐาน 95%CI

(คุชราต, โซโท, โคมานี, CHB, CEU) 0.0042 0.0010 ( 0.006, 0.0025) ‡ − − (คุชราต, โซโธ, โคมานี, CHB, รัสเซีย) 0.0042 0.00102 ( 0.00102 ( 0.006 (     )      .           .00102, − โซโท, − โซโท) , 0.0025) ‡ − − (คุชราต, โซโท, โคมานี, CHB, รัสเซีย , CHD, CEU) 0.0042 0.00101 ( 0.006, 0.0023) ‡ − − (คุชราต, โซโธ, โคมานี, CHD, รัสเซีย) 0.0042 0.00101 ( 0.0023 ) ‡ − เมือง − − (คุชราต, อิซิโซซา, โคมานี, CHB, CEU) 0.00374 0.00060 ( 0.005, 0.003) ‡ − − (คุชราต, โคซา, โคมานี, CHB, รัสเซีย) 0.00370 ( 0.005, 0.003) Dsa, 3, 3 −0 คือ −0, กูจาร์ 0.00060 ( 0.005, 0.003 ) ‡ − −

59 (คุชราต, อิซิโซซา, โคมานี, CHD, รัสเซีย) แหลม0.00374 0.00060 ( 0.005, 0.003) ‡ − − (คุชราต, บรอง, โคมานี, CHB, CEU) 0.02483 0.00.603 − คุชราต () , บรอง, โคมานี, CHB , รัสเซีย) 0.02483 0.00605 ( 0.037, 0.013) ‡ − − (คุชราต, บรอง, โคมานี, CHD, CEU) 0.02483 0.00605 ( 0.0313, ‎‎ ‎‎‎‎‎‎‎‎                      , รัสเซีย) 0.02483 0.00605 ( 0.037, 0.013) ‡ − − . การอภิปรายและผลลัพธ์ 2.3

มหาวิทยาลัย 2.3 ผลลัพธ์และการอภิปราย

2.3.2.2 สัดส่วนการผสมใน SAC

การใช้ผลลัพธ์จากพร็อกซีในข้อมูล SAC (ส่วนที่ 2.3.2.1) เรารวมประชากรบรรพบุรุษพร็อกซีชั้นนำ (CEU, CHD, Gujarati, Isixhosa, Khomani) (ตารางที่ 2.5 และตารางที่ 2.6), ‡รวมถึง SACชุด.เราทำซ้ำทั้ง PCA และการวิเคราะห์การจัดกลุ่มประชากรบรรพบุรุษจากการวิเคราะห์เหล่านี้การมีส่วนร่วมของบรรพบุรุษที่สำคัญของเรา (ตารางที่ 2.7 และรูปที่ 2.7) ถึงประชากร SAC มีสัดส่วนบรรพบุรุษแอฟริกันที่สมดุลจาก Isixhosi (33%) และ Khomani (31%) ตามด้วยยุโรป (CEU) (16%), รัฐคุชราตอินเดีย (12%) ‡และสัดส่วนที่เล็กกว่าจากจีน (8%)เป็นที่ชัดเจนจากพล็อต PCA ในรูปที่ 2.7 ว่า SAC อยู่บนเส้นตรงกับกลุ่มบรรพบุรุษพร็อกซีเหล่านี้นอกจากนี้ทั้งกลุ่ม Isixhosa และ Khomani มีความสัมพันธ์กับ SAC ซึ่งบ่งบอกถึงการปิดบรรพบุรุษของพวกเขากับประชากรกลุ่มนี้, 2003)กลุ่มสมมุติอื่น ๆ ของประชากรบรรพบุรุษพร็อกซี;CEU, Gujarati Indian และจีนถูกแยกออกจากกันและถุงอยู่ในตัวเรือนูนของทั้งสามสิ่งเหล่านี้เห็นด้วยกับผลลัพธ์ที่ได้จากการวิเคราะห์ส่วนผสมของ thetown ด้วย k = 5 ในรูปที่ 2.7อย่างที่เราคาดไว้ PCA ในรูปที่ 2.7 เผยให้เห็นความแตกต่างทางพันธุกรรมที่ยิ่งใหญ่ที่สุดระหว่างบรรพบุรุษพร็อกซีของถุงเหล่านี้ซึ่งชัดเจนว่าส่วนผสมของถุงจากบรรพบุรุษพร็อกซีเหล่านี้นอกจากนี้เราเปรียบเทียบสัดส่วนการผสมที่ประมาณของเรากับการประมาณการก่อนหน้านี้ใน (Patterson etal., 2009) Cape และเราทำซ้ำการวิเคราะห์ส่วนผสมโดยใช้ประชากรบรรพบุรุษที่ใช้ใน Dewit etal(2010a) ซึ่งรวมถึง Yoruba, Ceu, San (Jul’huan), Gujarati และ Chinese (CHB)ของตารางที่ 2.7 แสดงสัดส่วนการผสมที่ได้รับโดยใช้ประชากรบรรพบุรุษพร็อกซีที่ดีที่สุดและจากการศึกษาก่อนหน้านี้ (Dewit etal., 2010a)รูปที่ 2.8 บ่งบอกถึงความแตกต่างของบรรพบุรุษแอฟริกันขนาดใหญ่ระหว่างการวิเคราะห์ทั้งสอง (โดยใช้แผงบรรพบุรุษพร็อกซีและแผงจาก Dewit etal (2010a) แนะนำการเลือกบรรพบุรุษแอฟริกันสำหรับ SACการอนุมานและการศึกษาการทำแผนที่ส่วนผสมในมหาวิทยาลัยนี้อาจเกิดจากความหลากหลายและความสัมพันธ์ที่ใกล้ชิดของประชากรแอฟริกันส่วนใหญ่สามารถส่งผลให้บรรพบุรุษที่อนุมานไม่ถูกต้องซึ่งใช้ในการศึกษาการทำแผนที่ส่วนผสมหรือการผสมการอนุมานบรรพบุรุษของเราด้วยการมีส่วนร่วมของแอฟริกาที่สมดุลจากประชากร Isixhosa และ Khomani ตามมาด้วย‡โดยยุโรปตะวันตกเฉียงเหนือ, รัฐคุชราตอินเดียและการมีส่วนร่วมของจีนขนาดเล็กอยู่ใกล้กับระดับที่แท้จริงของการมีส่วนร่วมบรรพบุรุษและเห็นด้วยกับประวัติศาสตร์ของ SAC.เราเชื่อว่าผลลัพธ์ของเรา

60 2.3 ผลลัพธ์และการอภิปราย

เมือง

แหลม

รูปที่ 2.7: สัดส่วนบรรพบุรุษของแต่ละบุคคลและการวิเคราะห์ส่วนประกอบหลัก (PCA) จาก 49, 930 SNPs autosomal ในข้อมูล SAC: (a) การวิเคราะห์การจัดกลุ่มประชากรของ SAC โดยใช้ทั้งบรรพบุรุษที่ดีที่สุดในปัจจุบันและแผงอ้างอิง Theuniversity ที่ใช้ใน Dewit และคณะ(2010a)(b) การวิเคราะห์องค์ประกอบหลัก (PCA) บนข้อมูลที่ผสานของ SAC กับประชากรบรรพบุรุษพร็อกซีที่ดีที่สุดที่เราเลือกนอกจากนี้ยังมีข้อได้เปรียบในการจัดการขนาดตัวอย่างที่แตกต่างกันและใช้ประชากรบรรพบุรุษพร็อกซีที่แม่นยำและเชื่อว่าทั้งจำนวนของ SNPs (n = 49, 930) และขนาดตัวอย่างประชากรเป้าหมายที่ใช้สามารถให้ความละเอียดที่เพียงพอเพื่อสนับสนุนการสนับสนุนบรรพบุรุษของเรา

61 2.3 ผลลัพธ์และการอภิปราย

ตารางที่ 2.7: ค่าเฉลี่ยค่าเฉลี่ยและข้อผิดพลาดมาตรฐานเกี่ยวกับสัดส่วนของประชากรบรรพบุรุษที่มีส่วนทำให้เกิดการแต่งหน้าทางพันธุกรรมของสีแอฟริกาใต้ตารางนี้แสดงค่าเฉลี่ยและข้อผิดพลาดมาตรฐานของสัดส่วนบรรพบุรุษกับบรรพบุรุษพร็อกซีที่ดีที่สุดที่ได้รับจากพร็อกซีแอนซ์โดยมีแผงประชากรอ้างอิงที่ใช้ใน Dewit และคณะ(2010a) และสัดส่วนบรรพบุรุษของ SAC ที่รายงานใน (Patterson et al., 2009)ใช้ประชากรบรรพบุรุษที่ดีที่สุด

ISIXHOSA KHOMANI CEU CHD Gujarati ‡ 33% 0.226 31% 0.195 16% 0.118 7% 0.0488 13% 0.094 ±±±±±โดยใช้แผงเดียวกัน(2010a) Yoruba San (Jul'huan) CEU CHB Gujarati 24% 0.161 37% 0.148 18% 0.118 7% 0.0478 14% 0.093 ±±±±±±±รายงานสัดส่วนบรรพบุรุษใน Patterson et al2009 ISIXHOSA X European Indonesian South Asian 37% 0.003 23% 0.008 18% 0.004 22% 0.009 ± - ±± Town ±

แหลม

มหาวิทยาลัย

รูปที่ 2.8: ความแตกต่างในสัดส่วนบรรพบุรุษของแต่ละบุคคลระหว่างแผงของประชากรบรรพบุรุษพร็อกซีที่ดีที่สุดของ SAC และแผงอ้างอิงประชากรที่ใช้ใน Dewit และคณะ(2010a) พล็อตนี้บ่งบอกถึงความแตกต่างของบรรพบุรุษแอฟริกันขนาดใหญ่ระหว่างการวิเคราะห์ทั้งสองซึ่งบ่งบอกถึงทางเลือกของบรรพบุรุษแอฟริกันของ SAC นั้นมีความสำคัญและละเอียดอ่อนเนื่องจากความหลากหลายและความเกี่ยวข้องอย่างใกล้ชิดของประชากรแอฟริกันส่วนใหญ่

62 2.4 บทสรุปและข้อสังเกต

2.4 บทสรุปและข้อสังเกต

เราแนะนำ Proxyanc วิธีการเลือกบรรพบุรุษพร็อกซีที่ดีที่สุดสำหรับประชากรที่ได้รับการผสมหลายทางเราประเมินความถูกต้องของมันผ่านการจำลองของประชากรผสมหลายทางและแสดงให้เห็นถึงผลกระทบและความไวของการเลือกแผงอ้างอิงในการประเมินบรรพบุรุษทั่วโลกและท้องถิ่นและในการ จำกัด จีโนไทป์ที่หายไปเพื่อความรู้ที่ดีที่สุดของเราการใช้พร็อกซีนี่เป็นวิธีแรกในการเลือกแผงอ้างอิงบรรพบุรุษที่ดีที่สุดที่ได้รับจากแผงบรรพบุรุษอ้างอิงวิธีการของเราในการเลือกประชากรบรรพบุรุษพร็อกซีในกลุ่มผู้โฆษณาหลายทางทำให้เราสามารถอธิบายลักษณะส่วนประกอบของบรรพบุรุษทางพันธุกรรมของประชากรสีผสมที่ไม่เหมือนใครของแอฟริกาใต้ซึ่งคิดเป็น 54% ของประชากรของจังหวัดเวสเทิร์นเคปการศึกษาก่อนหน้านี้ของประชากรที่ซับซ้อนในอดีตนี้ถูกขัดขวางโดยตัวอย่างที่ค่อนข้างน้อยและมีประชากรบรรพบุรุษสมมุติไม่กี่คนที่เปิดเผยต่อสาธารณชนโดยเฉพาะจำนวนบุคคลที่ต่ำมากของ SANในการศึกษาครั้งนี้เราได้ใช้จำนวนประชากรอ้างอิงที่เพิ่มขึ้นจากแหล่งข้อมูลท้องถิ่นและบรรพบุรุษที่ดีที่สุดของ SAC ที่ได้รับจากพร็อกซีแอนวัสดุทางพันธุกรรมของจีนไปยัง SAC (มีสัดส่วน 33%, 31%, 16%, 12%และ 7%ตามลำดับ)เราคาดว่าจะมีผู้พูด Bantu ใต้เช่น Isixhosa แทน Yoruba เพื่อเป็นบรรพบุรุษที่ดีกว่าของ SACIsixhosa ในฐานะบรรพบุรุษของพร็อกซีที่ดีกว่าของการผสมผสานระหว่างการผสมผสานระหว่างกลุ่มหญิงชนพื้นเมืองจากกลุ่มผู้พูดคุยกันทั้งสองกลุ่มและกลุ่ม Bantu-speaker ทางใต้กับผู้ตั้งถิ่นฐานชายเอเชีย (Boonzaaier et al., 1996; Keegan, 1996)จำนวนมากของ Khomani (sub-kalahari click-speaker) บุคคลที่มีอยู่‡สำหรับการศึกษานี้เพิ่มความมั่นใจของเราอย่างมากในความแม่นยำของการประมาณบรรพบุรุษที่นำเสนอที่นี่ผลลัพธ์ของเรายังเน้นถึงจุดที่กลุ่มผู้เขย่าเสียงคลิกมักจะแตกต่างกันมากและจัดกลุ่มบุคคล SAN จากพื้นที่ที่แตกต่างกันเป็น SAN ทั่วไปอาจส่งผลให้สูญเสียการเลือกปฏิบัติในระดับพันธุกรรม (Pickrell etal., 2012; Schlebusch etอัล., 2012)สิ่งนี้ยังแสดงให้เห็นถึงความแตกต่างทางพันธุกรรมระหว่างจีโนมของ San (Bushmen) (Schuster etal., 2010 ความหลากหลาย)ในกรณีของ SAC ใน Cape ตะวันตกอาจคาดว่าจะมีกลุ่มผู้เขย่าจาก Kalahari ใต้รวมถึง Khomani, Bushmen และ San, ‡ซึ่งอยู่ใกล้กับแหล่งกำเนิดของ SACเป็นตัวแทนที่ดีกว่าของกลุ่มนี้มากกว่า Jul'huan จากนามิเบียและนี่คือสิ่งที่เราได้แสดงสิ่งนี้ยังให้ความเชื่อถือกับข้อเสนอแนะก่อนหน้านี้ว่ามีเพียงบางคนที่มีลำโพงคลิกที่มีส่วนร่วมกับประชากร SAC (Quintana-Murci et al., 2010)นอกจากนี้เนื่องจากวิธีการที่มีอยู่ที่อนุมานบรรพบุรุษในท้องถิ่นสันนิษฐานว่าประชากรที่ไม่ได้ติดตั้งนั้นเหมาะสมที่สุดจึงไม่แนะนำให้ใช้ Isixhosa ซึ่งมีบรรพบุรุษ Khoesan บางส่วนเป็นประชากรบรรพบุรุษสำหรับการทำแผนที่ส่วนผสมจนกว่าจะถึงเวลาเช่น

63 2.4 บทสรุปและข้อสังเกตวิธีการเหล่านี้ได้รับการปรับปรุงการจัดอันดับสูงสุดของประชากรแอฟริกันที่ไม่ได้รับการติดอันดับที่ระบุไว้ในตาราง 2.5 และ 2.6 เช่นโยรูบาสามารถใช้เป็นประชากรบรรพบุรุษพร็อกซีแทน Isixhosaโดยรวมแล้วบทนี้ได้เน้นถึงความสำคัญของการเลือกบรรพบุรุษพร็อกซีที่ดีที่สุดสำหรับการวิเคราะห์ดาวน์สตรีมที่มีศักยภาพในประชากรหลายทางSAC ให้ประชากรที่สมบูรณ์แบบเพื่อให้สามารถเลือกบรรพบุรุษที่ดีที่สุดได้นอกจากนี้บรรพบุรุษของพร็อกซีที่ดีที่สุดที่ได้รับสำหรับประชากรกลุ่มนี้ยังให้โอกาสในการดำเนินการวิเคราะห์ปลายน้ำในการตรวจสอบความเสี่ยงต่อวัณโรคของบรรพบุรุษ

เมือง

แหลม

มหาวิทยาลัย

64 2.4 บทสรุปและข้อสังเกต

เมือง

รูปที่ 2.9: การจัดกลุ่มประชากรบรรพบุรุษ (A) และการวิเคราะห์องค์ประกอบหลัก (b) ของ SAC และประชากรแอฟริกันพล็อตใน (a) เป็นสัดส่วนของบรรพบุรุษของแต่ละคน(b) พล็อตเป็นของ eigenvectors ที่สองและครั้งที่สองใน PCA ของประชากรรวมกันของ

มหาวิทยาลัย

65 2.4 บทสรุปและข้อสังเกต

เมือง

แหลม

รูปที่ 2.10: การจัดกลุ่มประชากรบรรพบุรุษและการวิเคราะห์องค์ประกอบหลัก (PCA)(a) การวิเคราะห์ความหลากหลายของประชากรประชากรของ SAC และประชากรยุโรปพล็อตใน (a) คือสัดส่วนของบรรพบุรุษแต่ละคน(b) พล็อตของครั้งแรกและ eigenvector ที่สองใน PCA ของประชากรรวม

66 2.4 บทสรุปและข้อสังเกต

เมือง

แหลม

รูปที่ 2.11: การจัดกลุ่มประชากรบรรพบุรุษ (A) และการวิเคราะห์องค์ประกอบหลัก (b) ของ SAC และประชากรเอเชียตะวันออก(a) พล็อตใน (a) เป็นสัดส่วนของบรรพบุรุษของแต่ละคนมหาวิทยาลัย (b) พล็อตเป็นของครั้งแรกและ eigenvectors ที่สองใน PCA ของประชากรรวมกัน

67 2.4 บทสรุปและข้อสังเกต

เมือง

แหลม

รูปที่ 2.12: การจัดกลุ่มประชากรบรรพบุรุษ (A) และการวิเคราะห์องค์ประกอบหลัก (b) ของ SAC และ Middenviversity East ประชากร(a) พล็อตใน (a) เป็นสัดส่วนของบรรพบุรุษของแต่ละคน(b) พล็อตเป็นของครั้งแรกและ eigenvector ที่สองใน PCA ของประชากรรวมกัน

68 2.4 บทสรุปและข้อสังเกต

เมือง

แหลม

รูปที่ 2.13: การจัดกลุ่มประชากรในบรรพบุรุษ (A) และการวิเคราะห์องค์ประกอบหลัก (b) ของ SAC และประชากรเอเชียใต้(a) พล็อตใน (a) เป็นสัดส่วนของบรรพบุรุษของแต่ละคน(b) พล็อตเป็นของครั้งแรกและ eigenvector ที่สองใน PCA ของประชากรรวมกัน

69 บทที่ 3

เครื่องหมายข้อมูลบรรพบุรุษ: การเชื่อมโยงการเชื่อมโยงความไม่สมดุลและความหลากหลายของ haplotype ในเมืองประชากรสี

3.1 บทนำ CAPE เนื่องจากเครื่องหมายที่ให้ข้อมูลบรรพบุรุษ (AIMS) เป็นความหลากหลายที่มีความถี่ที่ยิ่งใหญ่ที่สุดระหว่างประชากรพวกเขาสามารถใช้เพื่อตรวจสอบความไม่สมดุลของการเชื่อมโยงส่วนผสมในประชากรที่ผสมและวิเคราะห์สัญญาณนอกจากนี้การเลือกชุดย่อยของเครื่องหมายทางพันธุกรรมที่ให้ข้อมูลสูงสำหรับประชากรอนุภาคมีช่วงของการใช้งานตั้งแต่การอนุมานของบรรพบุรุษแต่ละคนไปจนถึงสมาคมการผสม (Kosoy etal., 2009; Paschou etal., 2007)เครื่องหมายที่ให้ข้อมูลบรรพบุรุษ (AIMS) เป็นความหลากหลายทางพันธุกรรมที่มีความถี่อัลลีลที่โดดเด่นแตกต่างกันระหว่างประชากรที่ไม่ได้รับความสนใจทางภูมิศาสตร์หรือประชากรบรรพบุรุษของประชากรที่ได้รับการผสมในขณะที่เครื่องหมายที่มีความสัมพันธ์ทางภูมิศาสตร์ที่แข็งแกร่งนั้นหายากโดยรวมการศึกษาทางพันธุกรรมเมื่อเร็ว ๆ นี้ได้ทำการตรวจสอบการระบุจุดมุ่งหมายขนาดเล็กที่สามารถประเมินบรรพบุรุษของบุคคลหรือประมาณการของการแบ่งส่วนของส่วนประกอบบรรพบุรุษจากประชากรที่ผสมจุดมุ่งหมายสามารถ จำกัด จำนวนการทดสอบในชุดย่อยของจีโนมและสมมติฐานโฟกัสเกี่ยวกับชุดย่อยของเครื่องหมายทางพันธุกรรมเหล่านี้ (Montana & Pritchard, 2004; Paschou etal., 2007)ดังนั้นชุดย่อยของเครื่องหมายทางพันธุกรรมที่เฉพาะเจาะจงโครโมโซมที่ได้รับจากประชากรบรรพบุรุษที่เหมาะสมจึงจำเป็น (Smith & O’Brien, 2005)คำถามพื้นฐานสามข้อมักเกิดขึ้นในการเลือกชุดย่อยของเครื่องหมายทางพันธุกรรม:

70 3.1 บทนำ

(1) ได้รับชุดของเครื่องหมายทางพันธุกรรม M เครื่องหมายทางพันธุกรรมใดที่ควรเป็นแผงที่ต้องการของเครื่องหมายทางพันธุกรรมที่ให้ข้อมูล?

(2) กำหนดจำนวนเครื่องหมายทางพันธุกรรมที่ให้ข้อมูลว่าจีโนไทป์ได้อย่างไร?

(3) เครื่องหมายข้อมูลเหล่านี้สามารถทำนายชุดที่เหลือของเครื่องหมายทางพันธุกรรมที่ไม่ได้เลือกได้ดีเพียงใด

มีหลายวิธีรวมถึง (Galanter etal., 2012), Kosoy etal(2009), (Paschou et al., 2007), Rosenberg (2005) และ Rosenberg etal(2003) ถูกใช้เพื่อเลือกเครื่องหมายที่ให้ข้อมูลบรรพบุรุษและวิธีการเหล่านี้ส่วนใหญ่ถูกนำไปใช้กับข้อมูลประชากรสองหรือสามวิธีเครื่องหมายทางพันธุกรรมที่ให้ข้อมูลได้รับการคัดเลือกแบบดั้งเดิมเพื่อเพิ่มความแตกต่างอย่างแน่นอนในความถี่อัลลีลระหว่างบรรพบุรุษ (Lewontin, 1964; Vega etal., 2006)คุณสมบัติทางสถิติของการแตกต่างกันในความถี่อัลลีลนั้นไม่ได้ดีและสามารถใช้สำหรับประชากรสองหรือสามคนในแต่ละครั้งเท่านั้นที่นี่เราได้พัฒนาอัลกอริทึมสองแบบเพื่อเลือกชุดย่อยของเครื่องหมายทางพันธุกรรมและใช้อัลกอริทึมเหล่านี้เพื่อเลือกเครื่องหมายที่ให้ข้อมูลมากที่สุดจากข้อมูลจีโนมกว้างของประชากรสีแอฟริกาใต้ (SAC)ประวัติความเป็นมาของประชากรสี (SAC) ก่อนและระหว่างระบอบการแบ่งแยกสีผิวครั้งสุดท้ายในแอฟริกาใต้ซึ่งแยกกลุ่มชาติพันธุ์และการแต่งงานระหว่างเชื้อชาตินอกกฎหมาย (http://www.sahistory.org.za/pages/chronology/special-chrono/การกำกับดูแล/การแบ่งแยกสีผิว-การออกกฎหมาย html) อาจใช้การแต่งหน้าทางพันธุกรรมของมันโดยการแสดงความถี่ที่สูงขึ้นของความผิดปกติทางพันธุกรรมถอย, haplotype identity-by-descentof และ linkage disequilibrium (LD) (Arcos-Burgos & Muenke, 2002;).LD ส่วนผสมในประชากรกลุ่มนี้ยังไม่ได้ให้ความสนใจนอกจากนี้ลายเซ็นทางพันธุกรรมของเหตุการณ์ผู้ก่อตั้งและความเป็นไปได้ที่คอขวดอาจยังไม่ได้รับการพิจารณาโครงสร้างทางพันธุกรรมของมันเนื่องจากเราตั้งเป้าหมายที่จะเลือกจุดมุ่งหมายที่อธิบายการผสม LD ในประชากร ampixed และบัญชีสำหรับพื้นหลัง LD ในแผงประชากรบรรพบุรุษเรายังได้ใช้แผง AIMS ที่เกี่ยวข้องเพื่อเปรียบเทียบความหลากหลายของ haplotype ทั่วทั้งจีโนมSAC และพร็อกซีบรรพบุรุษของประชากรเพื่อแก้ไขปัญหานี้และตรวจสอบกระบวนการผสมของประชากรใน SAC เราได้แนะนำและใช้อัลกอริทึมสองแบบสองอย่างเพื่อเลือกชุดย่อยของเครื่องหมายที่ให้ข้อมูลบรรพบุรุษแผงที่สร้างขึ้นเหล่านี้สามารถใช้ในการตรวจสอบความไม่สมดุลของการเชื่อมโยงส่วนผสมและวิเคราะห์สัญญาณของส่วนผสมจากประชากรบรรพบุรุษสมมุติของ SACอัลกอริทึมครั้งแรกต้องการความรู้เกี่ยวกับบรรพบุรุษของกลุ่มตัวอย่างที่ศึกษาและใช้ความสัมพันธ์ระหว่างความไม่สมดุลของการเชื่อมโยงหลายตำแหน่งในท้องถิ่นที่สังเกตได้ในประชากรที่ได้รับการผสมผสานเมื่อเร็ว ๆ นี้อัลกอริทึมที่สองเป็นวิธีการที่ไม่ได้รับการดูแลโดยใช้การวิเคราะห์องค์ประกอบหลักของเคอร์เนล (Kernel-PCA)

71 3.2 วิธีการ

ซึ่งเป็นส่วนขยายของ PCA เชิงเส้นมันช่วยให้เราสามารถเรียนรู้การพึ่งพาที่ไม่ใช่เชิงเส้นและการคาดการณ์ที่มีความหมาย (เช่นพื้นที่ย่อยของความแปรปรวนที่ใหญ่ที่สุด)เราใช้อัลกอริทึมเหล่านี้เพื่อเลือกเครื่องหมายที่ให้ข้อมูลมากที่สุดจากข้อมูลจีโนมทั่วทั้งประชากรที่มีสีสันที่ไม่เหมือนใคร 5-Way Admixed African Poloned (SAC)เราใช้ชุดย่อยของเครื่องหมายข้อมูลที่แตกต่างกันเป็นประชากรบรรพบุรุษพร็อกซีที่ดีที่สุดของ SAC ที่ได้รับจากอัลกอริธึมพร็อกซี (ส่วน 2.2.2 และ 2.2.3) เพื่อตรวจสอบรูปแบบของ LD และระดับของการผสมส่วนผสมของบรรพบุรุษ

3.2 วิธีการ

3.2.1 การเลือกเครื่องหมายทางพันธุกรรม: ความสัมพันธ์ระหว่างความแตกต่างของประชากรและความไม่สมดุลของการเชื่อมโยงส่วนผสม

เมื่อได้รับประชากรคู่หนึ่ง K และ L จากกลุ่มของประชากรบรรพบุรุษ K ของประชากรที่ได้รับการผสมโดยสมมติว่าความถี่อัลลีลเล็กน้อยที่ SNPS I และ J นั้นยิ่งใหญ่กว่า 0.005ในทำนองเดียวกันใน (Shiheng etal., 2001) เราได้กำหนดความไม่สมดุลของการเชื่อมโยงส่วนผสมเป็น

l = mlk + (1 m) ll + m (1 m) ΔKlΔKl, (3.1) IJ IJ - IJ - I × J

โดยที่ m คือสัดส่วนของบรรพบุรุษΔiและΔJจะแตกต่างกันในความถี่อัลลีลที่ SNPS I และ J ในประชากร K และ L ตามลำดับCape สมมติว่า SNPS I และ Jofthere แต่ละคู่ไม่ได้เชื่อมโยงความไม่สมดุลในประชากรบรรพบุรุษ

l = m (1 m) ΔKlΔKl (3.2) IJ - I × J KL KL M (1 M) ΔIΔJ 1 = - × (3.3) สมการ LIJ ของมหาวิทยาลัย 3.3 สร้างความสัมพันธ์ที่สมบูรณ์แบบระหว่างความสมดุลของการเชื่อมโยงที่สังเกตได้

Lij ในประชากรที่ได้รับการผสมผสานเมื่อเร็ว ๆ นี้และประชากรบรรพบุรุษที่แตกต่างกันในคู่ของ SNPS I และ J ในประชากรที่ได้รับการผสมสมการ 3.3 เป็นเนื้อหาบรรพบุรุษทั้งหมด (AC) ที่ SNPS I และ Jสมมติว่าสัดส่วนบรรพบุรุษสม่ำเสมอและสมการสรุป 3.3 เหนือคู่ของประชากรบรรพบุรุษพร็อกซีทั้งหมดที่เป็นไปได้เราสามารถรับสารสนเทศบรรพบุรุษได้ IIJ ของ SNPS I และ J แต่ละคู่ดังนี้

k kl kl 1 ΔiΔj iij = ∑ ×(3.4) 4 k k = l lij × 6

72 3.2 วิธีการ

ให้ m เป็นจำนวน SNP ทั้งหมดสำหรับ i 1, ... , m, ให้ n เป็นจำนวนทั้งหมดของ∈ {} ฉันจับคู่ ld ที่ชาญฉลาดภายใน SNP i เราได้รับข้อมูลบรรพบุรุษที่ SNP ฉันดังนี้

n i iij ii = ∑(3.5) j = 1 √m

3.2.2 การวิเคราะห์องค์ประกอบหลัก (PCA) วิธีการเลือกตาม

การวิเคราะห์องค์ประกอบหลักเป็นวิธีการลดขนาดมันเป็นขั้นตอนในการหมุนข้อมูลเพื่อให้ความแปรปรวนสูงสุดถูกฉายลงบนแกน orthogonal ตามเกณฑ์ขั้นต่ำตารางแควร์ (Lin & Altman, 2004; Paschou etal., 2007)โดยพื้นฐานแล้วชุดของตัวแปรที่มีความสัมพันธ์จะถูกเปลี่ยนเป็นชุดตัวแปรที่ไม่เกี่ยวข้อง (ส่วนประกอบหลัก) ขนาดเล็กลงอย่างมากซึ่งแสดงถึงการเปลี่ยนแปลงส่วนใหญ่ในข้อมูลดั้งเดิมซึ่งส่วนประกอบหลักคือการรวมกันเชิงเส้นของชุดตัวแปรดั้งเดิม (Patterson etal., 2006).หนึ่งในความท้าทายที่ใช้ PCA บนข้อมูลจีโนไทป์คือส่วนประกอบหลักที่ถูกกำหนดไม่สอดคล้องกับจีโนไทป์จริง (Lin & Altman, 2004)ดังนั้นเราจำเป็นต้องกำหนดวิธีการแมปส่วนประกอบหลักอย่างเหมาะสมกับข้อมูลจีโนไทป์ดั้งเดิมที่นี่เราใช้วิธีการของเคอร์เนล PCA ภายในอัลกอริธึมโลภเพื่อเลือกเครื่องหมายที่ให้ข้อมูลมากที่สุดจากเคอร์เนล PCA อัลกอริทึมของเราคือการวางนัยทั่วไปของวิธีการเลือก PCA เชิงเส้นที่มีอยู่เพิ่มความได้เปรียบในการแยกการพึ่งพาที่ไม่ใช่เชิงเส้นและการคาดการณ์ที่มีความหมายตลอดทั้งชุดข้อมูลKernelof PCA ของเราใช้ฟังก์ชั่นเคอร์เนลแบบเกาส์เซียนที่กำหนดไว้ใน 2 มิติเพื่อแมปเมทริกซ์ข้อมูล (เคอร์เนลข้อมูล)พิจารณาเมทริกซ์ของเครื่องหมาย y y y D. D. แต่ละแถว (i, i+1) หมายถึงตัวอย่างแต่ละตัวอย่าง i = 1, 2,--, 2n x โดยที่ n คือจำนวนตัวอย่างแต่ละคอลัมน์ j สอดคล้องกับเครื่องหมายทางพันธุกรรม (diploid genotyes), j = 1, 2,--, M เช่นนั้น (D [i, j], d [i + 1, j]) เป็นจีโนไทป์ของตัวอย่าง I ที่ marker jเราอธิบายอัลกอริทึมผ่านหกขั้นตอนต่อไปนี้:

(1) ตั้งค่าจำนวนมิติในพื้นที่ย่อยที่ลดลงขนาด 1 ลิตร M. มหาวิทยาลัย≤≤ (2) จากเมทริกซ์ข้อมูล D ใช้ฟังก์ชันเคอร์เนลเกาส์เซียนที่กำหนดไว้ใน 2-D

1 x x 2 ||I - J ||K = 2 EXP 2 2P - 2S!

เพื่อสร้างเคอร์เนลเมทริกซ์ K

X X โดยที่ = κ i, j

73 3.2 วิธีการ

(3) จากเคอร์เนลเมทริกซ์ K เราคำนวณเมทริกซ์ความแปรปรวนร่วม C

M m m cij = kij ∑ kik ∑ klj + ∑ kkl- k = 1 - l = 1 l, k = 1

(4) จากเมทริกซ์ความแปรปรวนร่วม C เราคำนวณชุดของ eigenvectors

v = v [k, n] k, n = 1,2, ... , m และ eigenvalues ​​λ = λ [k, n] k, n = 1,2, ... , m, ผ่านสมการ 3.7เมทริกซ์ V มี eigenvectors ทั้งหมดของเมทริกซ์ความแปรปรวนร่วม C, หนึ่ง eigenvector ต่อคอลัมน์λเป็นเมทริกซ์ทแยงมุมที่มีค่าลักษณะเฉพาะทั้งหมดของเมทริกซ์ความแปรปรวนร่วม C ตามแนวทแยงมุมหลักและ 0 สำหรับองค์ประกอบอื่น ๆ ทั้งหมดค่าลักษณะเฉพาะและ eigenvectors ได้รับคำสั่งและจับคู่ในลักษณะที่ค่า eigenvalue MTH สอดคล้องกับ MTH eigenvector

cvk = λkvkโดยที่ k = 1, 2,--, M. (3.6)

เรียงลำดับคอลัมน์ของ matrix eigenvector v และ eigenvalues ​​เพื่อลดค่า eigen- ค่าλเมือง (5) เนื่องจากค่าลักษณะเฉพาะแต่ละค่าคือปริมาณความแปรปรวนที่อธิบายโดย eigenvector ให้เลือก l eigen- เวกเตอร์ที่มีค่าลักษณะเฉพาะที่ใหญ่ที่สุดค่าลักษณะเฉพาะแต่ละค่าเป็นผลรวมถ่วงน้ำหนักของข้อมูลต้นฉบับเป็น, m cape pl = ∑ v [l, k] d [k, j], โดยที่ l = 1, 2,--, l, (3.7) k = 1 ของที่น้ำหนักเป็นค่า coe ffi cients ของ eigenvectorผลรวมของความแปรปรวนของ L ที่เลือก L นั้นเท่ากับผลรวมของความแปรปรวนของข้อมูลเครื่องหมายทางพันธุกรรมดั้งเดิมดังนั้นสัดส่วนของความแปรปรวนในเครื่องหมายทางพันธุกรรมดั้งเดิม m ที่ l eigenvectors บัญชีสำหรับคือ l ∑l = 1 λlρ = m(3.8) มหาวิทยาลัย ∑M = 1 λm (6) ในขั้นตอนนี้ eigenvectors ที่เลือกไม่สอดคล้องกับชุดย่อยใด ๆ ของข้อมูลจีโนไทป์ดั้งเดิมเราใช้วิธีการโลภ Discard (Lin & Altman, 2004) เพื่อแมป eigenvectors เหล่านี้กับเครื่องหมายทางพันธุกรรมที่สอดคล้องกันมากที่สุด

(a) เริ่มต้นด้วย eigenvector ในพื้นที่ eigenvectors ที่มีค่าลักษณะเฉพาะที่เล็กที่สุดไปยัง eigenvector (m l) th ในพื้นที่ของ l ที่เลือก eigenvectors ที่เล็กที่สุด - eigenvalue จากนั้นปฏิเสธเครื่องหมายทางพันธุกรรมที่ใหญ่ที่สุดM l) พื้นที่ของ eigenvectors ที่เลือก (สมการ 3.7) และที่ยังไม่ได้ถูกทิ้ง

74 3.2 วิธีการ

(b) ในลำดับย้อนกลับให้แมป l eigenvectors ที่เก็บไว้กับเครื่องหมายทางพันธุกรรม L ที่เหลือในข้อมูลดั้งเดิมเป็นเครื่องหมาย L Kernel-PCA

3.2.3 ความไม่สมดุลของการเชื่อมโยงส่วนผสม

LD ที่เพิ่มขึ้นในประชากรอาจเกิดจากเหตุการณ์ผู้ก่อตั้งส่วนผสมของประชากรที่แยกก่อนหน้านี้คอขวดของประชากร (Kruglyak, 1999) หรือปัจจัยอื่น ๆเราตรวจสอบ LD ที่สังเกตได้ใน SAC โดยการเปรียบเทียบระดับการเพิ่มขึ้นของ LD ในระยะทางสั้น ๆ (<0.1 ซม.) และระยะทางไกล (> 0.2 ซม.) ภายในและระหว่าง SAC และบรรพบุรุษของพร็อกซีในการอธิบายขนาดตัวอย่างเช่นในการคำนวณ LD เราได้ปรับขนาดตัวอย่างประชากรแต่ละตัวอย่างรวมถึงตัวอย่างของ SAC ให้มีขนาดเท่ากันประมาณเท่ากันค่า LD-R2 ถูกคำนวณสำหรับคู่ SNP ที่เชื่อมโยงและ unlinked ตามจีโนมโดยใช้สถิติ LD ที่อธิบายไว้ในส่วน 2.2.3ดังนั้นเราจึงเปรียบเทียบ LD-R2 โดยตรงสำหรับแต่ละคู่ SNP โดยจัดอันดับจำนวนคู่ที่มี LD-R2 ที่สูงขึ้น (> 0.5) ใน SAC และในแต่ละประชากรบรรพบุรุษพร็อกซีนอกจากนี้เราคำนวณความสัมพันธ์ระหว่างความถี่อัลลีล-ความถี่ของบรรพบุรุษและ LD-R2 ใน SACอัลลีล-ความถี่ di ff erences คำนวณจาก fi rst (Δ1) และ SNP ที่สอง (Townδ2) ตาม SNP-pair ที่มี LD-R2> 0.5 ในประชากร admixedความสัมพันธ์ถูกคำนวณระหว่างΔδ S1 × S2 และ LD-R2 ใน SAC และเรารายงานค่า p เฉลี่ยและความสัมพันธ์เพื่อดูว่าระดับของส่วนผสมที่สังเกตได้ใน SAC สามารถอธิบายถึง LD ที่เพิ่มขึ้นได้หรือไม่เรายังประเมิน LD ส่วนผสมที่คาดหวังสูงสุดจากแต่ละคู่ของประชากรบรรพบุรุษอ้างอิงและเราเปรียบเทียบกับ LD ที่สังเกตได้ใน SACและความถี่อัลลีลจากคู่ของประชากรบรรพบุรุษที่ไม่เกี่ยวข้อง X และ Y ของประชากร ampixed z, admixture ld (DZ)

เกี่ยวข้องกับ LD DX และ DY จาก X และ Y (Shiheng etal., 2001) และเป็นแบบจำลองเป็น

d = md + (1 m) d + m (1 m) ΔΔ, (3.9) z x - y - s1 × s2

ที่ SNPS, S1 และ S2 โดยที่ M คือสัดส่วนบรรพบุรุษสมการนี้เป็นสมการกำลังสองของลำดับที่สองของความหลากหลายรูปแบบ m + bm + c โดยที่ a = ΔΔ, b = d d + ΔΔ 2 - s1 × s2 x - y s1 × s2 และ c = dyเราแสดงถึงΔS1และΔS2เป็นความถี่ในอัลลีลที่เครื่องหมายทางพันธุกรรม S1 และ S2 จากประชากร X และ Yเพื่อให้ได้สัดส่วนส่วนผสม m ที่ admixture ld

ถึงสูงสุดเราจะ dz ด้วยความเคารพต่อ M และได้รับ Admixture LD ที่คาดหวังสูงสุด

(d d + ΔΔ) 2 d = d + x - y s1 × s2(3.10) exp y 4Δδ s1 × s2

75 3.2 วิธีการ

ในการประเมิน LD ส่วนผสมเราคำนวณความสัมพันธ์ของสี่เหลี่ยมที่คาดหวังระหว่างที่สังเกต

LD ในประชากรที่ได้รับการผสมผสานเมื่อเร็ว ๆ นี้และ DEXP จากประชากรบรรพบุรุษของผู้สมัครแต่ละคู่วิธีการทั้งหมดที่อธิบายไว้ในส่วน 3.2.1, 3.2.2 และ 3.2.3 ข้างต้นได้ถูกนำไปใช้ในพร็อกซี (http://www.cbio.uct.ac.za/proxyanc) ด้วยนอกจากนี้เรายังใช้วิธีการล่าสุดที่คำนวณสถิติการเชื่อมโยงแบบถ่วงน้ำหนัก (LD) สำหรับการอนุมานเกี่ยวกับส่วนผสมของประชากรที่ใช้ในซอฟต์แวร์ Alder (Loh et al., 2013)การวิเคราะห์นี้ดำเนินการเพื่อตรวจสอบวิธีการของเราในการประเมินส่วนผสมใน SAC อันเป็นผลมาจากเหตุการณ์การผสมจากประชากรบรรพบุรุษพร็อกซี แต่ไม่ใช่เพราะคอขวดของประชากรในการอนุมานเส้นโค้งการสลายตัวของ LD ถ่วงน้ำหนักใน SAC เราใช้ข้อมูลจีโนไทป์ Diploid ทั้งหมด (SNPs ทั้งหมดที่มีอยู่ทั้งหมด) จาก SAC และแต่ละประชากรบรรพบุรุษพร็อกซีทั้งสองของมันและพล็อตเส้นโค้งการสลายตัวของ LD

3.2.4 ความหลากหลายทางพันธุกรรม, เอกลักษณ์ต่อแสง (IBD) และ haplotypes แบ่งปันเมือง IBD นอกเหนือจากระดับของส่วนผสมที่สังเกตได้ใน SAC เราคำนวณสัดส่วนของ IBD และการทดสอบความสอดคล้องกันของประชากรคู่ (PPC)สำหรับการทดสอบตัวตนแบบคู่ผสมโดยรัฐ (IBS) เราวิ่ง PLINK ด้วยการเปลี่ยนผ่าน 10, 000 ระหว่างประชากรในชุดข้อมูลเดียวกัน (SAC กับประชากรบรรพบุรุษพร็อกซีแต่ละคน)เราเขียนรหัส saccape เป็นกรณีและบรรพบุรุษของพร็อกซีเป็นตัวควบคุมเราคำนวณค่า P เชิงประจักษ์เพื่อพิจารณาว่ากรณี/คู่กรณีมีความคล้ายคลึงกันน้อยกว่าเมื่อเทียบกับการควบคุม/คู่ควบคุม (Purcell etal., 2007)เพื่อเปรียบเทียบ haplotypes ที่ใช้ร่วมกัน IBD ภายในและระหว่าง SAC และประชากรบรรพบุรุษของพร็อกซีแพคเกจซอฟต์แวร์ PLINK ได้ดำเนินการเพื่ออนุมานการแบ่งส่วนของประชากรแต่ละคน (SAC, Isixhosa, ยุโรป (CEU), Khomani, Gujarati Indian และจีน))สำหรับแต่ละประชากรเราประเมินความหลากหลายของ haplotype เป็นมหาวิทยาลัย 1 ∑ h2 h = n - i, (3.11) n 1 - โดยที่ HI คือความถี่ haplotype และ n คือขนาดตัวอย่าง haplotypeมีการรายงานความหลากหลายของ haplotypeความถี่ haplotype ถูกคำนวณสำหรับแต่ละประชากรโดยใช้ PLINK (Purcell etal., 2007)การตรวจจับ haplotypes ขยายที่ใช้ร่วมกัน IBD นั้นทำโดยใช้ PLINK ในแต่ละประชากรแยกกัน

76 3.3 ผลลัพธ์

3.3 ผลลัพธ์

3.3.1 การเลือกเครื่องหมายข้อมูลบรรพบุรุษ

ความเป็นไปได้และพลังที่เพียงพอของทั้งการศึกษาความสัมพันธ์ของจีโนมและการทำแผนที่ส่วนผสมนั้นขึ้นอยู่กับรูปแบบและขอบเขตของ LD ในภูมิภาคโครโมโซมที่มีความหนาแน่นของเครื่องหมายจำนวนมาก (Winkler etal., 2010)การทำความเข้าใจขอบเขตของการผสม LD นั้นมีประโยชน์ในการออกแบบการทดสอบการทำแผนที่โรคในประชากร ampixed (Winkler etal., 2010)ที่นี่เราใช้อัลกอริทึมเคอร์เนล-PCA ที่อธิบายไว้ในส่วน 3.2.2 กับตัวอย่าง SAC ที่จีโนไทป์ที่ 550K เพื่อเลือกเครื่องหมายเคอร์เนล PCA ที่ให้ข้อมูลมากที่สุด (วิธีการที่ไม่ได้รับการดูแล)อัลกอริทึมสามารถเลือกเครื่องหมายเคอร์เนล PCA 1001 ที่มีระยะห่างอย่างน้อย 1MB ระหว่างเครื่องหมายทางพันธุกรรมที่อยู่ติดกันตามจีโนมนอกจากนี้เราเลือก 1121 จุดมุ่งหมายด้วยระยะห่างอย่างน้อย 1MB ระหว่างเครื่องหมายทางพันธุกรรมที่อยู่ติดกันตามจีโนมตามความสัมพันธ์ระหว่างประชากรบรรพบุรุษ (ใช้ประชากรบรรพบุรุษพร็อกซีที่ดีที่สุดในตาราง 2.2 และ 2.3)ในส่วน 3.2.1) การใช้ข้อมูล SACมี 48 SNPS ทับซ้อนระหว่างสองชุดของ AIMS และ 753 SNPS ระหว่างจุดมุ่งหมายทั้งสองชุดอยู่ใน LD (R2> 0.5)เนื่องจากแผงจุดมุ่งหมายทั้งสองนี้สร้างสัดส่วนบรรพบุรุษของแต่ละบุคคลที่คล้ายกัน 3.1 เราจึงใช้แผง 1121 AIMS เพื่อตรวจสอบรูปแบบของความไม่สมดุลของการเชื่อมโยงใน SACพาเนลเหล่านี้สามารถดาวน์โหลดได้จาก http://www.cbio.uct.ac.za/aims/แหลม

มหาวิทยาลัย

รูปที่ 3.1: สัดส่วนบรรพบุรุษของแต่ละบุคคลขึ้นอยู่กับจุดมุ่งหมาย 1121 ที่ได้รับจากวิธีการที่อธิบายไว้ในส่วน 3.2.1 (พล็อตด้านบน) และ 1001 เคอร์เนล-PCA เครื่องหมายที่ได้รับจากวิธีการที่อธิบายไว้ในส่วน 3.2.2 (พล็อตด้านล่าง)

77 3.3 ผลลัพธ์

3.3.2 การประเมิน LD Admixture

ในการประเมินรูปแบบของการผสม LD ในถุงอันเป็นผลมาจากส่วนผสมของบรรพบุรุษเราได้เปรียบเทียบ LD ระหว่าง SAC และบรรพบุรุษพร็อกซีสมมุติเราคำนวณ LD (R2> 0.2) ทั่วทั้งจีโนมทั้งหมดของแต่ละประชากรและพบว่า LD สูงขึ้นอย่างต่อเนื่องในระยะทางสั้น ๆ ใน SAC (รูปที่ 3.2)

เมือง

แหลม

รูปที่ 3.2: LD ข้าม 1121 จุดมุ่งหมายเครื่องหมายระหว่างประชากรสีแอฟริกาใต้และกลุ่มบรรพบุรุษพร็อกซี(A-E) พล็อต LD (R2> = 0.5) อยู่ระหว่างคู่ของ SNPs (รวมที่เชื่อมโยงและ unlinked SNPs) ภายใน 1.2 MB จากกันและกันใน fi gure เราแสดงถึง Khomani, CEU, CHD+Gujarati Indian, Isixhosa และ University ‡ Yoruba เป็น Khoesan, ชาวเอเชียตะวันออกเฉียงใต้ตะวันออกเฉียงใต้, แอฟริกาใต้และแอฟริกาไนเจอร์ Bantu ประชากรตามลำดับ

LD ใน SAC จะสลายตัวจากภูมิภาค> 0.2 Morgan (รูปที่ 3.2) แนะนำว่า LD นี้อาจเป็นผลมาจากส่วนผสมมากกว่าผู้ก่อตั้งสิ่งนี้สอดคล้องกับการศึกษาก่อนหน้านี้ซึ่งพิสูจน์แล้วว่าการสลายตัวของ LD นั้นมีการสลายตัวภายในไม่กี่ชั่วอายุคนในระยะทางไกล (> 20 ซม.) แต่สลายตัวช้าในระยะทางสั้น ๆ (<10 ซม.) (Chakravati & Weiss, 1998; Li & Stephens, 2003)ส่วนผสมล่าสุดระหว่างประชากรที่มีพันธุกรรมจะเพิ่มขึ้นของสัดส่วน LD ที่เพิ่มขึ้น (Winkler etal., 2010)

78 3.3 ผลลัพธ์

เมือง

รูปที่ 3.3: Admixture LD ใน SAC ซึ่งเป็นผลมาจากเหตุการณ์การผสมจากประชากรบรรพบุรุษพร็อกซี (CEU, Khomani, CHD, Gujarati และ Isixhosa)ในการสร้าง‡แปลงเหล่านี้เราคำนวณ LD betweencape เครื่องหมายทั้งหมดของเครื่องหมายทั้งหมดในถุงและส่วนผสมที่คาดหวังจากแต่ละคู่ของประชากรบรรพบุรุษพล็อตแสดงการกระจายของ LD ในถุง (จุดสีแดง) และส่วนผสมที่คาดหวัง LD ในประชากรบรรพบุรุษสองคู่ (จุดสีน้ำเงิน)

เพื่อทดสอบการผสม LD เนื่องจากเป็นผลมาจากเหตุการณ์ส่วนผสมจากประชากรบรรพบุรุษพร็อกซีของ SAC เราคำนวณ LD ระหว่าง AIMS ทั้งหมด (n = 1121 จุดมุ่งหมาย) ใน SAC ซึ่งถ่วงน้ำหนักโดยความถี่ของพวกเขา3.2.3) ระหว่างแต่ละคู่ของประชากรบรรพบุรุษพร็อกซีเหล่านี้รวมถึง Isixhosa, Khomani, ยุโรปกลาง (CEU), มหาวิทยาลัย‡รัฐคุชราตอินเดียและจีน (CHD)ผ่านการถดถอยเชิงเส้นของความถี่อัลลีลที่แตกต่างกันของกลุ่มบรรพบุรุษพร็อกซีแต่ละคู่ที่มี LD ใน SAC เราได้รับความสัมพันธ์ (R2 = 0.74, การสกัดกั้น = 0.38, ความลาดชัน = 0.41) กับค่า p-value = 0.0018ของอัลลีลความถี่แตกต่างกันด้วย LD ที่เพิ่มขึ้นในถุงเราประเมินค่า LD ที่คาดหวังสูงสุด (ดูหัวข้อ 3.2.3) จากประชากรบรรพบุรุษพร็อกซีแต่ละคู่และเราเปรียบเทียบกับ LD ที่สังเกตได้ในถุงตารางที่ 3.1 แสดงความสัมพันธ์ระหว่าง LD ส่วนผสมที่คาดหวังจากกลุ่มบรรพบุรุษพร็อกซีแต่ละคู่และ LD ที่สังเกตได้ใน SAC ซึ่งมีความหมาย (รูปที่ 3.3)ผ่านโมเดลเชิงเส้น 16 สารเติมแต่งเราได้รับ p-value ที่ต่ำกว่า = 2.2e− ภายใต้สมมติฐานว่างของไม่มีความสัมพันธ์

79 3.3 ผลลัพธ์

ระหว่าง LD ใน SAC และ LDS ส่วนผสมที่คาดหวังเหล่านี้แสดงให้เห็นว่า LD ใน SAC มีความสัมพันธ์กับ LD ส่วนผสมที่คาดหวังและส่วนใหญ่มีต้นกำเนิดในการผสมที่แตกต่างจากประชากรบรรพบุรุษพร็อกซีผลลัพธ์นี้ระบุว่าส่วนผสมระหว่างประชากรที่เกี่ยวข้องกับกลุ่มบรรพบุรุษพร็อกซีเหล่านี้ (Isixhosa และ Khomani, ยุโรปกลาง (CEU), ‡รัฐคุชราตอินเดียและจีน (CHD) ส่วนใหญ่มีส่วนร่วมในการผสม

ตารางที่ 3.1: ค่า p ที่ได้รับจากความสัมพันธ์ระหว่าง Admixture LD ที่คาดหวังจากกลุ่มบรรพบุรุษพร็อกซีแต่ละคู่ที่เกี่ยวข้องกับ LD ที่สังเกตได้ใน SACประชากรคู่ที่ฉลาดหรือ [95%CI]

(CHD, คุชราต) 7.25e 10 0.99[0.99, 1.00] − (อังกฤษ, คุชราต) 9.35e 8 0.98[0.97, 0.99] − (CEU, CHD) 0.92 0.99[0.0.0301,) Khomani 0.98[0.97, 0.99] ‡ − ( โคมานี, อิซิโซซา) 1.01e 08 0.96[0.94, 0.97] ‡ − เมือง (โคมานี, คุชราต) 1.21e 8 0.97[0.95, 0.4.928] ( คุชราต 8 , 1.0] (CEU, โคมานี) 7.16e 7 0.99 [0.98, 1.0] ‡ − (CHD, อังกฤษ) 8.076Capee 10 0.98 [0.97, 0.998] − (CEU, อังกฤษ) [

ที่สำคัญเพื่อสนับสนุนวิธีการของเราในการทดสอบแอคชั่น LD ในถุงเป็นสิ่งที่เกิดขึ้นจากเหตุการณ์การผสมที่เกิดจากประชากรบรรพบุรุษที่เกี่ยวข้องกับประชากรบรรพบุรุษพร็อกซีSNP สามารถ (ดูหัวข้อ 2.2)ผลลัพธ์ในรูปที่ 3.4 สอดคล้องกับผลลัพธ์ที่ได้ในตารางที่ 3.1 และรูปที่มหาวิทยาลัยรูปที่ 3.3ผลลัพธ์ทั้งหมดชี้ให้เห็นว่าส่วนผสมเพิ่มความหลากหลายทางพันธุกรรมและ LD ที่สังเกตได้ใน SAC นั้นส่วนใหญ่มาจากส่วนผสม

80 3.3 ผลลัพธ์

เมือง

แหลม

รูปที่ 3.4: เส้นโค้งการสลายตัวของ LD ถ่วงน้ำหนักในประชากรสีแอฟริกาใต้ที่มีประชากรบรรพบุรุษสองคู่พล็อตเหล่านี้แสดงให้เห็นถึงการสลายตัวของ LD admixture ใน SAC เกี่ยวกับบรรพบุรุษของพร็อกซีแต่ละคู่ซึ่งเป็นผลมาจากเหตุการณ์การผสม(A) CEU AnduniversityKhomani ภายใน SAC(b) CEU และ ISIXHOSA ภายใน SAC‡ (c) CHD และ Khomani กับ Sac(d) CHD และ isixhosa กับ SAC(e) gih ‡และ khomani กับ sac(f) GIH และ ISIXHOSA ภายใน SAC(g) Khomani ‡‡ isixhosa ภายใน SACSNP ทั้งหมดถูกใช้เพื่อสร้างแปลงเหล่านี้

3.3.3 ความหลากหลายทางพันธุกรรมและ haplotype identity-by-descen

เราเปรียบเทียบความหลากหลายของ haplotype จีโนมและการแบ่งปัน haplotype เปอร์เซ็นต์โดย IBD (ดูวัสดุและวิธีการ) และผลลัพธ์ในตารางที่ 3.2 บ่งชี้ว่า SAC มีความหลากหลาย haplotype สูงกว่ากลุ่มบรรพบุรุษพร็อกซีผลการวิจัยชี้ให้เห็นว่าทั้ง

81 3.3 ผลลัพธ์

ความหลากหลายที่สูงขึ้นและ LD ที่สูงขึ้นในระยะทางสั้น ๆ ที่สังเกตได้ใน SAC เป็นผลมาจากเหตุการณ์ส่วนผสมและไม่ใช่ผู้ก่อตั้งหรือคอขวดที่รุนแรงนอกจากนี้เราพบว่า SAC มีเปอร์เซ็นต์ที่สูงกว่าของกลุ่ม haplotype ที่ใช้ร่วมกันโดย IBD ในระยะทางสั้น ๆ (ในภูมิภาค <2.5 ซม.) กว่ากลุ่มบรรพบุรุษพร็อกซีสามกลุ่ม (ตารางที่ 3.2).การทดสอบการเปลี่ยนแปลงของ IBS แบบคู่นั้นมีความแปรปรวนทางพันธุกรรมที่มากขึ้นในกลุ่มตัวอย่าง SAC และระบุว่าคู่ SAC คู่เฉลี่ยมีการแบ่งปัน IBS ทั่วทั้งจีโนมน้อยกว่าคู่ของกลุ่มบรรพบุรุษพร็อกซีแต่ละกลุ่ม (ค่า P-value = 0.00202)ระดับความหลากหลายทางพันธุกรรมที่สูงขึ้นที่สังเกตได้ใน SAC ที่มีการผสมมีแนวโน้มที่จะเป็นผลมาจากที่ตั้งทางภูมิศาสตร์ของแอฟริกาใต้เกี่ยวกับเส้นทางการค้าที่สำคัญในอดีต (จากศตวรรษที่ 15 ถึงศตวรรษที่ 19) และประวัติศาสตร์ของการล่าอาณานิคมหลายแง่มุม(Mountain, 2003)

ตารางที่ 3.2: การเปรียบเทียบความหลากหลายทางพันธุกรรมระหว่างประชากรสีแอฟริกาใต้ (SAC) และกลุ่มบรรพบุรุษพร็อกซีพร็อกซีที่มีส่วนร่วมในการผสม SACค่าเฉลี่ยและข้อผิดพลาดมาตรฐานของเซ็กเมนต์ haplotype ที่ใช้ร่วมกันใน CM (HAP.Segment), ค่าเฉลี่ยและข้อผิดพลาดมาตรฐานของการวัดความหลากหลายของ haplotype (HAP.Diversity) เมืองและสัดส่วนของ IBD (prop.Ibd)HAP.เซ็กเมนต์ HAPความหลากหลาย prop. ibd

SAC 1.022 0.004 81.975 0.002 (0.0018) ± แหลม± isiXhosa 0.9058 0.042 16.860 0.003 (0.0284) ± โคมณี 1.123 0.1014 ± U.0 5 1.192 0.043 50.544 03 (0.0189) ± ± CHD 0.715 0.0417 54.885 0.003 (0.1051 ) ± ± คุชราต 0.614 0.042 57.883 0.003 (0.0512) ± ±มหาวิทยาลัย

82 3.4 การสนทนา

3.4 การสนทนา

เราใช้อัลกอริธึมเสริมสองแบบ (ภายใต้การดูแลและไม่ได้รับการดูแล) เพื่อเลือกเครื่องหมายที่ให้ข้อมูลบรรพบุรุษในประชากรหลายทางโดยเฉพาะอย่างยิ่งเราใช้อัลกอริทึมเหล่านี้เพื่อสร้างสองแผงของ SACนอกจากนี้อัลกอริทึมทั้งสองนี้ยังดำเนินการเช่นเดียวกับการใช้ SNP ที่มีอยู่ทั้งหมดในการประเมินสัดส่วนบรรพบุรุษของแต่ละบุคคลใน SAC (ดูหัวข้อ 2.3.2.2)อัลกอริทึมครั้งแรกของเรามีข้อได้เปรียบในการเลือก SNPs ตามความสัมพันธ์ระหว่างประชากรบรรพบุรุษ (โดยใช้บรรพบุรุษพร็อกซีที่เลือกของประชากร ampixed) การแตกต่างกันและความไม่สมดุลของการเชื่อมโยงส่วนผสมที่สังเกตได้แผงจุดมุ่งหมายจากอัลกอริทึมนี้ถูกนำมาใช้เพื่อตรวจสอบรูปแบบของความไม่สมดุลของการเชื่อมโยงในประชากรนี้ในการเปรียบเทียบกับที่มาจากประชากรของผู้ปกครองพร็อกซีคาดว่าจะมีระดับ LD ที่สูงขึ้นในประชากรที่ได้รับการผสมและสิ่งนี้อาจเกิดขึ้นได้ในบางจุดของประวัติศาสตร์ของมันโดยคอขวดประชากรหรือเป็นผลมาจากส่วนผสมของตัวเองเท่านั้นเราแสดงให้เห็นในประชากร SAC ว่าความถี่อัลลีลแตกต่างกันระหว่างประชากรบรรพบุรุษพร็อกซีแต่ละคู่มีความสัมพันธ์กับ LD ที่เพิ่มขึ้นซึ่งชี้ให้เห็นว่าส่วนผสมเพิ่มความหลากหลายทางพันธุกรรมและ LD ที่สังเกตได้ใน Sactown นั้นมีต้นกำเนิดมาจากส่วนผสมส่วนใหญ่การศึกษาครั้งนี้พบว่าผู้ก่อตั้ง haplotypes ระดับอ่อนแอเหมือนกันตามจีโนมของ SAC ซึ่งเสริมสร้างหลักฐานต่อต้านคอขวดของประชากรที่สามารถพบได้เป็นผลมาจากการแยกกลุ่มชาติพันธุ์ที่ผ่านมาในแอฟริกาใต้ถุงแหลม

มหาวิทยาลัย

83 บทที่ 4

การศึกษาความสัมพันธ์ของสมาคมจีโนมทั่วทั้งบรรพบุรุษความเสี่ยง TB ในประชากรสีแอฟริกาใต้

เมือง 4.1 บทนำ

วัณโรค (วัณโรค) ยังคงเป็นแหล่งของการเจ็บป่วยและการตายทั่วโลกโดยเฉพาะในประเทศพัฒนามันเป็นสาเหตุสำคัญของการเสียชีวิตจากโรคติดเชื้อเอชไอวีเนื่องจากเกือบหนึ่งในสี่เสียชีวิตในหมู่คนที่ติดเชื้อเอชไอวีเกิดจากวัณโรค (Kaufmann & McMichael, 2005; WHO, 2000)ในปี 2010 มีผู้ป่วยวัณโรคใหม่ 8.8 ล้านรายซึ่ง 1.1 ล้านคนอยู่ในกลุ่มคนที่ติดเชื้อเอชไอวี (Dye etal., 1998a; WHO, 2000)ความไวต่อวัณโรคเป็นที่รู้จักกันดีว่าเป็นลักษณะที่ซับซ้อนในการ fl uenced โดยปัจจัยด้านสิ่งแวดล้อมและพันธุกรรม (Comstock, 1978)ปัจจัยด้านสิ่งแวดล้อมที่มีความไวต่อวัณโรครวมถึงการสูบบุหรี่เงื่อนไขทางเศรษฐกิจและสังคมและการติดเชื้อเฉียบพลัน (Babb et al., 2007; Bellamy, 1998; Bellamy etal., 2000)หนึ่งในสามของบุคคลโลกที่ติดเชื้อวัณโรค แต่มีเพียง 10% เท่านั้นที่จะพัฒนาวัณโรคที่ใช้งานอยู่ในช่วงชีวิตของพวกเขา (www.who.int/tb/en/) (Dye etal., 1998a, b)การศึกษาแบบคู่ในมนุษย์และแบบจำลองสัตว์ยังแสดงให้เห็นถึงความสัมพันธ์ทางพันธุกรรมที่แข็งแกร่งในความไวต่อวัณโรค (Comstock, 1978; Sorensen etal., 1988)อัตราความแตกต่างของความสอดคล้องของวัณโรคในหมู่ monozygous เมื่อเทียบกับ dizygous twins ได้รับการรายงานจากการศึกษาคู่แฝดเหล่านี้ในวัณโรคอัตราความสอดคล้องของวัณโรคในหมู่ฝาแฝด monozygotic (18/55, 32.7%) มากกว่าสองเท่า (อัตราต่อรองของความสอดคล้อง: 2.4; 95%CI: 1.44.0) ที่สังเกตได้ในหมู่ dizygotic twins (21/150, 14.0%)(Flynn, 2006; Sorensen etal., 1988)การประมาณการเหล่านี้ชี้ให้เห็นว่าปัจจัยทางพันธุกรรมอาจมีบทบาทสำคัญในความอ่อนแอของวัณโรคในการพิจารณาทั้งการตอบสนองของโฮสต์และผลลัพธ์ของการติดเชื้อ (Daniel, 1997; Kaufmann & McMichael, 2005)

84 4.2 วัสดุและวิธีการ

การศึกษาแบบกลุ่มหลายครั้งแสดงให้เห็นว่าอุบัติการณ์ของวัณโรคแตกต่างกันไปขึ้นอยู่กับประชากรและภูมิภาคที่ศึกษา (Dye etal., 1999; Small, 1996)ดังนั้นจึงเห็นได้ชัดว่าการวิเคราะห์ความสัมพันธ์ระหว่างบรรพบุรุษทางพันธุกรรมและฟีโนไทป์ในประชากรที่ได้รับการผสมเมื่อเร็ว ๆ นี้สามารถปรับปรุงการทำนายของโรคและให้ข้อมูลเชิงลึกที่สำคัญเกี่ยวกับพันธุศาสตร์ทางการแพทย์ (Kumar etal., 2010)ในการศึกษาเหล่านี้ Ku- mar และเพื่อนร่วมงานตรวจสอบว่าเปอร์เซ็นต์ที่กำหนดทางพันธุกรรมของบรรพบุรุษแอฟริกันนั้นเกี่ยวข้องกับการทำงานของปอดหรือไม่และการใช้งานสามารถปรับปรุงการทำนายการทำงานของปอดในประชากรแอฟริกันอเมริกัน (Kumar etal., 2010) ผลลัพธ์ของพวกเขาแนะนำบรรพบุรุษทางพันธุกรรมของพวกเขาออกแรงสำคัญในการปรับปรุงการประมาณการของฟังก์ชันปอดและจัดหมวดหมู่ความรุนแรงของโรคหอบหืดโดยรวมแล้วผลลัพธ์เหล่านี้ชี้ให้เห็นว่าแม้ในกลุ่มชาติพันธุ์ปัจจัยทางพันธุกรรมออกแรงที่สำคัญในความอ่อนแอดังนั้นการตรวจสอบความเสี่ยงโรคของบรรพบุรุษในประชากรที่มีการผสมผสานหลายทางอาจให้ข้อมูลเชิงลึกที่สำคัญสำหรับการวิจัยทางชีวการแพทย์อุบัติการณ์ที่สูงเป็นอันดับสองของวัณโรคในโลกอยู่ในเคปตะวันตกและภาคเหนือในแอฟริกาใต้โดยเฉพาะอย่างยิ่งในประชากรสีแอฟริกาใต้ที่ได้รับการผสม (Babb etal., 2007; Bellamy etal., 2000; Hoal etal., 2004)อย่างไรก็ตามความเสี่ยงของบรรพบุรุษยังไม่ได้รับการพิจารณาในประชากรกลุ่มนี้ด้วยบรรพบุรุษผสมในบทที่เมืองทาวน์เป้าหมายคือการประเมินบรรพบุรุษทางพันธุกรรมของตัวอย่างของผู้ป่วยวัณโรคและการควบคุมจากประชากรกลุ่มนี้ที่สำคัญเราตรวจสอบว่าการมีส่วนร่วมทางพันธุกรรมสามารถเพิ่มความชุกของวัณโรคและประเมินการมีส่วนร่วมของสถานะทางเศรษฐกิจและสังคมต่อความเสี่ยงของบรรพบุรุษนอกจากนี้เนื่องจากผู้อพยพที่เกิดจากที่ดินของ Sub-Saharan (West Andcape East) ชาวแอฟริกันเดิมตามด้วยผู้อพยพที่เกิดจากทะเลจากยุโรปเมื่อเร็ว ๆ นี้เอเชียโอฟและอินโดนีเซียความแตกต่างที่สังเกตได้ของสัดส่วนบรรพบุรุษของแต่ละบุคคลในกรณีวัณโรคและการควบคุมจากทั้งผู้พูดคลิก/แอฟริกาและที่ไม่ใช่แอฟริกา (ตารางที่ 4.4) มีความหมายโดยเฉพาะอย่างยิ่งในการตรวจสอบว่ามี SNP ทั่วไปที่มีความถี่อัลลีลขนาดใหญ่ระหว่าง TBกรณีและการควบคุมตัวอย่างจากประชากรสีแอฟริกาใต้

4.2 วัสดุและวิธีการ

4.2.1 บรรพบุรุษทางพันธุกรรมและความสัมพันธ์ความเสี่ยงวัณโรค

แบบสอบถามทางเศรษฐกิจและสังคม (SES) มีให้บริการสำหรับ 82 รายและรวมข้อมูลเกี่ยวกับรายได้สองประเภทต่อสัปดาห์และครัวเรือนต่อสัปดาห์รายได้เหล่านี้ถูกประเมินตามสกุลเงินของแอฟริกาใต้ (R)รายได้เหล่านี้ถูกเข้ารหัสดังนี้: 0 = R1000 และ 9 = หายไปเราคำนวณสัดส่วนของบรรพบุรุษสำหรับแต่ละคนจากประชากรบรรพบุรุษสมมุติโดยใช้ส่วนผสมของโปรแกรม (Alexander Etal., 2009)เราแยกกัน

85 4.2 วัสดุและวิธีการถดถอยสถานะวัณโรคกับสัดส่วนบรรพบุรุษทางพันธุกรรมจากประชากรบรรพบุรุษแต่ละคนเราประเมินความสัมพันธ์ระหว่างคู่ของประชากรบรรพบุรุษเพื่อควบคุมความสัมพันธ์ระหว่างบรรพบุรุษทางพันธุกรรมใน SAC ซึ่งอาจทำให้สับสนได้เราทดสอบความเสี่ยงของวัณโรค (ความเสี่ยงตามเงื่อนไข) ระหว่างคู่หรือประชากรสามคน

สมมติว่าβKและεKเป็นขนาดและข้อผิดพลาดมาตรฐานจากแบบจำลองการถดถอยของสัดส่วนของบรรพบุรุษ K ในประชากรที่ได้รับการผสมกับลักษณะไบนารีวัณโรคตามลำดับเพื่อทดสอบความแตกต่างของวัณโรคระหว่างคู่ของประชากรบรรพบุรุษ K และ L เราต้องปรับสถิติการทดสอบปกติภายใต้สมมติฐานว่างของไม่มีความเสี่ยงระหว่างประชากรบรรพบุรุษสองคนดังนั้นเราจึงคำนวณ zscore ของ di ff erence ในความเสี่ยง, z = (ββ)/√+(, k = l) kl k - l 6 ซึ่งมีการกระจายปกติมาตรฐาน z n (0, 1)เราคำนวณความน่าจะเป็น (สอง kl ∼ sided p-value = 2 (1 p (

การบัญชีสำหรับการลดการเบี่ยงเบนจากสมมติฐานปกติ SNPs ที่มีความถี่เล็กน้อย

86 4.3 ผลลัพธ์และการอภิปราย

เป็นค่าเฉลี่ยของความถี่อัลลีลตัวแปรทั้งสองที่สังเกตได้ (ราคา etal., 2009a)เช่นเดียวกับใน (Price et al., 2009a) มันเป็นไปตามนั้น

(pk pl) 2 u1 = i - i, (4.1a) kl 1 1 [(p (1 p) 2fst + +] - nk nl nl (pk pl) 2 u2 = i - i. (4.1b) kl p (1 p) - สมการ (4.1a) และ (4.1b) ด้านบนเป็นχ2กระจายด้วยเสรีภาพ 1 องศา (D.O.F. ) และสามารถนำไปใช้กับตัวอย่างที่ไม่เกี่ยวข้องและเกี่ยวข้องตามลำดับจากโมเดล NULL (สมการ (4.1a) และ (4.1b)) แนะนำการกระทำของการคัดเลือกโดยธรรมชาติ (ราคา etal., 2009a)

4.3 ผลลัพธ์และการสนทนาเมือง 4.3.1 ความสัมพันธ์ระหว่างความเสี่ยงวัณโรคและบรรพบุรุษทางพันธุกรรม

เพื่อตรวจสอบความสัมพันธ์ระหว่างบรรพบุรุษทางพันธุกรรมและสถานะวัณโรคในชุดข้อมูล SAC นี้เราได้ถดถอยสถานะการควบคุมกรณีกับสัดส่วนของ Isixhosa, Khomani, Gujarati, CHD Cape ‡และบรรพบุรุษ CEU ตามลำดับใน 733.1).เราสังเกตเห็นความสัมพันธ์ที่มีนัยสำคัญทางสถิติ (r = 0.165of หรือ 95%CI = 1.46 [1.23, 1.79], p = 1.58E 05) - ระหว่างบรรพบุรุษ Khomani และสถานะวัณโรคCEU (r = 0.122 หรือ 95% = 0.71 [0.58, 0.86], ‡‡ p = 0.000657), CHD (r = 0.13, หรือ 95% CI = 0.42 [0.26, 0.68], p = 0.000489)(r = 0.011 หรือ 95% = 0.65 [0.50, 0.85], p = 0.00192) บรรพบุรุษในถุงมีความสัมพันธ์เชิงลบ - มีความสัมพันธ์กับสถานะวัณโรค (ตารางที่ 4.1)มหาวิทยาลัย

87 ตารางที่ 4.1: ความสัมพันธ์ของบรรพบุรุษทางพันธุกรรมที่มีความเสี่ยงวัณโรคในประชากรสีแอฟริกาใต้ที่มีค่า p เล็กน้อยก่อนแก้ไขสมมติฐานที่ทดสอบแบบจำลอง (TB-ancestry) (รายได้ของบรรพบุรุษ) (รายได้ของบรรพบุรุษบ้าน)

ความสัมพันธ์ป๊อปหรือ 95% CI, ความสัมพันธ์ p-value, หรือ 95% CI, ความสัมพันธ์ p-value, หรือ 95% CI, p-value Khomani 0.165, 1.46 [1.23, 1.79], 1.58e 05 05 05, 1.00 [0.99, 0.991.02], 0.741 0.011, 1.01 [0.99, 1.04], 0.399 ‡ - - - isixhosa 0.06,1.11 [0.97, 1.30], 0.10 0.012, 0.99 [0.98, 1.02]- CEU 0.122,0.71 [0.58, 0.86], 0.0007 0.006, 0.99 [0.98, 1.01], 0.459 0.037,1.01 [0.98, 1.03], 0.689 - - - Gujarati 0.11,0.650.99, 1.01], 0.437 0.036,0.99 [0.97, 1.00], 0.0185 - - - เมือง CHB+JPT 0.123,0.42 [0.26, 0.68], 0.0005 0.014,1.00 [0.99, 1.01], 0.779 - - - -

88 Cape Table 4.2: ความสัมพันธ์ระหว่างสัดส่วนของบรรพบุรุษจากประชากรบรรพบุรุษสมมุติ (Isixhosa, Khomani, ‡ Ceu, CHD และ Gujarati ตามลำดับ) ของประชากรสีแอฟริกาใต้ตารางแสดงหรือ [95%CI] และค่า p ของความสัมพันธ์ของบรรพบุรุษมีความสัมพันธ์ระหว่างกลุ่มบรรพบุรุษทั้งหมดIsixhosa Ceu Gujarati CHD Khomani 0.9 [0.81, 0.91], 8.9e 07 0.7 [0.63, 0.74], 2e 16 0.5 [0.42, 0.52], 2e 16 0.2 [0.19, 0.28], 2e 16

‡ - - - - - การสนทนาและผลลัพธ์ 4.3 ISIXHOSA - 0.4 [0.38, 0.45], 2E 16 0.4 [0.33, 0.43], 2.2E 16 0.3 [0.19, 0.31], 2.2E 16 - - - CEU - - 1.4 [1.241.53], 2.9E 09 2.0 [1.68, 2.4], 4.9E 14 - - Gujarati - มหาวิทยาลัย - - 3.2 [2.8, 3.48], 2.2E 16 - 4.3 ผลลัพธ์และการอภิปราย

สัดส่วนบรรพบุรุษของ Isixhosa ไม่ได้มีความสัมพันธ์กันอย่างมีนัยสำคัญ (r = 0.06 หรือ 95%CI = 1.11 [0.97, 1.30], p = 0.10) ด้วยวัณโรคผลลัพธ์ที่คล้ายกันได้รับเมื่อรวมถึงอายุและเพศเป็น covariates ในการวิเคราะห์นอกจากนี้เรายังสังเกตเห็นความสัมพันธ์เชิงสถิติของอายุ (r = 0.165, p = 1.01e 05, อายุเฉลี่ย 37 ในกรณีและ 31 ในการควบคุม) ที่มีความเสี่ยงของวัณโรค- และไม่มีหลักฐานความสัมพันธ์ระหว่างเพศและความเสี่ยงวัณโรค (R= 0.039, p = 0.597)เราคำนวณ - ความสัมพันธ์ระหว่างส่วนของบรรพบุรุษจากประชากรบรรพบุรุษสมมุติเหล่านี้และพบความสัมพันธ์ระหว่างกลุ่มบรรพบุรุษทั้งหมด (ตารางที่ 4.2)เนื่องจากความสัมพันธ์ระหว่างเศษส่วนบรรพบุรุษของแต่ละบุคคล (ตารางที่ 4.2) เราตรวจสอบเพิ่มเติมว่าการทดสอบข้างต้นอาจทำให้เกิดความสับสนได้โดยการทดสอบความเสี่ยงในความเสี่ยงวัณโรค (การทดสอบความเสี่ยงตามเงื่อนไข) ระหว่างคู่/สามของประชากรบรรพบุรุษสำหรับคนอื่น ๆ ทั้งหมด (ดูวัสดุและวิธีการ)ผลการศึกษาของเราแสดงให้เห็นว่าบรรพบุรุษของแอฟริกา (Khomani, Isixhosa) ความเสี่ยงที่เกี่ยวข้องกับวัณโรคใน SAC นั้นไม่ได้มีความหมายอย่างมีเงื่อนไขเกี่ยวกับความเสี่ยงของบรรพบุรุษที่ไม่ใช่แอฟริกา (CEU และ CHD)ยกเว้นเชื้อสายอินเดีย (รัฐคุชราต) เชื้อสายเชื้อสายที่ไม่ใช่แอฟริกา (CEU และ CHD) ความเสี่ยงนั้นมีความสำคัญอย่างมากต่อความเสี่ยงต่อบรรพบุรุษของแอฟริกา (ตารางที่ 4.3)สิ่งที่เราได้แสดงคือ Isixhosa และ Khomani มีความสัมพันธ์กับความเสี่ยง‡มากกว่า CEU, CHD และ Gujarati และไม่ได้มีความหมายตามเงื่อนไขในทาวน์ตามลำดับ (ตารางที่ 4.1 และตารางที่ 4.3)CHD, Gujarati และ CEU ไม่ได้มีความหมายอย่างมีเงื่อนไขซึ่งกันและกันและมีความสัมพันธ์กับความเสี่ยงวัณโรค (ตาราง 4.1 และตารางที่ 4.3)เราเห็นว่า Khomani ให้ความเสี่ยง, CEU, ‡ CHD และ Gujarati Confer Protection และ Isixhosacape ไม่แสดงหลักฐานของความสัมพันธ์ (ตารางที่ 4.1)4.3.2 ความสัมพันธ์ระหว่างความเสี่ยงของวัณโรคและสถานะทางเศรษฐกิจและสังคม

ความกังวลที่อาจเกิดขึ้นคือความสัมพันธ์ที่สังเกตได้ระหว่างบรรพบุรุษทางพันธุกรรมและสถานะวัณโรคอาจเป็นผลมาจากการสับสนเนื่องจากสถานะทางเศรษฐกิจและสังคม (SES) ตามที่อธิบายไว้ในการศึกษาล่าสุดของโรคเบาหวานประเภท 2 ใน Latinos (Florez etal., 2009)เราตรวจสอบความเป็นไปได้นี้โดยการศึกษาตัวแปร SES สองตัว (ดูวัสดุและวิธีการ) รายได้ครัวเรือนและรายได้ส่วนบุคคลตัวแปรเหล่านี้มีอยู่ในกลุ่มย่อยของ 82 กรณีเมื่อทำการทดสอบความสัมพันธ์ระหว่างความหลากหลายของตัวแปรแต่ละตัวและบรรพบุรุษแต่ละตัวจะไม่มีผลลัพธ์ใดที่มีนัยสำคัญทางสถิติหลังจากแก้ไข 10 สมมติฐานที่ทดสอบ (ตารางที่ 4.1)อย่างไรก็ตามบรรพบุรุษ Khomani มีแนวโน้มที่ไม่ได้ลงนาม (หลังการแก้ไข) ไปสู่ความสัมพันธ์เชิงบวก‡ (95%r = 0.013 [0.018, 0.008] หรือ 95%CI = 1.00 [0.99, 1.02]- SESสิ่งนี้จะไม่อธิบายความสัมพันธ์ (95%r = 0.165 [0.046, 0.283]) และ (หรือ 95%CI = 1.46 [1.23, 1.79], p = 1.58E 05) ระหว่างเชื้อสาย Khomani และสถานะวัณโรคเหตุผล.ประการแรกความสัมพันธ์กับ SES นั้นเล็กกว่าความสัมพันธ์กับสถานะวัณโรคดังนั้นแม้ว่าสถานะวัณโรคจะถูกกำหนด 100% โดยสถานะ SES ซึ่งไม่น่าเป็นไปได้สูงความสัมพันธ์กับสถานะวัณโรคยังไม่สามารถอธิบายได้ประการที่สองความสัมพันธ์กับ SES นั้นผิด

89 4.3 ผลลัพธ์และการอภิปราย

ทิศทางที่จะอธิบายความสัมพันธ์ระหว่างบรรพบุรุษ Khomani และสถานะวัณโรคเนื่องจากสถานะวัณโรค‡มักจะเกี่ยวข้องกับ SES ต่ำ (Dewit etal., 2010b; Hudelson, 1996; WHO, 2004, 2005)เมื่อได้รับช่วงเวลาที่ได้รับ 95% จากความสัมพันธ์ระหว่าง SES และบรรพบุรุษจาก 82 ตัวอย่างที่วิเคราะห์และระหว่างบรรพบุรุษและวัณโรคตาม 733 ตัวอย่างที่ไม่เกี่ยวข้องนี้แสดงหลักฐานว่าไม่มีความสัมพันธ์เชิงลบระหว่างบรรพบุรุษ Khomani และ SES ‡การอธิบายความสัมพันธ์ระหว่างบรรพบุรุษ Khomani และสถานะวัณโรคใน‡ประชากรนี้ดังนั้นบรรพบุรุษที่สังเกตได้ระหว่างกรณีและการควบคุม (ตารางที่ 4.4) ไม่น่าจะเป็นผลโดยตรงจากสถานะทางเศรษฐกิจและสังคมในประชากรกลุ่มนี้

เมือง

แหลม

มหาวิทยาลัย

90 ตารางที่ 4.3: การทดสอบความเสี่ยงตามเงื่อนไขของประชากรบรรพบุรุษค่าในตารางคือค่า p หรือ [95%CI] จากการทดสอบที่แก้ไขและปรับสำหรับความแปรปรวนร่วมIsixhosa Khomani CEU CHD Gujarati ‡ Isixhosa - 0.001, 0.90 [0.86, 0.96] 0.0047, 0.91 [0.87, 0.97] 0.0003, 0.91 [0.87, 0.96] 0.005,0.75 [0.63, 0.88]] 0.0003, 0.9 [0.99, 1.0] 0.0002,0.75 [0.64, 0.87] ‡ CEU - - - 0.0001, 0.9 [0.99, 1.0] 6.4E 05, 0.73 [0.62, 0.85]0.63, 0.86] (Isixhosa, Khomani) - - 0.098, 0.9 [0.8, 1.01] 0.16,0.92 [0.81, 1.03] 0.001,0.72 [0.59, 0.88] ‡ (CEU, CHD) 0.0015, 0.89, 0.99 [0.95, 1.03]- 0.0006,0.75 [0.63, 0.88] (Gujarati, CHD) 3.5E 21,0.7 [0.65, 0.75] 1.1E 27,0.72 [0.68, 0.88] 5.4E 25, 0.75 [0.75เมือง 0.79] - - - - - - (CEU, Gujarati) 0.03,0.92 [0.85, 0.99] 0.88,0.99 [0.94, 1.1] 0.97,0.99 [0.94, 1.1] (CEU, Gujarati, CHD) 0.002,0.920.97] 0.003,1.0 [0.99, 1.0] - - - อื่น ๆ ทั้งหมด 0.0006,0.92 [0.87, 0.96] 0.0007,0.95 [0.9, 0.96] 1.02,0.97 [0.9, 0.99] 1.007,0.97 [0.91, 0.99, 0.99[0.63, 0.87]

91 Cape ofการอภิปรายและผลลัพธ์ 4.3

มหาวิทยาลัย 4.4 บทสรุป

4.3.3 ความผิดปกติที่ผิดปกติในความถี่อัลลีลจากการศึกษากรณีควบคุมวัณโรคใน SAC

เราคำนวณความแตกต่างระหว่างเศษส่วนบรรพบุรุษในกรณีวัณโรคและการควบคุมจากแต่ละประชากรบรรพบุรุษสมมุติเหล่านี้ตารางที่ 4.4 แสดงผลลัพธ์เหล่านี้เราสังเกตเห็นว่ากรณีวัณโรคมีส่วนประกอบแอฟริกาที่สูงขึ้นเล็กน้อย (Khomani และ Isixhosa) ในขณะที่‡การควบคุมมีผลงานที่ไม่ใช่แอฟริกา (CEU, Gujarati และ CHD) มากขึ้น

ตารางที่ 4.4: ค่าเฉลี่ยและข้อผิดพลาดมาตรฐานของสัดส่วนบรรพบุรุษจากประชากรแต่ละคนที่มีส่วนร่วมในการผสมในสีของแอฟริกาใต้ (โดยใช้การควบคุม 90 และ 623 กรณี)ISIXHOSA KHOMANI CEU CHD GIH ‡การควบคุม 0.29 0.16 0.24 0.11 0.22 0.12 0.09 0.04 0.15 0.07 ±±±±±± case 0.32 0.31 0.313 0.313 0.313 0.18 0.07 0.313 0.18 0.08 ±±± Town ±±เราตรวจสอบว่ามี SNP ทั่วไปส่วนเกินที่มีความถี่อัลลีลขนาดใหญ่ระหว่างกรณี SAC และบุคคลควบคุมหรือไม่เราคำนวณการกระจายตัวของอัลลีลความถี่แตกต่างกันระหว่างกรณี SAC 761 และบุคคลที่ควบคุม 91 ซึ่งแสดงเป็นสถิติχ2 (1 D.O.F. ) ภายใต้รูปแบบของการดริฟท์ทางพันธุกรรมที่เป็นกลาง (ดูหัวข้อ 4.2.2)ค่า p ที่มีนัยสำคัญที่สุดคือ E 04 ค่าที่ไม่ได้มีนัยสำคัญทางสถิติหลังจากแก้ไขหมายเลข-ของ SNPs และภูมิภาคที่ทดสอบแล้วผลลัพธ์นี้สอดคล้องกับสมมติฐานที่ว่าวันที่ของเหตุการณ์การผสมในการผลิต SAC นั้นล่าสุดและสั้นเกินไปสำหรับกองกำลังคัดเลือกที่แตกต่างกันเพื่อให้มีผลกระทบอย่างมีนัยสำคัญต่อความถี่อัลลีล

4.4 บทสรุปโดยสรุปเราใช้การรวมกันของสองวิธีเสริมเพื่อตรวจสอบว่าการมีส่วนร่วมทางพันธุกรรมจากประชากรบรรพบุรุษโดยเฉพาะสามารถเพิ่มความเสี่ยงต่อวัณโรคและประเมินผลการมีส่วนร่วมของสถานะทางเศรษฐกิจและสังคมถุงผลลัพธ์ของเราแสดงให้เห็นถึงหลักฐานที่สำคัญของความสัมพันธ์ระหว่างเชื้อสาย Khoesan (Khomani) และสถานะวัณโรคที่ไม่ได้รับความสับสนโดย SESนี่เป็นผลลัพธ์ที่สำคัญของโรคระบาดและแสดงให้เห็นถึงคุณค่าของการรวมวิธีการเชื่อมโยงส่วนผสมในชุดของวิธีการที่ใช้ในการดำเนินการศึกษาความสัมพันธ์ของวัณโรคในประชากรกลุ่มนี้เมื่อมีการพิจารณาอุบัติการณ์ที่สูงมากของวัณโรคในประชากร SAC พร้อมกับเราว่าเปอร์เซ็นต์ของบรรพบุรุษของพวกเขาได้มาจาก Khomani และประชากรแอฟริกาอื่น ๆ ‡อื่น ๆ

92 4.4 บทสรุปเป็นไปได้ว่าอาจมีองค์ประกอบของความอ่อนแอทางพันธุกรรมในระดับประชากรต่อโรคนี้การศึกษาของเราคือการสอบสวนครั้งแรกของความเสี่ยงต่อบรรพบุรุษในประชากรกลุ่มนี้นอกจากนี้แบบจำลองที่แนะนำสำหรับการประเมินหลักฐานที่เป็นไปได้ของ SNP ทั่วไปส่วนเกินที่มีความถี่อัลลีลขนาดใหญ่สามารถนำไปใช้กับประชากรคู่ใดก็ได้เพื่อตรวจจับลายเซ็นของการคัดเลือกโดยธรรมชาติ

เมือง

แหลม

มหาวิทยาลัย

93 บทที่ 5

การสแกนจีโนมกว้างสำหรับความเสี่ยงวัณโรคในประชากรสีแอฟริกาใต้

เมือง 5.1 บทนำ

ดังที่ได้กล่าวไว้ในบทก่อนหน้าอุบัติการณ์ที่สูงเป็นอันดับสองของวัณโรคในโลกอยู่ในเคปตะวันตกตะวันออกและเหนือในแอฟริกาใต้เคปโดยเฉพาะอย่างยิ่งในประชากรสีแอฟริกาใต้ (SAC)การตรวจสอบจากการศึกษายีนของผู้สมัครและการสแกนการเชื่อมโยงทั่วทั้งจีโนมบนข้อมูลของประชากรที่มีสีแอฟริกาใต้ได้ดำเนินการก่อนหน้านี้ (Hoal etal., 2004; Moller & Hoal, 2010a, b; Moller etal., 2009)Babb etal(2007) ตรวจสอบกลุ่มผู้ป่วยวัณโรคปอดในประชากรแอฟริกาใต้เพื่อตรวจสอบว่ามีความหลากหลายสามประการของยีนรับวิตามินดี (VDR) คือ polymorphisms foki ซึ่งเป็นที่รู้จักกันดีว่าเป็น polymorphism ที่ใช้งานได้Taqi หรือที่รู้จักกันในชื่อ polymorphism เงียบ (t/c) ที่ตั้งอยู่ใน exon ix มีความสัมพันธ์กับความไวต่อวัณโรคจากการวิเคราะห์ของพวกเขาพวกเขารายงานว่าไม่มีความสัมพันธ์อย่างมีนัยสำคัญระหว่างวัณโรคปอดและความหลากหลายของ VDRอย่างไรก็ตาม haplotype ไขมันได้รับการรายงานว่าอาจจะป้องกันวัณโรคเนื่องจากเป็นตัวแทนที่ผิดปกติในการควบคุมเมื่อเทียบกับกรณีในหลอดเลือดดำเดียวกัน Hoal etal(2004) ตรวจสอบความสัมพันธ์ระหว่าง SLC11A1 (NRAMP1) ความหลากหลายและความไวต่อวัณโรคและความหลากหลายใน SLC11A2 นั้นเกี่ยวข้องกับวัณโรคหรือไม่การออกแบบการศึกษาแบบควบคุมกรณีของพวกเขาขึ้นอยู่กับข้อมูลจากภูมิภาคเวสเทิร์นเคปของแอฟริกาใต้และชานเมืองบางแห่งของเมืองเคปทาวน์พวกเขารายงานว่าอัลลีล 5 (GT) 9 ในโปรโมเตอร์ของ SLC11A1 นั้นเกี่ยวข้องกับการป้องกันวัณโรคในประชากรส่วนใหญ่ที่ศึกษาน่าแปลกใจที่ SLC11A2 (NRAMP2) polymorphism ไม่เกี่ยวข้องกับความอ่อนแอต่อวัณโรคในชุมชนที่มีเหตุการณ์สูงของแอฟริกาใต้ซึ่งรวมถึง SACแม้ว่าวัณโรคต้นเหล่านี้

94 5.1 บทนำ

การศึกษาทางพันธุกรรมเกี่ยวกับ SAC นั้นถูก จำกัด ไว้ที่เครื่องหมายที่โดดเด่นภายในยีนส่วนใหญ่ไม่สามารถสังเกตความสัมพันธ์ทางสถิติกับเครื่องหมายที่ตรวจสอบและส่งผลให้ผลลัพธ์ไม่สามารถสรุปได้ (Moller & Hoal, 2010a, b)ยิ่งไปกว่านั้นการใช้เครื่องหมายควบคุมจีโนมน้อยเกินไปเพื่อแก้ไขโครงสร้างย่อยของประชากรที่มีศักยภาพในการศึกษาส่วนใหญ่เช่น Dewit etal(2010b) และ Barreiro etal(2006), อาจส่งผลให้ไม่ได้แก้ไขอคติ (เท็จบวก/ลบ) ในผลลัพธ์ตามที่กล่าวไว้ใน Marchini & Howie (2008)การใช้ SNP ไม่เพียงพอในการจับภาพความไม่สมดุลของการเชื่อมโยงในถุง admixed อาจเป็นพลังในการตรวจจับการเชื่อมโยง sig-ni ในการวิเคราะห์เหล่านี้แม้จะมีความล้มเหลวบางอย่างการศึกษาความสัมพันธ์ทางพันธุกรรมเพียงไม่กี่ครั้งก็มียีนผู้สมัครสำหรับความอ่อนแอของวัณโรคโดยใช้ข้อมูลจากประชากรสีแอฟริกาใต้ที่ได้รับการผสม (Moller & Hoal, 2010a) แต่เมื่อเร็ว ๆ นี้ Gwas สำหรับวัณโรคยังไม่ได้รับการพิจารณาในประชากรกลุ่มนี้เทคนิคจีโนไทป์และวิธีการทางสถิติขั้นสูงทั่วทั้งจีโนมส่งผลให้การย้ายจากวิธีการวิเคราะห์ความสัมพันธ์ตามยีนของผู้สมัครไปสู่การศึกษาความสัมพันธ์ทั่วทั้งจีโนม (GWAS)GWAS ไม่จำเป็นต้องมีสมมติฐานก่อนหน้านี้ที่เกี่ยวข้องกับยีนที่เกี่ยวข้องกับโรคหรือความรู้เกี่ยวกับยีนที่ไวต่อความไวหรือการทำงานของยีน (Hirschhorn & Daly, 2003; Kennedy etal., 2003; Risch, 2000)จากการตรวจสอบล่าสุดเกี่ยวกับ GWAS ใน Rosenbergtownet Al(2010), GWAS ประสบความสำเร็จในการระบุตัวแปรทางพันธุกรรมที่นำไปสู่โรคที่ซับซ้อนของมนุษย์ส่วนใหญ่ในประชากรยูโรพีนกระจายความสำเร็จเหล่านี้ความท้าทายทางเทคนิคที่เป็นไปได้ด้วยการใช้ประชากรที่ไม่ใช่ชาวยุโรปโดยเฉพาะอย่างยิ่งประชากรแอฟริกาสำหรับ GWAS ได้รับการถกเถียงกันเมื่อเร็ว ๆ นี้ใน Rosenberg etal(2010)ความท้าทายเหล่านี้รวมถึง: ความไม่สมดุลของการเชื่อมโยงที่เล็กลง (LD) ระหว่างตัวแปรในประชากรแอฟริกันส่งผลให้มีการ จำกัด การครอบคลุมของแผงการเปลี่ยนแปลงทั่วไปของพวกเขา;และความสามารถในการพกพาจีโนไทป์และการพกพา TAG-SNP โดยทั่วไปขึ้นอยู่กับประชากร HAPMAP อาจลดลงเนื่องจากระดับของโครงสร้างประชากรและความหลากหลายทางพันธุกรรมในประชากรแอฟริกาทั้งๆที่มีข้อ จำกัด เหล่านี้ในการใช้ประชากรที่ไม่ใช่ยุโรปสำหรับ GWAS คลื่นล่าสุดของการศึกษา GWA ในประชากรที่ไม่ใช่ยุโรปเริ่มประสบความสำเร็จความสำเร็จของ GWAS ที่ไม่ใช่ยุโรปรวมถึงการสืบสวนเรื่องญี่ปุ่น (Unoki & Et.al, 2008; Yasuda & Et.al, 2008), เกาหลี (Cho etal., 2009; Kim & Et.al, 2009), จีน (Garcia-Barceloa etอัล, 2009;ความคืบหน้าในการระบุตัวแปรทางพันธุกรรมที่มีส่วนร่วมใหม่ผ่าน GWAS ในความอ่อนแอของโฮสต์ในแอฟริกาต่อโรคติดเชื้อเช่นวัณโรคได้ช้าและอ่อนแอลงเนื่องจากการออกแบบการศึกษา (Moller & Hoal, 2010a, b; Stein, 2011)ของประชากรที่อยู่ภายใต้การศึกษาและ SNPs ที่มีจีโนไทป์จำนวนน้อย (300K-500K)อย่างไรก็ตามผู้ร่วมงานและเพื่อนร่วมงานได้ดำเนินการ GWAS รวมกันเพื่อตรวจสอบความไวของโฮสต์ต่อวัณโรคปอดโดยใช้ 2, 100 กรณีและ 3, 000 การควบคุมจากประชากรแอฟริกันในกานาและแกมเบียมาลาวี (etal., 2010)SNP เดียวในโครโมโซม 18Q11 พบว่าเกี่ยวข้องกับโรคเมื่อเร็ว ๆ นี้ etal ของเจ้า(2012)

95 5.1 บทนำ

รายงานความไวต่อวัณโรคใหม่บนโครโมโซม 11P13 หลังจากการใส่ข้อมูลจีโนมกว้างจากกานาสิ่งนี้ถูกจำลองแบบในตัวอย่างจากแกมเบียอินโดนีเซียและรัสเซีย (Thye etal., 2012)นอกจากนี้ Davila etal(2008) ระบุความหลากหลายสี่แบบในยีน TLR8 บนโครโมโซม X รวมถึง RS3764880, RS3764879, RS3761624 และ RS3788935 ที่เกี่ยวข้องกับความไวต่อวัณโรค;สมาคมถูกจำลองแบบในเพศชายจากการติดตามผลจากรัสเซีย (Davila etal., 2008)เมื่อเร็ว ๆ นี้การศึกษาโดย Dai etal(2011) ใช้กลุ่มผู้ป่วยวัณโรคชาวจีนมากกว่าหนึ่งพันคนและการควบคุมสุขภาพ 280 ครั้งโดยใช้การวิเคราะห์การเปลี่ยนจีโนไทป์ของอัลลีล-สเปกตรัมเพื่อตรวจสอบว่าการระบุ SNP ใน etal ของเจ้าหรือไม่(2010) เกี่ยวข้องกับวัณโรคในประชากรจีนที่สำคัญ SNP RS4331426 ในโครโมโซม 18Q11 นั้นมีความสัมพันธ์อย่างมีนัยสำคัญกับวัณโรคในประชากรจีน แต่ e ff ect นั้นตรงกันข้ามกับการ etal ของเจ้า(2010)ดังที่ได้กล่าวไว้ข้างต้นการศึกษาความสัมพันธ์ทางพันธุกรรมเพียงไม่กี่อย่างที่เกี่ยวข้องกับยีนของผู้สมัครในความไวต่อวัณโรคจากข้อมูลของประชากรสีแอฟริกาใต้ที่ได้รับการผสม แต่จนกระทั่งเมื่อไม่นานมานี้SAC มีบรรพบุรุษผสมย้อนกลับไปกว่า 350 ปีจากประชากรต่าง ๆ (ดูบทที่ 2)การเปลี่ยนแปลงนี้ในหมู่บุคคลที่ได้รับการผสมผสานในสัดส่วนของบรรพบุรุษของพวกเขาอาจส่งผลให้เกิดการเชื่อมโยงระหว่างจีโนไทป์และฟีโนไทป์ (Marchini & Howie, 2008; Rosenberg et al., 2010)ผู้เขียนบางคนยืนยันว่าการใช้ประชากร ampixed ใน GWAS นั้นเหมือนกับการใช้ประชากรย่อยที่แตกต่างกันในประชากรที่มีขนาดใหญ่ขึ้น (Marchini & Howie, 2008; Rosenberg et al., 2010)โชคดีที่ GWAS ที่ออกแบบมาอย่างดีและเครื่องมือทางสถิติสามารถควบคุมความสัมพันธ์ที่เป็นบวก/ลบเนื่องจากโครงสร้างประชากรและบรรพบุรุษในท้องถิ่น (Qin et al., 2010; Redden etal., 2006; Rosenberg & Nordborg, 2006; Setakis etal.2549;นอกจากนี้ถึงแม้ว่า LD ระหว่าง SNPs ในประชากรที่ได้รับการผสมเมื่อเร็ว ๆ นี้สามารถแตกต่างกันได้ แต่พวกเขาก็มี LD ที่มากขึ้นในฐานะประชากรใหม่เมื่อเทียบกับประชากรแอฟริกาโบราณที่เก่ากว่า (เช่นโยรูบา, กานา, แกมเบีย) ดังนั้นทั้ง GWAS และจีโนไทป์เมื่อเร็ว ๆ นี้ประชากรที่ได้รับการผสมเป็นไปได้GWAS ของประชากร ampixed ได้รับการเสนอให้เป็นข้อมูลสำหรับโรคที่มีความเสี่ยงขึ้นอยู่กับความหลากหลายของความชุกของบรรพบุรุษ (Pasaniuc etal., 2011; Seldin etal., 2011)วิธีการล่าสุดเหล่านี้เกี่ยวข้องกับการสร้างแบบจำลองร่วมของส่วนผสม (บัญชีสำหรับบรรพบุรุษท้องถิ่น) และสัญญาณสมาคม SNPวิธีการล่าสุดได้แสดงให้เห็นในการจำลองและข้อมูลจริง (Pasaniuc etal., 2011), เพิ่มพลังทางสถิติที่เพิ่มขึ้นเมื่อเทียบกับการใช้ SNP case-control และ Admixture Association (Pasaniuc etal., 2011)นอกจากนี้การประมาณการของบรรพบุรุษที่ถูกต้องและไม่เอนเอียงในทุก SNP ในประชากรหลายทางได้รับการแนะนำให้ให้ข้อมูลเชิงลึกที่สำคัญในการระบุยีนโรคในประชากรเหล่านี้ (Baran etal., 2012; Pasaniuc et al., 2011; Seldin etal, 2011)อย่างไรก็ตามความแม่นยำของการอนุมานส่วนใหญ่ของวิธีการบรรพบุรุษในท้องถิ่นซึ่งเป็นหนึ่งในขั้นตอนแรกในการศึกษาสมาคมส่วนปลายเหล่านี้มี จำกัด เมื่อ

96 5.2 วัสดุและวิธีการ

การใช้ประชากรหลายทางเช่น SACการสร้างแบบจำลองร่วมกันของสัญญาณ Admixture และ SNP จะประสบความสำเร็จก็ต่อเมื่อนำไปใช้กับประชากรสองทางเช่นแอฟริกัน-อเมริกัน (Pasaniuc etal., 2011; Seldin etal., 2011)นอกจากนี้วิธีการที่พัฒนาขึ้นสำหรับการให้คะแนนโรคในประชากร ampixed ประสบความสำเร็จในการนำไปใช้กับประชากรสองหรือสามทางเช่นชาวแอฟริกันอเมริกันและชาวอเมริกันเชื้อสายฮิสแปนิก แต่ไม่ได้ใช้กับประชากรหลายทาง (Kang etal., 2010; Pasaniuc etal.., 2011)ที่นี่จุดสนใจหลักของเราคือการระบุสัญญาณการเชื่อมโยงที่เป็นไปได้ในประชากรที่มีสีหลายทางเพื่อแก้ไขปัญหานี้เราดำเนินการ GWAS ด้วยการแก้ไขบรรพบุรุษทั่วทั้งจีโนมคิดเป็นทั้งกลุ่มประชากรและความเกี่ยวข้องที่ซ่อนอยู่ซึ่งอาจเป็นผลมาจากลำดับวงศ์ตระกูล

5.2 วัสดุและวิธีการ

5.2.1 การศึกษาประชากรการควบคุมคุณภาพ

เนื่องจากอุบัติการณ์สูงของวัณโรคในเขตเมืองเคปทาวน์ในจังหวัดเวสเทิร์นเคปในแอฟริกาใต้เช่นเดียวกับเชื้อชาติเครื่องแบบสถานะทางสังคม-เศรษฐกิจและความชุกของเอชไอวีต่ำพื้นที่นี้ได้รับเลือกสำหรับการสุ่มตัวอย่าง (Hirschhorn2546)นี่เป็นเพราะเหตุผลดังต่อไปนี้: (1) ชาติพันธุ์และสถานะทางเศรษฐกิจและสังคมมีความสำคัญในการศึกษาความสัมพันธ์ของโรคเนื่องจากจะลบตัวแปรที่ทำให้สับสนบางอย่างของ (2) ความชุกของเอชไอวีต่ำเป็นสิ่งสำคัญเพราะการปรากฏตัวของเอชไอวีการติดเชื้อบุคคลมีโอกาสเพิ่มขึ้นอย่างมากในการพัฒนาโรควัณโรคเมื่อติดเชื้อเพียงเพราะระบบภูมิคุ้มกันบกพร่องและไม่จำเป็นต้องเป็นเพราะความอ่อนแอทางพันธุกรรม

ในการดำเนินการ GWAS เราใช้ชุดข้อมูลที่ได้จากการควบคุมคุณภาพ descibed ในบทที่ 2 (ในส่วนที่ 2.2.1)มหาวิทยาลัย 5.2.2 การวิเคราะห์สมาคม

การทดสอบสมาคมดำเนินการในชุดข้อมูลเต็มรูปแบบของ 888 บุคคลซึ่งมีบุคคลที่เกี่ยวข้องเพื่ออธิบายถึงทั้งกลุ่มประชากรและความเกี่ยวข้องที่ซ่อนอยู่ซึ่งอาจเป็นผลมาจากลำดับวงศ์ตระกูลเราใช้ Emmax (Kang etal., 2010) ซึ่งแก้ไขความสัมพันธ์เหล่านี้ในระหว่างการแมปสมาคมเราใช้ Emmax-kin ครั้งแรกเพื่อคำนวณเมทริกซ์ความสัมพันธ์แบบคู่ที่ชาญฉลาดจากชุดข้อมูลของเราซึ่งแสดงถึงโครงสร้างของตัวอย่างของเราEmmax ประเมินการมีส่วนร่วมของโครงสร้างตัวอย่างไปยังฟีโนไทป์วัณโรคโดยใช้โมเดลองค์ประกอบความแปรปรวนส่งผลให้เมทริกซ์ความแปรปรวนร่วมของฟีโนไทป์โดยประมาณ

97 5.3 ผลลัพธ์: การศึกษาสมาคมในประชากรสีแอฟริกาใต้

ความสัมพันธ์ทางพันธุกรรมกับฟีโนไทป์ของวัณโรค เราใช้ EMMAX กับข้อมูลฟีโนไทป์ของวัณโรคโดยใช้เมทริกซ์ความแปรปรวนร่วมโดยประมาณเพื่อตรวจหาความสัมพันธ์ที่เป็นไปได้ เพื่อพิจารณาถึงตัวแปรที่หายากซึ่ง EMMAX ไม่สามารถระบุได้อย่างเพียงพอ เราทำการทดสอบ Fisher's Exact แยกต่างหาก ซึ่งทราบกันว่าเหมาะสมสำหรับ SNP ที่หายาก (Purcell etal., 2007) เพื่อปรับการศึกษาความสัมพันธ์ของเราตามเพศและอายุ เรายังใช้ EMMAX ที่มีทั้งเพศและอายุเป็นตัวแปรร่วมด้วย ในการรายงาน SNP ที่สำคัญที่สุดที่เกี่ยวข้องกับวัณโรค ค่า p-value จากชุดข้อมูล GWAS ที่ได้รับได้รับการประเมิน และกำหนดให้ m SNPs สำหรับการเชื่อมโยงกับวัณโรค เราคาดว่าประมาณ m 0.05 จะมีค่า × p-value น้อยกว่า 0.05 ในแต่ละชุดข้อมูล ดังนั้นสำหรับข้อมูลจีโนไทป์ เราจึงพิจารณาระดับนัยสำคัญทั้งจีโนม 0.05 ที่ α = 2 ม.

5.3 ผลลัพธ์: การศึกษาสมาคมในประชากรสีแอฟริกาใต้

ความแตกต่างในบรรพบุรุษของจีโนมกว้างระหว่างกรณี SAC และการควบคุม (ตารางที่ 4.4) แสดงให้เห็นว่าการแก้ไขบรรพบุรุษทั่วทั้งจีโนมนั้นมีความสำคัญอย่างยิ่งเมื่อทำการแสดง GWAS (ราคา etal., 2010)ดังนั้นเราจึงทำการวิเคราะห์ PCA ของตัวอย่าง SAC 888 พร้อมกับตัวอย่างจากประชากรบรรพบุรุษ 5 คน (รูปที่ 5.1)โดยการถดถอยค่า eigenvectors ครั้งแรกและครั้งที่สองกับสถานะ 06 กรณี/ควบคุมวัณโรคเราได้รับค่า p-values ​​ที่มีนัยสำคัญ = 3.7E− และ 0.002 ตามลำดับตามที่เราคาดไว้ PCA ในรูปที่ 5.1 เผยให้เห็นความแตกต่างทางพันธุกรรมที่ยิ่งใหญ่ที่สุดระหว่างบรรพบุรุษพร็อกซีและถุงอยู่ในตัวเรือนูนของทั้งสาม (GIH, CEU และ JPT-CHB)) และประชากร GIHจากการสังเกตส่วนประกอบหลักครั้งแรกที่แตกต่างจากกรณีและการควบคุมของ TB ของ SAC ซึ่งกรณีวัณโรคส่วนใหญ่จะถูกรวมเข้ากับบรรพบุรุษของแอฟริกาและควบคุมต่อบรรพบุรุษที่ไม่ใช่แอฟริกาสิ่งนี้แสดงให้เห็นถึงหลักฐานของความสำคัญในบรรพบุรุษทางพันธุกรรมระหว่างกรณีและการควบคุมซึ่งสอดคล้องกับผลลัพธ์ในตารางที่ 4.4 และแนะนำความจำเป็นในการอธิบายถึงชั้นเมื่อดำเนินการ GWAS ในประชากรกลุ่มนี้หลังจากการควบคุมคุณภาพความหลากหลาย (อธิบายไว้ในส่วนที่ 2.2.1) เราได้ทำการแมปการเชื่อมโยงสำหรับวัณโรคโดยใช้ Emmax (Kang etal., 2010), Lambda ควบคุมจีโนมจาก GWAS ที่ได้รับ

ชุดข้อมูลคือλgc = 1.05 (รูปที่ 5.2)ดังที่แสดงในรูปที่ 5.3 SNP บนโครโมโซม 14q24.2, RS17175227 (P = 8.99E 09 และ-หรือ = 0.141) ดูเหมือนจะเป็นสัญญาณความสัมพันธ์ที่มีนัยสำคัญทางจีโนมSNP RS17175227 มีความถี่อัลลีลน้อยต่ำที่ 0.01642เราทำการทดสอบที่มีการปรับเทียบอย่างดีสำหรับ SNP ที่หายากซึ่งเป็นการทดสอบที่แน่นอนของฟิชเชอร์เพื่อดูว่า SNP ที่เฉพาะเจาะจงจะยังคงมีความสำคัญทั่วทั้งจีโนมหรือไม่ผลการวิจัยชี้ให้เห็นว่า rs17175227 ไม่ใช่ signi fi cant (p = 2.77e 06 หรือ = 0.141)-(รูปที่ 5.4)ไม่มีหอคอยของ SNPs ที่เชื่อมโยงอื่น ๆ ที่เกี่ยวข้องกับ Rs17175227 ซึ่งจะ

98 5.3 ผลลัพธ์: การศึกษาสมาคมในประชากรสีแอฟริกาใต้

รูปที่ 5.1: การวิเคราะห์ PCA ของกรณี 797 ของ SAC และบุคคลควบคุม 91 คนเป็นกลุ่มที่แตกต่างกันภายในประชากรบรรพบุรุษสมมุติองค์ประกอบหลักครั้งแรกที่แตกต่างกันเป็นกรณีและการควบคุมของ SAC ซึ่งกรณีวัณโรคส่วนใหญ่ถูกรวมเข้ากับบรรพบุรุษของแอฟริกาและการควบคุมต่อบรรพบุรุษที่ไม่ใช่แอฟริกาและถุงนอนอยู่ในตัวเรือนูนคาดว่าจะมีความสัมพันธ์ที่แท้จริงใน GWASนอกจากนี้ Cape นี้ยังเน้นถึงความท้าทายที่สำคัญในการวิเคราะห์ความสัมพันธ์ของสายพันธุ์ความถี่ต่ำ (1 5%) ซึ่งมักจะบรรลุจีโนมกว้าง-ความหมายในการทดสอบมาตรฐานเช่นการเชื่อมโยงแบบจำลองแบบผสมหรือการถดถอยโลจิสติกการทดสอบเหล่านั้นในกรณีของตัวแปรความถี่ต่ำที่นี่เราได้จัดการกับความท้าทายนี้โดยการคำนวณ Fishers การทดสอบที่แน่นอน p-values ​​สำหรับตัวแปรที่บรรลุค่า p-values ​​แบบจำลองที่มีนัยสำคัญที่สุดจากฐานข้อมูล Genecard (http://www.genecards.org/), SNP RS17175227 นั้นเชื่อมโยงกับยีน SMOC1 และ SLC8A3ยีน SMOC1 เป็นที่รู้จักกันในการเข้ารหัสโปรตีนที่อาจมีความสำคัญในการพัฒนาแขนขาและการกลายพันธุ์ในยีนนี้เกี่ยวข้องกับ microphthalmia และความผิดปกติของแขนขาอย่างไรก็ตาม SLC8A3 เข้ารหัสสมาชิกของตระกูลโปรตีนเมมเบรนอินทิกรัลโซเดียม/แคลเซียมการกลายพันธุ์ใน SLC8A3 ทำให้ทั้ง ophthalmoplegia (ประเภทของความผิดปกติของการเคลื่อนไหวของดวงตา) และการเริ่มต้นของ ataxia (http://www.labome.com/) และยังเกี่ยวข้องกับการลดลงของไมโตคอนเดรียโรค Autosomal ที่สืบทอดมาซึ่งเกี่ยวข้องกับระดับเซลล์ที่ลดลงอย่างไม่มีการลดของ DNA ยลในวัยเด็ก (Blake etal., 1999)เครื่องหมายทางพันธุกรรมเพิ่มเติม 36 รายการที่มี 05 06 ค่า p ชี้นำ (10− ถึง 10−) ที่ไม่รอดชีวิตจากความหมายของจีโนมกว้างทั่วทั้งจีโนมแสดงอยู่ในตาราง 5.1

99 5.4 การอภิปรายและข้อสรุป

เมือง

รูปที่ 5.2: พล็อต Q-Q ของประชากรชั้นเรียนของกลุ่มเพื่อเปรียบเทียบการกระจายของค่า p ที่สังเกตได้กับการกระจายที่คาดหวัง: เส้นสีแดงล่างแสดงเปอร์เซ็นไทล์ที่ 90 ในขณะที่ส่วนบนหมายถึงจุดแหลมค่าλGCบ่งชี้ว่ามีประชากรส่วนที่เหลืออยู่ในชั้นเรียน (หลังการแก้ไข) ซึ่งน้อยที่สุดจาก 5.4 การอภิปรายและข้อสรุป

เราดำเนินการวิเคราะห์ความสัมพันธ์ของจีโนมทั่วทั้งผู้ควบคุมวัณโรคจากประชากรสีแอฟริกาใต้ที่ได้รับการผสมซึ่งส่งผลให้เกิดการระบุตัวแปรความถี่ต่ำที่ SNP RS17175227ได้ผลลัพธ์ที่คล้ายกันเมื่อรวมถึงอายุและเพศเป็น covariates ในการวิเคราะห์ (ตารางที่ 5.1). University เนื่องจากการกระจายแบบไม่สมบูรณ์แบบของการเชื่อมโยงแบบจำลองแบบผสมหรือการถดถอยโลจิสติกในกรณีเฉพาะของตัวแปรความถี่ต่ำซึ่งมักจะไปถึงจีโนมกว้างSigni fi cance;เราคำนวณค่าการทดสอบที่แน่นอนของฟิชเชอร์สำหรับตัวแปรที่ได้รับค่า p-myter ที่มีความหมายมากที่สุดสิ่งนี้ส่งผลให้ Rs17175227 ไม่ถึงการตัดจีโนมทั่วทั้งจีโนมพลังงานในการตรวจจับการเชื่อมโยงเป็นฟังก์ชั่นของความถี่อัลลีลและตัวแปรที่หายากจะถูก underpowered เมื่อขนาดตัวอย่างมี จำกัดอย่างไรก็ตามเนื่องจากโมเดลผสมในปัจจุบันหรือการเชื่อมโยงการถดถอยโลจิสติกไม่ได้อธิบายถึงตัวแปรที่หายากเราจึงได้กล่าวถึงความท้าทายนี้โดยการคำนวณ Fishers การทดสอบที่แน่นอน p-values ​​สำหรับตัวแปรที่ได้รับการเชื่อมโยงแบบจำลองแบบผสมที่มีนัยสำคัญที่สุดที่สำคัญการทดสอบที่แน่นอนของฟิชเชอร์ช่วยให้เราแสดงให้เห็นว่าตัวแปรที่หายาก

100 5.4 การอภิปรายและข้อสรุป

เมือง

รูปที่ 5.3: พล็อตแมนฮัตตันพล็อตการวิเคราะห์ความสัมพันธ์ของจีโนมทั่วทั้งจีโนมในสีของแอฟริกาใต้จากชุดข้อมูลที่พิมพ์เท่านั้นCape ไม่ได้มีความหมายจีโนมกว้างแม้ว่ามันจะได้รับค่า p-values ​​แบบจำลองที่มีนัยสำคัญการศึกษาของเราคือการพิมพ์ครั้งแรกและการระบุ GWAS ของประชากรที่ซับซ้อนนี้และมีการระบุตำแหน่งก่อนหน้านี้ข้อ จำกัด บางประการควรสังเกตในการวิเคราะห์สมาคมประการแรกการศึกษาครั้งนี้มีความสามารถในการตรวจจับความเสี่ยงที่มีขนาดเล็กกว่ามากขึ้นเนื่องจากขนาดตัวอย่างที่เรียบง่ายของเราประการที่สองแม้จะใช้การทดสอบที่แน่นอนของฟิชเชอร์เพื่อแก้ไขความไม่สมบูรณ์ของแบบจำลองผสมสำหรับการเชื่อมโยงที่ใช้ในการศึกษาของเราโดยเฉพาะอย่างยิ่งในกรณีของตัวแปรที่หายากความหลากหลายนี้อาจให้ข้อมูลเชิงลึกที่สำคัญในการระบุยีนที่มีความไวต่อวัณโรคและดังนั้นจึงแจ้งการพัฒนาของการแทรกแซงใหม่นอกจากนี้ผลลัพธ์ของเราชี้ให้เห็นว่าเราควรดำเนินการใส่จีโนไทป์และการวิเคราะห์อภิมานของการศึกษาความสัมพันธ์ทั่วทั้งจีโนม (ดูบทที่ 6 ถัดไป) โดยการรวมข้อมูลจากการศึกษาที่แตกต่างกันโดยเฉพาะ-การศึกษาการควบคุมเช่นใน (Davila etal., 2008; Thye et al., 2010, 2012) เพื่อปรับปรุงความสามารถในการตรวจจับตัวแปรโรคที่มีขนาดเล็กถึงปานกลาง (ดูบทถัดไป)

101 5.4 การอภิปรายและข้อสรุป

เมือง

แหลม

รูปที่ 5.4: พล็อตระดับภูมิภาคของ SNP ที่มีค่า p ต่ำสุดในการวิเคราะห์ความสัมพันธ์ของวัณโรคในประชากรสีแอฟริกาใต้เพชรสีน้ำเงินแสดงถึงการพิมพ์ SNP ด้วยค่า p ต่ำสุดจากการทดสอบแบบจำลองฟิชเชอร์และแบบผสมจาก Emmaxอัตราการรวมตัวกันอีกครั้งโดยประมาณ (นำมาจาก HAPMAP) ถูกพล็อตเพื่อแสดงโครงสร้าง LD ท้องถิ่นรอบ ๆ SNP ที่เกี่ยวข้องและพร็อกซีที่สัมพันธ์กันจุดสีขาวหมายถึงการพิมพ์ SNPs รอบ RS17175227 SNP และจุดสีอื่น ๆ แสดงถึง SNPs ที่ถูกกำหนดในภูมิภาคSNPs จีโนไทป์ทั้งหมดในการสแกนจีโนมวัณโรคถูกพล็อตด้วยค่า p (AS -log10) เป็นฟังก์ชันของตำแหน่งจีโนม (กับ Ncbibuild 37)

102 ตารางที่ 5.1: 36 เครื่องหมายทางพันธุกรรมที่มีค่า p ระดับปานกลางที่ได้รับจากการวิเคราะห์ความสัมพันธ์กับฟีโนไทป์วัณโรคในชุดข้อมูลที่พิมพ์POS และ CHR หมายถึงโครโมโซมและตำแหน่งทางกายภาพตามลำดับA1/A2 เป็นอัลลีลอ้างอิง/ที่ได้รับMAF เป็นอัลลีลน้อยและการโทรคืออัตราการโทรจีโนไทป์

CHR SNPS ตำแหน่งภูมิภาค A1/A2 MAF P P.ADJ.SEX P.ADJ.AGE P.FISHER หรือ GENE 05 05 05 1 RS16861827 18550757 P36.13 C/T 0.072 5.91E - 6.11E - 2.43E - 0.00013 0.37 IGSF21 051 0505 05 06 1 RS6694316 56197709 P32.3 G/T 0.076 1.06E - 1.48ETOWN - 1.38E - 6.90E− 0.32 PPAP2B 05 05 05 1 RS82312222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222220.55 Nucks1 05 05 05 1 RS823123 203991969 Q32.1 A/G 0.193 6.53E - 3.62E− 3.53E− 0.0003 0.51 NUCKS1 05 05 05 2 RS12328060 49824910 P16.3 C/T300.49 rpl7

103 05 05 05 05 2 RS12691834 133668510 Q21.2 C/T 0.366 2.38CAPEE - 2.23 E - 5.08E− 1.08E - 2.26 NCKAP5 05 05 05 2 RS1684441 1411441 141140892E− 0.00014 0.49 LRP1B 05 05 05 2 RS17040773 112216506 Q13 A/C 0.117 8.53E - 4.77E - 8.59E - 0.00019 0.44 ANAPC1 05 05 05 2 RS17826270 19926440.00013 2.03 PLCL1

05 05 05 บทสรุปและการอภิปราย 5.4 2 RS231802 204416524 Q33.2 C/T 0.029 1.55E− 1.19E− 8.58E - 0.00129 0.29 CTLA4 05 05 05 05 2 RS724710 1116241626.49E - 0.48 RGPD5 05 05 05 3 RS816546 157630062 Q25.31 C/G 0.033 2.84E - 2.01E - 4.31E - 0.00024 0.28 KCNAB1 05 05 05 06 3 RS8801678.98E - 5.85E - 0.38 MAGI1 University 05 05 05 05 4 RS12640159 161586073 Q32.2 C/T 0.157 3.16E - 3.12E - 4.21E - 1.04E - 0.42 FSTL5 05 05 05 4 RS15151E3.63E - 4.69E - 6.05E− 0.00094 0.31 UBA6 05 05 05 4 RS17006173 83866646 Q21.22 C/T 0.013 7.51E - 7.23E - 6.63E - 0.00383 0.22 SCD5 0505 5 5 5 5 550 88.59e− 8.05e - 6.83e− 0.00058 0.28 SLIT3 ต่อเนื่องในหน้าถัดไปตารางที่ 5.1 - ต่อจากหน้าก่อนหน้า

CHR SNPS ตำแหน่งภูมิภาค A1/A2 MAF P P.ADJ.SEX P.ADJ.AGE P.FISHER หรือ GENE 05 05 05 6 RS449377 145894130 Q24.3 C/G 0.461 2.13E - 1.55E - 6.66E - 0.00016 1.91 ZNF131 05505 05 7 RS17133300 3422220 P22.2 A/G 0.156 3.34E - 2.51E - 2.18E - 0.00026 0.47 SDK1 05 05 05 7 RS7783665 109826432 Q31.1.1 A/G 0.303 4.10305 05 8 RS1449546 76747441 Q21.11 A/G 0.157 5.81E - 6.48E - 5.77E - 0.00047 2.72 HNF4G 05 05 05 8 RS16889079 40269078 505 05 05 8 RS1817023 106698141 Q23.1 A/C 0.233 7.47E - 8.62E− 4.02E− 7.55E - 0.49 ZFPM2 05 05 05 8 RS895695 323222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222222220.53 CSMD1 05 05 05 8 RS895696 3232022 P23.2 A/G 0.485 7.10E - 7.02E - 5.31E - 0.0001354 0.53 CSMD1 05 05 05 05 9 RS11103291 1380876202.65E - 0.43 NACC2 05 05 05 9 RS4745272 75765361 Q21.13 C/T 0.041 6.95E - 8.11E - 4.90E - 0.003629 0.38 RORB 104 10 RS214861 51979762 58.15E 06 0.4 SGMS1 - - - - - 05 05 05 05 12 RS1245016 79097100 Q21.31 A/G 0.229OF 2.42E - 1.94E - 6.93E - 2.66E - 0.46 RPL7 05 05 05 052140.04 4.10e - 4.47e− 2.14e - 0.001292 0.34 CMKLR1 05 05 05 13 RS17503526 29415041 Q12.3 G/T 0.023 2.15E - 2.24E - 2.74E - 0.001253 0.27

05 05 05 บทสรุปและการอภิปราย 5.4 13 RS17587770 29407009 Q12.3 A/G 0.024 3.11E - 3.09E - 4.79E - 0.001235 0.27 UBL3 13 RS683479 37651676 Q13.3 C/T.218 2.6806 0.45 Linc00571 - - - - - 05 05 05 14 RS854406 24274191 Q12 C/T 0.096 7.40E - 7.28E - 5.55E - 0.00323 0.49 STXBP6 05 05 05 19 - 1.38E− 0.002265 0.32 GEMIN7 University 05 05 05 21 RS2832542 30327668 Q21.3 A/G 0.024 7.72E - 7.91E - 8.76E - 0.0004053 0.2 GRIK1 บทที่ 6 บทที่ 6 บทที่ 6 บทที่ 6 บทที่ 6 บทที่ 6 บทที่ 6 บทที่ 6

จีโนมทั่วทั้งความเสี่ยงต่อวัณโรคในประชากรสีแอฟริกาใต้ที่ได้รับการผสมและเปรียบเทียบกับการศึกษาวัณโรคก่อนหน้านี้เมือง

6.1 บทนำ CAPE imputation เป็นเครื่องมือที่มีประโยชน์ในการศึกษาความสัมพันธ์ทั่วทั้งจีโนม (GWAS) และมักใช้ในการวิเคราะห์อภิมานของ GWAS สำหรับการรวมข้อมูลจากการศึกษาที่แตกต่างกันเพื่อปรับปรุงความสามารถในการตรวจจับความหลากหลายของโรคที่มีขนาดเล็กE ff ects (Li etal., 2012)เนื่องจากความอ่อนแอส่วนใหญ่ที่ยังไม่ได้ค้นพบเชื่อว่ามีขนาดเล็ก (Ferreira etal., 2008; Han & Eskin, 2011; Li etal., 2012), ขนาดตัวอย่างขนาดใหญ่มักจะต้องบรรลุพลังการตรวจจับทางสถิติที่เพียงพออย่างไรก็ตามเช่นความต้องการขนาดตัวอย่างอาจเกินความสามารถของการศึกษา GWA เดียวการวิเคราะห์อภิมานได้รับการแนะนำให้เป็นทางเลือกอื่นในเรื่องนี้ความหลากหลายวิธีการนี้รวมชุดข้อมูล GWAS มาตรฐานจากการศึกษาหลายขนาดตัวอย่างที่ค่อนข้างเล็กเพื่อตรวจจับยีนที่มีความไวต่อความไวที่มีพลังมากขึ้นการประมาณค่าที่แม่นยำของพันธุกรรมและข้อสรุปที่น่าเชื่อถือมากกว่าการศึกษาแต่ละครั้ง (Han & Eskin, 2011; Li etal., 2012)นอกจากนี้การวิเคราะห์อภิมานได้ถูกนำไปใช้และปรับปรุงความเข้าใจในลักษณะที่ซับซ้อนจำนวนมากรวมถึงโรคเบาหวานชนิดที่ 2 (Sanghera etal., 2009; Staiger etal., 2008), โรคสองขั้ว (Ferreira et al., 2008) และ Parkinson's'sโรค (Evangelou etal., 2008), แสดงให้เห็นถึงประโยชน์ของการวิเคราะห์อภิมานของ GWASเพื่อให้ได้พลังที่เพียงพอในขนาดตัวอย่างที่ จำกัด ของเราของตัวอย่าง SAC 888 ตัวอย่างในการตรวจจับความเป็นสังคมในระดับที่มีความหมายทั่วทั้งจีโนมและระบุตำแหน่งความเสี่ยงที่ใช้ร่วมกันกับก่อนหน้านี้

105 6.2 วัสดุและวิธีการ

รายงานการศึกษากรณีควบคุมวัณโรคบทนี้ครอบคลุมการใส่ GWAS และการวิเคราะห์อภิมานของการศึกษาของเราและรายงานการศึกษาวัณโรคก่อนหน้านี้รวมถึง etal ของ Thye(2010), etal ของเจ้า(2012) และ Davila etal(2008)

6.2 วัสดุและวิธีการ

6.2.1 ขั้นตอนการควบคุมคุณภาพและการใส่ข้อมูล

เพื่ออธิบายโครงสร้างประชากรใน SAC ที่ได้รับการผสมในการใส่จีโนไทป์ที่ไม่ได้รับการปรับปรุงเราพิจารณารูปแบบการใส่ร้ายตามพารามิเตอร์ทางพันธุกรรมของประชากรในกรอบการทำงานร่วมกันที่ดำเนินการใน immute2 (Marchini & Howie, 2008)การสำรวจข้อได้เปรียบของโมเดลใน impute2 เราได้รวมข้อมูล haplotype ที่มีการอ้างอิงทั้งหมดที่มีอยู่ทั้งหมดจากชุดข้อมูล Hapmap 3 ทั้งสองของชุดข้อมูล Hapmap 3 (NCBI Build 36 รวมถึง: ชาวยูทาห์ (Ceph) กับบรรพบุรุษภาคเหนือและยุโรปตะวันตก (CEU) ประเทศญี่ปุ่นในญี่ปุ่นToyko (JPT), จีนในเดนเวอร์ (CHD), Maasai ใน Kinyawa (MKK), Toscani ใน Italia (TSI), Gujarati Indian ใน Houston (GIH), บรรพบุรุษของแอฟริกาในตะวันตกเฉียงใต้ (ASW), Luhya ใน Webuye (LWK)Ancestrytown ในลอสแองเจลิส (Mex), ฮันจีนในปักกิ่ง (CHB) และโยรูบาในอิบาดัน (Yri)) และโครงการจีโนม 1,000 รายการ (รวมถึง CEU, Yri, อังกฤษจากอังกฤษและสกอตแลนด์ (GBR), ฟินแลนด์จากฟินแลนด์จีนใต้ (CHS), เปอร์โตริโก (PUR), จีนในเดนเวอร์ (CHD), JPT, LWK, บรรพบุรุษชาวเม็กซิกันในลอสแองเจลิส (MXL), ASW, TSI, โคลอมเบียใน Medellincape (CLM) และประชากรไอบีเรียในสเปน (IBS)).เราตัดสินใจที่จะใส่ SNPs โดยแยกโครโมโซมแต่ละโครโมโซมออกเป็น 5 MB สำหรับการวิเคราะห์โดย impute2สำหรับชุดข้อมูลที่เกิดขึ้นการควบคุมคุณภาพหลังการถอดออกได้ดำเนินการในทำนองเดียวกันตามที่อธิบายไว้ในส่วนที่ 2.2.1 เพื่ออธิบายความไม่แน่นอนของการใส่ร้าย

6.2.2 การวิเคราะห์การเชื่อมโยงและเมตา

การทดสอบการเชื่อมโยงได้ดำเนินการในชุดข้อมูลที่ได้รับสองชุด (ส่วนที่ 6.2.1) ของ SAC โดยใช้ซอฟต์แวร์ Emmaxuniversity ดังในส่วนที่ 5.2.2เพื่อระบุความสัมพันธ์ที่มีขนาดเล็กขนาดเล็กซึ่ง GWAS มาตรฐานเดียวไม่สามารถระบุได้เราได้รวมการศึกษาความสัมพันธ์ของจีโนมวัณโรคแอฟริกาสองครั้งรวมถึง GWAS ของเราและการศึกษาวัณโรคที่เพิ่งรวมกันของประชากรกานาแกมเบียและมาลาวีในการวิเคราะห์ GWAS เดียวแบบจำลองแบบสุ่ม (Han & Eskin, 2011) ขึ้นอยู่กับขนาด E-weighted-weighted แบบผกผันถูกนำมาใช้เพื่อรวมผลลัพธ์ (อัตราส่วน Log-Odds และข้อผิดพลาดมาตรฐาน) จาก GWAs ที่พิมพ์.การใส่ข้อมูลแยกต่างหากจากข้อมูลจากโครงการ HAPMAP 3 และ 1,000 จีโนมรวมถึงภูมิภาคที่ไม่ใช่ Pseudoautosomal (NONPAR) และสองภูมิภาค pseudoautosomal (PAR1 และ PAR2) ของโครโมโซม Xนอกจากนี้เรายังใช้โมเดลแบบสุ่มและแบบไบนารีที่อธิบายไว้ในโปรแกรม Metasoft (Han & Eskin, 2011) และเราใช้

106 6.3 ผลการศึกษา: การศึกษาสมาคมการศึกษาในประชากรสีแอฟริกาใต้

การศึกษาค่า p, ค่า M (ความน่าจะเป็นหลังที่มีอยู่ในการศึกษา), ค่าเฉลี่ยของสถิติความหลากหลายและความหลากหลายของ i-square เพื่อตีความผลลัพธ์การเชื่อมโยงที่แสดงความหลากหลายสูง (Han & Eskin, 2011)

6.3 ผลการศึกษา: การศึกษาสมาคมการระบุในประชากรสีแอฟริกาใต้

การใช้ Impute2 (Marchini & Howie, 2008) เราได้ใส่จีโนไทป์ที่ไม่ได้รับการออกแบบของ SAC โดยใช้ทั้ง HapMap3 Release 2 และ 1000 Genomes Project Projectหลังจากการควบคุมคุณภาพหลังการปลดออกจากการใส่จีโนมทั่วทั้งจีโนมมี 1, 453, 294 และ 4, 467, 279 ตัวแปรทางพันธุกรรมที่เก็บรักษาไว้จากแต่ละแผงการใส่แต่ละแผงตามลำดับเพื่ออธิบายถึงทั้งกลุ่มประชากรและความเกี่ยวข้องที่ซ่อนอยู่เราได้ใช้วิธีการแบบจำลองแบบผสมจาก Emmax (Kang etal., 2010) กับชุดข้อมูลเหล่านี้พล็อต Quantile-Quantile (QQ) แสดงในรูปที่ 6.1จีโนม

ควบคุมแลมบ์ดาจากชุดข้อมูลที่ระบุไว้บนพื้นฐานของ HAPMAP3 λGC = 1.05 และจากชุดข้อมูลที่ระบุจาก 1,000 จีโนมλGC = 1.09 และจากชุดข้อมูล GWAS แบบรวมกัน (พิมพ์และ GWAs สองอัน) λGC = 1.08ดังที่แสดงในรูปที่ 6.2 SNP RS12294076 (P = 9.56E08) บนโครโมโซม 11q21 08-Q22.1 พลาดเกณฑ์ของจีโนมทั่วทั้งจีโนม453, 294 และ 4, 467, 279 SNPSCAPE ทดสอบ (รูปที่ 6.2) จากข้อมูลที่ระบุโดยใช้ทั้ง HAPMAP3 และ 1,000 ข้อมูลจีโนมตามลำดับ (ดูหัวข้อ 6.2.2)ตัวแปรทางพันธุกรรม RS12294076 มีความถี่อัลลีลเล็กน้อยที่ 0.16 ใน SAC, 0.22 ใน Yoruba และ 0.0 ในประชากร HAPMAP อื่น ๆ และน่าจะเป็น SNP ของแอฟริกา

มหาวิทยาลัย

107 6.3 ผลการศึกษา: การศึกษาสมาคมการศึกษาในประชากรสีแอฟริกาใต้

เมือง

Cape รูปที่ 6.1: Q-Q พล็อตของประชากรชั้นเรียนของกลุ่มเพื่อเปรียบเทียบการกระจายของค่า p ที่สังเกตได้กับการกระจายที่คาดหวัง: เส้นสีแดงล่างแสดงเปอร์เซ็นไทล์ 90 ในขณะที่ส่วนบนหมายถึงจุดที่ค่า p-values ​​แตกต่างจากที่คาดหวัง

เส้น.ค่าλGCบ่งชี้ว่ามีประชากรส่วนที่เหลืออยู่ในชั้นเรียน (หลังการแก้ไข) ซึ่งน้อยที่สุดพล็อต Q-Q ที่ได้รับจาก GWAS โดยใช้จีโนไทป์ที่ถูกกำหนดจาก HAPMAP3 (A), จีโนไทป์ที่ถูกกำหนดจากโครงการ 1,000 จีโนม (B) และชุดข้อมูล GWAS รวม (พิมพ์และสอง GWAs) (C)มหาวิทยาลัย SNP RS12294076 เกี่ยวข้องกับยีน DYNC2H1ยีนนี้เข้ารหัสโปรตีน dynein ไซโตพลาสซึมขนาดใหญ่ที่รู้จักกันว่ามีส่วนร่วมในการขนส่งถอยหลังเข้าคลองใน cilium ที่มีบทบาทสำคัญในการขนส่งภายใน fl agellar (Hokayem etal., 2012)การกลายพันธุ์ใน DYNC2H1 ทำให้เกิดสเปกตรัมที่แตกต่างกันของเงื่อนไขที่เกี่ยวข้องกับการเปลี่ยนแปลงฟังก์ชัน cilium หลักการกระจายตัวของเซลล์ย่อยของ dynein แสดงความสัมพันธ์ที่เฉพาะเจาะจงกับองค์ประกอบของเส้นทาง endocytic ปลาย 05 06 (Hokayem etal., 2012)เครื่องหมายทางพันธุกรรมเพิ่มเติมที่มีค่า p แบบชี้นำ (10− ถึง 10−) ที่ไม่รอดชีวิตจากความหมายของจีโนมกว้างอยู่ในตารางที่ 6.3 สำหรับชุดข้อมูลที่ระบุไว้

108 6.3 ผลการศึกษา: การศึกษาสมาคมการระบุในประชากรสีแอฟริกาใต้

เมือง

รูปที่ 6.2: พล็อตแมนฮัตตันพล็อตการวิเคราะห์ความสัมพันธ์ของจีโนมกว้างของวัณโรคในสีของแอฟริกาใต้จากชุดข้อมูลที่ระบุไว้บนพื้นฐานของ HAPMAP3 (A) จากชุดข้อมูลที่ระบุไว้บนพื้นฐานของโครงการจีโนม 1,000 คน (b) CAPE และจากชุดข้อมูลรวม (พิมพ์และสองชุดGWAS ที่ถูกกำหนด) (c)เส้นแนวนอนหมายถึง cut-o-o ff6.3.1 การจำลองแบบของ SNPs ที่รายงานในการศึกษาก่อนหน้านี้

การเปรียบเทียบวัณโรค GWAS ของเรากับการศึกษาแบบผสมผสานของซีรี่ส์การควบคุมวัณโรคแอฟริกาเมื่อเร็ว ๆ นี้จากกานาแกมเบียอินโดนีเซียและรัสเซียใน etal ของ Thye(2012) เราพบว่า SNP ที่เกี่ยวข้อง, 09 RS2057178 (P = 2.63E−, OR = 0.77 และ MAF = 0.33) เมื่อวันที่ 11P13 ที่รายงานใน (thye etal., 06 2012) อยู่บนขอบเขตของความหมายของจีโนมกว้าง(P = 2.71E−, OR = 0.62 และ MAF = 0.08) ใน SAC-tbuniversity imputation GWAS (ตารางที่ 6.1)SNP ที่มีนัยสำคัญที่สองรายงานในกลุ่มการศึกษากานา, RS11031728 (P = 5.25E 09, MAF = 0.32 และ OR = 0.77) ให้ผลการศึกษาระดับปานกลางในการศึกษา GWAS ของเรา (P = 2.86E 06, MAF = 0.08- 09 = 0.61)SNP ที่สำคัญที่สุดอันดับสามในการศึกษาของพวกเขาคือ Rs11031731 (p = 7.01e−, MAF = 0.31 และ OR = 0.78) ซึ่งถูกนำมาใช้ไม่ดีในการศึกษาของเรา (โทร = 0.70) ดังนั้นจึงไม่ได้แสดงหลักฐานการเชื่อมโยงที่น่าเชื่อถือRS2057178, RS11031728 และ RS11031731 SNPs ไม่ได้ครอบคลุมในข้อมูล GIH และ SAN ดังนั้นจึงเป็นบัญชีสำหรับความไม่สมดุลของการเชื่อมโยงในถุง admixed เราคำนวณ R2 LD ระหว่าง SNP ทั้งสามนี้และ SNPs อื่น ๆข้อมูล CEU และ JPT+CHB จาก 1,000 จีโนม

109 6.3 ผลการศึกษา: การศึกษาสมาคมการศึกษาในประชากรสีแอฟริกาใต้

โครงการ.WT1 เป็นยีนยับยั้งเนื้องอกที่ตั้งอยู่บนโครโมโซม 11P13WT1 เป็นที่รู้จักกันในชื่อโปรตีนเนื้องอกของ Wilms ซึ่งให้คำแนะนำในการสร้างโปรตีนที่เกี่ยวข้องกับการพัฒนาของไตและอวัยวะสืบพันธุ์ (รังไข่ในเพศหญิงและอัณฑะในเพศชาย) ก่อนคลอด (ผลรวม etal., 2002)นอกจากนี้ยังเป็นที่รู้จักกันว่าเป็นปัจจัยการถอดรหัสเนื่องจากมันควบคุมกิจกรรมของยีนอื่น ๆ โดยการเชื่อมโยงกับพื้นที่เฉพาะของ DNAการสอบถามเครือข่ายโปรตีนโปรตีนโปรตีนที่ครอบคลุม (PPI) เครือข่าย (http://cbg.garvan.unsw.edu.au/pina/), wt1 ได้รู้จักการโต้ตอบโดยตรง (Sum etal., 2002) กับ UBE2I, AREG, WTAP,ASGB, U2AF2, TP73, SDGF, PRKACA และ p53 ยีน (รูปที่ 6.3 แสดงเครือข่ายย่อยที่เกี่ยวข้อง)โดยเฉพาะอย่างยิ่งยีนนี้มีการแสดงออกอย่างผิดปกติในมะเร็งปอดและมะเร็งต่อมลูกหมากบางชนิดและพบได้ในเซลล์มะเร็งที่เกิดจากเลือด (มะเร็งเม็ดเลือดขาว) เช่นมะเร็งเม็ดเลือดขาวชนิดเฉียบพลันมะเร็งเม็ดเลือดขาวชนิดเฉียบพลัน., 2002)ผลลัพธ์ก่อนหน้าใน (Thye etal., 2012) รายงานว่า Rs2057178, Rs11031728 และ Rs11031731 SNPs อยู่ใน LD ที่แข็งแกร่งในข้อมูลกานาเราได้รับ R2 (RS2057178, RS11031728) = 0.90, 0.90, 1 และ 0.8;R2 (RS2057178, RS11031731) = 0.70,0.90, 1 และ 1;และ R2 (RS11031728, RS11031731) = 0.70, 1, 1 และ 0.90 ใน SAC, CEU, YRI และ JPT+CHB ตามลำดับSNPS RS2057178, RS11031728 และ RS11031731 เกี่ยวข้องกับ WT1TOWN

แหลม

มหาวิทยาลัย

110.EUT: IPTTO SOITO TD NSUHARCNC African South ในผลการศึกษาของสมาคมการศึกษา: 6.3 U2AF2 AREG TP73 UBE2I

pax2 dvl3

อคติ

TP63

SDGF WT1

crebp ของ prkaca

PAWR WTAP TOWN PIN1 C17ORF28 PRKDC FXR2 TGIF2 AREGB P53 PCNA RBL2

SIAH2 LMO4 111 CAPE FAM175A BARD1

MyD88 RBBP8 TLR8 ของ RBL1 AATF

LMO2

lims1 atm

BTK RB1 IKZF1

CTBP1 SIAH1 BRCA1

สีของมหาวิทยาลัย WDYHV1 สี

รูปที่ 6.3: เครือข่ายชีวภาพของยีนที่มีปฏิสัมพันธ์กับ WT1 (11P13), TLR8 (XP22.2) และ RBBP8 (18Q11.2)การโต้ตอบได้มาจากเครือข่าย PPI ของมนุษย์ที่ครอบคลุมที่ดาวน์โหลดจากแพลตฟอร์มการวิเคราะห์เครือข่ายโปรตีนปฏิสัมพันธ์ (PINA) (Wu et al., 2009)พล็อตแสดงให้เห็นว่าเครือข่ายย่อยของการโต้ตอบกับ WT1, TLR8 และ RBBP8 ไม่ทับซ้อนกันสอดคล้องกับความจริงที่ว่า SNPs ในแต่ละตำแหน่งเหล่านี้ (WT1, TLR8 และ RBBP8) ไม่ได้อยู่ใน LD6.3 ผลลัพธ์: การศึกษาสมาคมการใส่ข้อมูลในประชากรสีแอฟริกาใต้

ความไวต่อการระบุตัวตน RS4331426 บนโครโมโซม 18Q11.2 ใน etal ของ Thye(2010) (MAF = 0.48, Gambia: P = 0.003 และ OR = 1.18, กานา: P = 0.004 และ OR = 1.19 และ 09 ข้อมูลรวม: P = 6.8E− และ OR = 1.19) สำหรับวัณโรคในการศึกษารวมกันประชากรแกมเบียและกานา (Thye etal., 2010) ไม่ได้ให้หลักฐานที่น่าเชื่อถือใด ๆ ของการเชื่อมโยงกับวัณโรคในตัวอย่างการศึกษาของเรา (ตารางที่ 6.1)ในการศึกษาของเราเราได้รับ P = 0.83, MAF = 0.19 และ OR = 1.00 และไม่มีสัญญาณชี้นำในข้อมูล SAC ที่อยู่ใกล้กับตัวแปรในทำนองเดียวกันข้างต้นเราคำนวณ R2 LD ในภูมิภาค 18Q11.2 ในข้อมูลของ SAC, CEU, YRI, JPT+CHB, GIH และ SANSNP สี่แห่งรวมถึง RS4264496, RS4331426, RS4239431 และ RS4239432 ในภูมิภาคทั้งหมดของ 18Q11.2 มี R2> = 0.5 แต่ทั้งหมดมีค่า p ที่อ่อนแอจากการศึกษาของสมาคมกับวัณโรคในข้อมูล SACนอกจากนี้ RS4331426 SNP ไม่ได้อยู่ใน LD กับ SNP ใด ๆ ใน WT1 locus ในข้อมูลของ SAC, CEU, YRI และ JPT+CHBRS4331426 เกี่ยวข้องกับยีน RBBP8ยีนนี้เป็นที่รู้จักกันว่ามีปฏิสัมพันธ์กับ LMO4, โปรตีนที่มีลักษณะคล้ายเรติโนบลาสโตมา 2, โปรตีนคล้ายเรติโนบลาสโตมา 1, ataxia telangiectasia กลายพันธุ์, โปรตีนเรติโนบลาสโตมา, CTBP1, SIAH1 และ BRCA1 (Rauscher, 1993)รูปที่ 6.3 ไม่แสดงการทับซ้อนระหว่างเครือข่ายย่อย WT1 และ RBBP8ความอ่อนแอของสถานที่ของ RS4331426 ค้นพบในประชากรแอฟริกา (กานา, แกมเบียและมาลาวี) ใน etal ของ Thye(2010) ไม่สามารถตรวจสอบได้ในประชากร Sactown และเมื่อเร็ว ๆ นี้ไม่สามารถตรวจสอบได้ในประชากรจีนเช่นกัน (Dai etal., 2011)เพื่อเปรียบเทียบการศึกษาของเรากับการเชื่อมโยงก่อนหน้านี้ของความสัมพันธ์กับความไวต่อวัณโรคที่สี่ poly- morphisms ในยีน TLR8 บนโครโมโซม X จาก Davila etal(2008) เราได้ดำเนินการเพิ่มเติม GWAS ในภูมิภาคที่ไม่ใช่ Pseudoautosomalcape (ไม่ใช่ PAR) และสองภูมิภาค Pseudoau- tosomal (PAR1 และ PAR2) ของโครโมโซม XOF ใน SACผลลัพธ์ที่แสดงในตารางที่ 6.1 เปรียบเทียบผลลัพธ์ของเราและจาก Davila etal(2008)GWAS ของเราแสดงให้เห็นถึงความสัมพันธ์ที่อ่อนแอกับวัณโรคของความหลากหลายทั้งสี่นี้ในยีน TLR8 บนโครโมโซม X ซึ่งรวมถึง RS3764880, RS3764879, RS3761624 และ RS3788935 (ตาราง 6.1)SNP ทั้งสี่นี้อยู่ใน LD ซึ่งกันและกัน (R2> = 0.5) ในข้อมูลของ SACยีน TLR มีบทบาทพื้นฐานในการรับรู้ของเชื้อโรคการกระตุ้นภูมิคุ้มกันโดยธรรมชาติและมีการแสดงออกอย่างรวดเร็วในปอดและเม็ดเลือดขาวในเลือด (Peng etal., 2011)อย่างไรก็ตาม SNP ทั้งสี่เหล่านี้ไม่ให้ความสำคัญกับหลักฐานที่น่าเชื่อถือของความสัมพันธ์ใน SAC และไม่สามารถตรวจสอบได้ในประชากรที่ได้รับการผสมนี้นอกจากนี้เรายังตรวจสอบว่ายีนที่มีปฏิสัมพันธ์กับ WT1, TLR8 และ RBBP8 เป็นเครือข่ายเครือข่ายย่อยที่ทับซ้อนกันเราใช้เครือข่าย PPI ของมนุษย์ที่ครอบคลุมที่ดาวน์โหลดจากแพลตฟอร์มการวิเคราะห์เครือข่ายโปรตีนปฏิสัมพันธ์ (PINA) (Wu etal., 2009) ซึ่งรวบรวมและอธิบายข้อมูลจากฐานข้อมูล PPI สาธารณะหกฐาน), สอบถามการโต้ตอบเหล่านี้เกี่ยวกับ WT1, TLR8 และ RBBP8 และพล็อตเครือข่ายย่อยแบบโต้ตอบรวมกันพล็อตในรูปที่ 6.3 แสดงให้เห็นว่าเครือข่ายย่อยของยีนที่มีปฏิสัมพันธ์กับ WT1, TLR8 และ RBBP8 ถูกตัดการเชื่อมต่อและไม่ทับซ้อนกัน

112 6.3 ผลการศึกษา: การศึกษาสมาคมการระบุในประชากรสีแอฟริกาใต้

อื่น ๆ นี้สอดคล้องกับความจริงที่ว่าไม่มี SNPs ระหว่าง loci WT1, TLR8 และ RBBP8 พบว่าอยู่ใน LD (R2> 0.5) ซึ่งกันและกันใน SAC, CEU, YRI, JPT+CHB, GIH และ SAN

เมือง

แหลม

มหาวิทยาลัย

113 ตารางที่ 6.1: การตรวจสอบการจำลองแบบของ SNP ที่รายงานในการศึกษาก่อนหน้านี้-EUT: IPTTO SOITO TD NSUHARCNC African South ในผลการศึกษาของสมาคมการศึกษา: 6.3 SAC TB ศึกษา Thye และคณะ2012 SNP CHR POS A1/A2 MAF P-VALUE หรือ (95%CI) MAF P-VALUE หรือ (95%CI) RS2057178 11 32364187 G/A 0.08 2.70E 07 0.62 (0.50 0.75) 0.33 2.63) - - - - - RS11031728 11 32363616 C/G 0.08 2.86E 06 0.61 (0.50 0.75) 0.32 7.01E 09 0.78 (0.71 0.8) - - - Thye et al.2010 RS4331426 18 196761760 G/A 0.19 0.83 1.00 (0.95 1.04) 0.48 6.8E 09 1.19 (1.1 1.3) - - - - เมือง Davila และคณะ2008 RS3788935 x 12922659 A/C 0.386 0.1465 1.30 (0.91 1.85) - 0.014 1.4 (1.07 1.8) - - RS3761624 x 12923681 A/C 0.382 0.1844 1.27 (0.89)

114 RS3764879 X 12924697 A/C 0.386 0.2854 1.23 (0.87 1.80) - 0.01 1.4 (1.06 1.8) Cape - - RS3764800 x 12924826 A/C 0.383 0.2278

ประชากรของมหาวิทยาลัย oloured ตารางที่ 6.2: การวิเคราะห์อภิมานของการศึกษากรณีควบคุมวัณโรคสองกรณี, SAC-TB, WTCCC-TB และ 4 polymorphisms บนโครโมโซมEUT: IPTTO SOITO TD NSUHARCNC African South ในผลการศึกษาของสมาคมการศึกษา: 6.3 x ก่อนหน้านี้ระบุโดย Davila และคณะ2551. P.RAN เป็นค่า p ของ fi xed e ff ect, p.be เป็น p-value ของ binary-e ff ect, st1 และ st2 เป็นค่าเฉลี่ยสถิติ e ff ect และความหลากหลายตามลำดับMvalue เป็นความน่าจะเป็นหลังที่มีอยู่ในการศึกษาแต่ละครั้งSAC-TB + WTCCC-TB SAC TB ศึกษา Thye และคณะ2012 SNP CHR P.RAN P.BE ST1 ST2 P-VALUE MVALUE P-VALUE MVALUE 3 13 06 09 RS2057178 11 3.26E-9.83E-53.05 2.91 2.75E-1.0 2.52E-1.0 07 10 06 09 RS11031728 11 4.754.08E - 41.19 0.0 2.98E - TOWN0.98 7.03859E - 1.0 พวกเขาและคณะ2010 08 09 RS4331426 18 0.28 1.90E - 1.15 32.6 0.002 0.0 6.83e - 1.0 Davila และคณะ2008 115 RS3788935 x 0.00457 0.012 8.039 0.0CAPE0.15 0.78 0.014 0.778 RS3761624 x 0.0066 0.014 7.382OF 0.0 0.18 0.74 0.016 0.743 3764880 x 0.0080 0.018 7.018 0.0 0.23 0.72 0.016 0.858

ประชากรมหาวิทยาลัย oloured 6.3 ผลลัพธ์: การศึกษาสมาคมการศึกษาในประชากรสีแอฟริกาใต้

6.3.2 meta-analysis พร้อมข้อมูล SAC และ WTCCC

การระบุตัวแปรทั่วไปของความเรียบง่ายและอ่อนแอยังคงเป็นสิ่งที่ท้าทายและมีการแนะนำขนาดตัวอย่างขนาดใหญ่เพื่อเพิ่มพลังงานขนาดตัวอย่างของทั้งผู้ป่วยวัณโรคและการควบคุมในการศึกษานี้ไม่ได้ให้พลังที่เพียงพอเพื่อให้ได้ความสัมพันธ์ในระดับที่เข้มงวดของความสำคัญทางสถิติอย่างไรก็ตามหนึ่งในวิธีแก้ปัญหาที่เสนอสำหรับปัญหานี้คือการรวมการวิเคราะห์ของฟีโนไทป์ที่ใกล้ชิดทางคลินิกหลายครั้งจากการศึกษาที่แตกต่างกัน (Bhattacharjee et al., 2012; Han & Eskin, 2011)เพื่อเพิ่มพลังในการตรวจจับตัวแปรทั่วไปเราทำการวิเคราะห์อภิมานโดยการรวมการศึกษาของเรากับ GWAs ที่ตีพิมพ์ก่อนหน้านี้จาก WTCCC-TB (Thye etal., 2010, 2012) และ polymorphisms สี่ในยีน TLR8 ในโครโมโซม X ซึ่งเคยเป็นมาก่อนระบุโดย Davila และคณะ2551 (Davila etal., 2008)เพื่อที่อยู่สิ่งนี้เราได้รวมผลลัพธ์อย่างอิสระ (อัตราต่อรองและข้อผิดพลาดมาตรฐาน) จาก GWAS ที่พิมพ์และการใส่ GWAS สองตัวและสองภูมิภาค pseudoautosomal (PAR1 และ PAR2) ของโครโมโซม X) จากข้อมูล SAC และ WTCCC-TBผลลัพธ์ที่ได้จากทั้ง GWAS ที่พิมพ์และการใส่ GWAS ตามข้อมูล WTCCC-TB ไม่แสดงเพื่อหลีกเลี่ยงการจำลองผลลัพธ์จาก WTCCC-TB (Thye etal., 2010, 2012)การรวมชุดข้อมูล GWAS ที่เกิดขึ้นทั้งสองชุดรวมทั้งหมด 1, 009, 364 Autosomal SNPs ถูกวิเคราะห์โดยการศึกษาทั้งสองเราใช้วิธีการแบบสุ่มและแบบไบนารี-e ects ที่ใช้ในโปรแกรม Metasoft (Han & Eskin, 2011) กับการศึกษารวมและรายงานผลการวิเคราะห์ meta-analysescape (ตารางที่ 6.2)เราได้รับเหตุผลที่สมเหตุสมผลในอัตรา ated จาก fi xed-e ff ect (λgc = of1.062), binary-e ff ect (λgc = 1.05) และจากการศึกษาแต่ละครั้ง SAC-TB (λgc = 1.094) และ WTCCC-TB (λGC = 1.0495)ตามลำดับ (รูปที่ 6.4)นอกเหนือจากค่า p มาตรฐานแล้วเรายังตรวจสอบความน่าจะเป็นหลัง (M-value) ที่มีอยู่ในการศึกษาแต่ละครั้ง (Han & Eskin, 2011)การใช้เกณฑ์ m-value> 0.7 เราสังเกตเห็นตัวแปรทางพันธุกรรมสองตัวคือ RS2057178 และ RS11031728 (รูปที่ 6.5 และตารางที่ 6.2) ที่มีค่า p ที่คล้ายกันกับ GWAs มาตรฐานซึ่งส่งผลให้เกิดความสัมพันธ์ที่สำคัญกับความเสี่ยงของ TBการศึกษาและความหลากหลายของ Thye และคณะการศึกษา (Thye etal., 2012)SNPs เหล่านี้ทั้งในภูมิภาคโครโมโซม 11P13 และทำซ้ำ fi ndings ล่าสุดของ (Thye etal., 2012) ในการใส่ GWAS ของเราตัวแปรอื่น ๆ (รูปที่ 6.5 และตารางที่ 6.2) ให้ผลการศึกษาที่อ่อนแอในการศึกษา SAC-TBแม้ว่า Metasoft จะให้ค่า p-value (ตาราง 6.2s) เล็กน้อยที่ SNP R 4331426 จาก GWAS มาตรฐาน (ตารางที่ 6.1) ซึ่งอาจเกิดจากความหลากหลายสูง (ST2 = 32.6, ดูตารางที่ 6.2)etal ของ Thye(2010) ไม่รอดชีวิตจากจีโนมทั่วทั้งจีโนมในการวิเคราะห์วัณโรคของ SAC และ WTCCC (Thye etal., 2010)ยิ่งไปกว่านั้นการวิเคราะห์วัณโรค SAC TB TB ของ SAC และ polymorphisms สี่ตัวในยีน TLR8 บนโครโมโซม X ที่รายงานในประชากรอินโดนีเซียจาก Davila etal(2008) การศึกษาไม่ได้ผล

116 6.3 ผลการศึกษา: การศึกษาสมาคมการศึกษาในประชากรสีแอฟริกาใต้

รูปที่ 6.4: Meta วิเคราะห์พล็อต Q-Q ของปัจจัยการควบคุมจีโนมอินทาวน์ e ff ects: เส้นสีแดงล่างแสดงเปอร์เซ็นไทล์ที่ 90 ในขณะที่หนึ่งในนั้นหมายถึงจุดที่ค่า p- ค่าแตกต่างจากเส้นที่คาดหวังค่าλGCบ่งชี้ว่ามีประชากรส่วนที่เหลืออยู่ในชั้นเรียน (หลังการแก้ไข) ซึ่งน้อยที่สุดพล็อตนั้นมาจากแบบจำลอง binary-e ect (b), การศึกษา SAC-TB (C) และการศึกษา WTCCC-TB (D) ตามลำดับของหลักฐานที่น่าเชื่อถือใด ๆ ของการเชื่อมโยงกับความเสี่ยงของวัณโรคสิ่งนี้ชี้ให้เห็นว่าไม่มีการจำลองการจำลองแบบที่ TLR8 locus ในถุง admixed

มหาวิทยาลัย

117 6.4 การอภิปรายและข้อสรุป

เมือง

รูปที่ 6.5: (a) พล็อตป่าที่มีความเสี่ยงสัมพัทธ์จากการวิเคราะห์เมตาการวิเคราะห์วัณโรคของจีโนมทั่วทั้งจีโนมในการศึกษาสีแอฟริกาใต้และ WTCCC-TB จากการศึกษาใน (Thye et al., 2010, 2012)(b) พล็อตของความเสี่ยงสัมพัทธ์จากแบบจำลองแบบไบนารีและแบบสุ่มจากทั้งสีแอฟริกาใต้และสี่ polymorphisms ในยีน TLR8 บนโครโมโซม X รายงานในประชากรอินโดนีเซียจาก Davila et al(2008) การศึกษา

6.4 การอภิปรายและข้อสรุป

เพื่อให้บรรลุพลังที่เพียงพอในการตรวจจับความสัมพันธ์ในระดับของจีโนมทั่วทั้งจีโนมและระบุตำแหน่งความเสี่ยงร่วมกันกับการศึกษากรณีควบคุมวัณโรคแอฟริกาที่รายงานไว้ก่อนหน้านี้ (Thye etal., 2010, 2012) และสี่ polymorphisms ในยีน TLR8ระบุโดย Davila และคณะ2551, การวิเคราะห์อภิมาน GWAS ได้ดำเนินการภายใต้โมเดล fi xed-e ff ect และแบบจำลองไบนารี-e ff ectในการรวมข้อมูล GWAS ในการศึกษาเหล่านี้สองตำแหน่ง (RS2057178 และ RS11031728) มีผลการเชื่อมโยงกับความสำคัญของจีโนมกว้างและแสดงให้เห็นถึงความแข็งแกร่งทั้งในการศึกษาของเราและการศึกษาก่อนหน้านี้ (Thye etal., 2010, 2012)การศึกษาของเราคือการใส่ GWAS ครั้งแรกของประชากรที่ซับซ้อนนี้รวมถึงการวิเคราะห์อภิมานกับ GWAs ก่อนหน้านี้เกี่ยวกับประชากรแอฟริกาข้อ จำกัด ที่สำคัญในการศึกษาครั้งนี้คือการเพิ่มข้อมูลจีโนไทป์ที่ขาดหายไปของคอมเพล็กซ์

118 6.4 การอภิปรายและข้อสรุป

ประชากร Admixed ยังคงเป็นความท้าทายที่สำคัญตามทางเลือกและขนาดของ haplotype ของแผงอ้างอิงที่มีอยู่โดยเฉพาะอย่างยิ่งการใส่ข้อมูลจีโนไทป์ที่ขาดหายไปของประชากร sac ที่ได้รับการผสมนี้เป็นสิ่งที่ไม่ดีซึ่งชี้ให้เห็นถึงความท้าทายในการใส่จีโนไทป์ที่หายไปของประชากรหลายทางของประชากรดังกล่าว (Baran etal., 2012; Marchini & Howie, 2008; Rodriguez etal., 2012)อย่างไรก็ตามจำนวน SNP ที่เพิ่มขึ้นที่เกิดจากการวิเคราะห์การใส่ร้ายนั้นมีประโยชน์ในการศึกษานี้ทำให้การจำลองแบบของ TB ความไวต่อตำแหน่ง (Thye etal., 2012)

เมือง

แหลม

มหาวิทยาลัย

119 ตารางที่ 6.3: 62 เครื่องหมายทางพันธุกรรมที่มีค่า p การกลั่นกรองโดยการวิเคราะห์ความสัมพันธ์กับฟีโนไทป์ tuberculo- sis บนชุดข้อมูลที่ระบุไว้POS และ CHR หมายถึงโครโมโซมและตำแหน่งทางกายภาพตามลำดับA1/A2 เป็นอัลลีลอ้างอิง/ที่ได้รับMAF เป็นความถี่ของอัลลีลเล็กน้อยและการโทรคืออัตราการโทรจีโนไทป์

SNP CHR POS A1/A2 ข้อมูลการโทร MAF P FISHER หรือ GENE 05 06 RS10917420 1 23935574 C/T 0.89 0.71 0.417 3.25E - 2.15E - 0.27 TCEB3 05 RS16851354 1 15368207 39539 1216121310 C/T 0.97 0.86 0.083 0.00027 0.0002 0.36 LINC00210 05 07 RS1926278 1 6822647 C/T 0.96 0.93 0.356 2.99E-2.78E-0.41 GNG12-AS12052222226 1.82E− 1.06E− 0.37Rhou

120 05 05 RS315087 1 76761852 C/T 0.75 0.47CAPE 0.248 1.67E - 1.39E - 0.13 ST6GALNAC3 05 06 RS7541416 1 26495498 190024 A/C 0.930.88 0.38 3.99E - 8.60e - 0.35 LekR1 06 06 RS1385715 3 59716555 A/C 0.9 0.85 0.496 9.65E - 1.78E− 2.84 FHIT

05 06 บทสรุปและการอภิปราย 6.4 RS1595665 4 161630317 C/T 0.99 0.97 0.18 1.69E - 1.91E - 4.94 FSTL5 05 RS17493657 4 35753287 C/T 0.59 0.3 0.442 55 C/T 0.84 0.66 0.2342.95E - 9.81E - 0.28 GABRB1 05 05 RS16898876 5 13263200 C/T 0.91 0.86 0.463 4.69E - 1.06E - 0.42 RPS23P5 มหาวิทยาลัย 05 05 RS240727 6 759 6 06 RS25056756 2300674 C/T 0.87 0.61 0.154 3.87E - 1.12E - 0.22 LOC100508120 05 06 RS2286182 7 26590917 A/C 0.95 0.84 0.145 3.36E - 5.08E - 0.35 KIAA 4.68E− 0.0007 0.34VSTM2A ดำเนินการต่อในหน้าถัดไปตารางที่ 6.3 - ต่อจากหน้าก่อนหน้า SNP CHR POS A1/A2 ข้อมูลการโทร MAF P FISHER หรือยีน

05 RS8764215 7 103371937 C/T 0.68 0.34 0.267 2.22E - 0.0003 0.08 - 05 05 RS9639391 7 21737815 G/T 0.83 0.72 0.405 1.47E - 6.93E 59 0.103 1.52E− 8.82E - 0.27 FAM110B 05 06 RS6995423 8 59330138 A/G 0.85 0.53 0.134 2.53E - 7.99E - 0.24 FAM110B 05 06 RS10809117 9 10531177 G/T 0.79 0.64 0.335 2827 A/C 0.820.67 0.31 4.24E - 0.000764 0.4 PTPRD 05 06 RS1410978 9 22394681 C/T 0.93 0.89 0.402 2.06TOWNE - 6.29E− 0.43 DMRTO1 06 05 RS586716 9 2247867867 TA1 05 06 RS7901781 105109544 C/T 0.89 0.55 0.121 3.35E - 9.44E - 0.2 AKR1C3 06 07 RS12283022 11 102485804 A/G 0.76 0.48 0.245 1.88E - 8.51E - 0.14 - 121 CAPE 06 07 RS14 8 8.53e−2.90E - 0.16 SPON1 05 05 RS7104341 11 122086148 G/T 0.84OF 0.62 0.194 2.60E - 4.49E - 0.26 UBASH3B 06 06 RS7105967 11 102434653 C/T 0.75 0.254 47821 11 102452675 C/t 0.75 0.47 0.252 1.95E− 9.92E− 0.14 DCUN1D5

05 05 บทสรุปและการอภิปราย 6.4 RS12426185 12 5579896 C/G 0.89 0.78 0.25 2.45E− 1.01E - 0.38 ANO2 06 06 RS6538140 12 76262136 A/G 0.81 0.63 0.259 233391 A/C0.94 0.81 0.129 3.69E - 5.91E - 0.37 KLF12 06 07 RS1900442 13 41403674UNIVERSITYC/T 0.97 0.91 0.146 4.72E - 3.68E− 0.37 VWA8 05 06 RS284933713713 E− 0.39 KIAA0564 05 06RS7318112 13 41423876 C/T 0.96 0.86 0.151 2.87E - 1.80E - 0.37 VWA8 06 07 RS7318638 13 4139654 C/T 0.97 0.91 0.145 9.73E 93 0.83 0.198 4.96E− 0.000590.48 - ดำเนินการต่อในหน้าถัดไปตารางที่ 6.3 - ต่อจากหน้าก่อนหน้า SNP CHR POS A1/A2 ข้อมูลการโทร MAF P FISHER หรือยีน

05 RS1948724 14 32907418 G/T 0.86 0.63 0.176 3.95E-0.00011 0.34 NPAS3 06 05 RS6575836 14 100749008 A/G 0.82 0.58 0.211 8.30E 85 0.75 0.384 2.73E- 1.26E - 0.34 - 05 06 RS7171652 15 59497604 C/T 0.89 0.82 0.381 3.73E - 3.83E - 0.4 RORA 05 05 RS1074182 16 5202858 G/T 0.92 0.8262 3.17E 9057 A/g 0.76 0.51 0.275 3.13e - 1.60e - 0.09 NAA60 05 05 RS58298 20 47827998 C/T 0.86 0.66 0.196 3.87TOWNE - 1.21E - 0.28 SLC9A8 05 06 RS61266266264 e− 0.23TSHZ2 05 05 RS681074 20 47814889 A/G 0.85 0.66 0.207 2.95E - 3.71E - 0.31 SLC9A8 06 05 RS2837857 21 4113825 C/T 0.8 0.65 0.299 4191 A/G 0.80.65 0.309 5.18E - 8.42E− 0.27 IL2RB 05 05 RS11797250 X 17167482 A/C 1OF 1 0.072 4.61E - 2.33E - 0.23 Reps2 06 05 RS138067008RS139956886 x 142842119 A/C 1 1 0.02 5.96E− 2.66E - 0.12 -

06 05 บทสรุปและการอภิปราย 6.4 RS141261373 x 142827897 A/C 1 1 0.02 6.91E - 4.09E - 0.13 - 07 05 RS142513793 x 47906480 A/C 1 1 0.031 1.84E 6 A/C1 1 0.02 6.91E - 4.09E - 0.13 - 06 05 RS149912409 x 142832475Universitya/C 1 1 0.02 6.91E - 4.09E - 0.13 - 06 05 RS190796883RS192138826 x 142823406 A/C 1 1 0.02 6.91E - 4.09E - 0.13 - 05 05 RS5924599 x 17139624 A/C 1 1 0.077 8.16E - 3.72E - 0.24 Reps2 05924245.75E− 0.25 Reps2 ดำเนินการต่อในหน้าถัดไปตารางที่ 6.3 - ต่อจากหน้าก่อนหน้า SNP Chr Pos A1/A2 ข้อมูลการโทร MAF P Fisher หรือยีน

06 05 RS5928363 x 33784063 A/C 1 1 0.021 3.72E - 2.01E - 0.12 -

เมือง

123 Cape oficsinadconclusion และการสนทนา 6.4

มหาวิทยาลัยบทที่ 7

Locus-speci fi c บรรพบุรุษ: การกระจายความยาวของบล็อกในประชากรที่ได้รับการผสมหลายทาง

เมือง 7.1 บทนำ

การตรวจสอบการแต่งหน้าทางพันธุกรรมของประชากร ampixed ได้รับการแนะนำให้เป็นประโยชน์สำหรับการทำความเข้าใจความแตกต่างในความชุกของโรคและการตอบสนองของยาเสพติดในหมู่ประชากรที่แตกต่างกันการวิเคราะห์รูปแบบของส่วนโครโมโซมที่ใช้ร่วมกันระหว่างประชากรได้ให้ข้อมูลเชิงลึกที่สำคัญเกี่ยวกับประวัติศาสตร์การล่าอาณานิคมของมนุษย์รวมถึงคลื่นการย้ายถิ่นหลายครั้งทั่วทั้งการควบคุมและการเคลื่อนไหวที่ซับซ้อนของผู้คนทั่วโลก (ราคา etal., 2009b)การศึกษารูปแบบการผสมในประชากรมนุษย์มีการใช้งานที่สำคัญหลากหลายตั้งแต่การคัดเลือกทั้งในท้องถิ่นและตัวแปรทางพันธุกรรมที่อยู่ภายใต้ความเสี่ยงทางชาติพันธุ์ในความเสี่ยงของโรคไปจนถึงการทำความเข้าใจประวัติศาสตร์ (Seldin etal., 2011)วิธีการได้รับการพัฒนาขึ้นเพื่อศึกษาบรรพบุรุษทางพันธุกรรมในท้องถิ่นในระดับของบุคคลภายในประชากร ampixed (Baran etal., 2012; Churchhouse & Marchiniuniversity, 2012; Falush etal., 2003; Henn etal., 2012; Hoggart etal., 2004; Pasaniucetal., 2009;วิธีการเหล่านี้ส่วนใหญ่พิสูจน์แล้วว่าประสบความสำเร็จเมื่อใช้ประชากรสองทางหรือสามทางเช่นแอฟริกัน-อเมริกัน (Baran etal., 2012)อย่างไรก็ตามความถูกต้องของวิธีการเหล่านี้ยังไม่ได้รับการพิสูจน์เมื่อใช้ประชากรที่มีหลายทางเช่นประชากรสีแอฟริกาใต้ที่ไม่เหมือนใครนอกจากนี้แม้กระทั่งวิธีการของบรรพบุรุษที่มีความโดดเด่นในการแนะนำเมื่อเร็ว ๆ นี้รวมถึงโลหะผสม (Rodriguez etal., 2012), PCADMIX (Henn etal., 2012), Multimix (Churchhouse & Marchini, 2012) และ (Lawson etal., 2010) ไม่สามารถทำได้ยอดเยี่ยมที่เหนือกว่า Lampld (Baran etal., 2012)วิธีการทั้งหมดแสดงให้เห็นถึงความแม่นยำเทียบเท่ากับ WinPop

124 7.1 บทนำ

การกระจายตัวของสัดส่วนบรรพบุรุษของบุคคลที่ได้รับการผสมอาจถูกนำมาใช้เพื่อประเมินเวลาที่แตกต่างของเหตุการณ์การผสมเพื่อทำการอนุมานเกี่ยวกับประวัติประชากรเพื่อเติมเต็มสถิติการเชื่อมโยงกรณีการควบคุมกรณีในการปรับปรุงอำนาจในการศึกษาสมาคมโรค (Pasaniuc et al., 2011) และเพื่อระบุเครือข่ายย่อยที่มีความหมายมากที่สุดที่มีพื้นฐานทางชาติพันธุ์ในความเสี่ยงของโรคที่ซับซ้อน (ส่วนที่ 8.2.2 และ 8.2.3 ของบทถัดไป)แม้ว่าวันที่ของเหตุการณ์ส่วนผสมสามารถประมาณได้จากการประมาณโดยตรงของจำนวนของราคาเบรกพอยต์และคณะ(2009b), วิธีการใหม่ได้รับการพัฒนาจนถึงวันที่กิจกรรมการผสมในประชากร ampixed เมื่อเร็ว ๆ นี้ซึ่งรวมถึง:

(1) วิธีการตามความน่าจะเป็น (hapmix) จากข้อมูลบล็อก haplotype (ราคา etal., 2009b)

(2) วิธีการสแกนจีโนมที่ใช้ PCA (STEPPCO) ซึ่งใช้การสลายตัวของเวฟเล็ตของสัญญาณส่วนผสมโดยประมาณเพื่อประเมินวันที่ของเหตุการณ์ส่วนผสม (Pugach et al., 2011)

(3) วิธีการโรลออฟขึ้นอยู่กับอัตราการลดลงแบบทวีคูณของการเชื่อมโยงการเชื่อมโยงการเชื่อมโยง librium (LD)การกระจายการกระจายแบบเอ็กซ์โปเนนเชียลไปยังความสัมพันธ์ระหว่าง LD ของคู่ของ SNPs และฟังก์ชั่นถ่วงน้ำหนักที่อธิบายถึงความถี่อัลลีลของพวกเขาในประชากรของบรรพบุรุษด้วยความเคารพต่อประชากรที่มีส่วนร่วม (Moorjani et al., 2011)เสื้อคลุม

วิธีการดังกล่าวข้างต้นในการประเมินวันที่ของเหตุการณ์ส่วนผสมนั้น จำกัด อยู่ที่ประชากรส่วนผสมสองทางและเหตุการณ์การผสมล่าสุดช่วงเวลาของเหตุการณ์การผสมที่ประเมินจากวิธีการเหล่านี้ไม่แสดงความสัมพันธ์อย่างง่าย (ตารางที่ 7.1)การประมาณวันที่ของเหตุการณ์ส่วนผสมยังคงอยู่ในช่วงเริ่มต้นและวิธีการที่แตกต่างกันให้ผลลัพธ์ที่แตกต่างกันแม้จะมีแบบจำลองประชากรสองทางแบบสองทาง (ตารางที่ 7.1)

ตารางที่ 7.1: ตัวอย่างความหลากหลายของการเปรียบเทียบค่าประมาณของวันที่ของเหตุการณ์ส่วนผสม (จำนวนรุ่น) สำหรับประชากรสองทางโดยใช้ผลลัพธ์จาก Hapmix (Price et al., 2009b), Steppco (Pugach et al., 2011) และ Rolloff (Moorjani et al., 2011) วิธีการประชากร Hapmix Steppco Rolloff

Bedouin 90 83 31.3 ปาเลสไตน์ 75 72 33 Druze 60 90 44

125 7.2 วัสดุและวิธีการ

การประมาณที่ถูกต้องและไม่เอนเอียงของบรรพบุรุษในทุก SNP ในประชากรที่มีการผสมผสานหลายทางอาจให้ข้อมูลเชิงลึกที่สำคัญในการระบุยีนโรคและให้ข้อมูลเกี่ยวกับช่วงเวลาของเหตุการณ์โบราณหรือการผสมล่าสุด., 2011)เนื่องจากความสำคัญของการอนุมานของบรรพบุรุษของสถานที่ในการทำความเข้าใจประวัติประชากรและสถิติการให้คะแนนของโรคบทนี้ประเมินความถูกต้องของการอนุมานบรรพบุรุษในท้องถิ่นในประชากรหลายทางจำลองโดยใช้วิธีที่ได้รับความนิยมมากที่สุดรวมถึง Lampld และ Winpopจากนั้นเราตั้งเป้าหมายที่จะใช้วิธีการที่แม่นยำที่สุดกับข้อมูลจริงของ SACเราหารือเกี่ยวกับความเป็นไปได้อีกอย่างหนึ่งของการออกเดทเหตุการณ์ส่วนผสมที่แตกต่างกันในประชากรที่มีหลายทางเช่น SAC โดยใช้การกระจายแบบเอ็กซ์โปเนนเชียลของความยาวบล็อกบรรพบุรุษตามจีโนมของบุคคลที่ได้รับการผสม

7.2 วัสดุและวิธีการ

7.2.1 การประเมินการอนุมานของบรรพบุรุษในท้องถิ่นในเมืองหลายทางจากกลุ่มยีนบรรพบุรุษและวันที่ที่แตกต่างกันของเหตุการณ์ส่วนผสมเป็นจำนวนรุ่นนับตั้งแต่เกิดการผสมพารามิเตอร์ทั้งสองนี้ถูกนำมาใช้ในแง่ของจุดพักการรวมตัวกันใหม่ภายในโครโมโซมประชากรบรรพบุรุษเพื่อสร้างตัวอย่างในแต่ละรุ่นในแต่ละรุ่นข้อมูลบรรพบุรุษและตำแหน่งเบรกพอยต์สำหรับตัวอย่างเฉพาะถูกเก็บไว้ประชากรบรรพบุรุษพร็อกซีแต่ละคนถูกแบ่งออกอย่างอิสระตามส่วน 2.2.4สำหรับ 165 CEU, 101 GIH, 203 Yri, 250 CHB+JPT และ 22 SAN, Beagle สร้างสระว่ายน้ำ haplotype บรรพบุรุษของ 330, 202, 406, 500 และ 44 Haploid (CEU, GIH, YRI, CHB+JPT และ SAN) จีโนมตามลำดับในการสร้างบุคคลที่ผสมผสาน N Diploid Framework ใช้ haplotypes บรรพบุรุษ 2N University เรามีจุดมุ่งหมายที่จะผสมประชากรขนาดใหญ่เพื่อหลีกเลี่ยงการเชื่อมโยงที่ไม่สมดุล (LD) ที่เกิดจากผู้ก่อตั้ง Ects ​​เพื่อให้เราสามารถควบคุมระดับของ LD ที่แท้จริงดังนั้นประชากรบรรพบุรุษแต่ละคนจึงขยายตัวเป็นขนาดทั้งหมด 1,500 คนบวกขนาดดั้งเดิมจากประชากรบรรพบุรุษที่ขยายตัวแต่ละครั้งเราแยกตัวอย่างที่เกิดขึ้นเป็นสองขนาดแยกกันในที่สุด 1500 ตัวอย่างถูกนำมาใช้ในการจำลองบุคคล diploid ampixed และข้อมูลจำลองที่เหลือของขนาดดั้งเดิมถูกใช้เพื่อใช้วิธีการบรรพบุรุษในท้องถิ่นสองวิธีที่ใช้กันทั่วไปคือ WinPop Pasaniuc etal(2009) และ Lampld Baran etal(2012)เป้าหมายของเราในการประเมินความถูกต้องของทั้ง WinPop และ Lampld ในการอนุมานบรรพบุรุษในท้องถิ่นนั้นทำได้โดยการดูความสัมพันธ์ระหว่าง Y ที่อนุมานและบรรพบุรุษที่แท้จริง Z. เพื่อประเมินความสัมพันธ์นี้

126 7.2 วัสดุและวิธีการ

y และ z ในราคา etal(2009b)จากประชากรบรรพบุรุษ K ความสัมพันธ์กำลังสองที่คาดหวังระหว่าง Y และ Z เป็นอัตราส่วนของความแปรปรวนร่วมที่คาดหวังของ Y และ Z และผลิตภัณฑ์ของความแปรปรวนที่คาดหวังของทั้ง Y และ Z ที่ได้รับจากตำแหน่งและบุคคล:

cov¯ (y, z) r2 =(7.1) yz var (y) .var (z)

นอกจากนี้ขึ้นอยู่กับ Z ที่แท้จริงและบรรพบุรุษในท้องถิ่นที่อนุมานได้เราคำนวณอัตราของ

การเรียกบรรพบุรุษที่แท้จริงในหมู่ประชากรที่แตกต่างกันด้วยส่วนบรรพบุรุษที่แท้จริงของความยาว NK (2n คือจำนวนทั้งหมดของอัลลีลบรรพบุรุษที่แท้จริง) ที่ได้มาจากประชากร k k ตามจีโนมจำลอง K ∈ของประชากร ampixed เราคำนวณการกระจายของอัตราการเรียกบรรพบุรุษที่แท้จริง k k และอัตราความผิดพลาดของการโทร k = j k ประชากรบรรพบุรุษแทน k เป็น: ∈ 6 ∈

τ˜ err˜ =, j k, (7.2) 2nk ∈โดยที่ τ˜ คือจำนวนอัลลีลบรรพบุรุษที่อนุมานจากประชากร Ancestraltown J K, อัตรา∈ของการเรียกบรรพบุรุษที่แท้จริงได้รับCAPE 7.2.2 การกระจายขนาดบล็อกบรรพบุรุษในประชากรหลายทาง

จากบรรพบุรุษที่อนุมานได้ในแต่ละสถานที่ของจีโนมของประชากร ampixed เราประเมินขนาดบล็อกบรรพบุรุษในแต่ละช่วงเวลาของ 1 ซม. ตามจีโนมของแต่ละคนที่ได้รับการผสมเป็นชุดของ SNP ที่ต่อเนื่องกันซึ่งทั้ง 1 หรือ 2 อัลลีลถูกกำหนดให้กับแต่ละกลุ่มบรรพบุรุษพร็อกซีที่เกี่ยวข้องวิธีการนี้คล้ายกับการประเมินบล็อก haplotype โดยใช้ความไม่สมดุลของการเชื่อมโยงในประชากรบริสุทธิ์เช่นเดียวกับที่ทำสำหรับประชากร HAPMAP (Frazer & University K et al, 2007)เมื่อพิจารณาจากขนาดบล็อกบรรพบุรุษที่ได้มาจากประชากรบรรพบุรุษ k ในบุคคลที่ได้รับการผสมฉันเป็นช่วงเวลา j เราเป็นแบบจำลองความน่าจะเป็นเพื่อประเมินเวลานับตั้งแต่เกิดการผสมเราสันนิษฐานว่าขนาดบล็อกบรรพบุรุษแต่ละตัวมีความเป็นอิสระและกระจายเหมือนกันตามการแจกแจงปัวซองด้วยพารามิเตอร์ G (เรียกว่าจำนวนรุ่นนับตั้งแต่ส่วนผสมเกิดขึ้น)ดังนั้นสำหรับแต่ละบุคคล i, ฟังก์ชั่นความหนาแน่นของความน่าจะเป็นร่วมของบรรพบุรุษ K ขนาดบล็อกจากประชากรบรรพบุรุษ K, BIJ ได้รับเป็น

J P (G B1, ... , BJ) = ∏ P (BJ G), (7.3) |J = 1 |

127 7.3 ผลลัพธ์และการอภิปราย

จากทฤษฎีบท Bayes การกระจายหลังเป็นที่รู้จักกันว่าเป็นสัดส่วนกับผลิตภัณฑ์ของแกมม่าก่อน (ด้วยαและβพารามิเตอร์รูปร่างและมาตราส่วนตามลำดับ) p (g) สำหรับ g และฟังก์ชันความน่าจะเป็น l (g b, ..., b)ตามมา, |1 J

A B 1 หลัง ∝ L (G B, ... , B) GA - EXP (GB) |1 J C (A) -

j = 1 a b 1 ∝ g ∑ b exp (jg) ga - exp (gb) j - c (a) - "j #

j 1 ¯ ∝ g ∑ bj + α− exp g (bj + β)(7.4) J = 1 - สมการ J ¯ 7.4 คือการกระจายแกมม่าด้วยα ∗ = ∑J = 1 bj + αและβ ∗ = bj + βดังนั้น

G = γ (α ∗, β ∗) เมือง (7.5)

7.3 ผลลัพธ์และการอภิปราย

7.3.1 ความแม่นยำของการอนุมานของบรรพบุรุษในท้องถิ่นในข้อมูลจำลอง

ดังที่แสดงในผลลัพธ์ก่อนหน้านี้ในส่วนที่ 2.3.2.2of, SAC มีส่วนผสมที่ซับซ้อนที่เกิดขึ้นจากส่วนผสมของประชากรบรรพบุรุษส่วนใหญ่ ได้แก่ ชาวยุโรป, ภาคใต้, ซานตู, ซานและเอเชียใต้และตะวันออกเพื่อที่จะดูว่าบรรพบุรุษท้องถิ่นที่อนุมานได้ใน SAC สามารถอนุมานได้อย่างถูกต้องเราได้ประเมินความถูกต้องของสองวิธีล่าสุดสำหรับการอนุมานบรรพบุรุษท้องถิ่นในประชากรที่ได้รับการผสม., 2009)เราจำลอง 749 คนของยุโรปผสม (CEU), จีนและญี่ปุ่น (CHB+JPT), Bantu (Yri) และบรรพบุรุษของ Sanuniversity (มาตรา 7.2.1)อัลกอริทึมการจำลองสร้างข้อมูลที่เกี่ยวข้องเกี่ยวกับบรรพบุรุษและตำแหน่งเบรกพอยต์สำหรับแต่ละตัวอย่างจำลองแต่ละคนที่ได้รับการออกแบบมาให้เป็นโมเสกของ haplotypes จากประชากรบรรพบุรุษสมมุติข้างต้นและได้รับการแก้ไขในส่วนผสมในถุงจากบรรพบุรุษท้องถิ่นที่อนุมานได้จากทั้ง Lampld และ WinPop เราประเมินความแม่นยำเราเปรียบเทียบการประเมินความสัมพันธ์ระหว่างบรรพบุรุษท้องถิ่นที่อนุมานและข้อมูลบรรพบุรุษที่แท้จริงโดยการคำนวณ R2 (มาตรา 7.2.1)Lampld มีขนาดที่คล้ายกันมากขึ้นกับค่าเฉลี่ยที่แท้จริงของบรรพบุรุษที่เฉพาะเจาะจงในจีโนมมากกว่า WinPop (รูปที่ 7.1)R2 ในตารางที่ 7.2 แสดงให้เห็นว่า LAMPLD ให้ความแม่นยำมากขึ้นสำหรับการอนุมานบรรพบุรุษในท้องถิ่นในข้อมูลจำลองทางเวย์มากกว่า WinPop

128 7.3 ผลลัพธ์และการอภิปราย

รูปที่ 7.1: ค่าเฉลี่ยของบรรพบุรุษในท้องถิ่นทั่วจีโนมทาวน์ของ 749 Diploid Admixed บุคคลของชาวยุโรปผสม (CEU), จีน-ญี่ปุ่น (CHB+JPT), Bantu (Yri) และ San Ancestryพล็อตเปรียบเทียบค่าเฉลี่ยที่แท้จริงและค่าเฉลี่ยของบรรพบุรุษในท้องถิ่นข้ามจีโนมของประชากรที่มีการจำลองหลายทางตารางที่ 7.2: ค่าเฉลี่ย R2 (ตามที่อธิบายไว้ในส่วนที่ 7.2.1) เปรียบเทียบความแม่นยำของ WinPop และ Lampld ในการอนุมานบรรพบุรุษท้องถิ่นเกี่ยวกับข้อมูลจำลองของ 749 ampixed บุคคลที่ผสมของยุโรปผสม (CEU), จีน-ญี่ปุ่น (CHB+JPT)Bantu (Yri) และ San AncestryCEU YRI GIH CHB+JPT SAN LAMLD 0.89 0.87 0.88 0.92 0.92 UniversityWinPop 0.51 0.69 0.49 0.49 0.67

ผลลัพธ์ในรูปที่ 7.2 ยังแสดงให้เห็นว่า Lampld อนุมานอัลลีลบรรพบุรุษที่แท้จริงได้ดีกว่า WinPopความแม่นยำที่เหนือกว่าของ Lampld ถึง WinPop นั้นคาดว่าและได้รับการสนับสนุนจากผลลัพธ์ในตารางที่ 7.2ในข้อมูลการจำลองและประชากรที่แท้จริงของ Latinos (Baran etal., 2012) (เป็นที่รู้จักกันว่าเป็นผลมาจากการผสมผสานของประชากรบรรพบุรุษสามคน) Lampld ยังแสดงให้เห็นถึงความแม่นยำที่เหนือกว่ากับอัลกอริทึมอื่น ๆ ที่มีอยู่เนื่องจาก Lampld ให้ความแม่นยำมากกว่า WinPop เราจึงประเมินความสามารถของ LAMPLD อย่างลึกซึ้งในการอนุมานบรรพบุรุษท้องถิ่นอย่างถูกต้องในประชากรหลายทาง

129 7.3 ผลลัพธ์และการอภิปราย

รูปที่ 7.2: อัลลีลบรรพบุรุษข้ามจีโนมของ OneTown ของบุคคลที่ผสม CEU, CHB+JPT, Yri และ San Ancestryการเปรียบเทียบอัลลีลที่แท้จริงเมื่อเทียบกับอัลลีลที่อนุมานได้ทั่วจีโนมของบุคคลหนึ่งที่ถูกสุ่มเลือกในตัวอย่างจำลองเคปอัตราการเรียกบรรพบุรุษที่แท้จริงและข้อผิดพลาดของการโทรหาประชากรบรรพบุรุษอื่นแทนที่จะเป็นคนจริงตารางที่ 7.3 แสดงให้เห็นว่าแม้แต่ Lampld ก็ยังคงประเมินบรรพบุรุษในท้องถิ่นที่แท้จริงในประชากรหลายทางตารางที่ 7.3 แสดงให้เห็นว่าบรรพบุรุษของ CEU ที่แท้จริงในประชากร Admixed (ข้อมูลการจำลอง) เป็นสิ่งที่เรียกผิดว่าเป็นบรรพบุรุษของ GIH (17%) บ่อยกว่าบรรพบุรุษ GIH ที่แท้จริงนั้นเป็นเชื้อสาย CEU (8.4%)บรรพบุรุษของซานที่แท้จริงในประชากร Admixed (ข้อมูลการจำลอง) เป็นสิ่งที่เรียกผิดว่าเป็นบรรพบุรุษของ Yri (14.8%) บ่อยครั้งกว่าบรรพบุรุษ Yri ที่แท้จริงเล็กน้อยนั้นเป็นสิ่งที่เรียกว่า San Ancestry (14.2%)วิธีการหลายวิธีในการประเมินประชากรต้นกำเนิดตามจีโนมของบุคคลที่มีบรรพบุรุษผสมรวมถึง Hapmix (ราคา etal., 2009b), หลอดไฟ (Baran etal., 2012; Sankararaman et al., 2008), Winpop (Pasaniuc et al al., 2009), Multimix (Churchhouse & Marchini, 2012) สามารถประเมินบรรพบุรุษท้องถิ่นอย่างแม่นยำในประชากร 2 ทางหรือ 3 ทางยังคงมีข้อ จำกัด หรือไม่ได้ทดสอบเมื่อใช้ประชากรที่ได้รับการผสมหลายทาง (เหตุการณ์ผสมหลายจุด)สิ่งนี้ได้รับการสนับสนุนโดยผลลัพธ์ของเราในตารางที่ 7.3 ซึ่งแสดงข้อ จำกัด ของ Lampld ซึ่งเป็นวิธีการในปัจจุบันสำหรับการอนุมานบรรพบุรุษท้องถิ่นตามจีโนมของบุคคลที่มีหลายทางซึ่งเป็นที่รู้จักกันดี

130 7.3 ผลลัพธ์และการอภิปราย

ตารางที่ 7.3: อัตราความผิดพลาดในการอนุมานบรรพบุรุษท้องถิ่น LAMPLD ในข้อมูลจำลองในแถวแรกเราแสดงความน่าจะเป็นของการอนุมานบรรพบุรุษแต่ละคนเมื่อบรรพบุรุษที่แท้จริงคือ CEUแถวอื่น ๆ นั้นคล้ายคลึงกันเราทราบว่าตารางนั้นไม่สมมาตร: ตัวอย่างเช่นบรรพบุรุษของ CEU ที่แท้จริงนั้นถูกเรียกผิดว่าเป็นบรรพบุรุษของ Gih บ่อยกว่าบรรพบุรุษ Gih ที่แท้จริงนั้นถูกเรียกว่าเป็นบรรพบุรุษของ CEUceu yri gih chb+jpt san

CEU 79% 3% 17% 0.7% 0.3% YRI 1.4% 72% 2% 0.4% 14.2% GIH 8.4% 3.4% 85.8% 1.4% 0.8% CHB+JPT 2.1% 3.786% S 0. 8 8 % 1% 0.3% 74%

7.3.2 SAC: Locus-speci fi c บรรพบุรุษและบรรพบุรุษบล็อกขนาด disribution disribution เพื่อเพิ่มความครอบคลุมของจีโนไทป์ในการอนุมานบรรพบุรุษในท้องถิ่น, locus-speci fi c บรรพบุรุษถูกอนุมานโดยใช้ lampld บนข้อมูล SAC ภายใน haplotypes บรรพบุรุษจาก IsixhosaCEU), Khomani (KHO) และ Gujarati (GIH) และเอเชียตะวันออก (CHD)รูปที่ 7.3 แสดงบรรพบุรุษเฉลี่ยที่แต่ละโลคัสทางพันธุกรรมตามแนวจีโนมของถุงเราประเมินความยาวของบล็อกบรรพบุรุษของ SAC โดยใช้บรรพบุรุษของ locus-speci fi c จาก Lampld Baran etal(2012)ความยาวของบล็อกบรรพบุรุษมีส่วนร่วมโดยแต่ละประชากรบรรพบุรุษสมมุติ (Bantu, ยุโรป, Khoesan และเอเชียตะวันออกเฉียงใต้) ได้รับการประเมินในแต่ละช่วงเวลาของ 1 ซม. ตามจีโนมของแต่ละคนของ SACบล็อกบรรพบุรุษถูกระบุโดยชุดของ SNPs ที่ต่อเนื่องกันซึ่งอย่างน้อย 1 ในสองอัลลีลได้รับมอบหมายให้พร็อกซีบรรพบุรุษโดยเฉพาะ (มาตรา 7.2.2)จากขนาดบล็อกบรรพบุรุษโดยประมาณเราเป็นรูปแบบความน่าจะเป็นในการประเมินวันที่มีการผสมผสานเหตุการณ์ (รูปที่ 7.4) จากกลุ่มบรรพบุรุษที่แตกต่างกันโดยรวมจากช่วงเวลาที่แตกต่างจากประชากรบรรพบุรุษที่แตกต่างกันผลลัพธ์ของเราในรูปที่ 7.4 แสดงให้เห็นว่าการแต่งหน้าทางพันธุกรรมของ SAC เริ่มต้น 9 ถึง 11 รุ่น (385 ปี) ที่ผ่านมาถ้าเราพิจารณา 35 ปีสำหรับรุ่นหนึ่งผลลัพธ์นี้ชี้ให้เห็นว่าส่วนผสมเริ่มต้นที่เริ่มต้นระหว่างประชากรที่เกี่ยวข้องกับลำโพง Bantu ในแอฟริกาในปัจจุบันและประชากรผู้มีลำโพงคลิก (เช่นเดียวกับ GIH) จากนั้นตามส่วนผสมที่ซับซ้อนเพื่อส่งผลให้ SAC ปัจจุบัน

131 7.3 ผลลัพธ์และการอภิปราย

เมือง

แหลม

มหาวิทยาลัย

รูปที่ 7.3: ค่าเฉลี่ยของบรรพบุรุษในท้องถิ่นข้ามจีโนมของ SAC โดยใช้ตัวอย่างกรณีและการควบคุมทั้งหมดพล็อตแสดงส่วนบรรพบุรุษที่แตกต่างจาก CEU, CHD, GIH, ISIXHOSA และ KHOMANI ใน SAC, (a) โดยใช้ตัวอย่างทั้งหมด (b) โดยใช้ตัวอย่างกรณีเท่านั้นและ (c) โดยใช้ตัวอย่างควบคุมเท่านั้น

132 7.4 การสรุปข้อสังเกต

เมือง

รูปที่ 7.4: พล็อตถูกสร้างขึ้นจากแบบจำลองความน่าจะเป็นของเราเพื่อประเมินจำนวนรุ่น (G) เนื่องจากส่วนผสมเกิดขึ้นตามการกระจายความยาวของบล็อกบรรพบุรุษเส้นสีแดงประเป็นสิ่งที่เกิดขึ้นได้ของ G ที่มีแกน y ที่ด้านขวาของกราฟเส้นสีเขียวคือพารามิเตอร์ก่อนหน้าของ G และเส้นทึบสีดำคือด้านหลังของ Gของ

7.4 สรุปข้อสังเกต

ด้วยการจำลองประชากรที่ซับซ้อน 5 ทางเราประเมินความถูกต้องของวิธีการในปัจจุบันเพื่อประเมินบรรพบุรุษท้องถิ่นในประชากรหลายทางผลลัพธ์ของเราแสดงให้เห็นถึงข้อ จำกัด ในความแม่นยำของวิธีการเหล่านี้ในการอนุมานบรรพบุรุษท้องถิ่นในประชากรที่มีการผสมผสานหลายทางนอกจากนี้แม้ว่าเราจะสามารถประเมินวันที่เหตุการณ์ผสมใน SAC ได้โดยใช้รูปแบบความน่าจะเป็นในการกระจายความยาวของบรรพบุรุษจากบรรพบุรุษท้องถิ่นตามจีโนมของบุคคลที่ได้รับการผสมประชากรที่มีหลายทางยังคงเป็นคำถามที่ยังคงเปิดอยู่นอกจากนี้บรรพบุรุษในท้องถิ่นที่อนุมานได้อาจเติมเต็มสถิติการให้คะแนนของโรค (Pasaniuc etal., 2011) ในประชากรที่ได้รับการผสมและเป็นข้อมูลในวิธีการทำแผนที่สำหรับโรคที่มีความเสี่ยงขึ้นอยู่กับบรรพบุรุษ

133 บทที่ 8

ยีนและเครือข่ายย่อยที่เป็นพื้นฐานของความเสี่ยงทางชาติพันธุ์ในความเสี่ยงของโรคที่ซับซ้อนในประชากรที่ได้รับการผสมผสานเมื่อเร็ว ๆ นี้

เมือง 8.1 บทนำ

แม้จะประสบความสำเร็จมากมายในการศึกษาความสัมพันธ์ทั่วทั้งจีโนม (GWAS) บนพื้นฐานของวิธีการ discov-ery SNP เดียวผู้เขียนหลายคนได้ชี้ให้เห็นว่า GWAS อาจไม่ตรวจพบตัวแปรทางพันธุกรรมที่มีความเสี่ยงต่ำหรือปานกลางO ff ของ p <5 10 8 (Peng etal., 2008)ยิ่งไปกว่านั้นมีเพียงไม่กี่สายพันธุ์ทั่วไปเท่านั้นที่ได้รับ× - พบว่ามีส่วนร่วมและตำแหน่งที่เกี่ยวข้องอธิบายเพียงส่วนเล็ก ๆ ของความเสี่ยงทางพันธุกรรม (Cantor etal., 2010)เนื่องจาก e ff ect ของ polymorphism ของยีนถูกมองในการแยก Gwas อาจล้มเหลวในการเปิดเผยสัญญาณที่มีนัยสำคัญหาก e ff ect ของตัวแปรในยีนอื่นไม่ได้ถูกนำมาพิจารณาดังนั้นการวิเคราะห์ตามการค้นพบครั้งเดียวใน GWAS อาจสร้างผลลัพธ์เชิงลบที่ผิดพลาด (Jia etal., 2010; Peng etal., 2008) และในหลายกรณีผลลัพธ์ที่ไม่สามารถสรุปได้หนึ่งในความท้าทายที่เหลืออยู่ของ GWAS คือการแปลตำแหน่งที่เกี่ยวข้องเป็นสมมติฐานทางชีวภาพที่เหมาะสมสำหรับการตรวจสอบเพิ่มเติมในห้องปฏิบัติการความท้าทายที่สำคัญอีกประการหนึ่งการปรับปรุงความโดดเด่นของเราว่าหลายตำแหน่งที่เกี่ยวข้องอย่างสุภาพภายในยีนมีปฏิสัมพันธ์กับฟีโนไทป์ (Cantor etal., 2010; Jia etal., 2010; Peng etal., 2008)การตรวจสอบล่าสุดได้แสดงให้เห็นว่ามีความสัมพันธ์ระหว่างการทำงานของยีนและฟีโนไทป์และยีนที่เกี่ยวข้องกับการทำงานมีแนวโน้มที่จะโต้ตอบ (Jia etal., 2010; Peng etal., 2008)ยีนสามารถอยู่ในสภาพซึ่งกันและกันเช่นผ่านการปรับปรุงหรืออุปสรรคสิ่งนี้สามารถเกิดขึ้นได้โดยตรงในระดับจีโนมซึ่งยีนสามารถใช้รหัสสำหรับยีนควบคุมการป้องกันการถอดรหัสของยีนอื่น ๆอีกทางเลือกหนึ่งคือ e ff ect สามารถเกิดขึ้นได้ในระดับฟีโนไทป์ซึ่งผลิตภัณฑ์ยีนคู่หนึ่งสามารถทำงานร่วมกันเพื่อสร้างฟีโนไทป์ที่เฉพาะเจาะจงดังนั้นเส้นทางจึงมี

134 8.1 บทนำ

บทบาทที่สำคัญในการช่วยเหลือในการทำความเข้าใจสาเหตุของโรคนอกจากนี้ยีนที่เกี่ยวข้องกับความเสี่ยงอาจแตกต่างกันในบุคคลที่แตกต่างกัน แต่อาจอยู่ในเส้นทางเดียวกันการระบุเส้นทางที่เกี่ยวข้องกับโรคอาจช่วยให้เราสามารถค้นพบการเกิดโรคของโรคได้ง่ายขึ้นนอกจากนี้เมื่อพิจารณาถึงปัจจัยทางพันธุกรรมและสิ่งแวดล้อมหลายอย่างที่มีส่วนทำให้เกิดการพัฒนาของโรคที่ซับซ้อนเช่นโรคติดเชื้อโดยเฉพาะวัณโรค GWAS เพียงอย่างเดียวนั้นไม่ได้มีอยู่เพื่ออธิบายโครงสร้างทางพันธุกรรมที่ซับซ้อนของโรคที่ซับซ้อนดังนั้นการตรวจสอบยีนที่รวมกันโดยการตรวจจับสัญญาณทางพันธุกรรมที่อยู่นอกเหนือความหลากหลายของยีนเดี่ยวให้ศักยภาพเพิ่มขึ้นในการจำแนกลักษณะของยีนที่อ่อนแอและโครงสร้างทางพันธุกรรมของโรคที่ซับซ้อน (Jia etal., 2010; Moller & Hoal, 2010b; Peng etal., 2008, 2008, 2008, 2008).ได้รับแรงบันดาลใจจากข้อมูลเชิงลึกนี้นักวิจัยได้แนะนำให้ทำการวิเคราะห์โพสต์ GWAS ที่รวมการศึกษาความสัมพันธ์ที่แตกต่างกันเพื่อเปิดเผย e -ects ที่มีขนาดใหญ่ขึ้นและเพื่อให้ข้อมูลที่มีค่าซึ่งจะเป็นประโยชน์สำหรับการจัดลำดับความสำคัญของผลลัพธ์ที่สำคัญที่สุด (Han & Eskin, 2011; Wray etal., 2010).วิธีการนี้เรียกว่าการวิเคราะห์เมตา (ตามที่เราดำเนินการในส่วนที่ 6.3.2) และมีจุดมุ่งหมายเพื่อรวมข้อมูลจาก GWAs หลายตัวเพื่อเพิ่มโอกาสในการเชื่อมโยงกับขนาดเล็ก (Cantor et al., 2010; Han & Eskin2011), มันประสบความสำเร็จในการระบุตำแหน่งความอ่อนแอ (Han & Eskin, 2011)การวิเคราะห์ความสัมพันธ์โพสต์อีกครั้งได้รับการแนะนำเมื่อเร็ว ๆ นี้ว่าเป็นกระบวนทัศน์ใหม่สำหรับ GWAS (Cantor etal., 2010; Jia etal., 2010; Peng etal., 2008), i.e เพื่ออธิบายความอ่อนแอทางพันธุกรรมโดยการรวมทั้งสัญญาณความสัมพันธ์จาก GWAs และโปรตีนมนุษย์ของมนุษย์- เครือข่ายการทำงานร่วมกันของโปรตีน (PPI) สำหรับการทดสอบ e-ects รวมกันของ SNPs และค้นหาเครือข่ายย่อยที่ได้รับการเสริมสมรรถนะอย่างมีนัยสำคัญสำหรับโรคที่ซับซ้อนวิธีการนี้ขึ้นอยู่กับการรวมค่า P จาก SNPs มาตรฐานที่มีความสัมพันธ์กันเข้ากับระดับความหมายโดยรวมเพื่อเป็นตัวแทนของยีนและใช้ค่า p แบบรวมเพื่อตรวจสอบความสัมพันธ์ของเส้นทางกับโรค (Jia etal., 2010)อย่างไรก็ตามในหลายกรณี SNPs ภายในยีนและยีนภายในเส้นทางมีความสัมพันธ์กัน แต่วิธีการเหล่านี้ส่วนใหญ่ไม่ได้คำนึงถึงการพึ่งพาค่า P นี้ซึ่งถือว่าเป็นอิสระและกระจายอย่างสม่ำเสมอภายใต้สมมติฐานว่างการละเมิดสมมติฐานอิสระในวิธีการเหล่านี้อาจสร้างผลลัพธ์ที่ผิดพลาดในบทนี้เรานำเสนอวิธีการบนกราฟพีชคณิตใหม่ (ANCGWAS) เพื่อระบุความหลากหลายของเครือข่ายย่อยที่มีนัยสำคัญมากที่สุดในการสร้างความเสี่ยงต่อโรคทางชาติพันธุ์ที่ซับซ้อนในประชากรที่ได้รับการผสมผสานเมื่อเร็ว ๆ นี้สิ่งนี้ทำโดยการรวมสัญญาณการเชื่อมโยงจากชุดข้อมูล GWAS บรรพบุรุษท้องถิ่นและความไม่สมดุลของการเชื่อมโยงคู่ที่ชาญฉลาดจาก SNP จากประชากร admixed ลงในเครือข่าย PPIวิธี ANCGWAS มีความสัมพันธ์ที่มีอยู่ระหว่าง SNPs ภายในยีนและยีนภายในเส้นทางANCGWAS ขึ้นอยู่กับมาตรการศูนย์กลางที่ใช้กราฟพิจารณาถึงความไม่สมดุลของการเชื่อมโยงและใช้คะแนนสถิติกับกราฟย่อยที่เกิดขึ้นเพื่อระบุกราฟย่อยที่มีนัยสำคัญที่สุดที่เกี่ยวข้องกับความเสี่ยงของโรคที่ซับซ้อนและการทดสอบสัญญาณที่เป็นไปได้ส่วนเกิน/de fi ciency ของบรรพบุรุษโดยเฉพาะนอกจากนี้วิธีนี้ยังแนะนำ fl exibility ในการประเมินยีนและบรรพบุรุษของเครือข่ายย่อย

135 8.2 การพัฒนาของ Ancgwas

ผ่านการจำลองตำแหน่งของโรคแบบโต้ตอบในประชากร 4 ทางจำลองเราประเมิน ANCGWASผลจากการจำลองของเราแสดงให้เห็นว่า ANCGWAS มีสัญญาในการตรวจสอบการมีปฏิสัมพันธ์ระหว่างยีนที่อยู่ภายใต้การเกิดโรคของโรคที่ซับซ้อนและยังมีความเสี่ยงทางชาติพันธุ์ในความเสี่ยงของโรคเราใช้ ANCGWAS กับข้อมูลวัณโรค GWAS ของประชากรสีแอฟริกาใต้ผลลัพธ์ของเราจำลองตำแหน่งวัณโรคก่อนหน้านี้และแนะนำยีนใหม่และเครือข่ายย่อยส่วนใหญ่กับบรรพบุรุษของแอฟริกา

8.2 การพัฒนาของ Ancgwas

8.2.1 การกำหนดบรรพบุรุษค่า P และ LD จาก SNPs ถึงระดับยีน

เราสร้างชุดข้อมูล PPI คู่ที่ชาญฉลาดโดยเพิ่ม 35, 671 PPIs ของมนุษย์ในการโต้ตอบ 64, 000 ในเครือข่าย PPI ของมนุษย์ที่มีความชาญฉลาด).Pina Datatown ถูกรวบรวมและใส่คำอธิบายประกอบจากฐานข้อมูล PPI สาธารณะหกฐาน (มิ้นต์, ไม่บุบสลาย, จุ่ม, Biogrid, HPRD และ MIPS/MPACT)การอัปเดตของเราขึ้นอยู่กับฐานข้อมูลหกฐานเดียวกันและเราได้รวม PPIs ที่เกี่ยวข้องกับวัณโรคด้วยตนเองจากเอกสารที่เผยแพร่ (Costa etal., 2012; Dewit etal., 2010b)เราสร้างทั้งหมด 99, 671 PPIs สำหรับเครือข่ายเรารวมชุดข้อมูลวัณโรค Gwascape ของประชากรสีผสมจากแอฟริกาใต้กับบรรพบุรุษท้องถิ่นโดยประมาณจาก Lampld (Baran etal., 2012) เป็นชุดข้อมูลเดียวชุดข้อมูลที่ผสานและชุดข้อมูล PPI ถูกใช้เป็นอินพุตสำหรับวิธี ANCGWASSNPs และบรรพบุรุษในท้องถิ่นของพวกเขาพร้อมกับค่า p ที่เกี่ยวข้องได้รับมอบหมายให้ยีนถ้า SNPs อยู่ภายในยีนคือการถอดเสียงหลักหรือ 40 กิโลกรัม (KB) ดาวน์สตรีมหรือกระแสหาก SNP ถูกกำหนดให้กับหลายยีนเนื่องจากหน้าต่าง anking ที่ทับซ้อนกันจะเลือกยีนที่ใกล้ชิดยิ่งขึ้นตามขอบเขตที่เฉพาะเจาะจง cut-o ffเพื่อให้ได้สิ่งนี้เราได้ดาวน์โหลดพิกัดทางภูมิศาสตร์ของ Foruniversity ยีนทั้งหมดจาก NCBI FTP-Server (ftp://ftp.ncbi.nih.gov/) ซึ่งยังคงรักษารายการอ้างอิงของมนุษย์และยีนโปรตีนเราอัปเดตพิกัดจีโนมเป็นแอสเซมบลีล่าสุดโดยใช้เครื่องมือยกระดับบน Galaxy (https://main.g2.bx.psu.edu/)เราใช้วิธีการทางสถิติสี่วิธี (Peng etal., 2008) สำหรับการกำหนดทั้งค่า p- ค่าและข้อมูลบรรพบุรุษในท้องถิ่นให้กับยีนรวมถึงวิธีการของฟิชเชอร์ (มาตรา 8.2.3), Simes, เล็กที่สุด (มาตรา 8.2.3) และวิธีการ FDR ของยีนที่เล็กที่สุดที่เคยทำมาก่อนหน้านี้ (Jia etal., 2010; Peng etal., 2008)

(1) SIMES: ให้ P1 6 P2 6 ... 18.00 น

ยีน GKค่า p แบบรวมในยีน GK คำนวณเป็น

136 8.2 การพัฒนาของ Ancgwas

mp p = min i gk j {j}

(2) วิธีการ FDR: ให้เราแสดงว่าπเป็นสัดส่วนของการทดสอบที่มีสมมติฐานว่างจริงและ H (β) เป็นสัดส่วนที่คาดหวังของการทดสอบที่ให้ค่า p-value น้อยกว่าหรือเท่ากับβและให้เราแสดงถึง z (β) เป็นสัดส่วนที่คาดหวังของการทดสอบที่ให้ผลลัพธ์ที่เป็นบวกที่ผิดพลาดด้วยระดับที่มีนัยสำคัญβตอนนี้สมมติว่ามีค่า p ที่แตกต่างกันใน p = p, ... , p.ขอให้เราสมมติว่า {1 k} ที่ p˜1

1 M H˜ (β) = ∑ I (P˜I 6 β) Ni M × I = 1 ×โดยที่ฉันเป็นฟังก์ชันตัวบ่งชี้สำหรับการทดสอบสองด้าน de fi ne π = min (1, 2p¯) และสำหรับ 1 การทดสอบด้านเดียว (χ2-test, การทดสอบแนวโน้ม) de fi ne = min (1, 2β¯) โดยที่p¯ = ∑m pเมือง 2 × J = 1 J 1 β¯ = ∑M βและβ = 2 นาที (P, 1 P)Z (β) ประมาณ z (β) = πβมัน 2 j = 1 j j × j - j ดังต่อไปนี้การทดสอบการเชื่อมโยงที่ยีนหรือระดับเครือข่ายจะได้รับจาก Cape Z (PJ) TJ = ของ H (PJ) เพื่อรวมความแข็งแรงของความสัมพันธ์ (LD) ระหว่างสองยีนเข้ากับยีนงานของมนุษย์ PPI เราคำนวณความไม่สมดุลของคู่เชื่อมโยงคู่ (LD) ระหว่าง SNPs ในแต่ละคู่ของยีนที่มีปฏิสัมพันธ์ได้รับ SNPS S และ S (S = S) ในหมู่ M และ N SNPs ที่เกี่ยวข้องกับยีนแรกและครั้งที่สอง I J I 6 J Gene ตามลำดับ SNP-LD ที่ชาญฉลาดคู่จะคำนวณโดยใช้การวัด R2เราให้สามวิธีสำหรับการถ่วงน้ำหนักการโต้ตอบเหล่านี้มหาวิทยาลัย (1) CLOSESTLD:

พิจารณา SNPS SJ ได้รับมอบหมายให้กับยีนที่อยู่ใกล้ที่สุด GJ เรากำหนดทันที

snp-ld ldsisj ถึง Gene-ld rgigj

rgigj = ldsish (8.1)

(2) ZSCORELD:

สมมติว่า SNP หลายตัวถูกกำหนดให้กับยีน GJ และ SNPs ระหว่างคู่ของยีน GK และ GL นั้นมีความเป็นอิสระและกระจายอย่างสม่ำเสมอภายใต้สมมติฐานว่างเราพิจารณา Z

137 8.2 การพัฒนาของ Ancgwas

dscore ของ l จาก snps n คู่ที่เป็นไปได้ทั้งหมดภายในคู่ของยีน, g และ g (k = l) k l 6 พร้อม SNPs ที่ได้รับมอบหมายหลายตัว i = 1, 2, ... , n และ j = 1, 2, ..., M, ตามลำดับ

n ∑i = j ldsisj rg g = 6(8.2) K l √n (3) Maxld: อีกทางหนึ่งกับกรณีด้านบนถ้า SNPs ระหว่างยีนคู่ที่กำหนดจะถูก depen-

บุ๋มหรือมีความสัมพันธ์เราพิจารณา LDSISJ สูงสุดในหมู่ SNPs ที่เป็นไปได้ทั้งหมดของ SNPs ระหว่างคู่ของยีน

rgkgl = สูงสุด (lij), (8.3)

สมการ 8.1, 8.2 และ 8.3 ถูกใช้เป็นน้ำหนักของขอบระหว่างยีน GK และ GL ในเครือข่าย PPI

8.2.2 การค้นหาเครือข่ายย่อยโดยใช้มาตรการศูนย์กลาง

ที่นี่เราหารือเกี่ยวกับมาตรการที่ใช้กราฟเพื่อหาปริมาณที่เกี่ยวข้องกับโหนด (ยีนในกรณีของเรา) ในเครือข่าย PPI ที่มีน้ำหนัก LD ของเรายีนมีปฏิสัมพันธ์ในเครือข่ายขนาดใหญ่ของยีน, RNA, DNA, เมตาโบไลต์และโมเลกุลอื่น ๆ ในเซลล์ที่มีชีวิตทุกชนิดการโต้ตอบเหล่านี้มักจะอธิบายว่าเป็นเครือข่ายและบางโหนดในเครือข่ายมีความสำคัญมากกว่าหรือเป็นศูนย์กลางตัวอย่างเช่นโหนดที่เชื่อมต่อสูงในเครือข่าย PPI นั้นมีความสำคัญในการใช้งานและการลบโหนดดังกล่าวเกี่ยวข้องกับการตายของเราเราพิจารณาเครือข่าย PPI ถ่วงน้ำหนักของเราเป็นเครือข่ายที่ไม่ได้ทิศทาง, g = (v, e)และขอบเป็นปฏิสัมพันธ์ที่พบระหว่างยีนถ่วงน้ำหนักโดยใช้ LDSในการจัดกลุ่ม G เป็นเครือข่ายย่อยเราวิเคราะห์คุณสมบัติทั่วไปของ G และหาปริมาณประโยชน์ของแต่ละยีนใน G โดยใช้คะแนนศูนย์กลางของพวกเขาความใกล้ชิดระหว่างความเป็นระดับปริญญาหรือ eigenvectorให้เราเริ่มต้นมาตรการศูนย์กลางดังต่อไปนี้:

(1) CED Centrality Degree: CD Centrality CD ของโหนดในกราฟที่ไม่ได้บอกทิศทางนั้นได้รับโดย CD = DEG (UniversityU) ในแง่ของการปรับตัวเพียงแค่ผลรวมของส่วนประกอบในแถวหรือคอลัมน์ที่สอดคล้องกับ∈โหนด U และได้รับจาก

n deg (u) = ∑ auv, (8.4) v = 1 โดยที่ v คือโหนดอื่น ๆ ใน v (g)ระดับศูนย์กลางเป็นตัวบ่งชี้ของยีนในระบบชีวภาพและสามารถระบุได้ว่ายีนมีกุญแจสำคัญ

บทบาทในการทำงานของระบบตัวอย่างเช่น CD ยังใช้เพื่อเชื่อมโยงระดับของยีนในเครือข่ายที่มีความตายของการกำจัด

138 8.2 การพัฒนาของ Ancgwas

(2) การวัดศูนย์กลางความใกล้ชิด CC: ศูนย์ความใกล้ชิด CC ได้รับ 1 cc =, (8.5) ∑u v dist (u, v) ∈เราตีความสมการ 8.5 เป็นความน่าจะเป็นของยีนที่เกี่ยวข้องกับการทำงานของยีนอื่น ๆด้วยความเป็นไปได้ที่จะไม่เกี่ยวข้องกับยีนอื่น ๆดังนั้นยีนที่มีความใกล้ชิดสูงเมื่อเทียบกับความใกล้ชิดของเครือข่ายทั้งหมดอาจเป็นศูนย์กลางของการควบคุมของยีนอื่น ๆ

(3) เส้นทางที่สั้นที่สุดระหว่างความเป็นศูนย์กลางการวัด CSPB: ให้เราแสดงถึงγUV, จำนวนเส้นทางที่สั้นที่สุดระหว่าง U และ V, และγUV (t) จำนวนเส้นทางที่สั้นที่สุดระหว่าง U และ V ในเครือข่าย G โดยใช้ T เป็นโหนดภายในสำหรับ t, u, v v (g)อัตราการสื่อสาร∈ระหว่าง U และ V, ∆UV ที่สามารถควบคุมได้โดยโหนดภายใน t, ได้รับจากγUV (t) ∆UV =, γUV

ถ้าγUV = 0 เราจะตั้งค่า ∆UV: = 0. เส้นทางที่สั้นที่สุดระหว่างความเป็นศูนย์กลาง CSPB (t) จะได้รับจาก

CSPB = ∑ ∑ ΔUV (t)u v u = t v v v = t ∈∧6∈∧ 6 ในเครือข่ายการส่งสัญญาณโปรตีนเส้นทางที่สั้นที่สุดระหว่างความเป็นศูนย์กลางของโปรตีนสามารถกำหนดความเกี่ยวข้องของมันได้อำนวยความสะดวกในการสื่อสารระหว่างยีนที่อยู่ห่างไกล

(4) Eigenvector Centrality วัด CEV: การวัดศูนย์กลางของ Eigenvector เกี่ยวข้องกับประโยชน์หรือน้ำหนักของการเชื่อมต่อการทำงานของยีนและสามารถพิจารณาได้ว่าเป็นตัวชี้วัดของศูนย์กลางหากโหนดอยู่ในอันดับที่เกี่ยวข้องกับการมีส่วนร่วมในเครือข่ายย่อยที่แตกต่างกันการวัดศูนย์กลางของ Eigenvector กำหนดน้ำหนักความสัมพันธ์กับยีนทั้งหมดในเครือข่ายตามความจริงที่ว่าการเชื่อมต่อกับยีนที่มีน้ำหนักสูงมีส่วนช่วยให้น้ำหนักของเป้าหมายโปรตีนมากขึ้นให้เราแสดงถึง A = (a) เมทริกซ์ adjacency ของ g = (v, e) สำหรับ u, v v (g) ใด ๆสำหรับ UV ∈แต่ละโหนด u ให้คะแนนศูนย์กลาง xi เป็นสัดส่วนกับผลรวมของคะแนนของโหนดทั้งหมด v ที่เชื่อมต่อกับ Uตามนั้น 1 xu = ∑ xv, (8.6) λ uv e (g) u = v ∈∧ 6 1 n xu = ∑ auvxv, λ v = 1

139 8.2 การพัฒนาของ Ancgwas

โดยที่ v คือโหนดอื่น ๆ ที่เชื่อมต่อกับ U, n คือจำนวนโหนดของเครือข่าย g และλเป็นค่าคงที่

เป็นที่เชื่อกันว่ายีนที่เกี่ยวข้องกับความอ่อนแอของโรคที่ซับซ้อนของมนุษย์อาจเป็นโหนดกลางของเครือข่ายย่อยทางชีวภาพโดยเฉพาะซึ่งยีนอื่น ๆ ภายในเครือข่ายย่อยหรือเครือข่ายย่อยอื่น ๆ เชื่อมโยงกับมันผ่านขั้นตอนไม่กี่ขั้นตอน (เส้นทางหรือขอบในเครือข่าย) (Jia etal., 2010)ศูนย์เหล่านี้เป็นฮับโครงสร้างที่มีคะแนนศูนย์กลางเกินกว่าค่าเกณฑ์ที่กำหนดการทดสอบคุณสมบัติโทโพโลยีทางชีวภาพของเครือข่ายชีวภาพมีความสำคัญนี้ให้เราแสดงถึง O (g) คำสั่งซื้อและ s (g) ขนาดของ G ตามลำดับเราแสดงถึง SPMEAN เส้นทางที่สั้นที่สุดจากทุกโหนดไปยังทุกปลายทางภายในเครือข่าย G เราทำตามขั้นตอนต่อไปนี้เพื่อระบุเครือข่ายย่อยโดยใช้คะแนนศูนย์กลางของแต่ละยีน:

อัลกอริทึม 2: อัลกอริทึมการค้นหาเครือข่ายย่อย (SSA) (1) เครือข่ายที่กำหนด G, ฮับโครงสร้างและส่วนประกอบที่เชื่อมต่อ;

(2) สำหรับแต่ละยีนให้คำนวณคะแนนระหว่างความใกล้ชิดความใกล้ชิดและคะแนน eigenvector;

(3) สำหรับคะแนนศูนย์กลางแต่ละคะแนนให้คำนวณ cut-o ff สำหรับ genestown กลางของกราฟย่อย betof, closof, degof และ eigof;(4) พิจารณายีนเป็นฮับหากคะแนนนั้นสูงกว่าหรือเท่ากับการตัดที่สอดคล้องกัน(5) พิจารณายีนเป็นยีนส่วนกลางเฉพาะในกรณีที่ยีนเป็นฮับสำหรับมาตรการการให้คะแนนทั้งสี่ในขั้นตอน (3);ของ

(6) สำหรับยีนกลางแต่ละตัวค้นหาเพื่อนบ้านที่ได้รับขั้นตอน n หรือเส้นทางที่สั้นที่สุดยีนกลางและเพื่อนบ้านเป็นเครือข่ายย่อยของ G.

8.2.3 การให้คะแนนยีนและบรรพบุรุษของเครือข่ายย่อย (1) วิธีการของฟิชเชอร์

ให้ m = m1, ... , mk เป็นชุดของเครือข่ายย่อยแต่ละรายการมีฮับที่สร้างขึ้นจากวิธีการจัดกลุ่ม {} g ของเราที่อธิบายไว้ข้างต้นสำหรับ k = 1, ... , k, ให้ mk = (g1, ... , gnk) เป็น k g p เครือข่ายย่อย (mk = ยีน nk) และ mk = (p1, ... , pnk) เป็น nk-เวกเตอร์มิติของ |-G ค่า p ที่เกี่ยวข้องกับยีนภายใน MKมันหมายความว่า

nk t = 2 ∑ log (pi), (8.7) - × i = 1

140 8.2 การพัฒนาของ Ancgwas

คือ x2 ที่มีระดับของอิสรภาพ 2 n× K P ดังนั้นค่า p ของ MK จึงได้รับดังนี้

p = 1 x2 (t, do f), (8.8) mk - cd f

(2) วิธี stou ff er z'score

1 ให้ φ− เป็นการแจกแจงแบบปกติแบบผกผันตามด้วย z'score ของเครือข่ายย่อย m ด้วยยีน m = n, |-n 1 1 zm = (∑ φ− (1 pi)) (8.9) i = 1 - √n

P คือการกระจายปกติดังนั้นเราสามารถรับค่า p ของ MK ได้ดังนี้

P = 1 N (z) (8.10) Mk-CD F M Town ให้ MP = P, ... , P เป็นชุดของค่า p ที่เกี่ยวข้องกับเครือข่ายย่อยให้ h = {m1 mk} mp p ดังนั้นเราจึงได้คะแนนปกติสำหรับเครือข่ายย่อย m ดังนี้-{mk} k cape pm ค่าเฉลี่ย (h) s = k-(8.11) k ของ var (h)

ด้วยเครือข่ายย่อย m ที่มียีน m = n เราคาดว่าจะมีประมาณ 0 0.05 เพื่อให้มีค่า p-×น้อยกว่า 0.05 ในแต่ละเครือข่ายย่อยตามลำดับดังนั้นเราจึงประเมินสำหรับแต่ละเครือข่ายย่อย 0.05 ระดับความหมายของจีโนมทั่วทั้งจีโนมเป็นα =√n (3) ยีนและเครือข่ายเครือข่ายบรรพบุรุษของมหาวิทยาลัย

ได้รับสัดส่วนบรรพบุรุษทั่วทั้งจีโนมαKจากประชากรบรรพบุรุษ k 1, ... , k i, m ∈ {} ในตัวอย่างของประชากรที่ได้รับการผสมให้φkเป็นบรรพบุรุษของ locus-speci fi c โดยประมาณของบุคคลที่ฉันที่เครื่องหมายทางพันธุกรรม m 1, 2, ... , m ที่เกี่ยวข้องกับยีนเฉพาะจาก∈ {} kth ประชากรบรรพบุรุษเราคำนวณการกำหนดหรือส่วนเกินของบรรพบุรุษในแต่ละ SNP โดยใช้สัดส่วนส่วนผสมโดยประมาณ (ซึ่งอาจได้รับจากโปรแกรมเช่นส่วนผสมโครงสร้างเป็นพื้นฐาน)ดังนั้นเราจึงไม่อยู่ภายใต้สมมติฐานว่าง, การกำหนด/ส่วนเกินของบรรพบุรุษจากประชากรบรรพบุรุษ k ที่เครื่องหมาย m เป็น,,

141 8.2 การพัฒนาของ Ancgwas

n m 1 i, m m Δ (k = ∑ φk) αk = φkαk, (8.12) n i = 1 - - - -

m m โดยที่φ k เป็นบรรพบุรุษโดยเฉลี่ยที่ speci fi c ที่ SNP mΔKสามารถประมาณได้ว่าเป็นการแจกแจงแบบปกติภายใต้การดริฟท์ที่เป็นกลางด้วยค่าเฉลี่ย 0 และความแปรปรวนเชิงประจักษ์ซึ่งได้มาจาก i, การกระจายของค่าφKในหมู่บุคคล Nมันเป็นไปตามนั้น

M 2 M (ΔK) ZK = (8.13) I, M VˆAR (φK) Q คือ A χ2ที่มีอิสระ 1 องศาการรวมสมการ 8.12 เหนือ SNP ทั้งหมดที่กำหนดให้กับยีนเราสามารถได้รับการกำหนด/ส่วนเกินของบรรพบุรุษในระดับยีนสมการรวม 8.13 เหนือ SNP ทั้งหมดที่กำหนดให้กับยีนสมการ 8.13 จะเป็นχ2ที่มี M 1-องศาอิสระสิ่งนี้ช่วยให้เราสามารถประเมินความสำคัญทางสถิติของการกำหนด/ส่วนเกินของบรรพบุรุษในระดับยีนเพื่อประเมินความผิดปกติที่ผิดปกติในการกำหนด/ส่วนเกินของบรรพบุรุษระหว่างคู่ของประชากรบรรพบุรุษที่ได้รับ SNP m 1, 2, ... , m ภายในยีนเรา∈ {} คำนวณ

m capem m 2 ∑m = 1 (ΔKΔl) tˆlk =-(8.14) ของ i, m i, m vˆar (φk)+varˆ (φl) m r ซึ่งเป็นสองตัวอย่าง T-statistic ด้วย M 2 องศาอิสระของอิสรภาพ.สำหรับคู่ของประชากร - - k = l 1, 2, ... , k, เราคำนวณ di ff erence ที่ผิดปกติโดยรวมในการกำหนด/เกิน 6 ∈ {} บรรพบุรุษ

M K M M 2 ∑M = 1 ∑l = K (ΔKΔL) UniversityTˆ = 6 - (8.15) I, M I, M K VˆAR (φK)+varˆ (φl) ∑l = k m 6 rส่วนเกินของบรรพบุรุษในระดับยีนการวิเคราะห์ทางสถิติข้างต้นสามารถทำซ้ำในระดับเครือข่ายย่อยสำหรับแต่ละวิธีที่อธิบายไว้ข้างต้นวิธีการ bootstrap ถูกนำมาใช้ในการคำนวณคะแนนโดยรวม (หรือค่า p) และช่วงเวลาการกำหนด 95% สำหรับยีนเดียวและเครือข่ายย่อยของยีน

142 8.2 การพัฒนาของ Ancgwas

8.2.4 การประเมินแนวทาง ANCGWAS

ในการจำลองกรณีและข้อมูลการควบคุมของประชากรที่ไม่ได้ติดตั้งเราใช้วิธีการจำลองที่ใช้ใน Hapgen2 (Zhan etal., 2011)วิธีนี้ resamples haplotypes ที่รู้จักและสร้างตัวอย่างที่มีรูปแบบของการเชื่อมโยง disequilibrium (LD) ซึ่งเลียนแบบสิ่งเหล่านั้นในข้อมูลจริงเพื่อที่จะจับรูปแบบของการเชื่อมโยง disequilibrium (LD) ในชุดข้อมูลจริงที่หนาแน่นเราได้จำลองประชากรที่ไม่ได้รับการแก้ไขโดยมี 1,000 รายและการควบคุม 1,000 ครั้งโดยใช้ประชากร Yoruba (YRI) HAPMAP3RS2297977 และ RS841404สิ่งเหล่านี้เกี่ยวข้องกับยีน SLC2A1 ที่มีความเสี่ยง heterozgyote 1.5 และ 2, hom*ozygote ความเสี่ยง 2.25 และ 4, และความเสี่ยงอัลลีลตั้งอยู่ที่ 1 และ 0 ในแต่ละ SNP ตามลำดับตอนนี้การจำลองการจำลองที่เกิดขึ้น (SIM) สามารถใช้เป็นประชากรอ้างอิงใหม่ในแผงได้เช่นยุโรป (CEU), รัฐคุชราตอินเดีย (GIH) และจีน (CHB) จากข้อมูล HAPMAP3หลังจากขยายประชากรบรรพบุรุษทั้งสี่เหล่านี้เป็นตัวอย่างเพิ่มเติม 2,000 ตัวอย่างเราได้สุ่มตัวอย่าง haplotypes จาก CEU, GIH, CHB, SIM (ประชากรที่เป็นเนื้อเดียวกันจาก YRI) ที่มีความน่าจะเป็นที่เกี่ยวข้องกับสัดส่วนบรรพบุรุษที่กำหนดในการจำลองบุคคลที่ผสมผสาน N Diploid เราได้ลองตัวอย่าง haplotypes จาก SIM, European (CEU), Gujarati Indian (GIH) และ Chinesetown (CHB) ที่มีความน่าจะเป็นที่เกี่ยวข้องกับสัดส่วนของบรรพบุรุษจากประชากรบรรพบุรุษสมมุติแต่ละคน (60%, 20%, 12, 12% และ 8% ตามลำดับ)เมื่อพิจารณาถึงยีน fl ow แบบต่อเนื่องในสิบชั่วอายุคนและบัญชีสำหรับโมเดล Wright-Fisher ด้วยการผสมพันธุ์แบบสุ่มเราจำลองจีโนมของ 1,000 รายและการควบคุมของบรรพบุรุษผสมจาก SIM, CEU, Cape Gih และ CHB 1,000 รายการใช้ประชากรที่ได้รับการผสมเราจำลองโรค SNPs สี่ตัว (รวมถึง SNP สองตัวก่อนหน้านี้) ที่ RS2297977, RS841404, RS790633 และ RS6664119 ด้วยความเสี่ยง HeterozgyoTof 1.5, 2, 1.5 และ 2, hom*ozygote 2.25ถึง 1, 0, 1 และ 0 ในแต่ละ SNP ตามลำดับSNP ทั้งสี่นี้อยู่ในความไม่สมดุลของการเชื่อมโยงการจำลองของเราขึ้นอยู่กับโครโมโซม 1 (n = 116, 415 SNPs) และตำแหน่งของโรคจำลองอยู่ในภูมิภาค 1p31.3 (ยีน IL23R) สำหรับ RS2297977 และ RS841404 SNPs (ส่งจากประชากรผู้ปกครอง) และ 1p34.2 (SLC2A1RS790633 และ RS6664119 SNPS (จำลองในประชากรที่ได้รับผลกระทบในขณะที่ขยาย)จากหมายเหตุ IL23R และ SLC2A1 ความหลากหลายของยีนที่มีปฏิสัมพันธ์กับยีนเราดำเนินการ GWAs มาตรฐานในการตั้งค่าข้อมูลการจำลองโดยใช้ Emmax (Kang etal., 2010) ซึ่งเป็นสาเหตุของทั้งกลุ่มประชากรและความสัมพันธ์ที่ซ่อนอยู่เพื่ออธิบายถึงการโต้ตอบกับโรค SNPs และความเสี่ยงปานกลางซึ่งอาจไม่ถึงจีโนมที่มีความหมายที่แท้จริงในการตัด-o ของ p <5 10 08 ในมาตรฐาน×-GWAS ข้างต้นเราใช้ ANCGWAS กับผลลัพธ์ GWAS แบบจำลองก่อนหน้านี้ตั้งจากถุง

143 8.3 ผลลัพธ์และการอภิปราย

8.3 ผลลัพธ์และการอภิปราย

เราใช้อัลกอริทึมที่อธิบายไว้ในส่วนที่ 8.2.2 และ 8.2.3 ใน Ancgwas ซึ่งมีอยู่ที่ http://www.cbio.uct.ac.za/ancgwasANCGWAS มีข้อได้เปรียบของไม่เพียง แต่ใช้เครือข่ายถ่วงน้ำหนักที่ไม่สมดุล แต่ยังรวมถึงการทดสอบสัญญาณที่เป็นไปได้ของความแตกต่างที่ผิดปกติในระดับที่เกิน/การกำหนดของบรรพบุรุษและสัดส่วนบรรพบุรุษในระดับยีนและเครือข่ายย่อยANCGWAS บรรลุสิ่งเหล่านี้โดยการรวมสัญญาณการเชื่อมโยงจากข้อมูล GWAS บรรพบุรุษท้องถิ่นและ SNP คู่ที่มีความไม่สมดุลระหว่างประชากรที่ได้รับการเชื่อมโยงเข้าสู่เครือข่ายโปรตีนโปรตีนโปรตีน (PPI) (รูปที่ 8.1)

เมือง

แหลม

รูปที่ 8.1: วิธีการทำงานของ ANCGWAS อธิบายการทำงานของโปรแกรมและให้ภาพรวมของอินพุตโมดูลและเอาต์พุต

8.3.1 การประเมิน ANCGWAS ในข้อมูลจำลอง

เราประเมิน ANCGWAS โดยใช้ข้อมูลการจำลองของประชากร 4-WAY ampixed ภายในสี่ตำแหน่งของโรคในภูมิภาค 1p31.3 (ยีน SLC2A1) และ 1p34.2 (ยีน IL23R) (ดูหัวข้อ 8.2.4)เราได้ทำการวิเคราะห์ความสัมพันธ์เกี่ยวกับข้อมูลการจำลองนี้โดยใช้ Emmax ซึ่งเป็นสาเหตุของทั้งกลุ่มประชากรและความเกี่ยวข้องที่ซ่อนอยู่ตารางที่ 8.1 แสดงรายการ SNPs ที่มีนัยสำคัญมากที่สุด 18 อันดับที่ได้จาก Emmax รวมถึงตำแหน่งของโรคจำลองสี่ตำแหน่งของ

144 8.3 ผลลัพธ์และการอภิปราย

หมายเหตุ Emmax ล้มเหลวบางส่วนในการระบุตำแหน่งของโรคจำลองที่ RS841404 และ RS790633 SNPs และ SNPs อื่น ๆ ที่เกี่ยวข้องภายใต้ความไม่สมดุลของการเชื่อมโยงกับโรคจำลองรวมถึง RS841856, RS790633 และ RS1385129SNP เหล่านี้อยู่ด้านล่างของจีโนมทั่วทั้งจีโนม (ตารางที่ 8.1)

ตารางที่ 8.1: เครื่องหมายทางพันธุกรรม 18 อันดับแรกที่มีค่า p ระดับปานกลาง/signi fi cant ที่ได้รับจากการวิเคราะห์ความสัมพันธ์กับตำแหน่งของโรคจำลองบนข้อมูลการจำลองของประชากร ampixedยีนที่ใกล้เคียงที่สุด SNP โรคจริง SNP P 08 SLC2A1 RS3738514 NO 2.53E− 05 SLC2A1 RS841404 ใช่ 1.26E - 05 NLRP3 RS10157521 NO 7.23E− 05 PTGER3 4313431 NO 4.69E− 05RPS7 RS4926338 NO 8.96E-05 SGIP1 RS17492182 NO TOWN3.49E-08 IL23R RS790633 ใช่ 5.00E-08 SLC2A1 RS3806401 NO 1.06E-07 SLC2A1-AS 46E− CAPE 05 NUP133 RS16849788 NO 7.17e− 09 SLC2A1 RS22979777OF ใช่ 8.40E− 05 MIR101-1 RS55146 NO 7.93E− 07 GNG12-AS1 RS12239301 NO 6.70E-06 SLC2A1 RS841856 NO 2.80E-08 SLC2A

เพื่อระบุความเสี่ยงระดับปานกลางที่ไม่ถึงค่าจีโนมที่มีความหมายทั่วทั้งจีโนม cut-o-p-value <5 10 8 ใน GWAs ข้างต้นตามข้อมูลการจำลอง (ตารางที่ 8.1) เรารวม×-มหาวิทยาลัยของ SNPs ทั้งหมดไว้ใน Aยีนโดยเฉพาะและในระดับเส้นทางโดยใช้ ancgwasตามการทำงาน- ow ในรูปที่ 8.1 เราได้รวมชุดข้อมูล GWAS ที่ได้รับและบรรพบุรุษที่แท้จริงที่ได้รับจากการจำลองของประชากรบรรพบุรุษผสมเราคำนวณค่า p-value ของแต่ละยีนจาก SNP หลายตัวโดยใช้วิธีการของฟิชเชอร์ทางสถิติเนื่องจากวิธีการทั้งหมดที่อธิบายไว้ในส่วนที่ 8.2.2 และ 8.2.3 สร้างค่า P สรุปที่คล้ายกันในระดับยีนเพื่อลดความซับซ้อนของการนำเสนอผลลัพธ์เราจึงรายงานเพียงวิธีเดียวผลลัพธ์ในตารางที่ 8.2 แสดงผลด้านบนของยีน 29 ปานกลาง/signi fi cant จากการวิเคราะห์ ANCGWAS โดยใช้ e -ect รวมจาก SNP หลายตัวสำหรับแต่ละยีนเพื่อให้สัญญาณเชื่อมโยงน่าสนใจยีนโรคจำลอง SLC2A1 รวมถึงยีน SLC2A1-AS1 และ FAM183A ซึ่งอยู่ใน

145 8.3 ผลลัพธ์และการอภิปราย

LD กับ SLC2A1 ซึ่งอยู่ในขอบเขตของจีโนมทั่วทั้งจีโนมจากมาตรฐาน GWAS (ตารางที่ 8.1) ตอนนี้มีความหมาย (ตารางที่ 8.2) หลังจากรวม e snps di erent ภายในแต่ละยีนผลลัพธ์นี้แสดงให้เห็นถึงพลังของการตรวจสอบการรวมกันของยีนโดยการตรวจจับสัญญาณทางพันธุกรรมนอกเหนือจาก SNP เดี่ยวเราทดสอบสัญญาณที่เป็นไปได้ของความผิดปกติของการกำหนด/ส่วนเกินของบรรพบุรุษภายใต้สมมติฐานว่างและค่าχ2ที่รายงานในตารางที่ 8.2 บ่งชี้ว่าไม่มีสัญญาณที่มีนัยสำคัญไม่ได้อธิบายถึงรูปแบบของความถี่อัลลีลบรรพบุรุษที่แตกต่างกันผลลัพธ์นี้ยังสามารถอธิบายได้ด้วยความจริงที่ว่าเวลาจำลองของเหตุการณ์การผสมเดียวนั้นสั้นเกินไปที่จะมีผลกระทบของการลดลงที่ผิดปกติ/ส่วนเกินของบรรพบุรุษในการจำลองข้อมูลของบรรพบุรุษของยีนจากประชากรบรรพบุรุษผสมในตารางที่ 8.2 เป็นสัดส่วนกับสัดส่วนบรรพบุรุษที่แท้จริงที่ใช้ในการจำลองประชากรที่ได้รับการผสมเพื่อให้ได้ประโยชน์จากการจำแนกลักษณะของยีนที่อ่อนไหวและโครงสร้างทางพันธุกรรมของโรคจำลองอย่างเต็มที่เราจึงทำการวิเคราะห์สมาคมเครือข่ายย่อยโดยใช้ ANCGWAS (ดูวิธีการในหัวข้อ 8.2.3 และ 8.2.2)ด้วยเหตุนี้จึงมีวิธีการสามวิธีรวมถึง ClosestLD, MaxLD และ ZSCORELD (มาตรา 8.2.1)วิธีการทั้งสามนี้มีผลลัพธ์ที่คล้ายกันดังนั้นเราจึงรายงานผลการจำลองจากวิธีการใกล้ชิดเครือข่ายน้ำหนัก LD ถูกสร้างขึ้นโดยใช้วิธีการใกล้ชิดที่อธิบายไว้ในมาตรา 8.2.1การทดสอบทอพอโลยีได้ดำเนินการในเครือข่ายน้ำหนัก LD ที่สร้างขึ้นจากการปฏิสัมพันธ์ระหว่างยีนยีนที่ชาญฉลาด 1, 742 คู่เราต้องการประเมินว่ามีโอกาสที่จะใช้คุณสมบัติทอพอโลยีของเครือข่ายเป็นปัจจัยในการจัดกลุ่มหรือไม่รูปที่ 8.2 เอกสารที่เครือข่ายแสดงโทโพโลยีที่ปราศจากสเกลซึ่งหมายถึงการกระจายระดับของยีนที่ใกล้เคียงกับกฎหมายพลังงาน p (k) = k-โดยที่γ 2.19 เป็นเลขชี้กำลังระดับที่ได้รับจากการสร้างแบบจำลองโดยใช้กำลังสองน้อยที่สุดเข้าใกล้.สิ่งนี้บ่งชี้ว่ายีนส่วนใหญ่มีพันธมิตรที่มีปฏิสัมพันธ์น้อย แต่บางตัวก็มีหลายอย่างรูปที่ 8.3.1 แสดงให้เห็นว่าเครือข่ายมีคุณสมบัติโลกขนาดเล็กแสดงให้เห็นว่าการแพร่กระจายของข้อมูลในเครือข่ายทำได้ผ่านขั้นตอน 7.01 ซึ่งสอดคล้องกับความยาวเส้นทางที่สั้นที่สุดโดยเฉลี่ยในเครือข่ายเราใช้คุณสมบัติทอพอโลยีของโหนดเพื่อทำลายเครือข่ายของเราในเครือข่ายย่อยมหาวิทยาลัยที่ใช้อัลกอริทึมการจัดกลุ่มที่อธิบายไว้ในอัลกอริทึม 2 อันดับแรกเราพบฮับทั้งหมดของเครือข่ายและอย่างต่อเนื่องมีการคำนวณมาตรการสำหรับแต่ละโหนดเราคำนวณ cut-o ff s สำหรับการวัดแต่ละศูนย์และจุดตัดของชุดผลลัพธ์ได้รับการพิจารณาว่าเป็นชุดของโหนดกลางเพื่อความเรียบง่ายของการนำเสนอเรา จำกัด การค้นหาเครือข่ายย่อยของเราที่ขั้นตอน = 1 เราประเมินความสำคัญของแต่ละเครือข่ายย่อยโดยใช้วิธีการของฟิชเชอร์ใน Ancgwas

146 8.3 ผลลัพธ์และการอภิปราย

ตารางที่ 8.2: 29 อันดับแรกที่มีค่า p ระดับปานกลาง/signi fi cant ที่ได้รับจากวิธีการ ANCGWAS ของการวิเคราะห์ความสัมพันธ์ SNP แบบรวมกับโรคจำลองบนข้อมูลการจำลองของประชากร ampixedตารางยังแสดงข้อมูลบรรพบุรุษของบรรพบุรุษ 2 2 2 จากประชากรบรรพบุรุษแต่ละคนในระดับยีนส่วนหัว chid หมายถึงχของ di ff erence ที่ผิดปกติในส่วนเกิน/de fi ciency ของบรรพบุรุษ2 ยีน CEU CHB GIH SIM P 30 IL23R 0.198 0.074 0.125 0.603 0.003 1.32E− 09 SLC2A1 0.225 0.088 0.106 0.581 0.02 8.4E− 09 SLC2A1-AS1 0.225 0.0888 0.10281 583 0.024 8.4e−08 FAM183A 0.22 0.095 0.107 0.578 0.043 1.06E− 07 GNG12-AS1 0.21 0.072 0.12 0.599 0.002 6.73E-07 ERMAP 0.222 0.088 0.106 0.583 0.024 4.98 PS7 0.213 0.072 0.116 0.599 0.004 4.69E− 05 NUP133 0.195 0.078 0.125 0.602 0.002 7.17E− 05 PTGER3 0.221 0.068 0.11 0.6 0.008 4.73E− 05 JAK1 0.195 0.076 0.135 0.593 0.007 7.93E 221 0.068 0.111 0.6 0.007 4.73E− ของ 05 ZRANB2 0.221 0.068 0.111 0.6 0.007 4.73E− 05 ABCB10 0.194 0.078 0.125 0.603 0.003 7.17E− 05 MiR101-1 0.194 0.075 0.133 0.598 0.005 7.93E 5 0.21 0.075 0.1220.594 0.003 3.46E− 05 AK3L1 0.194 0.076 0.133 0.598 0.004 7.93E - 05 RPS29 0.19 0.076 0.127 0.607 0.005 7.93E - 05 มหาวิทยาลัย 98 0.005 7.93E− 05 AK4 0.194 0.076 0.1320.598 0.004 7.93E− 05 NLRP3 0.197 0.085 0.121 0.597 0.002 7.23E− 05 ZRANB2-AS1 0.221 0.068 0.10 0.008 0.008 0.008 0.008 0599 0.008 598 0.003 4.69E− 05RPE65 0.214 0.073 0.117 0.596 0.004 4.69E−

147 8.3 ผลลัพธ์และการอภิปราย

เมือง

แหลม

รูปที่ 8.2: การวิเคราะห์ความหลากหลายของ topologicalUniversity ของคุณสมบัติของเครือข่ายแสดงการกระจายความน่าจะเป็นของการเชื่อมต่อในเครือข่ายและการกระจายความยาวเส้นทาง

148 ตารางที่ 8.3: 20 เครือข่ายย่อย Signi fi ไม่ได้รับจากข้อมูลการจำลองของประชากร 4 ทางโดยใช้ ANCGWAS2 95%CI คะแนน Chid CEU CHB GIH SIM SIM-NETWORK LIST (0.04, 0.08) 91.324 0.003 0.211 0.078 0.114 0.597 DISC1, CEP170, MACF1, GNB1, CCDC24, SRGAP2, Disc1, CCDC14192.952 0.001 0.203 0.081 0.114 0.601 HSPA8, STMN1, PPP1R12B, CCT3, HSPA8 K3, FCGR3A, LSM1, LEPR,CD247, PTPRC, TIE1, NTRK1, SLAMF1, LCK (0.05, 0.10) 102.114 0.006 0.198 0.083 0.113 0.606 GNAI3, RGS16, PTPRU, CD48, S1PR1, RGS19, RGS19 0.10)102.665 0.005 0.212 0.079 0.114 0.595 TNFRSF14, EIF3I, TRAF3, TRAF5, SPCS2, DHX9, TNFRSF14, PFDN2, ST13, CNIH4, SSB, GCLM RNPA1, MRPL37, MOV10, PABPC4, hnrnpr, hnrnpa1, rpl21, ythdf2, capn2, sufu, ttf2, igf2bp2, tardbp - (0.06, 0.12) , ubqln4, gpx7, scmh1,GABRD, MDM2, ATPIF1, PBXIP1, NPPA - (0.06, 0.12) 110.975 0.008 0.21 0.083 0.115 0.592 EEF1A1, KIF1B, TMSB4X, EEF1A1, NRAS 1E1, ActB - (0.06, 0.13) 112.805 0.004 0.206 0.08 0.118 0.596 EPB41, DHX9, VAMP3, S100A11, SCP2, ATP6V1E1, SRP9, EPB41, CACYBP, RPS3A, AK2 82 0.1160.596 MYOC, PKLR, FUBP1, EEF1A1, OLFML3, CAP1, NOTCH2, C1QB, OLFM3, ENO1, ECE1, MYOC, ACTB - (0.06, 0.14) , hspa8,HAX1, HNRNPU, DDOST, ATP1A1, ATAD3A, KRT18, HSPA6, DBT, HiveP3 - (0.07, 0.15) CD247, PTPRC, ADAM15, CSF3R, FASLG, LCK - เมือง (0.07, 0.15) 125.201 0.005 0.207 0.08 0.1.17 0.595 SFN, Errfi1, ILDR2 M4- (0.08, 0.17) 134.555 0.007 0.213 0.081 0.113 0.593 SetDB1, HDAC1, HIST3H3, SNIP1, OLFML3, PABPC4, PPP1R8, SetDB1, TPI1, HIST2H3D, HIST2H3D - (0.08, 0.18) 139.946 0.002 0.206 0.082 0.114 0.598 ACTB, NCF2, CLIC4, RAB4A, TMSB4X, EEF1A1, TPM3, HNRNPU, CAP1, PFN1, CAPZA1, S100A11 0.0850.116 0.591 HDAC1, HDAC1, RERE, HDAC3, TAL1, PIAS3, MIER1, PEX14, RAP1A, RBBP4, Spen, Runx3, KDM1, H3F3A, NR0B2, GATAD2B, TXNIP, ARID4B, CDC20, CDC200.004 0.212 0.079 0.113 0.596 ACTA1, ACTA1, KLHL20, TMSB4X, MACF1, TPM3, MIB2, SPTA1, PFN1, NEXN, MINPP1, TNNI1, S100A4, TRIM63, S100A1 0.082 0.11 0.599SHC1, MAPKAPK2, ITGB3, PPAP2B, DDR2, FCGR2B, MPL, PEAR1, EPHA2, NTRK1, PIK3C2B, CD247, TPR, FCGR1A, CSF3R, FCGR3A, FCGR2A 7 0.2090.081 0.116 0.593 IKBKE, CAPZB, CTPS, ADSS, RPL23A, DSTYK, HSPA8, RPL18A, PSMD2, FH, MRPS14, ST13, IKBKE, CACYBP, VAMP3, PGD, RBM8A, Cryz, Sike1, PABPC4, NCDN, NASP, PARP1, TPD52L2, CAPE RHOC, AKR1B1, SRM, NPM1, TAGLN2, Sec22b, Capza1, SDHB, BPNT1, PTGES3, AK2, RPL31, RPL3การอภิปรายและผลลัพธ์ 8.3

มหาวิทยาลัย 8.3 ผลลัพธ์และการอภิปราย

การคำนวณที่ทับซ้อนกันของเครือข่ายย่อยแต่ละตัวถูกคำนวณและเครือข่ายย่อยที่ให้คะแนนเหล่านี้ได้รับการเปลี่ยนแปลงมากกว่า 1,000 โดยใช้ข้อมูลที่มีเสียงดังแบบเกาส์เซียนที่สร้างขึ้นผ่านวิธีการบูตเพื่อประเมินความคาดหมายและเพื่อให้แน่ใจว่าคะแนนของโมดูลไม่ได้เกิดขึ้นโดยบังเอิญในที่สุดเครือข่ายย่อย 20 เครือข่าย (มี 295 ยีน) มีความหมายและจัดอันดับโดยคะแนนและช่วงเวลา (ตารางที่ 8.3)ตารางที่ 8.3 ยังให้สัดส่วนบรรพบุรุษต่อเครือข่ายย่อยซึ่งยังคงสอดคล้องกับสัดส่วนบรรพบุรุษที่ใช้ในการจำลองสถิติของ Chi2 ที่แสดงในตารางที่ 8.3 ยังไม่แสดงหลักฐานของความผิดปกติที่ผิดปกติในการกำหนด/ส่วนเกินของบรรพบุรุษสำหรับแต่ละเครือข่ายย่อย 20 อันดับแรกในรูปที่ 8.3 เราแสดงเครือข่ายย่อย 20 อันดับแรก แต่ไม่รวมยีนเหล่านั้นที่มีขอบน้อยกว่าสองขอบ

เมือง

แหลม

มหาวิทยาลัย

รูปที่ 8.3: เครือข่ายย่อยอันดับ 20 อันดับแรกจากข้อมูลการจำลองซึ่งเพิ่มขึ้นสำหรับความเสี่ยงของโรคในข้อมูลจำลองและเครือข่ายย่อยที่เชื่อมต่อสูงของ <295 ยีนที่เชื่อมต่อขนาดของโหนดแสดงถึงความสำคัญของมันจากขนาดเล็กไปจนถึงขนาดใหญ่โหนดสีน้ำเงินไม่แสดงสัญญาณของความผิดปกติที่ผิดปกติในส่วนที่เกิน/de fi ciency ของบรรพบุรุษในขณะที่และโหนดสีแดงมีสัญญาณปานกลาง

150 8.3 ผลลัพธ์และการอภิปราย

ที่สำคัญเมื่อใช้การวิเคราะห์การตกแต่งที่ใช้ Enrichnet-Network (Enrich-Net) (Glaab etal., 2012) กับเครือข่ายย่อย 20 อันดับแรก (ตารางที่ 8.3) คำอธิบายประกอบสำหรับเส้นทาง/กระบวนการของเครือข่ายย่อย 20 อันดับแรกเหล่านี้พวกเขาเข้าสู่เส้นทางการส่งสัญญาณเส้นทางการส่งสัญญาณ adipocytokine เกี่ยวข้องกับยีนโรคจำลองของเรา (IL23R, SLC2A1)ผลลัพธ์นี้เน้นถึงประโยชน์ของการจำแนกลักษณะของยีนที่อ่อนแอเกินกว่า GWAs มาตรฐานสำหรับการวิเคราะห์โครงสร้างทางพันธุกรรมของโรคเมื่อนำมารวมกันผ่านการจำลองของประชากร 4 ทางเราแสดงให้เห็นถึงความถูกต้องของ ANCGWAS และความสามารถในการตรวจสอบการแทรกซึมระหว่างยีนที่มีพื้นฐานการเกิดโรคของโรคที่ซับซ้อนจาก GWAs มาตรฐานเช่นเดียวกับยีนหรือเครือข่ายย่อยเครือข่ายย่อย-speci fi c บรรพบุรุษและตรวจจับความผิดปกติที่ผิดปกติในการกำหนด/ส่วนเกินของบรรพบุรุษของ SNPs และทั้งในระดับยีนและระดับทางเดิน

8.3.2 การประยุกต์ใช้ ANCGWAS กับชุดข้อมูล TB GWAS จากประชากรสีแอฟริกาใต้

โดยคำนึงถึง GWAS ของวัณโรคใน SAC โดยใช้ SNP ที่พิมพ์และ imped ดำเนินการในส่วนที่ 5.3 และ 6.3 ที่นี่เรามุ่งมั่นที่จะจัดการกับความเสี่ยงระดับปานกลาง SNPs ที่ไม่ได้ถึงความสำคัญของจีโนม10 8. ในการแก้ไขปัญหานี้เรารวม× - e ects ของ SNP ทั้งหมดภายในยีนเฉพาะและยีนทั้งหมดในระดับเส้นทางโดยใช้ ANCGWAS เพื่ออธิบายลักษณะของยีนที่ไวต่อความเสี่ยงและโครงสร้างทางพันธุกรรมของความเสี่ยงวัณโรคในทำนองเดียวกันกับข้อมูลจำลองที่แสดงในส่วนที่ 8.2.4 ด้านบน Cape เราคิดเป็นประโยชน์ของความไม่สมดุลของการเชื่อมโยงใน SAC และรวมกันเป็นชุดข้อมูล GWAS ของ TB ที่ตั้งไว้กับบรรพบุรุษของ Locus-Speciถ่วงน้ำหนักโดยการเชื่อมโยงความไม่สมดุลการประมาณค่าของบรรพบุรุษที่มีความโดดเด่นใน SAC ได้ดำเนินการในส่วนผสม 5 ทางโดยใช้ SAN (ประชากร Khoesan ที่รวมเข้าด้วยกันทั้งหมด), CEU, YRI, GIH และ CHB เพื่อเพิ่มตัวอย่าง haplotype ของบรรพบุรุษในการอนุมานบรรพบุรุษท้องถิ่นในส่วนผสมหลายทางการใช้วิธีการที่อธิบายไว้ใน ANCGWAS โดยเฉพาะอย่างยิ่งวิธีการของฟิชเชอร์เราคำนวณค่า p-value ของ SNP หลายตัวที่กำหนดให้กับยีนการรวมสัญญาณความหลากหลายของ SNPs ภายในยีนและการบัญชีสำหรับความไม่สมดุลของการเชื่อมโยงที่มีอยู่ภายในและระหว่างยีนผลลัพธ์ในตารางที่ 8.4 5display 9 ยีนปานกลาง/signi fi cant 11 จากการวิเคราะห์ ANCGWASหกยีนรวมถึง megf10 (p = 2.44e−), prrc1 (p 11 09 09 09 = 2.44e−), hnrnpk (p = 6.28e−), slc8a3 (p = 8.99e -)8.99E−) และ 08 CTXN3 (P = 2.30E−) มีความสัมพันธ์อย่างมีนัยสำคัญกับวัณโรค (ตารางที่ 8.4)ที่น่าสนใจผลลัพธ์ของเรายัง (ตารางที่ 8.4) ทำซ้ำยีน TB ที่เกี่ยวข้องเช่น IL8 (P = 0.0039), SLC11A1 (P = 0.0035), WT1 (P = 0.0015), CCL2 (P = 0.0015) และ IFNGR1 (P = 0.0034).

151 8.3 ผลลัพธ์และการอภิปราย

5table 8.4: 9 ยีนที่มีค่า p-signi/cine/ปานกลางที่ได้รับจากวิธี ANCGWAS ของการวิเคราะห์สมาคม SNPS แบบรวม GWASตารางแสดงบรรพบุรุษของยีนสเปคส์จากแต่ละบรรพบุรุษ 2 2 2 ประชากรส่วนหัวχdหมายถึงχของ di ff erence ที่ผิดปกติในส่วนเกิน/de fi ciency ของบรรพบุรุษ

2 Gene San Yri Ceu GIH CHD χD P 11 MEGF10 0.885 0.023 0.082 0.044 0.001 0.071 2.44E - 11 PRRC1 0.981 0.012 0.002 0.05 0.013 0.013 2.44E 9 0.012 0.017 0.012 0.001 0.018.99E− 09 SMOC1 0.952 0.012 0.024 0.012 0.001 0.01 8.99E− 08 CTXN3 0.862 0.064 0.057 0.031 0.013 0.013 0.013 0.013 0.013 052 1.8E− 07 RNF187 0.4960.059 0.424 0.244 0.0 0.052 1.8E− 07 TRIM17 0.0 0.016 0.5 0.484TOWN 0.0 0.052 1.8E− 07 CNOT6L 0.48 0.049 0.13 0.13 0.13 0.303 0.303 0.049 0.049 0.049 0 0 5 0.48 0.0 0.057.07E− 07 SOX11 0.0 0.022 0.5CAPE 0.478 0.0 0.05 7.07E− 07 CEP170 0.344 0.035 0.384 0.27 0.002 0.055 7.58E− 07 PLD5 0.09 0.59 0.491 0.0555.58E 58E− 06DSCAM 0.922 0.031 0.028 0.015 0.006 0.018 2.4E− 06 CYP2C19 0.993 0.005 0.0 0.001 0.001 0.012 2.81E− 06 CYP2C8 0.984 0.001 0.001 0.001 0.001 0.012 2.81E 09E− 06 Cluap1 0.927 0.044 0.016 0.012 0.0020.017 3.13E− มหาวิทยาลัย 06 NAA60 0.944 0.033 0.018 0.013 0.002 0.017 3.13E− 06 NLRC3 0.927 0.044 0.016 0.012 0.002 0.002 0.017 3.13E 927 0.044 0.016 0.012 0.002 0.017 3.13E− 06ZNF597 0.937 0.038 0.017 0.012 0.002 0.017 3.13E− 06 C6ORF195 0.982 0.014 0.001 0.001 0.001 0.009 3.87E− 06 GMDS 0.982 0.012 0.001 0.002 0.002 0.002 003 0.01 3.87E− ต่อเนื่องในหน้าถัดไป

152 8.3 ผลลัพธ์และการอภิปราย

ตารางที่ 8.4-ต่อจากหน้าก่อนหน้า 2 ยีน SAN YRI CEU GIH CHD χD P 05 ADAMTS19 0.934 0.023 0.103 0.087 0.002 0.014 1.87E− 06 E2F7 0.994 0.038 0.033 0.034 0.0 0.008 4.46E-05 miR4435-2 0.004 0.165 0.498 0.326 0.007 0.041 1.79E− 05 RGPD5 0.0 0.19 0.5 0.301 0.009 0.043 1.79E− 06 VW8 0.995 0.010 0.010 0.010 0.010 0.030 0.030 0.010 a8-AS1 0.993 0.007 0.0 0.0 0.0 0.008 4.72E− 05 GYG1 0.133 0.058 0.429 0.367 0.013 0.053 1.06E− 05 USP24 0.0 0.004 0.5 0.468 0.028 0.053 1.056E 11 0.0 0.188 0.5 0.302 0.010.045 1.79E− 05 NCKAP5 0.016 0.301 0.492 0.184 0.0 0.094 2.37E - 05 PTPRQ 0.992 0.003 0.001 0.001 0.003 0.008 0.0013 0.0130130130130 0.145 0.05 0.001 0.014 2.68E− 05TRPC4 0.988 0.01 0.001 0.0 0.001 0.01 2.68E− 05 UFM1 0.936 0.031 0.003 0.03 0.03 0.017 2.68E− CAPE 05 0.03 0.265 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0.03 0. 5 0.484 0.078 0.3490.089 0.0 0.1 3.16E− 05 RAPGEF2 0.479 0.083 0.343 0.096 0.0 0.098 3.16E− 05 CLEC14A 0.973 0.024 0.001 0.013013 0.0133013 0.0133013 0.0133013 0.013330 0.388 0.0 0.032 3.63E−05 FABP3 0.0 0.001 0.5 0.465 0.033 0.053 3.83E− 05 Serinc2 University0.0 0.001 0.5 0.465 0.033 0.053 3.83E− 05 TINAGL1 0.0 0.001 0.5 0.465 0.033 0.053 3.83 5 NAT1 0.98 0.0120.002 0.006 0.0 0.013 4.01E− 05 NAT2 0.981 0.011 0.002 0.006 0.0 0.013 4.01E− 05 IMMP2L 0.988 0.008 0.002 0.003 0.012 0.012 0.012 0.012 15 0.004 0.018 4.83E- 05 UBXN2B 0.942 0.034 0.001 0.021 0.001 0.014 6.62E− ต่อเนื่องในหน้าถัดไป

153 8.3 ผลลัพธ์และการอภิปราย

ตารางที่ 8.4 - ต่อจากหน้าก่อนหน้า 2 ยีน SAN YRI CEU GIH CHD χD P 05 KIAA0564 0.993 0.007 0.0 0.0 0.0 0.008 5.80E− 05 HNF4G 0.921 0.07 0.001 0.008 0.018 5.018 5.81EZFHX4 0.924 0.065 0.002 0.009 0.0 0.018 5.81E− 05 IGSF21 0.131 0.006 0.402 0.382 0.027 0.053 5.91E− 05 DAOA 0.971 0.027 0.027 0.01 0.05 e− 05 nucks1 0.0 0.045 0.5 0.445 0.010.045 6.53E− 05 RAB7L1 0.0 0.045 0.5 0.445 0.01 0.045 6.53E− 05 LRP1B 0.0 0.458 0.5 0.043 0.03 0.132 0.132 0.98 13 7.40e - 05 PM20D10.0 0.045 0.5 0.445 0.01 0.045 7.51E− 05 SLC41A1 0.0 0.045 0.5 0.445 0.01 0.045 7.51E− 05 SLC45A3 0.045 0.5 0.01 0.01 0.01 0.045 0.045 0.045 0.045 0.045 0.045 05 SNX31 0.916 0.045 0.005 0.025 0.0080.018 7.67E - 05 FAM178A 0.968 0.023 0.0 0.01 0.0 0.012 7.68E− CAPE 05 PAX2 0.967 0.023 0.01 0.013 0.013 0.014 0.014 0.014 41 8.52E−05 LOC541471 0.0 0.211 0.5 0.28 0.01 0.052 8.52E− 05 PAFAH1B1 0.852 0.048 0.112 0.043 0.001 0.019 8.52E− 05 KCNMA1 0.984 0.01 0.001 0.006 0.012 0015 WT1 0.934 0.032 0.019 0.012 0.003 0.017 0.0015 IFNGR1University0.975 0.01 0.001 0.005 0.01 0.011 0.0034 SLC11A1 0.0 0.113 0.5 0.387 0.0 0.036 0.0035 IL8 0.486 0.063 0.097 0.352 0.001 0.028 0.0039 0.0039 0.0039

เราตรวจสอบสัญญาณของความผิดปกติที่ผิดปกติในการกำหนด/ส่วนเกินของบรรพบุรุษ แต่ค่าχ2ที่รายงานในตารางที่ 8.4 บ่งชี้ว่าไม่มีสัญญาณที่มีนัยสำคัญซึ่งสอดคล้องกับ hy- pothesis

154 8.3 ผลลัพธ์และการอภิปราย

การกำหนด/ส่วนเกินของบรรพบุรุษที่จะมีผลกระทบอย่างมีนัยสำคัญต่อสัดส่วนบรรพบุรุษของมันในการโฆษณาสัดส่วนบรรพบุรุษของยีนที่เกี่ยวข้องกับสัดส่วนจากประชากรบรรพบุรุษแต่ละคนจะแสดงในตารางที่ 8.4 และพล็อตในรูปที่ 8.4 สำหรับยีนที่มีความหมาย/ที่เกี่ยวข้องปานกลางใน SACผลการวิจัยพบว่าสัดส่วนบรรพบุรุษสูงจากประชากรบรรพบุรุษแอฟริกันที่เกี่ยวข้องกับยีนที่ไวต่อความอ่อนแอแม้ว่าข้อเท็จจริงที่ว่าχ2ให้สัญญาณอ่อนแอของความแตกต่างที่ผิดปกติในบรรพบุรุษที่เกินความไว (ตารางที่ 8.4)

เมือง

แหลม

รูปที่ 8.4: สัดส่วนส่วนผสมสำหรับยีนที่มีความหมาย/ที่เกี่ยวข้องปานกลางค่าเฉลี่ยของจีโนมกว้างของบรรพบุรุษของยีนสเปคใน SAC นั้นเป็นแอฟริกาที่มีอำนาจเหนือกว่าสัดส่วนประชากรบรรพบุรุษโดยเฉลี่ยคือแอฟริกา (71.5%), ยุโรป (15.1%), อินเดีย (11%) และเอเชีย (0.69%) ที่เกี่ยวข้องกับประชากรบรรพบุรุษตามลำดับ

เราแมป Genesuniversity กับค่า P ที่เกี่ยวข้องกับ TB และสัดส่วนบรรพบุรุษของพวกเขาลงในเครือข่ายที่ถ่วงน้ำหนักโดยความไม่สมดุลของการเชื่อมโยง (ดูวิธีการในส่วนที่ 8.2.3)หลังจากวิเคราะห์เครือข่ายที่เกิดขึ้นของการโต้ตอบยีนที่ชาญฉลาด 46, 955 คู่เราพิจารณาแล้วว่าการแพร่กระจายของข้อมูลสามารถทำได้ผ่านขั้นตอน 4.01 ซึ่งสอดคล้องกับความยาวเส้นทางที่สั้นที่สุดโดยเฉลี่ยในเครือข่ายนี้หลังจากอัลกอริทึมการจัดกลุ่มของเรา 2 ANCGWAS วิเคราะห์คุณสมบัติโทโพโลยีทั้งหมดเพื่อทำลายเครือข่ายถ่วงน้ำหนักที่สร้างขึ้นเป็นเครือข่ายย่อยเราพิจารณาฮับทั้งหมดของเครือข่ายและความเป็นศูนย์กลางระหว่างความเป็นศูนย์กลางความใกล้ชิดและความเป็นศูนย์กลางของ Eigenvector สำหรับยีนแต่ละยีนเราคำนวณ cut-o ff s สำหรับการวัดแต่ละศูนย์และจุดตัดของชุดผลลัพธ์ที่อยู่เหนือ cut-o ff ได้รับการพิจารณาว่าเป็นชุดของยีนส่วนกลางการใช้ขั้นตอนแรกในการค้นหาเครือข่ายย่อยจะได้รับเครือข่ายย่อยทั้งหมด 525 เครือข่ายด้วย

155 8.3 ผลลัพธ์และการอภิปราย

13 ฮับยีนเราประเมินความสำคัญของแต่ละเครือข่ายย่อยโดยใช้วิธีการให้คะแนนของฟิชเชอร์เชิงสถิติย่อยใน ANCGWAS และยังคงรักษาเครือข่ายย่อยที่ให้คะแนนสูง 20 อันดับ (ตารางที่ 8.5)ตารางที่ 8.5 แสดงสัดส่วนของบรรพบุรุษต่อเครือข่ายย่อยแสดงสัดส่วนบรรพบุรุษแอฟริกา 2 ที่โดดเด่น แต่สถิติχDแสดงในตารางที่ 8.5 ไม่แสดงหลักฐานสำคัญของการแตกต่างที่ผิดปกติ

เมือง

แหลม

มหาวิทยาลัย

156 ตารางที่ 8.5: เครือข่ายย่อย 20 อันดับแรกที่เกี่ยวข้องกับคะแนนทางสถิติปานกลาง/signi fi ไม่ได้ที่ได้รับโดยใช้ ANCG- เป็นวิธีโดยการรวมค่า p-values ​​ที่เกี่ยวข้องของยีนตารางแสดงการปฏิสัมพันธ์ระหว่างบรรพบุรุษ 2 2 2 สำหรับเครือข่ายย่อยจากประชากรบรรพบุรุษแต่ละคนส่วนหัวχdหมายถึงχของ di ff erence ที่ผิดปกติในส่วนเกิน/de fi ciency ของบรรพบุรุษคอลัมน์ fi nal แสดงเส้นทางคำอธิบายประกอบยอดสูงสุดที่ได้รับจากการวิเคราะห์การเสริมสร้างการเสริมสร้างจาก Enrichnet-Network (Enrich-NET) (Glaab et al., 2012)

2 95%CI NSCORE ZSCORE χD African CHB GIH CEU เครือข่ายย่อยรายการเส้นทาง (0.009, 0.01) 0.01 951.25 0.207 0.708 0.043 0.135 0.104 MBP, TEP1, TRIM29, AKAP5, RPL10, marcks, gria1, dgkz, fas, การหลั่งน้ำลาย rgs7, rgs2, anxa2, prkce (0.009, 0.01) 0.01 952.508 0.226 0.772 0.043 0.103 0.073 CSNK2A1 1, faf1, ตั้งค่า, HDAC2, HMGA2, HMGA1, NOD-LIGE ABCA1, MME, HSP90AA1, IL8, HNRNPA2B1, EEF1B2, PTPRC (0.01, 0.011) - runx2, runx3, pard3b, rasd2, runx1, epas1, smad3, zbtb16town, myeloid leukemia เฉียบพลัน HMGA2, pard3, RPLP0, HIVEP1, FOXO1, GLI3, RGS3, DACH1 (0.011, 0.012) , grip1, pak6, RGS3, - CHD9, UBE3A, RNF4, PRDM2, CCND1, SMAD3, GNAI1, ZBTB16, FHL2, NFKB1, myeloid leukemia RXRA, FOXO1, SOS1, TDG, PSMB91048.017 0.196 0.673 0.046 0.152 0.114 LRPPRC, TSFM, GOT2, KCTD12, - UBA2, MTHFD1, StrN3, EEF1B2, DDOS, CUTA, RPL23A, PFKP, Phenylalanine 011 1051.657 0.204 0.6970.039 0.14 0.109 MIF, OTUD7A, PTMA, FKBP1A, CCT3, - RNF139, EPAS1, HDAC2, ACP1, HINT1, SET, RCC2, CUTA, RPL23A, DGKZ, ฟีนิล 011 1063.9690.202 0.682 0.048 0.15 0.114 ARHGEF7, DCC, CBLB, MYRIP, NCKAP5, - PKN2, RHOU, FLNB, SNX7, CASL2, SOS1, ID4, KDR, มะเร็งเม็ดเลือดขาวชนิดเรื้อรังการอภิปรายและผลลัพธ์ 8.3 Cyfip2, P2RX7, SASH1 (0.011, 0.012) 0.011 1070.501 0.215 0.704 0.048 0.14 0.104 CBLB, FGFR2, myrip, CD2AP, IRS2, MME (0.011, 0.012) 0.011 1076.847 0.196 0.719 0.044 0.127 0.105 OSBPL3, YWHAE, RPS2, RASSF8, - CEP17, SMCR3 -5, rab11fip2, IRS2, CYFIP2, EEF1A1 (0.011, 0.012) 0.012 1092.394 0.225 0.761 0.032 0.115 0.092 FHIT, PKP2, RAPGEF2, CDH9, CDH8 , smad3, ctnnd2, FHL2, NFKB1, KDR, SPN, Fer, Adherens Junction CDH11, CDH18, FOXO1, PYGO1, PTPRC, ต่อเนื่องในหน้าถัดไปตารางที่ 8.5 - ต่อจากหน้าก่อนหน้า

2 95%CI NSCORE ZSCORE χD African CHB GIH CEU เครือข่ายย่อยรายการ RXRA, CTNNA3, PARD3, PTPRG (0.011, 0.012) 0.012 1097.011 0.231 0.789 0.042 0.094 0.076 IFNAR2 1,PTMA, Runx1, Acta2, TDG, Daxx, Pax5, Ing1, MAF, ONECUT1, SMAD3, FHL2, CITED2, SND1, ABCA1, FOXO1, Myeloid leukemia KLF13, 0.012) 0.012 1105.579 0.195 0.683 0.042 0.149 0.121 GAPDH, KRT8, VAV2, MAP2K1, - CBLB, KRT7, SH3GL2, Alcam, ITGA5, Fer, SOS1, CD59, FAS, T เซลล์0.012, 0.014) 0.013 1177.896 0.213 0.711 0.042 0.133 0.106 ST5, HCN4, NCKAP5, CD2AP,-TULP4, TERF1, LRBA, GPX1, CTNND2 o1town, daam1, MBP, YWHAE (0.014, 0.015) 0.014 1280.19 0.21 0.747 0.043 0.111 0.089 IFNAR2, APEX1, ZFPM2, PTMA, - CCND1, TCF7L2 f, acta2, SMAD3, NEDD1, FHL2, ING1, myeloid leukemia เฉียบพลัน Cited2, NR2F2, Set, MAP2K1, 158 Capeets2, MRE11A, EPAS1, MEF2D (0.014, 0.016) PFKP, KCTD12, MIF, RPL3, HINT1, MTPN, UBA2, MTHFD1, PREP, ADSS, SET, SEC23A, การเผาผลาญฟีนิลอะลานีน RPL23A, SND1, MAP2K1, DDOST0.016, 0.018) 0.017 1459.521 0.198 0.684 0.048 0.148 0.112 LRPPRC, GLRX3, ADSS, ZC3H15, - EEF1B2, MIF, CYLD, PABPC1, RPL3, UBA2, HDAC2, HDAC2, HDAC2, HDAC2, HDAC2, HDAC2

SET, SND1, RPL23A, DAD1, การสนทนาและผลลัพธ์ 8.3 AnxA2, MTPN, NPM1, RPL36 (0.017, 0.018) 0.017 1475.243 0.201 0.684 0.044 0.146 0.116 CD36, SPNHSP90AA1, LRBA, SLAMF1, ACP1, CTNNND2, CAST, HNRNPK, KDR, TELIC RC, Marcks, - MBP, KCTD12, VTA1, Cyld, PABPC1, MAP3K7, Runx1, BUB3, UBE2E1, UBA2, FLNB, SET, RPL23A, RCC2, FHL2PSMC1, Anxa2, MTPN, ESD, NPM1, ต่อเนื่องในหน้าถัดไปตารางที่ 8.5 - ต่อจากหน้าก่อนหน้า

2 95%CI NSCORE ZSCORE χD African CHB GIH CEU เครือข่ายย่อยรายการ MAP3K7IP2, RPL36 (0.023, 0.026) 2a,NFATC1, CEP170, RFC4, RPLP0, SET, HNRNPA1, IRS2, RPL10A, PFKP, YWHAE, PANK1, PRKCE oxo1,RGS3, Anxa2, TBC1D4, LRPPRC, WWC1, HSP90AB1, RPL6, HNRNPK, ARL6IP1, EEF1B2, CAND1, LDHA, NPM1 (0.025, 0.027) GN2, - SHB,flnb, ret, smad3, ahsg, st5, cugbp2, snx7, myrip, ccl5, itk, irs2, dnajb11, krt8, cast, kdr, myeloid leukemia cuta เรื้อรัง, ID4, CD59, P2RX7, ESD, NPM1

159 Cape ofการสนทนาและผลลัพธ์ 8.3

มหาวิทยาลัย 8.3 ผลลัพธ์และการอภิปราย

การใช้การวิเคราะห์การตกแต่งที่ใช้กับ Enrichnet-Network (Enrich-Net) (Glaab etal., 2012), คำอธิบายประกอบเส้นทาง/กระบวนการที่พบบ่อยที่สุดของเครือข่ายย่อย 20 อันดับแรกคือมะเร็งเม็ดเลือดขาวชนิดเฉียบพลันหรือเรื้อรัง myeloidเมื่อพิจารณาเฉพาะยีนที่มีค่า p <0.0004 เราพล็อตเครือข่ายย่อย 20 อันดับแรกในรูปที่ 8.5ยีนต่อไปนี้คือฮับกลาง HNRNPK (p = 6.283310622e - 09), rhou (p = 1.8E 07), gria1 (p = 0.0002), pafah1b1 (p = 8.56e 05)05), NPM1 (P = 0.0001), PRDX1 (P = 0.0001), GLI3 (P = 0.00014), WT1 (P = - 0.0015), EPAS1 (P = 0.0002), HNRNPA1 (P = 0.0002)0.0002) และ ywhaz (p = 0.0071)เนื่องจากเครือข่ายย่อย 20 เครือข่ายเหล่านี้ซ้อนทับกันและฮับเชื่อมต่อซึ่งกันและกันเราจึงค้นหาเครือข่ายย่อยที่สำคัญที่สุดและส่วนกลางภายในเครือข่ายในรูปที่ 8.6 โดยไม่รวมยีนเหล่านั้นที่มีขอบน้อยกว่าสามขอบรูปที่ 8.6 เป็นเครือข่ายย่อยที่สำคัญที่สุดที่พบและมีนวนิยายที่เกี่ยวข้องและยีนวัณโรคที่เกี่ยวข้องก่อนหน้านี้เช่น WT1 และ IL8

เมือง

แหลม

มหาวิทยาลัย

รูปที่ 8.5: เครือข่ายย่อยที่เกี่ยวข้องจากการใส่วัณโรค GWAS ของประชากรสีแอฟริกาใต้รวมถึงเครือข่ายย่อยที่ได้รับการเสริมสมรรถนะ

160 8.3 ผลลัพธ์และการอภิปราย

รูปที่ 8.6: เครือข่ายย่อยส่วนกลางจากการใส่วัณโรค GWAS ของประชากรสีแอฟริกาใต้ในรูปที่ 8.6 ขนาดของโหนดแสดงถึงความสำคัญของมันจากขนาดเล็กถึงขนาดใหญ่ในขณะที่สีฟ้าหมายถึงสัญญาณของความผิดปกติที่ผิดปกติในส่วนเกิน/การกำหนดของบรรพบุรุษและสีแดงเป็นสัญญาณปานกลาง8.3.3 สรุป Cape โดยสรุปเราได้แนะนำ ANCGWAS ซึ่งเป็นวิธีการ postof GWAS สำหรับประชากรที่ได้รับการผสมผสานหรือไม่ได้ติดผสมเมื่อเร็ว ๆ นี้ซึ่งรวมสัญญาณความสัมพันธ์จากชุดข้อมูล GWAS บรรพบุรุษท้องถิ่นเครือข่ายปฏิสัมพันธ์โปรตีนนอกจากนี้วิธีการของเรามีความสัมพันธ์ที่มีอยู่ระหว่าง SNPs ภายในยีนและยีนภายในเส้นทางและแนะนำ fl exibility ในการประมาณการยีน-สเป็กส์และบรรพบุรุษของเครือข่ายย่อยของบรรพบุรุษเพื่อความรู้ของเราการมีส่วนร่วมใหม่ในปัจจุบันเพื่อวิธีการโพสต์ gwasเราตรวจสอบความถูกต้องของ ANCGWAS ผ่านการจำลองโรคแบบอินเทอร์แอคทีฟความหลากหลายในประชากรที่ได้รับการผสมและแสดงให้เห็นว่า ANCG- ถือเป็นสัญญาสำหรับการตรวจสอบการมีปฏิสัมพันธ์ระหว่างยีนที่อยู่ภายใต้การเกิดโรคของโรคทางพันธุกรรมและพื้นฐานทางชาติพันธุ์ที่สำคัญ ANCGWAS สามารถกู้คืนและส่งสัญญาณของยีนจำลองโรค SLC2A1 ที่ให้คะแนนตามขอบเขตของความสำคัญของจีโนมกว้างจาก GWAS มาตรฐาน (ตารางที่ 8.1)เราใช้ ancgwas กับข้อมูลวัณโรค Gwas ของประชากรสีแอฟริกาใต้ที่ได้รับการผสมผสานผลลัพธ์ของเราให้ผลงานเครือข่ายย่อย 20 อันดับแรกที่ไม่เพียง แต่ได้รับการเสริมสมรรถนะอย่างมีนัยสำคัญเท่านั้น แต่ยังแนะนำให้มีบทบาทในการสร้างภูมิคุ้มกันของวัณโรคและเป็นส่วนใหญ่ของแอฟริกาแม้ว่าพวกเขาจะไม่มีหลักฐานทางสถิติที่

161 8.3 ผลลัพธ์และการอภิปราย

การทดสอบการเพิ่มคุณค่าพบว่าเครือข่ายย่อยที่มีนัยสำคัญส่วนใหญ่มีส่วนเกี่ยวข้องในเส้นทางมะเร็งเม็ดเลือดขาวชนิดเฉียบพลันและเรื้อรังที่น่าสนใจทั้งที่ตามยีนและทางเดินของเราแสดงให้เห็นถึงการบรรจบกันของสัญญาณ SNP ไปยังสัญญาณยีนและจากสัญญาณยีนไปยังเครือข่ายย่อย 20 อันที่มีนัยสำคัญ (และไปยังเครือข่ายย่อยวัณโรคกลางของมนุษย์ที่อุดมไปด้วยเส้นทางชีวภาพวัณโรคที่น่าสนใจรวมถึงยีนที่ระบุไว้ก่อนหน้านี้ว่าเกี่ยวข้องกับวัณโรคสิ่งที่น่าสังเกตมากที่สุดและเป็นเครือข่ายย่อยส่วนกลางในรูปที่ 8.6 อาจให้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับการเกิดโรควัณโรคและสามารถอำนวยความสะดวกในการพัฒนายาในการโฆษณาการบรรจบกันของสัญญาณ SNP ไปยังเครือข่ายย่อยวัณโรคที่เกี่ยวข้องและยีนผู้สมัครสนับสนุนสมมติฐานของเราเกี่ยวกับความสัมพันธ์ที่มีนัยสำคัญจากการวิเคราะห์หลังการวิเคราะห์โดยเฉพาะอย่างยิ่ง fi nding ของ 6 ยีนรวมถึง MEGF10, PRRC1, HNRNPK, SLC8A3, SMOC1 และ CTXN3 นั้นมาจากการรวม E SNPs ที่กำหนดให้กับยีนแต่ละตัวที่สำคัญเราสามารถทำซ้ำยีนที่เกี่ยวข้องกับวัณโรคที่รู้จักกันดี 4 แห่งรวมถึง IL8, SLC11A1, WT1, CCL2 และ IFNGR1ยีนเหล่านี้มีความสำคัญต่ำกว่าซึ่งยีนที่ระบุไว้อื่น ๆ โดยรวมแม้ว่าความแม่นยำของการอนุมานของบรรพบุรุษในท้องถิ่นในประชากรที่มีการผสมผสานหลายทางยังคงเป็นสิ่งที่ท้าทายเราเพื่อค้นพบการเกิดโรคของโรคทางพันธุกรรมและการเชื่อมโยง thetown ไปยังกลุ่มชาติพันธุ์

แหลม

มหาวิทยาลัย

162 บทที่ 9

การอภิปรายและข้อสรุป

9.1 การสนทนา

9.1.1 การเปลี่ยนแปลงทางพันธุกรรมในประชากรสีแอฟริกาใต้เราแนะนำ Proxyanc วิธีการเลือกบรรพบุรุษพร็อกซีทาวน์ที่ดีที่สุดสำหรับประชากรที่มีความหลากหลายหลายทางเราประเมินความถูกต้องของมันผ่านการจำลองของประชากรหลายทางและแสดงให้เห็นถึงผลกระทบและความไวของการเลือกแผงอ้างอิงในบรรพบุรุษทั่วโลกและท้องถิ่นและในการกำหนดจีโนไทป์ที่หายไปวิธีการของเราในการเลือกประชากรบรรพบุรุษพร็อกซีในประชากร admixedcape หลายทางทำให้เราสามารถอธิบายลักษณะส่วนประกอบของบรรพบุรุษทางพันธุกรรมของประชากรสีผสมที่ไม่เหมือนใครของแอฟริกาใต้ที่คิดเป็น 49% ของประชากรของจังหวัดเคปตะวันตกการสำรวจสำมะโนประชากร 2554)การศึกษาก่อนหน้านี้ของประชากรที่ซับซ้อนในอดีตนี้ถูกขัดขวางโดยขนาดตัวอย่างที่ค่อนข้างเล็กและมีประชากรบรรพบุรุษบรรพบุรุษที่เปิดเผยต่อสาธารณชนไม่กี่คนในการศึกษาครั้งนี้เราได้ใช้จำนวนประชากรอ้างอิงที่เพิ่มขึ้นที่มีอยู่และบรรพบุรุษที่ดีที่สุดของประชากรสีแอฟริกาใต้ที่ได้รับจากพร็อกซีสิ่งเหล่านี้ช่วยให้เราสามารถบันทึกการมีส่วนร่วมของ Isixhosa, Khomani, มหาวิทยาลัยยุโรป, คุชราตอินเดียและสารพันธุกรรมของจีนไปทางทิศใต้‡ประชากรสีแอฟริกา (33%, 31%, 16%, 12%และ 7%ตามลำดับ)เราคาดว่ากลุ่มที่พูดภาษา Bantu ทางใต้เช่น Isixhosa แทนที่จะเป็นกลุ่มแอฟริกาตะวันตกเช่น Yoruba เป็นบรรพบุรุษที่ดีกว่าของประชากรสีแอฟริกาใต้Isixhosa ในฐานะบรรพบุรุษของพร็อกซีที่ดีที่สุดของประชากรสีแอฟริกาใต้อีกครั้งการผสมผสานการผสมผสานครั้งแรกของหญิงชาวซานพื้นเมืองส่วนใหญ่กับกลุ่ม Bantu ภาคใต้และต่อมากับผู้ตั้งค่าชายส่วนใหญ่มาจากเนเธอร์แลนด์อังกฤษเยอรมนีและฝรั่งเศสจากเอเชียใต้ (Boonzaaier et al., 1996; Keegan, 1996; Mountain, 2003)จำนวนมากของ Khomani ‡ (sub-kalahari san) บุคคลที่มีอยู่สำหรับการศึกษานี้เพิ่มความมั่นใจของเราอย่างมากใน AC-

163 9.1 การสนทนา

การดูแลของบรรพบุรุษที่นำเสนอที่นี่ผลลัพธ์ของเรายังเน้นถึงจุดที่ San Clans มักจะแตกต่างกันอย่างมากจากกันและจัดกลุ่มบุคคล SAN จากพื้นที่ที่แตกต่างกันเนื่องจาก SAN ทั่วไปอาจส่งผลให้สูญเสียการเลือกปฏิบัติในระดับพันธุกรรมสิ่งนี้ยังแสดงให้เห็นถึงความแตกต่างทางพันธุกรรมระหว่างจีโนม (Bushmen) (Pickrell et al., 2012; Schlebusch et al., 2012; Schuster etal., 2010)ในกรณีของประชากรสีแอฟริกาใต้ในเวสเทิร์นเคปอาจคาดหวังได้ว่ากลุ่มซานจาก Kalahari ทางใต้รวมถึง Khomani, Bushmen และ San ซึ่งอยู่ใกล้ทางภูมิศาสตร์ประชากรจะเป็นบรรพบุรุษของกลุ่มนี้ที่ดีกว่า Jul'huan จากนามิเบียและนี่คือสิ่งที่เราได้แสดงสิ่งนี้ยังให้ความเชื่อถือกับข้อเสนอแนะก่อนหน้านี้ว่ามีเพียงบางคนในซานประชาชนที่มีส่วนร่วมกับประชากรประชากรสีแอฟริกาใต้ (Quintana-Murci et al., 2010)คาดว่าจะมีความไม่สมดุลของการเชื่อมโยงในระดับสูงในประชากรที่ได้รับการผสมและสิ่งนี้อาจเกิดขึ้นได้ในบางจุดของประวัติศาสตร์ของมันโดยคอขวดของประชากรหรือเป็นผลมาจากส่วนผสมของตัวเองเท่านั้นในการแก้ไขปัญหานี้เราได้ใช้อัลกอริทึมสองแบบสองครั้งเพื่อเลือกชุดย่อยของเครื่องหมายข้อมูลเราใช้ชุดย่อยที่ได้รับของเครื่องหมายข้อมูลที่แตกต่างจากประชากรบรรพบุรุษพร็อกซีที่ดีที่สุดของประชากรสีแอฟริกาใต้ที่ได้รับจากอัลกอริธึมพร็อกซีส่วนผสมของบรรพบุรุษเราแสดงให้เห็นว่าความถี่อัลลีลแตกต่างกันระหว่างประชากรบรรพบุรุษพร็อกซีแต่ละคู่มีความสัมพันธ์กับการเสื่อมสภาพของความไม่สมดุลของการเชื่อมโยงในประชากรสีแอฟริกาใต้ซึ่งบ่งบอกว่าส่วนผสมของความหลากหลายทางพันธุกรรมเพิ่มขึ้นต้นกำเนิดของมันส่วนใหญ่อยู่ในส่วนผสมการศึกษาครั้งนี้พบว่าผู้ก่อตั้ง haplotypes ระดับอ่อนแอเหมือนกันตามจีโนมของประชากรสีแอฟริกาใต้ซึ่งเสริมสร้างหลักฐานต่อต้านคอขวดของประชากรที่อาจพบได้แอฟริกาใต้รวมถึงประชากรสีแอฟริกาใต้อย่างไรก็ตามแม้จะมีความโดดเดี่ยวนี้ประชากร ampixed ดั้งเดิมก็มีขนาดใหญ่และคอขวดของประชากรจึงไม่น่าเป็นไปได้แม้ว่าความหลากหลายความถูกต้องของการประเมินทั้งบรรพบุรุษในท้องถิ่นและวันที่โบราณของเหตุการณ์ส่วนผสมที่แตกต่างกันในประชากรที่มีการผสมผสานหลายทางยังคงอยู่ในช่วงการสำรวจเราประเมินความยาวของบล็อกบรรพบุรุษในประชากรสีแอฟริกาใต้พร็อกซีของประชากรบรรพบุรุษและเราเป็นแบบจำลองความน่าจะเป็นเกี่ยวกับความยาวของการกระจายบล็อกบรรพบุรุษเพื่อประเมินวันที่ของเหตุการณ์ส่วนผสมในประชากรกลุ่มนี้ผลลัพธ์ของเราแนะนำการแต่งหน้าทางพันธุกรรมของประชากรสีแอฟริกาใต้เกิดขึ้น 9 ถึง 11 ชั่วอายุคน (385 ปี) ที่ผ่านมาถ้าเราพิจารณา 35 ปีสำหรับรุ่นหนึ่ง

164 9.1 การสนทนา

9.1.2 การศึกษาสมาคมทั่วทั้งจีโนม

เราใช้การรวมกันของสองวิธีเสริมเพื่อตรวจสอบว่าการเชื่อมโยงทางพันธุกรรมสามารถเพิ่มความเสี่ยงต่อวัณโรคและประเมินการมีส่วนร่วมของสถานะทางเศรษฐกิจและสังคมกับความสัมพันธ์ระหว่างบรรพบุรุษวัณโรคในประชากรสีแอฟริกาใต้ผลลัพธ์ของเราแสดงให้เห็นถึงหลักฐานที่สำคัญของความสัมพันธ์ระหว่างบรรพบุรุษ Khomani และ tuberculo- สถานะ SIS ที่ไม่ได้รับความสับสนจากสถานะทางเศรษฐกิจและสังคมนี่เป็นผลลัพธ์ทางระบาดวิทยาที่สำคัญและแสดงให้เห็นถึงคุณค่าของการรวมวิธีการเชื่อมโยงการผสมในชุดของวิธีการที่ใช้ในการดำเนินการศึกษาความสัมพันธ์ของวัณโรคในประชากรนี้เมื่อมีการพิจารณาอุบัติการณ์ที่สูงมากของวัณโรคในประชากรที่มีสีสันของแอฟริกาใต้พร้อมกับเราว่าเปอร์เซ็นต์ที่มีนัยสำคัญของบรรพบุรุษของพวกเขานั้นมาจาก SAN และประชากรแอฟริกาอื่น ๆความอ่อนแอทางพันธุกรรมต่อโรคนี้เราดำเนินการวิเคราะห์ความสัมพันธ์ของจีโนมทั่ววัณโรคกรณีควบคุมจากประชากรสีแอฟริกาใต้ผสมส่งผลให้เกิดการระบุตัวแปรความถี่ต่ำที่ SNP RS17175227หลังจากการใส่ร้ายเรายังระบุตัวแปร Raretown ที่ SNP RS12294076 ที่เส้นเขตแดนของจีโนมทั่วทั้งจีโนมและเราทำซ้ำในระดับปานกลางเนื่องจากการกระจายแบบไม่สมบูรณ์แบบไม่สมบูรณ์ของการเชื่อมโยงแบบจำลองแบบผสมหรือการถดถอยโลจิสติกในกรณีเฉพาะของตัวแปรความถี่ต่ำซึ่งมักจะไปถึงจีโนมทั่วทั้งจีโนม;เราคำนวณค่าการทดสอบที่แน่นอนของ Fisherscape สำหรับตัวแปรที่ได้รับการเชื่อมโยงแบบจำลองแบบผสมที่มีนัยสำคัญที่สุดสิ่งนี้ส่งผลให้ Rs17175227 ไม่สามารถเข้าถึงการตัดจีโนมทั่วทั้งจีโนมพลังในการตรวจจับการเชื่อมโยงเป็นฟังก์ชั่นของความถี่อัลลีลและตัวแปรที่หายากจะถูก underpowered เมื่อขนาดตัวอย่างมี จำกัดอย่างไรก็ตามเนื่องจากโมเดลผสมในปัจจุบันหรือการเชื่อมโยงการถดถอยโลจิสติกไม่ได้อธิบายถึงตัวแปรที่หายากเราจึงได้กล่าวถึงความท้าทายนี้โดยการคำนวณ Fishers การทดสอบที่แน่นอน p-values ​​สำหรับตัวแปรที่ได้รับการเชื่อมโยงแบบจำลองแบบผสมที่มีนัยสำคัญที่สุดที่สำคัญการทดสอบที่แน่นอนของฟิชเชอร์ทำให้เราสามารถแสดงให้เห็นว่าตัวแปรที่หายากนั้นไม่ได้มีความหมายทั่วทั้งจีโนมแม้ว่าจะได้รับการเชื่อมโยงแบบจำลองแบบผสมที่มีนัยสำคัญในการวิเคราะห์แบบจำลองประการแรกการศึกษาครั้งนี้ไม่มีอำนาจในการตรวจจับตัวแปรความเสี่ยงที่มีขนาดขนาดเล็กมากขึ้นเนื่องจากขนาดตัวอย่างที่เรียบง่ายของเราประการที่สองการใส่ข้อมูลจีโนไทป์ที่ขาดหายไปของประชากรที่มีความซับซ้อนเป็นความท้าทายที่สำคัญขึ้นอยู่กับตัวเลือกและขนาดของ haplotype ของแผงอ้างอิงที่มีอยู่โดยเฉพาะอย่างยิ่งการใส่ข้อมูลของข้อมูลจีโนไทป์ที่หายไปของประชากรที่มีสีผิวแอฟริกาใต้ที่มีความซับซ้อนนี้เป็นสิ่งที่ไม่ดีอย่างไรก็ตามจำนวน SNP ที่เพิ่มขึ้นที่เกิดจากการวิเคราะห์การใส่ร้ายนั้นมีประโยชน์ในการศึกษานี้ทำให้เกิดการจำลองแบบของตำแหน่งความไวต่อวัณโรค (Thye etal., 2012)ประการที่สามแม้จะใช้การทดสอบที่แน่นอนของฟิชเชอร์เพื่อแก้ไขความไม่สมบูรณ์ของแบบจำลองผสมสำหรับความสัมพันธ์ที่ใช้ในการศึกษาของเราโดยเฉพาะอย่างยิ่งในกรณีของตัวแปรที่หายาก

165 9.1 การสนทนา

การใช้เทคโนโลยีการเรียงลำดับใหม่ยังคงต้องใช้ในการค้นหาตัวแปรความเสี่ยงที่หายากสิ่งนี้อาจให้ข้อมูลเชิงลึกที่สำคัญในการระบุยีนความไวต่อวัณโรคและดังนั้นจึงแจ้งการพัฒนาของการแทรกแซงใหม่

9.1.3 การวิเคราะห์การศึกษาความสัมพันธ์ของจีโนมทั่วทั้งโพสต์

เพื่อให้ได้พลังที่เพียงพอในการตรวจจับความสัมพันธ์ในระดับของความสำคัญของจีโนมทั่วทั้งจีโนมและระบุตำแหน่งความเสี่ยงร่วมกับการศึกษากรณีการควบคุมวัณโรคแอฟริกาที่รายงานก่อนหน้านี้ (Thye et al., 2010, 2012)ภายใต้โมเดลแบบสุ่ม- e ect และ binary- e ect ectในการรวมข้อมูลการศึกษาความสัมพันธ์ทั่วทั้งจีโนมในการศึกษาเหล่านี้สองตำแหน่ง (Rs2057178 และ Rs11031728) มีผลการเชื่อมโยงกับความสำคัญของจีโนมทั่วทั้งจีโนมและแสดงให้เห็นถึงความแข็งแกร่งทั้งในการศึกษาของเรา, 2012)เพื่อตรวจสอบการรวมกันของยีนโดยการตรวจจับสัญญาณทางพันธุกรรมนอกเหนือจาก SNPs เดี่ยวในการศึกษาความสัมพันธ์ทั่วทั้งจีโนมและอธิบายลักษณะของยีนที่อ่อนแอและโครงสร้างทางพันธุกรรมของโรคที่ซับซ้อนเครื่องมือการวิเคราะห์สำหรับประชากรทั้งที่เพิ่งผสมและไม่ได้ติดตั้งซึ่งใช้การวัดศูนย์กลางที่ใช้กราฟภายในความไม่สมดุลของการเชื่อมโยงและใช้คะแนนทางสถิติกับกราฟย่อยที่เกิดขึ้นเพื่อระบุยีนที่มีนัยสำคัญและเครือข่ายที่เกี่ยวข้องกับความเสี่ยงของโรคที่ซับซ้อนการทดสอบการฟอร์คัปสัญญาณที่เป็นไปได้ของการกำหนดผิดปกติ/ส่วนเกินของบรรพบุรุษโดยเฉพาะผ่านการจำลองตำแหน่งของโรคแบบโต้ตอบในการจำลองของประชากร ampixed เราแสดงให้เห็นถึงพลังของ ANCGWAS ที่จะมีนัยสำคัญต่อสัญญาณของยีนโรคที่การวิเคราะห์ความสัมพันธ์ทั่วทั้งจีโนมมาตรฐานไม่สามารถทำได้เราใช้ ANCGWAS กับชุดข้อมูลการศึกษาความสัมพันธ์ของสมาคมจีโนมทั่วทั้งวัณโรคในประชากรที่มีสีผิวแอฟริกาใต้ผลการศึกษาของเราให้ยีนผู้สมัคร 6 ยีนซึ่งมีความสัมพันธ์กันอย่างมีนัยสำคัญกับวัณโรคและทำซ้ำในระดับปานกลาง 4 การระบุวัณโรคที่เกี่ยวข้องก่อนหน้านี้เราระบุเครือข่ายย่อยกลางใหม่ที่เกี่ยวข้องส่วนใหญ่ในเส้นทางการส่งสัญญาณ myeloid leukemia เรื้อรังเรื้อรังซึ่งอาจให้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับการเกิดโรควัณโรคที่เกี่ยวข้องกับการศึกษาทางชีวการแพทย์ยีนทั้งหมดเหล่านี้เป็นบรรพบุรุษของแอฟริกา-สปีดเช่นมีเชื้อสายแอฟริกันซึ่งสนับสนุนจากบทที่ 4 ที่ความเสี่ยงวัณโรคมีความสัมพันธ์กับเชื้อสาย Khomaniอย่างไรก็ตามเราสังเกตเห็นหลักฐานทางสถิติของความแตกต่างที่ผิดปกติในส่วนเกิน/การกำหนดของบรรพบุรุษในประชากรที่ไม่เหมือนใครนี้ซึ่งอาจอธิบายได้ด้วยความจริงที่ว่าเหตุการณ์ส่วนผสมในการสร้าง SAC นั้นล่าสุดสำหรับกองกำลังคัดเลือกผลกระทบต่อความถี่อัลลีล

166 9.2 บทสรุป

9.2 บทสรุป

โดยสรุปการวิจัยระดับปริญญาเอกนี้ได้เน้นถึงความสำคัญของการเลือกบรรพบุรุษพร็อกซีที่ดีที่สุดสำหรับการวิเคราะห์ดาวน์สตรีมที่มีศักยภาพในประชากรหลายทางที่ได้รับการผสมผสานโดยการพัฒนาพร็อกซีซึ่งเป็นวิธีการใหม่สำหรับการเลือกประชากรบรรพบุรุษพร็อกซีที่ดีที่สุดสำหรับประชากรหลายทางการวิจัยครั้งนี้แสดงให้เห็นถึงประโยชน์ของสัญญาณการศึกษาความสัมพันธ์ทั่วทั้งจีโนมมาตรฐานเพื่ออธิบายลักษณะของยีนที่ไวต่อการเปลี่ยนแปลงอย่างเต็มที่และโครงสร้างทางพันธุกรรมของโรคที่ซับซ้อนโดยการพัฒนาวิธีการบนกราฟเชิงพีชคณิต (ANCGWAS)ความเสี่ยงในประชากรที่ไม่เคยมีมาก่อนหรือไม่ได้ติดอันดับมันทำสิ่งนี้โดยการรวมสัญญาณความสัมพันธ์จากการศึกษาความสัมพันธ์ทั่วทั้งจีโนม (GWAS), บรรพบุรุษในท้องถิ่นและความไม่สมดุลของการเชื่อมโยงคู่ที่ชาญฉลาดในเครือข่ายโปรตีนโปรตีน (PPI) ของมนุษย์การวิจัยครั้งนี้ใช้วิธีการที่พัฒนาขึ้นใหม่เหล่านี้ในการทำความเข้าใจโครงสร้างทางพันธุกรรมและการทำแผนที่ยีนโรคที่เป็นไปได้ในประชากรสีแอฟริกาใต้ที่ได้รับการผสมผสาน 5 ทางซึ่งมีอัตราการเกิดวัณโรคสูงผิดปกติเรามีทั้งทางเลือกของประชากรบรรพบุรุษและการมีส่วนร่วมทางพันธุกรรมของพวกเขาในสีแอฟริกาใต้การตรวจสอบความไม่สมดุลของ Linkagetown และการระบุตัวตนของประชากรแหล่งที่มาสำหรับประชากรที่มีสีสันของแอฟริกาใต้ไม่เพียง แต่ทำให้เราเข้าใจประวัติศาสตร์วิวัฒนาการของเราได้ลึกซึ้งยิ่งขึ้น แต่ยังให้โอกาสในการออกแบบวิธีการพิจารณาคดีการศึกษาการควบคุมและการทำแผนที่ส่วนผสมในประชากรหลายทางที่ได้รับการผสมเช่นประชากรสีแอฟริกันเซาท์แคปที่สำคัญการมีส่วนร่วมของบรรพบุรุษของประชากรที่มีสีสันของแอฟริกาใต้อาจเป็นข้อมูลเฉพาะระดับภูมิภาคเป็นสิ่งสำคัญที่จะต้องสรุปผลลัพธ์โดยการวิเคราะห์ชุดข้อมูลที่แตกต่างของประชากรสีทั่วแอฟริกาใต้Proxyanc ยังเป็นเครื่องมือที่มีประโยชน์สำหรับการตรวจสอบประชากรที่ได้รับการผสมหลายทางอื่น ๆเราได้ดำเนินการความเสี่ยงต่อวัณโรคของบรรพบุรุษครั้งแรกที่พิมพ์และการใส่ GWAS ของประชากรที่ซับซ้อนนี้รวมถึงการวิเคราะห์อภิมานกับการศึกษาทางสังคมของจีโนมก่อนหน้านี้เกี่ยวกับประชากรแอฟริกาผลลัพธ์ของเราแสดงให้เห็นถึงหลักฐานความหลากหลายของความสัมพันธ์ระหว่างบรรพบุรุษ Khomani และวัณโรค‡สถานะที่ไม่ได้รับความสับสนโดยสถานะทางเศรษฐกิจและสังคมจากหมายเหตุ, wt1 chr11 locus ระบุโดย etal thye(2012) อยู่ใกล้กับความสำคัญของจีโนมทั่วทั้ง GWAs มาตรฐานของเราสิ่งนี้ให้ข้อมูลเชิงลึกที่สำคัญในการระบุความเสี่ยงต่อการเกิดวัณโรคของบรรพบุรุษในบรรพบุรุษการรวม E -ect ของ SNPs สำหรับแต่ละยีนจากสัญญาณ SNP จาก GWAS โดยใช้ ANCGWAS ไม่พบสัญญาณของความผิดปกติที่ผิดปกติในส่วนเกิน/การกำหนดของบรรพบุรุษทั้งในระดับยีนและทางเดินในประชากรกลุ่มนี้อย่างไรก็ตามเราระบุยีนผู้สมัครใหม่ที่เกี่ยวข้องกับวัณโรคและทำซ้ำยีนวัณโรคที่รู้จักกันดี 4 ตัวในระดับปานกลางที่สำคัญผลลัพธ์ของเราให้บริการเครือข่ายย่อยกลางที่มีความสำคัญอย่างมากซึ่งอาจมีบทบาทใน

167 9.2 บทสรุปเฉียบพลันและเรื้อรัง myeloid มะเร็งเม็ดเลือดขาวเส้นทางการส่งสัญญาณการทำงานในอนาคตคือการตรวจสอบการประมาณค่าของบรรพบุรุษที่ไม่เอนเอียงในทุก SNP ในประชากรที่มีหลายทางเพื่อให้ข้อมูลเชิงลึกที่สำคัญในการระบุยีนของโรคสิ่งนี้จะเป็นวิธีการบัญชีสำหรับการควบคุมกรณี SNP ที่มีจีโนมทั่วทั้งจีโนมและการวิเคราะห์ส่วนผสมในประชากรหลายทางเช่นประชากรสีแอฟริกาใต้

เมือง

แหลม

มหาวิทยาลัย

168 บรรณานุกรม

Adhikari, M. (2005)ไม่ขาวพอไม่ดำพอ: อัตลักษณ์ทางเชื้อชาติในชุมชนสีแอฟริกาใต้สำนักพิมพ์มหาวิทยาลัยโอไฮโอH-Safrica ISBN 978-0-89680-244-5(หน้า 1, 2)

Alexander, D. , Novembre, J. & Lange, L. (2009)การประมาณค่าตามแบบจำลองอย่างรวดเร็วของบรรพบุรุษในบุคคลที่ไม่เกี่ยวข้องการวิจัยจีโนม19, 1655-1664(หน้า 12, 32, 45, 45, 45, 55, 85)

Anton, I. , Wange, L. , Mayer, B. , Ramesh, N. & Geha, R. (1998)โปรตีนที่มีการโต้ตอบกับโปรตีน Wiskott-Aldrich Protein (WIP) จับกับโปรตีน Adaptortown NCKJ Biol Chem273, 20992-20995(หน้า 31)

Arcos-Burgos, M. & Muenke, M. (2002)พันธุศาสตร์ของประชากรที่แยกได้Clin Genet61, 233-247(หน้า 71)เสื้อคลุม

Babb, O. , van der Merwe, Beyers, N. , จาก Pheiffer, P. , Walzla, W. , Duncand, D. & Hoal, E. (2007)ความหลากหลายของยีนตัวรับวิตามินดีและเวลาในการแปลงเสมหะในผู้ป่วยวัณโรคปอดวัณโรค.87 (4), 295-302(หน้า 3, 84, 85, 94)

Baran, Y. , Bogdan, P. , Sankararaman, S. , Dara, G. , Gignoux, C. , Celeste, C. , Torgerson, W. , Chapela, R. , Jeanford, G. , Avila, C.P. , Rodriguez- Santana, J. , Burchard, E.G.& Eran, E. (2012)การอนุมานอย่างรวดเร็วและแม่นยำของบรรพบุรุษในท้องถิ่นในประชากรละตินประเทศชีวสารสนเทศศาสตร์28, 1359-1367(หน้า 11, 12, 13, 13, 32, 96, 119, 124, 124, 124, 126, 128, 129, 130, 131, 136)

Barreiro, L. , Neyrolles, L. , Babb, O. , Tailleux, L. , Quach, L. , McElreavey, H. , Helden, K. , Hoal, E. , Gicquel, E. & Quintana-Murci, L, L, L. (2006)การเปลี่ยนแปลงของโปรโมเตอร์ในยีนเข้ารหัส DC-SIGN CD209 มีความสัมพันธ์กับวัณโรคPLOS Med.3, e20.(หน้า 95)

Bellamy, R. (1998)ความอ่อนแอทางพันธุกรรมต่อวัณโรคในมนุษย์ทรวงอก.53, 588-593(หน้า 84)

169 บรรณานุกรม

Bellamy, R. , Beyers, N. , McAdam, K. , Ruwende, C. , Gie, R. , Samaai, P. , Bester, D. , Meyer, M. , Torrah, Collin, M. , Camidge, D., Wilkinson, D. , Hoal, E. , Whittle, H. , Amos, W. , Helden, V. & Hill, A. (2000)ความสามารถทางพันธุกรรมต่อวัณโรคในแอฟริกา: การสแกนจีโนมทั่วทั้งจีโนมPNAS97, 8005-8009(หน้า 84, 85)

Bhattacharjee, S. , Rajaraman, P. , Jacobs, K. , Wheeler, W. , Melin, B. , Hartge, P. , Consortium, G. , Yeager, M. , Chung, C. , Chanock, S. &Chat- terjee, N. (2012)วิธีการที่ใช้ชุดย่อยช่วยปรับปรุงพลังงานและการตีความสำหรับการวิเคราะห์เชิงการศึกษาความสัมพันธ์ทางพันธุกรรมของลักษณะที่แตกต่างกันAm J. of Hum Genet90, 821-835(หน้า 116)

Blake, J. , Taanman, J. , Morris, A. , Grey, R. , Cooper, J. , McKiernan, P. , Leonard, J. & Schapira, A. (1999)อาการ DNA DNA Mitochondrial แสดงในการเพาะเลี้ยงเซลล์น้ำคร่ำ fl uidAm J. Pathol155 (1), 67-70(หน้า 99)Boonzaaier, E. , Malherbe, C. , Smith, A. & Berens, Town P. (1996)The Cape Herders: ประวัติความเป็นมาของ Khoikhoi ทางตอนใต้ของแอฟริกาสำนักพิมพ์เดวิดฟิลิปเคปทาวน์(หน้า 1, 2, 63, 163)Botha, M. (1972)ความถี่ของยีนในกลุ่มเลือดเป็นตัวบ่งชี้ถึงรัฐธรรมนูญทางพันธุกรรมของตัวอย่างประชากรในเคปทาวน์S AFR Medof J. 46, Suppl 1-26(หน้า 34)Browning, B. & Browning, B. (2009)วิธีการที่เป็นเอกภาพในการใส่จีโนไทป์และการอนุมานเฟส haplotype สำหรับชุดข้อมูลขนาดใหญ่ของสามคนและบุคคลที่ไม่เกี่ยวข้องPam J Hum Genet84, 210-223(หน้า 33, 44)

Campbell, M. & Tishkoff, S. (2008)ความหลากหลายทางพันธุกรรมของแอฟริกา: ผลกระทบต่อประวัติศาสตร์ประชากรของมนุษย์ต้นกำเนิดของมนุษย์สมัยใหม่และการทำแผนที่โรคที่ซับซ้อนAnnu Rev Genomics Hum Genet9, 403-433Oversity(หน้า 34)Cann, H. , de Toma, Cazes, L. , Legrand, M. , Morel, V. , Piouffre, L. , Bodmer, J. , Bodmer, W. , Bonne-Tamir, B. , Cambon-Thomsen, A., Chen, Z. , Chu, J. , Carcassi, C. , Contu, L. , Du, R. , Excoffier, L. , Ferrara, G. , Friedlaender, J. , Groot, H. , Gurwitz, D., Jenkins, T. , Herrera, R. , Huang, X. , Kidd, J. , Kidd, K. , Langaney, A. , Lin, A. , Mehdi, S. , Parham, P. , Piazza, A., Pistillo, M. , Qian, Y. , Hu, Q. , Xu, J. , Zhu, S. , Weber, J. , Greely, H. , Feldman, M. , Thomas, G. , Dausset, J. & Cavalli-Sforza, L. (2002)แผงเซลล์ความหลากหลายของจีโนมของมนุษย์ศาสตร์.296, 261-262(หน้า 37, 54)

170 บรรณานุกรม

Cantor, R. , Lange, K. & Sinsheimer, J. (2010)การจัดลำดับความสำคัญของผลการตรวจสอบ GWAS: การทบทวนวิธีการทางสถิติและคำแนะนำสำหรับแอปพลิเคชันของพวกเขาAm J of Hum Genet86, 6-22(หน้า 27, 27, 27, 27, 27, 30, 30, 31, 31, 31, 31, 31, 134, 134, 135, 135)

Chakravati & Weiss (1998)ส่วนผสมเป็นเครื่องมือสำหรับ fi nding ยีนที่เชื่อมโยงและตรวจพบว่าแตกต่างจากความสัมพันธ์ของอัลลีลระหว่างตำแหน่งProc Nat L.Acad.Science85, 9119-9123(หน้า 9, 10, 11, 11, 22, 26, 26, 78)

Chimusa, E. , Meintjes, A. , Tchanga, M. , Mulder, N. , Soodyall, H. & Ramesar, R. (2013)haplotype ทั่วทั้งจีโนมและลายเซ็นของการคัดเลือกในประชากรแอฟริกาตอนใต้ของชนพื้นเมือง(การเตรียมการ) .. (หน้า 38, 38, 38, 38, 38)

Cho, Y. , Go, M. , Kim, Y. , Heo, J. , Oh, J. , Ban, H. , Yoon, D. , Lee, M. , Kim, D. , Park, M. , M. ,Cha, S. , Kim, J. , Han, B. , Min, H. , Ahn, Y. , Park, M. , Han, H. , Jang, H. , Ey, C. , Lee, J. ,Cho, N. , Shin, C. , Park, T. , Park, J. , Lee, J. , Cardon, L. , Clarke, G. , McCarthy, M. , Lee, J. , Lee, J. ,โอ้, B. & Kim, H. (2009)การศึกษาความสัมพันธ์ของจีโนมทั่วทั้งกลุ่มของประชากร Asiantown เผยให้เห็นปัจจัยทางพันธุกรรมในลักษณะเชิงปริมาณแปดประการธรรมชาติของธรรมชาติ41, 527-534(หน้า 95)

Churchhouse, C. & Marchini, J. (2012)Deconvolution ส่วนผสมหลายครั้งโดยใช้แผงบรรพบุรุษที่เป็นระยะหรือไม่เป็นเฟสพันธุกรรมระบาดวิทยา.CAPE 37, 1-12(หน้า 13, 13, 124, 124, 130)Cilliers, S. (1985)สีของแอฟริกาใต้;การสำรวจข้อเท็จจริงBanier Publishers (Pty) Ltd. (หน้า 2)ของ

Comstock, G. (1978)วัณโรคในฝาแฝดการวิเคราะห์ใหม่ของการสำรวจการพยากรณ์Am Rev Respir117, 621-624(หน้า 84, 84)

Conrad, D. , Jakobsson, M. , Coop, G. , Wen, X. , Wall, J. , Rosenberg, N. & Pritchard, J. (2010)การสำรวจทั่วโลกเกี่ยวกับการเปลี่ยนแปลงแบบ haplotype และความไม่สมดุลของการเชื่อมโยงในจีโนมมนุษย์ Universitynatพันธุกรรม38, 1251-1260(หน้า 9)Costa, G. , Magno, L. , Santana, C. , C, Saito, S. , Machado, M. , Pietro, D. , Bastos-Rodrigues, L. , Miranda, D. , Marco, L.D. , Romano-Silva, M. & Rios- Santos, F. (2012)ปฏิสัมพันธ์ทางพันธุกรรมระหว่าง NAT2, GSTM1, GSTT1, CYP2E1 และปัจจัยด้านสิ่งแวดล้อมมีความสัมพันธ์กับอาการไม่พึงประสงค์ต่อยาต่อต้านวัณโรคการวินิจฉัยโมล16 (4), 241-350(หน้า 136)

Dai, Y. , Zhang, X. , Pan, H. , Tang, S. , Shen, H. , & Wang, J. (2011)การทำแผนที่ที่ดีของความหลากหลายทางพันธุกรรมของวัณโรคปอดภายในโครโมโซม 18q11.2 ในประชากรจีน: การศึกษากรณีควบคุมBMC ติดเชื้อ Dis11, 211-282(หน้า 96, 112)

171 บรรณานุกรม

Daniel, T. (1997)กัปตันแห่งความตายเรื่องราวของวัณโรคสำนักพิมพ์มหาวิทยาลัยโรเชสเตอร์โรเชสเตอร์นิวยอร์ก15, 131-142(หน้า 84)

Davila, S., Hibberd, M., Dass, R., Wong, E.H., Sahiratmadja, E., Bonnard, C., Alisjahbana, B., Szeszko, J., Balabanova, Y., Drobniewski, F., Crevel , R., van Vosse, E., Nejentsev, S., Ottenhoff, T. & Seielstad, M. (2008) การศึกษาความสัมพันธ์ทางพันธุกรรมและการแสดงออกบ่งชี้ถึงบทบาทของตัวรับที่มีลักษณะคล้ายค่าผ่านทาง 8 ในวัณโรคปอด ปล.เจเน็ต 4,e1000218. (หน้า 96, 96, 101, 106, 112, 112, 116, 116, 118)

Davis, A. & Dollard, J. (1994)เด็ก ๆ ของการเป็นทาส: การพัฒนาบุคลิกภาพของเยาวชนนิโกรในเมืองใต้สภาการศึกษาอเมริกัน(1940)XXVIII 299 pp. (หน้า 1, 1, 2, 2, 2, 2, 33)Dewit, E. , Delport, W. , Chimusa, E. , Meintjes, A. , Moller, M. , Helden, P. , Seoighe, C. & Hoal, E. (2010a)การวิเคราะห์จีโนมทั่วทั้งโครงสร้างของประชากรสีแอฟริกาใต้ในเคปตะวันตกHum Genet128 (2), 145-53(หน้า ix, 1, 1, 34, 34, 34, 34, 36, 37, 56, 60, 60, 60, 61, 62, 62, 62)Town Dewit, E. , Der Merwe, L. , Helden, P.V.& Hoal, E. (2010b)ปฏิสัมพันธ์ระหว่างยีน-ยีนระหว่างยีนผู้สมัครวัณโรคในประชากรแอฟริกาใต้จีโนมสัตว์เลี้ยงลูกด้วยนม22, 100-110(หน้า 90, 95, 136)Cape Dickson, P.S. , Wang, K. , Krantz, I. , จาก Hakonarson, H. & Goldstein, B. (2010)ตัวแปรที่หายากสร้างความสัมพันธ์ของจีโนมสังเคราะห์ทั่วทั้งจีโนมPLOS ชีววิทยา8 (1), E1000294(หน้า 31, 31, 31)

Dinga, J. & Lina, S. (2006)การทดสอบความไม่สมดุลของสายเลือด Monte Carlo สำหรับเครื่องหมายบนโครโมโซม XAm J Hum Genet79 (3), 567-573(หน้า 23, 25, 25, 25, 25, 25, 25, 26)

Draghici, S. (2003)เครื่องมือวิเคราะห์ข้อมูลสำหรับ DNA microarraysChapman, Hall/CRC, Boca Raton Londre Newuniversity York, แก้ไข ISBN ที่สอง: 1584883154(หน้า 26)

Dye, C. , Garnett, G. , Sleeman, K. & Williams, B. (1998a)สังเกตการบำบัดระยะสั้นโดยตรงมีดหมอ352, 1886-1891(หน้า 84, 84)

Dye, C. , Garnett, G. , Sleeman, K. & Williams, B. (1998b)โอกาสในการควบคุมวัณโรคทั่วโลกภายใต้กลยุทธ์ WHO DOTSมีดหมอ352 (9144), 1886-91(หน้า 84)

Dye, C. , Scheele, S. , Dolin, P. , Pathania, V. & Vaviglione, M. (1999)ภาระทั่วโลกของวัณโรค: อุบัติการณ์โดยประมาณความชุกและการตายของประเทศJama.282, 677-686(หน้า 85)

172 บรรณานุกรม

Elphick, R. (1985)Khoikhoi และผู้ก่อตั้ง White South AfricaUWC Printing Dept. Ravan Press, Johannesburg(หน้า 1)

Epstein, M. , Allen, A. & Satten, G. (2007)การแก้ไขที่เรียบง่ายและปรับปรุงสำหรับการศึกษาระดับประชากรในการศึกษากรณีควบคุมAm J Hum Genet80, 921-930(หน้า 27)

Evangelou, E. , Maraganore, D. & Ioannidis, J. (2008)การวิเคราะห์อภิมานในชุดข้อมูลการเชื่อมโยงทั่วทั้งจีโนม: กลยุทธ์และการประยุกต์ใช้ในโรคพาร์กินสันplos หนึ่ง2, E196(หน้า 105)

Evans, D. & Cardon, L. (2005)การเปรียบเทียบรูปแบบความไม่สมดุลของการเชื่อมโยงและอัตราการรวมตัวกันของประชากรในหลายประชากรAm J Hum Genet76, 681-687(หน้า 8, 9, 10, 10)

Excoffier, L. & Hamilton, G. (2003)แสดงความคิดเห็นเกี่ยวกับโครงสร้างทางพันธุกรรมของประชากรมนุษย์ศาสตร์.300, 5627-1877(หน้า 22, 26, 26, 26, 26, 27, 29, 29, 29, 30)Falush, D. , Stephens, A. & Pritchard (2003)Inferencetown ของโครงสร้างประชากร: ความตึงเครียดกับตำแหน่งที่เชื่อมโยงและความถี่อัลลีลที่สัมพันธ์กันAm J Hum Genet164, 1567-1587(หน้า 9, 11, 12, 12, 15, 16, 16, 17, 17, 17, 17, 17, 17, 17, 29, 32, 124)Ferreira, M. , O'Donovan, M. , Meng, Y. , Cape Jones, I. , Ruderfer, D. , Jones, L. , Fan, J. , Kirov, G. , Perlis, R. , Green, Green,E. , Smoller, J. , Grozeva, D. , Stone, J. , Nikolov, I. , Chambert, K. , Hamshere, จาก M. , Nimgaonkar, V. , Moskvina, V. , Thase, M. , Caesar, S. , Sachs, G. , Franklin, J. , Gordon-Smith, K. , Ardlie, K. , Gabriel, S. , Fraser, C. , Blumenstiel, B. , Defelice, M. , Breen, G., Gill, M. , Morris, D. , Elkin, A. , Muir, W. , McGhee, K. , Williamson, R. , MacIn- Tire, D. , MacLean, A. , CD, S. , Robinson,M. , Beck, M.V. , Pereira, A. , Kan- daswamy, R. , McQuillin, A. , Collier, D. , Bass, N. , Young, A. , Lawrence, J. , Ferrier, I. , มหาวิทยาลัยAnjorin, A. , Farmer, A. , Curtis, D. , Scolnick, E. , McGuf- Fin, P. , Daly, M. , Corvin, A. , Holmans, P. , Blackwood, D. , Gurling, H., Owen, M. , Purcell, S. , Sklar, P. , Craddock, N. & WTCCC (2008)การวิเคราะห์ความสัมพันธ์ของจีโนมทั่วทั้งความร่วมมือสนับสนุนบทบาทของ ANK3 และ CACNA1C ในโรคสองขั้วพันธุศาสตร์ธรรมชาติ40, 1056-1058(หน้า 105, 105)

Florez, J. , ราคา, A. , แคมป์เบลล์, D. , Riba, L. , Parra, M. , Yu, F. , Duque, C. , Saxena, R. , Gallego, N. , Tello-Ruiz, M. ., ฟรังโก, แอล., โรดริเกซ-ตอร์เรส, เอ็ม., วีลกาส, เอ., เบโดย่า, จี., อากีลาร์-ซาลินาส, ซี., ตูซี่-ลูน่า, เอ็ม., รุยซ์-ลินาเรส, เอ. & ไรช์, ดี. ( 2552) ความสัมพันธ์ที่แน่นแฟ้นของสถานะทางเศรษฐกิจและสังคมกับบรรพบุรุษทางพันธุกรรม

173 บรรณานุกรม

ใน Latinos: ผลกระทบสำหรับการศึกษาส่วนผสมของโรคเบาหวานประเภท 2Diabetologia52 (8), 1528-36(หน้า 89)

Flynn, J. (2006)บทเรียนจากการติดเชื้อวัณโรคมัยโคแบคทีเรียมจุลินทรีย์ติดเชื้อ8, 1179-1188(หน้า 84)

Frazer, K. & et al (2007)แผนที่ haplotype มนุษย์รุ่นที่สองกว่า 3.1 ล้าน SNPsธรรมชาติ.449, 851-861(หน้า 37, 54, 127)

กาลันเตอร์, เจ., เฟอร์นันเดซ-โลเปซ, เจ., กิงนูซ์, ซี., บาร์นโฮลต์ซ-สโลน, เจ., เฟอร์นันเดซ-โรซาดิญ่า, ซี., เวีย, เอ็ม., อิดัลโก-มิรันด้า, เอ., คอนเทรราส, เอ., ฟิเกโรอา, แอล., รัสกา, พี., ฆิเมเนซ-ซานเชซ, จี., โซเลซซี, ไอ., ตอร์เรส, เอ็ม., ปอนเต้, ซี., รุยซ์, ย., ซาลาส, เอ., เหงียน, อี., อังกฤษ, ซี., บอร์ฆาส, แอล., ซาบาลา, ดับเบิลยู., บาร์เรโต, จี., กอนซ์เลซ, เอฟ., อิบาร์รา, เอ., ทาโบอาดา, พี., ปอร์ราส, แอล., โมเรโน, เอฟ., บิ๊กแฮม, เอ., กูเตียร์เรซ, จี., Brutsaert, T., Len-Velarde, F., Moore, L., Var-gas, E., Cruz, M., Escobedo, J., Rodriguez-Santana, J., Rodriguez-Cintrn, W., Chapela, R., Ford, J., Bustamante, C., Seminara,Town D., Shriver, M., Ziv, E. & Burchard, E. (2012) การพัฒนาแผงตัวบ่งชี้ข้อมูลบรรพบุรุษทั่วทั้งจีโนมเพื่อศึกษาส่วนผสมทั่วทั้งอเมริกา พลอส เจเน็ต. 8(3),e1002554. (หน้า 71) Cape Garcia-Barceloa, M. , Tangc, C. , Ngana, E. , Luia, V. , Chena, Y. , Soa, M. , Yuk-yu, T. , Miao, X. , Shuma, C. , ของ Liua, F., Yeung, M., Yuane, Z., Guof, W., Liuc, L., Sung, X., Huang, L., Tou, J., Song, Y., han, D. , Cheung, K., Wong, K., Chernyc, S., Shamb, P. & Tam, P. (2009). การศึกษาความสัมพันธ์ทั่วทั้งจีโนมระบุว่า nrg1 เป็นสถานที่ที่ไวต่อโรคเฮิร์ชสปรัง โปรค Natl Acad. ศาสตร์. 106, 2694-2699. (หน้า 95)

Glaab, E. , Baudot, A. , Krasnogor, N. , Schneider, R. & Valencia, A. (2012)Enrichnet: ยีนที่อิงกับเครือข่ายตั้งค่าการวิเคราะห์การเสริมสมรรถนะชีวสารสนเทศศาสตร์28 (18), i451-I457(หน้า 151, 157, 160)

Goldstein, D. & Weale, M. (2001)จีโนมประชากร: ความไม่สมดุลของการเชื่อมโยงถือกุญแจCurr Biol11 (14), R576-9(หน้า 8, 10, 10, 10, 22)

Gronau, I. , Hubisz, M. , Gulko, B. , Danko, C. & Siepel, A. (2011)การอนุมานแบบเบย์ของประชากรมนุษย์โบราณจากลำดับจีโนมแต่ละตัวธรรมชาติของธรรมชาติ43, 1031- 1034 (หน้า 31)

174 บรรณานุกรม

Halder, H. & Shriver, S. (2003)การวัดและการใช้ส่วนผสมเพื่อศึกษาพันธุศาสตร์ของโรคที่ซับซ้อนHum Genomics1, 52-62(หน้า 8, 8, 22, 22, 22, 22, 26)

Han, B. & Eskin, E. (2011)แบบจำลองแบบสุ่ม-e ects มุ่งเป้าไปที่การค้นพบความสัมพันธ์ในการวิเคราะห์อภิมานของการศึกษาความสัมพันธ์ทั่วทั้งจีโนมAm J Hum Genet88, 586-598(หน้า 31, 31, 105, 105, 106, 106, 107, 116, 116, 116, 135, 135, 135)

Henn, B., Gignouxb, C., Jobinc, M., Grankae, J., Macphersonf, Kidda, J., Rodrguez-Botigug, L., Ramachandranh, S., Honf, L., Brisbini, A., Linj , A., Underhillj, P., Comasg, D., Kiddk, K., Normanl, P., Parhaml, P., Bustamantea, C., Mountainf, J. & Feldmane, M. (2011) ความหลากหลายทางพันธุกรรมของนักล่าและผู้รวบรวมแสดงให้เห็นต้นกำเนิดของแอฟริกาตอนใต้สำหรับมนุษย์ยุคใหม่ พนส. 108, 5154-5162. (หน้า 37, 38, 38, 38, 54).

Henn, B. , Botigue, L. , Gravel, S. , Wang, W. , Brisbin, A. , Byrnes, J. , Fadhlaoui-Zid, K. , Zalloua, P. , Amoreno, Bertranpetit, J. , Bustamante, C. & Comas, D. (2012)บรรพบุรุษของจีโนมของแอฟริกาเหนือสนับสนุนการอพยพกลับสู่อัฟริกันNat Comm.3 (1143) 2140. (หน้า 13, 38, 38, 39, 124, 124)

Hirschhorn, J. & Daly, M. (2003)การศึกษาความสัมพันธ์ทั่วทั้งจีโนมสำหรับโรคทั่วไปและลักษณะที่ซับซ้อนNat Rev Genet6 (2), 95-108CAPE(หน้า 35, 95, 97)Hoal, E. , Lewis, L. , Jamieson, J. , จาก Tanzer, T. , Rossouw, R. , Victor, V. & El.al (2004)SLC11A1 (NRAMP1) แต่ไม่ใช่ SLC11A2 (NRAMP2) polymorphisms เกี่ยวข้องกับความไวต่อวัณโรคในชุมชนที่มีเหตุการณ์สูงในแอฟริกาใต้คณะวิทยาศาสตร์สุขภาพมหาวิทยาลัย Stellenbosch และเมือง Cape Town, Western Cape, แอฟริกาใต้(หน้า 3, 35, 85, 94, 94)

Hoggart, H. , Shiver, S. & McKeigue, P. (2004)การออกแบบและการวิเคราะห์การศึกษาการทำแผนที่ส่วนผสมUniversityam J Hum Genet74 (5), 965-978(หน้า 8, 11, 12, 26, 29, 30, 32, 33, 124)

Hokayem, J., Huber, C., Couv, A., Aziza, J., Baujat, G., Bouvier, R., Cavalcanti, D., Collins, F., Cordier, M., Delezoide, A. ., กอนซาเลส, เอ็ม., จอห์นสัน, ดี., เมอร์เรอร์, เอ็ม., เลวี-มอสซิโคนัชชี, เอ., โลเจต์, พี., มาร์ติน-คอยนาร์ด, ดี., มาร์ติโนวิช, เจ., มอร์เทียร์, จี., มารี- Jos, P., Roume, J., Scarano, G., Munnich, A. และ Cormier-Daire, V. (2012) Nek1 และ dync2h1 ต่างก็เกี่ยวข้องกับประเภท short rib polydactyly majewski แต่ไม่ใช่ในกรณีของ beemer langer ฉันชื่อเจ. เมด เจเน็ต 49, 227-233. (หน้า 108, 108).

175 บรรณานุกรม

Horvath, S. , Windemuth, C. & Knapp, M. (2000)การทดสอบทวินามความเป็นไปได้สูงสุดของความไม่สมดุลไม่ได้แทนที่การทดสอบการส่งและการทดสอบความไม่สมดุลAm J Hum Genet67 (2), 531-534(หน้า 25, 25, 25, 25, 26)

Hubisz, M. , Falush, D. , Stephens, M. & Pritchard, J. (2009)การอนุมานโครงสร้างประชากรที่อ่อนแอด้วยความช่วยเหลือของข้อมูลกลุ่มตัวอย่างทรัพยากรนิเวศวิทยาโมเลกุล9, 1322-1332(หน้า 17, 17, 17)

Hudelson, P. (1996)เพศสัมพันธ์ในวัณโรคและโรคปอดการจัดการวัณโรค: คู่มือสำหรับ countrie ที่มีรายได้น้อยสหภาพนานาชาติต่อต้านวัณโรคและโรคปอด, 5th ed.ปารีส.(หน้า 90)

Jia, P. , Zheng, S. , Long, J. , Zheng, W. & Zhao, Z. (2010)DMGWAS: การค้นหาโมดูลหนาแน่นสำหรับการศึกษาความสัมพันธ์ทั่วทั้งจีโนมในเครือข่ายปฏิสัมพันธ์โปรตีนโปรตีนBioin- รูปแบบ27, 95-102(หน้า 30, 30, 30, 31, 31, 31, 134, 134, 134, 135, 135, 135, 136, 140)

Kang, H. , Sul, J. , Service, S. , Zaitlen, N. , Sit-yee, Town K. , Freimer, N. , Sabatti, C. & Eskin, E. (2010)โมเดลองค์ประกอบความแปรปรวนเพื่อบัญชีสำหรับโครงสร้างตัวอย่างในการศึกษาความสัมพันธ์ทั่วทั้งจีโนมNat Genet42, 348-354(หน้า 28, 28, 28, 97, 97, 98, 107, 143)Cape Kaufmann, S. & McMichael, A. (2005). จากการประสานงานที่อันตราย: กลยุทธ์การฉีดวัคซีนป้องกันโรคเอดส์และวัณโรคNat Med.11, S33-S44(หน้า 84, 84)

คีแกน, T. (1996)อาณานิคมแอฟริกาใต้และต้นกำเนิดของระเบียบทางเชื้อชาติสำนักพิมพ์เดวิดฟิลิปClaremont, South A fi ca.(หน้า 2, 2, 2, 2, 63, 163)

Kennedy, G. , Matsuzaki, H. , Dong, S. , Liu, W. , Huang, J. , Liu, G. , Su, X. , Cao, M. , Chen, W. , Zhang, J. ,Liu, W. , Yang, G. , Di, X. , Ryder, T. , เขา, Z. , Surti, U. , Phillips, M. , University Boyce-Jacino, M. , Fodor, S. & Jones,เค (2003)จีโนไทป์ขนาดใหญ่ของ DNA ที่ซับซ้อนNAT Biotechnol21, 1233-7(หน้า 95)

Kim, A. & Et.al, H.A.(2009)ยีน alpha-t-catenin (CTNNA3) ถูกระบุว่าเป็นตัวแปรความเสี่ยงสำหรับโรคหอบหืด toluene diisocyanate ที่เกิดจากการวิเคราะห์ความสัมพันธ์ทั่วทั้งจีโนมคลินิกประสบการณ์โรคภูมิแพ้39, 203-212(หน้า 95)

Kosoy, R. , Nassir, R. , Tian, ​​C. , White, P. , Butler, L. , Silva, G. , Kittles, R. , Alarcon-Riquelme, M. , Gregersen, P. , Belmont, J., Delavega, F. & Seldin, M. (2009)เครื่องหมายข้อมูลบรรพบุรุษชุดสำหรับการกำหนดแหล่งกำเนิดของทวีปและ

176 บรรณานุกรม

สัดส่วนการผสมในประชากรทั่วไปในอเมริกาHum Mutat30 (1), 69-78(หน้า 70, 71)

Kristin, C. , Kruglyak, L. & Seielstad, M. (2002)รูปแบบของความไม่สมดุลของการเชื่อมโยงในจีโนมมนุษย์รีวิวธรรมชาติ3, 299-309(หน้า 9, 9, 9, 9, 9, 10, 10, 11, 11, 22, 26)

Kruglyak, L. (1999)โอกาสในการทำแผนที่ความไม่สมดุลของจีโนมทั้งหมดของยีนโรคที่พบบ่อยNat Genet22, 139-144(หน้า 75)

Kumar, R. , Seibold, A.M. , Aldrich, C.M. , Williams, L.K. , Reiner, P.A. , Colangelo, L. , Galanter, J. , Gignoux, C. , Hu, D. , Sen, S. , Choudhry, S., Peterson, L.E. , Rodriguez-Santana, J. , Rodriguez-Cintron, W. , Nalls, M. , Leak, T. , Meara, E. , Meibohm, B. , Kritchevsky, S. , Li, R. , Harris, T. , Nick- erson, D. , Fornage, M. , Enright, P. , Ziv, E. , Smith, L. , Liu, K. & Gonzlez- Burchard, E. (2010)บรรพบุรุษทางพันธุกรรมในการทำนายฟังก์ชั่นปอดN Engl J Med363, 321-330(หน้า 85, 85)Town Lawson, D. , Hellenthal, G. , Myers, S. & Falush, D. (2010)การอนุมานของโครงสร้างประชากรโดยใช้ข้อมูล haplotype หนาแน่นPLOS GENET8 (1): E1002453(หน้า 124)

Lee, W. & Yen, Y. (2003)การจับคู่ส่วนผสมโดยใช้การทดสอบการส่งสัญญาณ/ความไม่สมดุลAnn Hum Genet67, 580-8(หน้า 23, 23)Lewontin, L. (1964)ปฏิสัมพันธ์ของการเลือกและการเชื่อมโยงการพิจารณาทั่วไป;แบบจำลอง heteroticพันธุกรรม49 (1), 49-67(หน้า 9, 71)

Li, J. , Guo, Y. , Pei, Y. & Hong-Wen, D. (2012)ผลกระทบของการใส่ร้ายต่อการวิเคราะห์อภิมานของการศึกษาความสัมพันธ์ทั่วทั้งจีโนมplos หนึ่ง7 (4), E34486(หน้า 33, 105, 105, 105)University Li, N. & Stephens, M. (2003)การสร้างแบบจำลองการเชื่อมโยงความไม่สมดุลและการระบุฮอตสปอต recombina โดยใช้ข้อมูล SNPพันธุศาสตร์165, 2213-2233(หน้า 8, 78)

Lin, Z. & Altman, R. (2004)การค้นหา Haplotype Tagging SNPs โดยใช้การวิเคราะห์ส่วนประกอบหลักAm Soc of Hum Genet75 (5), 850-61(หน้า 73, 73, 74)

Loh, P. , Lipson, M. , Patterson, N. , Moorjani, P. , Pickrell, J. , Reich, D. & Berger, B. (2013)การอนุมานประวัติศาสตร์การผสมของประชากรมนุษย์โดยใช้ความไม่สมดุลของการเชื่อมโยงพันธุศาสตร์ NAT (กด) .. (หน้า 76)

177 บรรณานุกรม

Lohmueller, K. , Albrechtsen, A. , Li, Y. , Kim, S.Y. , Korneliussen, T. , Vinck- enbosch, N. , Tian, ​​G. , Huerta-Sanchez, E. , Feder, A.F. , Grarup, N, N., Jr- Gensen, T. , Jiang, T. , Witte, D.R. , Sandbk, A. , Hellmann, I. , Lauritzen, T. , Hansen, T. , Pedersen, O. , Wang, J. & Nielsen,R. (2011)การคัดเลือกโดยธรรมชาติมีหลายแง่มุมของการเปลี่ยนแปลงทางพันธุกรรมที่ไซต์ที่เป็นกลางในจีโนมมนุษย์PLOS GENET 7 (10), E1002326(หน้า 8)

Magnus, N. (2000)ทฤษฎีรวมกันAm J Hum Genet52, 506-16(หน้า 11, 11, 11, 11, 22)

Manolio, A. , Francis, S. , Collins, Nancy, J. , Cox, David, B. , Goldstein, Lu-cia, A. , Hunter, D. , McCarthy, M. , Ramos, E. , Cardon,L. , Chakravarti, A. , Cho, J. , Guttmacher, A. , Kong, A. , Kruglyak, L. , Mardis, E. , I, C.R. , Slatkin, M. , Valle, D. , Whittemore, A., Boehnke, M. , Clark, A. , Eichler, E. , Gibson, G. , Haines, J. , Mackay, T. , McCarroll, S. & Visscher, P. (2004)ค้นหาความสามารถในการถ่ายทอดทางพันธุกรรมที่หายไปของโรคที่ซับซ้อนธรรมชาติ.461 (7265), 747-753(หน้า 22, 30, 30)เมือง

Marchini, J. & Howie, B. (2008)การเปรียบเทียบอัลกอริทึมสำหรับการใส่จีโนไทป์Am J Hum Genet83, 535-539(หน้า 33, 95, 96, 96, 106, 107, 119)

Martin, D. , Bass, M. & Kaplan, N. (2001) .Cape การแก้ไขสำหรับอคติที่อาจเกิดขึ้นในการทดสอบความไม่สมดุลของสายเลือดAm J of Hum Genet68 (4), จาก 1065-1067(หน้า 23, 24, 25, 25, 25, 26)McKeigue, P. (2005)โอกาสในการทำแผนที่ส่วนผสมของลักษณะที่ซับซ้อนAm J Hum Genet76 (1), 1-7(หน้า 8, 8, 8, 8, 9, 22, 22, 26, 26, 26, 26, 29, 29, 33)

Moller, M. & Hoal, E. (2010a)ปัจจุบันความท้าทายและแนวทางใหม่ในความอ่อนแอทางพันธุกรรมของมนุษย์ต่อวัณโรควัณโรค.90, 71-83(หน้า 94, 95, 95, 95)Moller, M. & Hoal, University E. (2010b)ทิศทางที่ผ่านมาปัจจุบันและอนาคตในความอ่อนแอทางพันธุกรรมของมนุษย์ต่อวัณโรคFEMS Immunol Med Microbiol58, 3-26(หน้า 94, 95, 95, 135)

Moller, M. , Nebel, A. , Valentonyte, R. , Helden Van, S.S. & Hoal, E. (2009)การสอบสวนยีนผู้สมัครโครโมโซม 17 ยีนที่มีความอ่อนไหวต่อวัณโรคในประชากรแอฟริกาใต้วัณโรค.89, 189-194(หน้า 94)

Montana, G. & Pritchard, J. (2004)การทดสอบทางสถิติสำหรับการทำแผนที่ส่วนผสมด้วยข้อมูลการควบคุมกรณีและข้อมูลเฉพาะกรณีAm J Hum Genet75 (5), 771-789(หน้า 12, 16, 16, 17, 17, 26, 29, 29, 30, 70)

178 บรรณานุกรม

Moorjani, P. , Patterson, N. , Hirschhorn, J. , Keinan, A. , Hao, L. , Atzmon, G. , Burns, E. , Ostrer, H. , Price, A. & Reich, D. (2554)ประวัติความเป็นมาของยีนแอฟริกัน fl ow เข้าสู่ยุโรปใต้เลแวนตินและชาวยิวPLOS GENET7 (4), E1001373(หน้า 125, 125)

Mountain, A. (2003)คนแรกของเคป: ดูประวัติของพวกเขาและผลกระทบของลัทธิล่าอาณานิคมต่อชนพื้นเมืองของเคปสำนักพิมพ์ David PhilipsISBN: 0-86486-623-2(หน้า 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 33, 60, 82, 163)

Mountain, A. (2004)มรดกที่ไม่ได้ร้อง: มุมมองเกี่ยวกับการเป็นทาสสำนักพิมพ์ David PhilipsISBN: 0-86486-622-4(หน้า 1, 2, 2, 2)

Nianjun, L. , Wu, B. & Zhao, H. (2006)การอนุมานของโครงสร้างประชากรโดยใช้แบบจำลองผสมภาควิชาระบาดวิทยาและสาธารณสุขและโรงเรียนแพทย์มหาวิทยาลัยเยลสหรัฐอเมริกาสหรัฐอเมริกา(หน้า 32)

Nurse, G. , Weiner, J. & Jenkins, T. (1985)ประชาชนในแอฟริกาตอนใต้และพวกเขาClarendon Press, ISBN: 0-19-857541-6(หน้า 1, 2, Town2)

Pasaniuc, B. , Sankararaman, S. , Kimmel, G. & Halperin, E. (2009)การอนุมานของบรรพบุรุษของสถานที่ในประชากรที่เกี่ยวข้องอย่างใกล้ชิดชีวสารสนเทศศาสตร์25, I213-I221(หน้า 11, 13, 13, 13, 32, 124, 126, 128, 130)เสื้อคลุม

Pasaniuc, B. , Zaitlen, N. , Lettre, จาก G. , Chen, G. , Tandon, A. , Kao, W.L. , Ruczinski, I. , Fornage, M. , Siscovick, D. , Zhu, X.Larkin, E. , Lange, L. , Cupples, A. , Yang, Q. , Akylbekova, E. , Musani, S. , นักดำน้ำ, J. , Mychaleckyj, J. , Li, M. , Papanicolaou, G. ,Millikan, R. , Ambrosone, C. , John, E. , Bern- Stein, L. , Zheng, W. , Hu, J. , Ziegler, R. , Nyante, S. , Bandera, E. , Ingles, S., กด, M. , Chanock, S. , Deming, S. , Rodriguez-Gil, J. , Palmer, C. , Buxbaum, S. , Ekunwe, L. , มหาวิทยาลัย Hirschhorn, J. , Henderson, B. ,Myers, S. , Haiman, C. , Re-ich, D. , Patterson, N. , Wilson, J. & Price, A. (2011)การทดสอบทางสถิติที่เพิ่มขึ้นสำหรับ GWAS ในประชากรที่ได้รับการผสม: การประเมินโดยใช้ชาวแอฟริกันอเมริกันจากการดูแลและกลุ่มมะเร็งเต้านมPLOS GENET.7 (4), E1001371(หน้า 3, 30, 96, 96, 96, 96, 97, 97, 125, 133)

Paschou, P. , Ziv, E. , Burchard, E. , Choudhry, S. , Rodriguez-Cintron, W. , Mahoney, M. & Drineas, P. (2007)SNP ที่มีความสัมพันธ์กับ PCA สำหรับการระบุโครงสร้างในประชากรมนุษย์ทั่วโลกPLOS GENET3 (9), E160(หน้า 70, 70, 71, 73)

179 บรรณานุกรม

Patterson, N. , Hattangadi, N. & Lane, B. (2004)วิธีการสำหรับการทำแผนที่ส่วนผสมที่มีความหนาแน่นสูงของยีนโรคAm J Hum Genet74 (5), 979-1000(หน้า 8, 10, 11, 11, 11, 12, 22, 26, 30, 30)

Patterson, N. , Price, A. & Reich, D. (2006)โครงสร้างประชากรและ eigenanlysisPLOS GENET2 (12), E190(หน้า 11, 14, 15, 32, 32, 37, 73, 124)

Patterson, N. , Petersen, D. , Van.der.ross, R. , Sudoyo, H. , Glashoff, R. , Marzuki, S. , Reich, D. & Hayes, V. (2009)โครงสร้างทางพันธุกรรมของประชากรที่ไม่เหมือนใคร: ผลกระทบสำหรับการวิจัยทางการแพทย์Huma Molecular Genet19, 411-419(หน้า 34, 60, 62)

Patterson, N. , Moorjani, P. & Yontao Luo, E.A.(2012)ส่วนผสมโบราณในประวัติศาสตร์ของมนุษย์พันธุกรรมสังคมแห่ง Am.10, 112.145037(หน้า 7, 7, 33)

Peltonen, L. , Palotie, A. & Lange, K. (2000)การใช้ประชากรที่แยกได้สำหรับการทำแผนที่ลักษณะที่ซับซ้อนNat Rev Genet1, 182-19(หน้า 71)Town Peng, G. , Luo, L. , Hoicheong, S. , Zhu, Y. , Pengfei, H. , Hong, S. , Jinying, Zhao, X. , Xiaodong, Z. , Reveille, D.J. , Jin, L, L, L., Amos, C. & Xiong, M. (2008)การวิเคราะห์ยีนและทางเดิน: คลื่นลูกที่สองของการศึกษาความสัมพันธ์ทั่วทั้งจีโนมEuropean J of Hum Genet18, 111-117(หน้า 30, 30, Cape30, 31, 31, 31, 134, 134, 134, 134, 135, 135, 136, 136)ของ Peng, G. , Guo, Z. , Kiniwa, Y. , Voo, K. , Peng, W. , Fu, T. , Wang, D. , Li, Y. , Wang, H. & Wang, R.(2011)ตัวรับสัญญาณค่าผ่านทาง 8 รายการการกลับรายการของ CD4+ การควบคุม T เซลล์ Tศาสตร์.309 (5739), 1380-4(หน้า 112)

Pickrell, K. , Patterson, N. , Barbieri, C. , Berthold, F. , Gerlach, L. , Lipson, M. , Loh, L.P.R. , Guldemann, T. , Kure, B. , Mpoloka, W. , Nakagawa, H. , Naumann, C. , Mountain, University J. , Bustamante, C. , Berger, B. , Henn, B. , Stonek- ing, M. , Reich, D. & Pakendorf, B. (2012)ยุคก่อนประวัติศาสตร์ทางพันธุกรรมของแอฟริกาตอนใต้การสื่อสารธรรมชาติ 3 (1143) ดอย: 10.1038/ncomms2140(หน้า 6, 34, 34, 63, 164)

ราคา, A. , Patterson, N. , Plenge, R. , Weinblatt, M. , Shadick, N. & Reich, D. (2006)การวิเคราะห์ส่วนประกอบหลักแก้ไขสำหรับการศึกษาชั้นในการศึกษาความสัมพันธ์ทั่วทั้งจีโนมธรรมชาติของธรรมชาติ38, 904-909(หน้า 12, 37)

ราคา, A. , Patterson, N. & Fuli, Y. (2007)แผนที่ผสม genomewide สำหรับประชากรลาตินAm J Hum Genet80 (6), 1024-1036(หน้า 17)

180 บรรณานุกรม

ราคา, A. , Helgason, A. , Palsson, S. , Stefansson, H. , Clair, D. , Andreassen, O. , Reich, D. , Kong, A. & Stefansson, K. (2009a)ผลกระทบของเวลาที่แตกต่างกันต่อธรรมชาติของโครงสร้างประชากร: ตัวอย่างจากไอซ์แลนด์PLOS GENET5 (6), E1000505(หน้า 40, 86, 87, 87, 87)

ราคา, A. , Tandon, A. , Patterson, N. , Barnes, K. , Rafaels, N. , Ruczinski, I. , Beaty, T. , Mathias, R. , Reich, D. & Myers, S. (2009b)การตรวจจับที่ละเอียดอ่อนของกลุ่มโครโมโซมของบรรพบุรุษที่แตกต่างกันในประชากรที่ได้รับการผสมPLOS GENET5, E1000519(หน้า 11, 12, 12, 13, 32, 44, 124, 124, 125, 125, 125, 127, 130)

ราคา, A. , Zaitlen, N. , Reich, D. & Patterson, N. (2010)แนวทางใหม่ในการสร้างชั้นเรียนในการศึกษาความสัมพันธ์ทั่วทั้งจีโนมรีวิวธรรมชาติ11, 459-463(หน้า 27, 98)

Pritchard, S. , Stephens, M. & Donnelly, M. (2002)การอนุมานของโครงสร้างประชากรโดยใช้ข้อมูลจีโนไทป์หลายโลคัสAm J Hum Genet155, 945-959(หน้า 8, 15, 16, 16, 17, 17, 17, 17, 29)Town Pugach, I. , Matveyev, R. , Wollstein, A. , Kayser, M. & Stoneking, M. (2011)ออกเดทอายุของการผสมผ่านการวิเคราะห์การแปลงเวฟเล็ตของข้อมูลจีโนมกว้างชีววิทยาจีโนม12, R19(หน้า 125, 125)Cape Purcell, S. , Neale, B. , Todd-Brown, จาก K. , Thomas, L. , Ferreira, M. , Bender, D. , Maller, J. , Sklar, P. , de Bakker, Daly, M. & Sham, P. (2007)PLINK: ชุดเครื่องมือสำหรับการเชื่อมโยงจีโนมทั้งหมดและการวิเคราะห์การเชื่อมโยงตามประชากรAm J Hum Genet81, 559-575(หน้า 36, 37, 76, 76, 98)

Qin, H. , Morris, N. , Kang, S. , Li, M. , Tayo, B. , Lyon, H. , Hirschhorn, J. , Cooper, R. & Zhu, X. (2010)การซักถามโครงสร้างประชากรในท้องถิ่นสำหรับการทำแผนที่ในการศึกษาความสัมพันธ์ของจีโนมทั่วทั้งจีโนมชีวสารสนเทศศาสตร์26, 2961-2968(หน้า 12, 29, 96)Quintana-Murci, L. , Harmant, C. , Quach, H. , Balanovsky, O. , Bormans, Z. , Van.helden, P. , Hoal, E. & Behar, M.D. (2010)มารดาที่แข็งแกร่ง Khoesan contribu-tion กับประชากรสีแอฟริกาใต้: กรณีของส่วนผสมที่มีอคติทางเพศAm Soc of Hum Genet86, 611-620(หน้า 34, 34, 56, 63, 164)

Rauscher, F. (1993)ผลิตภัณฑ์ยีนเนื้องอก WT1 Wilms: ปัจจัยการควบคุมการพัฒนาในไตที่ทำหน้าที่เป็นตัวยับยั้งเนื้องอกFASEB J. 896-903, PMID 8393820 (หน้า 112)

181 บรรณานุกรม

Redden, D. , Divers, J. , Vaughan, L. , Tiwari, H. , Beasley, T. , Fernndez, J. , Kimberly, R. , Feng, Padilla, M. , Liu, N. , Miller, M. & Allison, D. (2006)การทำแผนที่ส่วนผสมในระดับภูมิภาคและการทดสอบความสัมพันธ์ที่มีโครงสร้าง: ความคิดร่วมทางแนวคิดและแบบจำลองเชิงเส้นทั่วไปที่ขยายได้PLOS GENET2 (8), E137(หน้า 28, 29, 96)

Reich, D. , Patterson, N. , Jager, P. & McDonald, G. (2005)การสแกนส่วนผสมของจีโนมทั้งหมดสแกน locus ผู้สมัครสำหรับความไวต่อเส้นโลหิตตีบหลายครั้งธรรมชาติของธรรมชาติ37, 1113-1118(หน้า 8, 9, 9)

Reich, D. , Thangaraj, K. , Patterson, N. , Price, A. & Singh, L. (2009)Recon- การสร้างประวัติศาสตร์ประชากรอินเดียธรรมชาติ.461, 489-494(หน้า 6, 6, 7)

Risch, N. (2000)ค้นหาปัจจัยทางพันธุกรรมในสหัสวรรษใหม่ธรรมชาติ.405, 847-56(หน้า 95)

Rodriguez, J. , Bercovici, S. , Elmore, M. & Batzoglou, S. (2012)บรรพบุรุษที่อนุมานได้ในการผสมที่ซับซ้อนผ่านโมเดลการเชื่อมโยงห่วงโซ่มาร์คอฟที่มีความยาวตัวแปรJ. Comput Biol20 (3): 199-211(หน้า 13, 119, 124, 124)เมือง

Rosenberg, N. (2004)Distruct: โปรแกรมสำหรับการแสดงผลกราฟิกของโครงสร้างประชากรหมายเหตุนิเวศวิทยาโมเลกุล4, 137-138(หน้า 45CAPE)Rosenberg, N. (2005)อัลกอริทึมสำหรับการเลือกแผงเครื่องหมายข้อมูลสำหรับการลงนามประชากรชีววิทยาการคำนวณ12 (9), จาก 1183-1201(หน้า 71)

Rosenberg, N. & Nordborg, M. (2006)แบบจำลองทางพันธุกรรมของประชากรทั่วไปสำหรับการผลิตโดยโครงสร้างประชากรของความสัมพันธ์ของจีโนไทป์- ฟีโนไทป์ที่มีความสัมพันธ์ในกลุ่มประชากรที่ไม่ต่อเนื่องหรือกระจายเชิงพื้นที่พันธุกรรมสังคมแห่ง Am.173, 1665-1678(หน้า 12, 27, 27, 96)Rosenberg, N. & University Pritchard, J. (2008)โครงสร้างพันธุศาสตร์ของประชากรมนุษย์ศาสตร์.298, 2381-2385(หน้า 6, 8, 8, 12, 27, 30, 32)

Rosenberg, N. , Li, L. , Ward, R. & Pritchard, J. (2003)ข้อมูลของเครื่องหมายทางพันธุกรรมสำหรับการอนุมานของบรรพบุรุษAm J Hum Genet73, 1402-1422(หน้า 6, 71)

Rosenberg, N. , Huang, L. , Jewett, E. , Szpiech, Z. , Jankovic, I. & Boehnke, M. (2010)การศึกษาสมาคม Genomewide ในประชากรที่หลากหลายรีวิวธรรมชาติ11, 356-366(หน้า 27, 30, 95, 95, 96, 96)

182 บรรณานุกรม

Ross, V. (1993)100 คำถามเกี่ยวกับชาวแอฟริกาใต้สีแผนกการพิมพ์ UWC, เคปทาวน์(หน้า 1, 34)

Sanghera, D. , ได้รับ, L. , Ortega, L. , Wander, G. , Mehra, N. , Aston, C. , Mul- vihill, J. & Ralhan, S. (2009)การทดสอบความสัมพันธ์ของโรคเบาหวานที่ได้มาจากการวิเคราะห์อภิมานใหม่ยีนที่มีความเสี่ยงต่อโรคเบาหวานชนิดที่สองและลักษณะการเผาผลาญที่เกี่ยวข้องในชาวซิกข์อินเดียอินเดียJ of Hum Genet54, 162-168(หน้า 105)

Sankararaman, S. , Kimmel, G. , Halperin, E. & Jordan, M. (2008)ในการอนุมานของบรรพบุรุษในประชากรที่ได้รับการผสมจีโนม res18 (4), 668-675(หน้า 11, 12, 13, 13, 30, 32, 130)

Santafe, G. , Lozano, J. & Larranaga, P. (2006)แบบจำลองเบย์เฉลี่ยของเบย์ไร้เดียงสาสำหรับการจัดกลุ่มEEE Trans Syst Man Cybern B Cybern36 (5), 1149-6(หน้า 30)

Schaid, A. (1998)ความไม่สมดุลของการส่งสัญญาณการควบคุมครอบครัวและความคาดหวังที่ดีAm J of Hum Genet63, 935-941(หน้า 23, 25, 25)Town Scheuner, M. , Yoon, P. & Khoury, M. (2004)การมีส่วนร่วมของความผิดปกติของ Mendelian ต่อโรคเรื้อรังที่พบบ่อย;โอกาสในการรับรู้การแทรกแซงและการป้องกันAm J. Med Genet125C (1), 50-65(หน้า 22, 30)Cape Schlebusch, C. , Skoglund, P. , Sjdin, P. , Gattepaille, L. , Hernandez, D. , Jay, F. , Li, S. , Jongh, M. , Singleton, จาก A. , Blum, M., Soodyall, H. & Jakobsson, M. (2012)การเปลี่ยนแปลงจีโนมในเจ็ดกลุ่ม Khoe-san เผยให้เห็นการปรับตัวและประวัติศาสตร์แอฟริกาที่ซับซ้อนศาสตร์.338, 374-379(หน้า 34, 34, 63, 164)

Schramm, C. , Phillips, H. , Operario, C. , Lee & Weber, J. (2002)เครื่องหมายชาติพันธุ์-ตัวบ่งชี้สำหรับใช้ในการทำแผนที่โดยการเชื่อมโยงส่วนผสมที่ไม่สมดุลAm J of Hum Genet70 (3), 737-50(หน้า 8, University25)Schuster, S. , Miller, W. , Ratan, A. , Tomsho, L. , Giardine, B. , Kasson, L. , Harris, R. , Petersen, D. , Zhao, F. , Qi, J. , J. ,Alkan, C. , Kidd, J. , Sun, Y. , Drautz, D. , Bouffard, P. , Muzny, D. , Reid, J. , Nazareth, L. , Wang, Q. , Burhans, R. ,Riemer, C. , Wittekindt, N. , Moorjani, P. , Tindall, E. , Danko, C. , Teo, W. , Buboltz, A. , Zhang, Z. , Ma, Q. , Oosthuysen, A. , A. , A. , A. , A. , A. , A. , A. , A.Steenkamp, ​​A. , Oostuisen, H. , Venter, P. , Gajewski, J. , Zhang, Y. , Pugh, B. , Makova, K. , Nekrutenko, A. , Mardis, E. , Patterson, N.Pringle, T. , Chiaromonte, F. , Mullikin, J. , Eichler, E. , Hardison, R. , Gibbs, R. , Harkins, T. & Hayes,

183 บรรณานุกรม

V. (2010)จีโนม Khoisan และ Bantu สมบูรณ์จากแอฟริกาตอนใต้ธรรมชาติ, 463, 943-947(หน้า 63, 164)

Seldin, M. , Pasaniuc, B. & Price, A. (2011)วิธีการใหม่ในการทำแผนที่โรคในประชากรที่ได้รับการผสมNat Rev Genet36, S21-S27(หน้า 8, 33, 96, 96, 97, 124, 126)

Setakis, E. , Stirnadel, H. & Balding, D. (2006)การป้องกันการถดถอยโลจิสติกกับโครงสร้างประชากรในการศึกษาความสัมพันธ์ทางพันธุกรรมการวิจัยจีโนม(หน้า 96)

Shiheng, T. , Rongmei, Z. , Jianhua, C. , Xiaoming, L. , Liping, D. , Qingyuan, Q. & Zewei, L. (2001)แบบจำลองพันธุศาสตร์ประชากรของความไม่สมดุลของการเชื่อมโยงในประชากรที่ได้รับการผสมBullin วิทยาศาสตร์จีน46, 193-197(หน้า 9, 72, 75)

เล็ก, P. (1996)การวิจัยวัณโรคสร้างความสมดุลให้กับพอร์ตโฟลิโอJama.276, 1512-1513(หน้า 85)

Smith, D. (2004)การมีส่วนร่วมของความผิดปกติของ Mendelian ต่อโรคเรื้อรังที่พบบ่อย;โอกาสในการรับรู้การแทรกแซงและการป้องกันAm J of Med Genet.town 15, 125c (1): 50-65(หน้า 22, 23)

Smith, D. (2007)ใช้ประโยชน์จากการสุ่มของ Mendelian เพื่อประเมินผลการรักษาJ R Soc Med100, 432-435(หน้า 21)Cape Smith, D. & Ebrahim, E. (2004)การสุ่มตัวอย่าง Mendelianof: โอกาส, ศักยภาพและข้อ จำกัดนานาชาติเจของระบาดวิทยา33, 30-42(หน้า 22)

Smith, S. & O’Brien, B. (2005)การทำแผนที่โดยการเชื่อมโยงการเชื่อมโยงความไม่สมดุล: ความก้าวหน้าข้อ จำกัด และแนวทางNature Rev. Genet6, 623-632(หน้า 8, 70)

Sohn, K.A.& Xing, E. (2007)สเปกตรัม: การอนุมานแบบเบย์ร่วมของโครงสร้างประชากรและเหตุการณ์การรวมตัวกันใหม่ชีวสารสนเทศศาสตร์23, I479-I489(หน้า 12, 17)Sorensen, T. , Nielsen, G. , Andersen, P. & Teasdale, T. (1988)พันธุกรรมและสภาพแวดล้อมในการเสียชีวิตก่อนวัยอันควรในวัยผู้ใหญ่New Engl J. Med318, 727-732(หน้า 84, 84)

Spielman, R. , McGinnis, R. & Ewens, W. (1993)การทดสอบการส่งสัญญาณสำหรับการเชื่อมโยง disequi-librium: ภูมิภาคของยีนอินซูลินและโรคเบาหวานขึ้นอยู่กับอินซูลิน (IDDM)Am J Hum Genet52, 506-16(หน้า 9, 22, 23, 26)

184 บรรณานุกรม

Staiger, H. , Machicao, F. , Kantartzis, K. , Schafer, S. , Kirchhoff, K. , Guthoff, M. , Silbernagel, G. , Stefan, N. , Fritsche, A. & Hring, H. (2551)นวนิยายเมตา-การวิเคราะห์โรคเบาหวานที่ได้มาจากโรคเบาหวานที่ได้รับความเสี่ยงไม่ได้ระบุฟีโนไทป์ prediabeticplos หนึ่ง3, E3019(หน้า 105)

Stein, C. (2011)การระบาดทางพันธุกรรมของความไวต่อวัณโรค: ผลกระทบของการออกแบบการศึกษาPLOS PARTOG7 (1), E1001189(หน้า 35, 36, 95)

Stopple, M. (1996)ภาพรวมโรคทางพันธุกรรม(หน้า 21, 21, 21)

Strachan, P. & Read, A. (1999)พันธุศาสตร์โมเลกุลของมนุษย์(หน้า 23)

Sum, S. , Eleanor, Y. , Peng, B. , Yu, X. , Chen, J. , Byrne, J. , Lindeman, G. & Visvader, J. (2002)LIM Domain Protein LMO4 ทำปฏิกิริยากับ Cofactor CTIP และ BRCA1 ของเนื้องอกและยับยั้งกิจกรรม BRCA1J.Biol.Chem277 (10), 7849-56, PMID 11751867 (หน้า 110, 110, 110)Sundquist, A. , Fratkin, E. , Do, B.C.& Batzoglou, Town S. (2008)ความแตกต่างทางพันธุกรรมในการระบุแหล่งกำเนิดของบรรพบุรุษโดยใช้ hapaaจีโนม res18, 676-682(หน้า 12)

Tang, H. , Coram, M. , Wang, P. , Zhu, X. & Risch, N. (2006)การสร้างบล็อกบรรพบุรุษทางพันธุกรรมในบุคคลที่ได้รับการผสมAm J Humcape Genet79, 1-12(หน้า 8, 11, 12)Terry, S. (2003)การวิเคราะห์ทางสถิติของการแสดงออกของข้อมูล microarrayพันธุกรรมวิจัย.77, 123-128(หน้า 17)

Thye, T. , Vannberg, F. , Wong, S. , Owusu-Dabo, E. , Osei, I. , Gyapong, J. , Sirugo, G. , Sisay-Joof, F. , Enimil, A. , Chinbuah, M. , Floyd, S. , Warndorff, D. , Sichali, L. , Malema, S. , Crampin, A. , Ngwira, B. , Teo, Y. , Small, K. , Rockett, K. , Kwiatkowski, D. , Fine, P. , Hill, P. , Newport, M. , Lienhardt, C. , Adegbola, University R. , Corrah, T. , Ziegler, A. , WTCCC, W. , Morris, A. , A. , A. ,Meyer, C. , Horstmann, R. & Hill, A. (2010)การวิเคราะห์ความสัมพันธ์ของจีโนมทั่วทั้งจีโนมระบุความไวต่อโลคัสสำหรับวัณโรคในโครโมโซม 18Q11.2นัทพันธุกรรม42, 739-741(หน้า 95, 95, 96, 96, 101, 106, 112, 112, 112, 116, 116, 116, 116, 118, 118, 118, 166)

Thye, T., Owusu-Dabo, E., Vannberg, F., Crevel, R., Curtis, J., Sahirat-madja, E., Balabanova, Y., Ehmen, C., Muntau, B., Ruge , G., Sievertsen, J., Gyapong, J., Nikolayevskyy, V., Hill, P., Sirugo, G., Drobniewski, F., de.Vosse, E., Newport, M., Alisjahbana, B. , เนเจนเซฟ, เอส., ออตเทนฮอฟ, ต.,

185 บรรณานุกรม

Hill, A. , Horstmann, R. & Meyer, C. (2012)ตัวแปรทั่วไปที่ 11p13 มีความไวต่อความไวต่อวัณโรคนัทพันธุกรรม44, 257-259(หน้า 95, 95, 96, 101, 106, 109, 109, 110, 116, 116, 116, 116, 118, 118, 118, 119, 165, 166, 166, 167)

Tishkoff, S. & Kidd, K. (2004)ผลกระทบของชีวภูมิศาสตร์ของประชากรมนุษย์สำหรับ 'เผ่าพันธุ์' และการแพทย์Nat Rev Genet36, S21-S27(หน้า 6)

Tishkoff, S. , Reed, F. , Friendlaender, F. , Ehret, C. & Ranciaro, A. (2009)โครงสร้างทางพันธุกรรมและประวัติศาสตร์ของชาวแอฟริกันและแอฟริกันอเมริกันวิทยาศาสตร์324, 1035-1044(หน้า 33, 34, 34, 34, 34, 56)

Tiwari, H. , Barnholtz-Sloan, J. , Wineinger, N. , Padilla, M. , Vaughan, L. & Allison, D. (2008)การทบทวนและประเมินผลวิธีการแก้ไขสำหรับประชากรชั้นโดยมุ่งเน้นไปที่หลักการทางสถิติพื้นฐานHum Hered66, 67-86(หน้า 27)

Unoki, A. & Et.al, H.A.(2008)SNPs ใน KCNQ1 มีความสัมพันธ์กับความอ่อนแอต่อโรคเบาหวานประเภท 2 ในประชากรเอเชียตะวันออกและยุโรปNature Genet.town 40, 1098-1102(หน้า 95)Vega, F. , Isaac, H. & Scafe, C. (2006)เครื่องมือสำหรับการเลือก SNPs สำหรับการศึกษาความสัมพันธ์ตามรูปแบบความไม่สมดุลของการเชื่อมโยงที่สังเกตได้PACI fi c Symposium เรื่อง Biocomputing(หน้า 71)Cape Verhoeven, K. , Macel, M. , Wolfe, M.L.& Biere, A. (2010)ส่วนผสมของประชากรการรุกรานทางชีวภาพและความสมดุลระหว่างการปรับตัวในท้องถิ่นและภาวะซึมเศร้าในการผสมพันธุ์Proc.R. Soc.B. 278, 2-8(หน้า 8)

Warren, E. & Grant, G. (2005)วิธีการทางสถิติในชีวสารสนเทศศาสตร์Springer, New York, 10013, ISBN: 0-387-9529-2(หน้า 17)

Weir, B. (2008)การเชื่อมโยงความไม่สมดุลและการแมปการเชื่อมโยงAnn Rev of Genomics และ Hum Genet9, 129-142Ovuniversity(หน้า 6, 9, 9, 9, 22)Weir, B. & co*ckerham, C. (1984)การประมาณค่า F-statistics สำหรับการวิเคราะห์โครงสร้างประชากรวิวัฒนาการ.38, 1358-1370(หน้า 6)

Who (2000)องค์การอนามัยโลก.แถลงการณ์ของใคร(หน้า 84, 84)

Who (2004)การเข้าถึงคนจน: ความท้าทายสำหรับโปรแกรมวัณโรคในภูมิภาค Paci ตะวันตกกรุงมะนิลา: WHO Regional O ffi CE สำหรับ Paci ตะวันตก(หน้า 90)

Who (2005)30 การวิเคราะห์ตามเพศของข้อมูลที่เกี่ยวข้องกับวัณโรคและข้อมูลอื่น ๆใครเป็นตัวแทนในเวียดนาม(หน้า 90)

186 บรรณานุกรม

Winkler, C. , Nelson, G. & Smith, M. (2010)การทำแผนที่ส่วนผสมมาจากอายุAnnu.rev.Genomics Humพันธุกรรม11, 65-89(หน้า 33, 77, 77, 78)

Wray, N. , Pergadia, M. , Blackwood, D. , Penninx, B. , Gordon, B. , Nyholt, D. , Ripke, S. , MacIntyre, D. , McGhee, K. , MacLean, A. ,Smitjh., J. , Hot- Tenga, J. , Willemsen, G. , Middeldorp, C. , Geus, D. , Lewis, C. , McGuffin, P. , Hickie, I. , Van.den, E. ,Liu, J. , MacGregor, S. , McEvoy, B. , Byrne, E. , Medland, S. , Statham, D. , Henders, A. , Heath, A. , Montgomery, G.., Boomsma, D. , Madden, P. & Sullivan, P. (2010)การศึกษาสมาคมจีโนมทั่วทั้งความผิดปกติของโรคซึมเศร้า: ผลลัพธ์ใหม่การวิเคราะห์อภิมานและบทเรียนที่ได้เรียนรู้จิตเวชโมเลกุล17, 36-48(หน้า 31, 135)

Wu, J. , Vallenius, T. , Ovaska, K. , Westermarck, J. , Mkel, T. & Hautaniemi, F. (2009)แพลตฟอร์มการวิเคราะห์เครือข่ายแบบบูรณาการสำหรับการโต้ตอบโปรตีนโปรตีนนัทปรุงยา6, 75-77(หน้า 31, 111, 112, 136)Xing, E. , Jordan, M. & Sharan, R. (2007)Bayesian Haplotypetown การอนุมานผ่านกระบวนการ DirichletJ. ของชีววิทยาการคำนวณ14, UCB/CSD 3/1275(หน้า 17)

Yasuda, A. & Et.al, H.A.(2008)ตัวแปรใน KCNQ1 เกี่ยวข้องกับความไวต่อโรคเบาหวานประเภท 2ธรรมชาติของธรรมชาติ40, 1092-1097CAPE(หน้า 95)Zhan, S. , Marchini, J. & Donnelly, จาก P. (2011)HAPGEN2: การจำลอง SNPs หลายโรคชีวสารสนเทศศาสตร์7 (16), 2304-2305(หน้า 143)

Zhang, C. , Chen, K. , Seldin, M. & Hongzhe, L. (2004)วิธีการสร้างแบบจำลองมาร์คอฟที่ซ่อนอยู่สำหรับการทำแผนที่ส่วนผสมตามข้อมูลการควบคุมเคสแฮฟโลไทป์พันธุกรรมEpidemiol27 (3), 225-39(หน้า 18, 26)

จาง, X. , Huang, W. , Yang, S. , Sun, L. , Zhang, F. , Zhu, Q. , Zhang, F. , Zhang, C. , Du, W. , PU, ​​มหาวิทยาลัย X., Li, H. , Xiao, F. , Wang, Z. , Cui, Y. , Hao, F. , Zheng, J. , Yang, X. , Cheng, H. , เขา, C. , Liu, X., Xu, L. , Zheng, H. , Zhang, S. , Zhang, J. , Wang, H. , Cheng, Y. , Ji, B. , Fang, Q. , Li, Y. , Zhou, F., Han, J. , Quan, C. , Chen, B. , Liu, J. , Lin, D. , Fan, L. , Zhang, A. , Liu, S. , Yang, C. , Wang, P., Zhou, W. , Lin, G. , Wu, W. , Fan, X. , Gao, M. , Yang, B. , Lu, W. , Zhang, Z. , Zhu, K. , Shen, S., Li, M. , Zhang, X. , Cao, T. , Ren, W. , Zhang, X. , เขา, J. , Tang, X. , Lu, S. , Yang, J. , Zhang, L., Wang, D. , Yuan, F. , Yin, X. , Huang, H. , Wang, H. , Lin, X. & Liu, J. (2009)โรคสะเก็ดเงินการศึกษาความสัมพันธ์ของโรคสะเก็ดเงินระบุตัวแปรความไวต่อความอ่อนแอภายในคลัสเตอร์ยีน LCE ที่ 1q21ธรรมชาติของธรรมชาติ41, 205-210(หน้า 95)

187 บรรณานุกรม

Zhou, X. & Stephens, M. (2012)การวิเคราะห์แบบผสมแบบผสมจีโนมทั่วทั้งจีโนมสำหรับการศึกษาความสัมพันธ์Nat Genet44 (7), 821-4(หน้า 28, 28, 28)

Zhu, X. , Zhang, S. , Tang, H. & Cooper, R. (2006)วิธีการใช้ความน่าจะเป็นแบบคลาสสิกสำหรับการทำแผนที่ส่วนผสมโดยใช้อัลกอริทึม EMHum Genet120, 431-445(หน้า 17)

Zhu, X. , Tang, H. & Risch, N. (2008)การทำแผนที่ส่วนผสมและบทบาทของโครงสร้างประชากรสำหรับการแปลยีนโรคAdv Genet60, 547-69(หน้า 12, 23, 23, 29, 30, 96)

เมือง

แหลม

มหาวิทยาลัย

188

มหาวิทยาลัยเคปทาวน์แอฟริกาใต้ (2024)
Top Articles
Latest Posts
Article information

Author: Horacio Brakus JD

Last Updated:

Views: 5780

Rating: 4 / 5 (71 voted)

Reviews: 94% of readers found this page helpful

Author information

Name: Horacio Brakus JD

Birthday: 1999-08-21

Address: Apt. 524 43384 Minnie Prairie, South Edda, MA 62804

Phone: +5931039998219

Job: Sales Strategist

Hobby: Sculling, Kitesurfing, Orienteering, Painting, Computer programming, Creative writing, Scuba diving

Introduction: My name is Horacio Brakus JD, I am a lively, splendid, jolly, vivacious, vast, cheerful, agreeable person who loves writing and wants to share my knowledge and understanding with you.