Glossar

Die Bisulfit-Sequenzierung ist eine biochemische Methode zur Bestimmung der DNA-Methylierung in epigenetischen Studien. Die DNA-Methylierung führt in der Epigenetik zur Inaktivierung von Genen. Bei Eukrayoten betrifft die Methylierung hauptsächlich Cytosine an der C5-Position in CpG-Dinukleotiden. Durch Behandlung der DNA mit Bisulfit wird unmethyliertes Cytosin in Uracil umgewandelt, während 5-Methylcytosin nicht mit Bisulfit reagiert. Uracil wird in der PCR und bei der DNA-Sequenzierung wie Thymin erkannt, und der komplementäre Strang wird mit Adenin aufgefüllt. Unmethylierte Stellen weisen also einen C-zu-U-Übergang auf und können dadurch in der Sequenzierung identifiziert werden.

In manchen Experimenten kann eine ganze Flow Cell überdimensioniert sein. Daher bieten wir für Standardläufe die Möglichkeit, Ihre Ready-to-Load-Pools mit anderen Proben in einem Lauf zu kombinieren. Eine frühzeitige Bekanntgabe der verwendeten Indizes ermöglicht es uns, Ihre Proben schnell in geeignete Läufe einzuplanen. Wir starten routinemäßig NovaSeq S1-Läufe mit 200 Zyklen (duale Indizes, 8 bp), aber mit ausreichender Vorankündigung können wir auch die NovaSeq S1, S2 und S4 Flow Cell mit entweder 2x100 oder 2x150 Zyklen als kombinierte Läufe (duale Indizes 8 oder 10 bp) anbieten. Die Sequenzierungseinstellungen für die meisten Single Cell-Libraries weichen von diesen Spezifikationen ab, können aber dennoch angepasst werden, solange der erforderliche Output 20% der Flow Cell nicht überschreitet. 

Die Coverage (Abdeckung) bei der Sequenzierung (Next Generation Sequencing, NGS) beschreibt die durchschnittliche Anzahl der Reads, die einer bekannten Referenzbase zugeordnet werden und diese damit "abdecken". Die Sequenzierabdeckung entscheidet oft darüber, ob eine Variante mit einem gewissen Grad an Sicherheit erkannt werden kann. Die Coverage ist daher abhängig von der jeweiligen Anwendung.

Coverage-Empfehlungen:

WGS

Während in der Humangenetik eine 30-fache Abdeckung (Tiefe) oft ausreicht, ist in der Tumorbiologie der Nachweis von somatischen Mutationen und damit auch von kleinen Klonen von großer Bedeutung. Daher wird die Sequenzierung des Tumormaterials in der Regel mit einer 60-90 fachen Abdeckung durchgeführt, während die Sequenzierung der Normalkontrollen mit einer 30 fachen Abdeckung erfolgt.

WES

In der Regel wird beim WES eine Coverage (Tiefe) von >100x angestrebt, da der Nachweis von somatischen Mutationen und damit auch von kleinen Klonen in der Tumorbiologie von großer Bedeutung ist.

Targeted/Panel Seq

Um auch kleine Tumorklone zu erkennen, wird bei der Panel Sequenzierung eine hohe Abdeckung (Tiefe) angestrebt. Die Abdeckung übersteigt in der Regel das 1.500 fache, mit einer Mindestabdeckung von 400 fach, um eine Nachweisgrenze von 3% zu erreichen.

RNA Seq

Um eine ausreichende Genauigkeit bei der Transkriptomanalyse zu erreichen, werden 50 Millionen Reads pro Probe (sequenzierte Fragmente) für die Gesamt-RNA-Sequenzierung und 30-35 Millionen Reads für das RNA-Exom angestrebt.

Beschreibung

Dieses Glossar wird Ihnen helfen, den Inhalt unserer Website vollständig zu verstehen, auch wenn Sie selbst kein Experte auf dem Gebiet der Sequenzierung sind.

Sie werden feststellen, dass überall auf dieser Website Begriffe unterstrichen sind, die Sie anklicken können, um sofort eine ausführliche Erklärung in diesem Glossar zu erhalten.

Bei jeder NGS-Library Vorbereitung werden jeder Probe eindeutige Barcode-Sequenzen (=Indizes) hinzugefügt, so dass mehrere Libraries gepoolt und gemeinsam sequenziert werden können. Nach der Sequenzierung wird diese Information verwendet, um die sequenzierten Reads eindeutig den einzelnen Proben zuzuordnen.

Bei Instrumenten, die eine "patterned" Flow Cell verwenden, wie z. B. der NovaSeq, ist die Wahrscheinlichkeit einer falschen Zuordnung von Libraryies vom erwarteten Index zu einem abweichenden Index (=Index-Hopping) leicht erhöht, und es wird empfohlen, eindeutige duale Indizes zu verwenden, um "gehoppte" Reads von jeder nachgeschalteten Analyse auszuschließen. Um die durch PCR-basierte Libraries verursachte Amplifikationsverzerrung zu beseitigen, können während der Library Vorbereitung eindeutige molekulare Identifikatoren (UMI) hinzugefügt werden, um das ursprüngliche DNA-Molekül zu identifizieren und spätere PCR-Artefakte zu beseitigen (=Fehlerkorrektur). Die Verwendung von UMIs wird in erster Linie für den Nachweis von Varianten mit einer Allelfrequenz <1% empfohlen.

Die Molekulargenetik vereint eine Vielzahl unterschiedlicher Methoden, bei denen entweder genomische DNA oder zelluläre RNA (revers transkribiert in cDNA) als Vorlage verwendet wird. Das Spektrum der Analysen reicht von der Isolierung weißer Blutzellen und der Extraktion von Nukleinsäuren als Probenvorbereitung bis hin zu PCR, quantitativer PCR, digitaler PCR, Next Generation Sequencing (NGS), Fragmentlängenanalyse, Klonalitätsnachweis und Chimärismus. Jede dieser Methoden umfasst eine Vielzahl spezifischer Assays. Mit Hilfe der Paneldiagnostik kann ein breites Portfolio von Genmutationen parallel mit einem einzigen Ansatz untersucht werden, während hochempfindliche Methoden wie die quantitative PCR Nachweisgrenzen von 10-5 erreichen.

In der Regel wird bei Genomsequenzierungen ein "Tumor-Normal-Abgleich" durchgeführt. In der Hämatologie stehen wir hier vor einer großen Herausforderung, denn das häufig verwendete periphere Blut von Patienten mit hämatologischen Neoplasien enthält bereits den "Tumor", nämlich die Leukämiezellen und kommt daher als leicht verfügbare Normalkontrolle nicht in Frage. Aus diesem Grund werden in der Hämatologie in der Regel Mundschleimhaut oder Fingernägel verwendet. Es kann jedoch schwierig sein aus diesen Materialien ausreichend DNA für die Sequenzierung zu isolieren. Alternativ können sortierte T-Zellen des Patienten eine Option sein. Wenn kein normales Material zur Verfügung steht, müssen wir andere Lösungen finden. Wir verwenden daher einen "tumor-unmatched normal"-Workflow, um Artefakte und einen Teil der Polymorphismen zu eliminieren. Dabei werden Sequenzen von gesunden Kontrollpersonen verwendet.

Humanes myeloisches Panel (MLL)
ASXL1, APC, ASXL2, ATM, ATRX, BCOR, BCORL1, BRAF, BRCC3, CALR, CBL, CDH23, CDKN2A, CEBPA, CREBBP, CSF3R, CSNK1A1, CTCF, CUX1, DDX41, DDX54, DHX29, DNMT3A, EP300, ETNK1, ETV6, EZH2, FANCL, FBXW7, FLT3, GATA1, GATA2, GNAS, GNB1, IDH1, IDH2, JAK2, KDM5A, KDM6A, KIT, KMT2D, KRAS, MPL, MYC, NF1, NOTCH1, NPM1, NRAS, PHF6, PIGA, PPM1D, PRPF8, PTPN11, RAD21, RB1, RUNX1, SETBP1, SF1, SF3A1, SF3B1, SH2B3, SMC1A, SMC3, SRSF2, STAG2, SUZ12, TET2, TP53, U2AF1, U2AF2, WT1, ZBTB7A, ZRSR2

Humanes lymphoides Panel (MLL)
ARID1A, ATM, BCL2, BIRC3, BRAF, BTK, CARD11, CCND1, CD79A, CD79B, CHEK2, CREBBP, CXCR4, DDX3X, DIS3, DNMT3A, EP300, EZH2, FAM46C, FAS, FAT4, FBXW10, FBXW7, FOXO1, GPR98, ID3, IKBKB, IL2RG, JAK1, JAK3, KLF2, KLHL6, KMT2D, KRAS, LRP1B, MAP2K1, MAPK1, MEF2B, MYBBP1A, MYD88, NFKBIE, NOTCH1, NOTCH2, NRAS, PHF6, PLCG2, POT1, PTPRD, RPS15, RUNX1, SF3B1, STAT3, STAT5B, TBL1XR1, TCF3, TET2, TLR2, TNFAIP3, TNFRSF14, TP53, TRAF3, UBR5, WHSC1, XPO1, ZMYM3

Humanes Erythrozytose Panel (MLL)
BHLHE41, BPGM, EGLN1, EGLN2, EGLN3, EPAS1, EPO, EPOR, GFI1B, HBA1, HBA2, HBB, HIF1A, HIF1AN, HIF3A, JAK2, KDM6A, OS9, SH2B3, VHL, ZNF197

Humanes Kardio Panel (MLL)
ABL1, ASXL1, ATRX, BCOR, BCORL1, BRAF, CALR, CBL, CBLB, CBLC, CDKN2A, CEBPA, CSF3R, CUX1, DNMT3A, ETV6, EZH2, FBXW7, FLT3, GATA1, GATA2, GNAS, GNB1, HRAS, IDH1, IDH2, IKZF1, JAK2, JAK3, KDM6A, KIT, KRAS, KMT2A, MPL, MYD88, NOTCH1, NPM1, NRAS, PDGFRA, PHF6, PPM1D, PTEN, PTPN11, RAD21, RUNX1, SETBP1, SF3B1, SMC1A, SMC3, SRSF2, STAG2, TET2, TP53, U2AF1, WT1, ZRSR2

Humanes Exom Panel
xGen Exome Research Panel v2 (IDT Integrated DNA Technologies)

Custom Panel
Wir bieten auch kundenspezifische Panels (xGen Lockdown Panels) in Zusammenarbeit mit IDT Integrated DNA Technologies an. Wir bieten die Sequenzierung von maßgeschneiderten Panels ab einer Probenzahl von 96 an. Nach Angabe der Zielregionen (Chromosomenkoordinaten) ist eine Vorbereitungszeit von 4-6 Wochen erforderlich (Paneldesign, Produktion und Validierung im Labor bei MLLSEQ).

Die Flexibilität und die Sequenzierungserfahrung, die wir anbieten, wäre ohne solch starke Partner an unserer Seite nicht möglich. Deshalb möchten wir ihnen unseren größten Dank für ihre Unterstützung aussprechen.

Illumina

Sequencing Technology

IDT

Integrated DNA technologies

Wir haben ihre Markennamen für ihre Produkte auf unserer Homepage verwendet und hoffen, dass sie in allen Fällen korrekt dargestellt sind. Falls nicht, bitten wir um Entschuldigung und verweisen auf die Homepages der jeweiligen Partner.

Bei der Single-Cell Sequenzierung wird die Diversität der Zellzustände innerhalb einer (Tumor-)Probe durch die gleichzeitige Analyse von Tausenden von Einzelzellen erfasst. Die Technik umfasst mehrere verschiedene Assays wie Einzelzell-Genexpression, Einzelzell-ATAC, Einzelzell-Immunprofil usw., die durch Integration der verschiedenen Datenebenen auch zu einer Einzelzell-Multiomics-Analyse kombiniert werden können. Zellen oder Zellkerne werden in einzelne Röhrchen oder Vertiefungen isoliert, markiert/kodiert und dann werden die Libraries der zu analysierenden Zellkomponenten (DNA, RNA, Protein) für die Sequenzierung vorbereitet. Die erforderlichen Sequenzierungseinstellungen hängen von dem gewählten Assay ab und werden vom jeweiligen Kit-Hersteller angegeben.

Humanes ID Panel (MLL)
Das Human-ID-Panel enthält 24 SNPs, die eine eindeutige Identifizierung der einzelnen Proben ermöglichen. Jedes am MLL entwickelte Panel enthält automatisch das Human-ID-Panel.

Copy number variation (CNV) Panel (IDT)
Das CNV-Panel besteht aus 9115 einzelnen Sonden, die im Abstand von etwa 0,34 Mb über das menschliche Genom verteilt sind.

Zusätzliche Gene
Wenn die verfügbaren Panels nicht alle gewünschten Gene enthalten, ist es auch möglich, die Sonden für einzelne Gene zu einem Panel zu mischen, um alle gewünschten Regionen abzudecken. Nach Angabe der zusätzlichen Zielregionen (chromosomale Koordinaten) ist eine Vorbereitungszeit von 4 Wochen erforderlich (Probedesign, Herstellung bei IDT und Validierung im Labor bei MLLSEQ).

Die FASTQ-Dateien sind der Ausgang für das anschließende Read-Alignment an das Referenzgenom. Im Falle von WTS können die Reads auch ihrer Position im Referenztranskriptom zugeordnet werden. Der Aufbau des menschlichen Referenzgenoms hat sich im Laufe der Zeit weiterentwickelt, und aus Gründen der Rückwärtskompatibilität führen wir ein Alignment gegen GRCh37/hg19 durch. Der Alignment-Prozess ordnet jedes sequenzierte DNA-Fragment auf der Grundlage seiner Basensequenz der entsprechenden Region im menschlichen Genom zu. Die Position der Reads wird als Sequenz-Alignment/Map (SAM) oder binäre Alignment/Map (BAM) Datei gespeichert. Das Read-Alignment ist ein komplexer und sehr rechen-intensiver Teil des Verarbeitungsprozesses, der durch Parallelisierung erheblich beschleunigt werden kann. Daher wird das Alignment, wie die meisten der Verarbeitungsschritte, in unserer privaten AWS-Instanz der Amazon Cloud in Frankfurt (AWS, Amazon Web Services) durchgeführt. DNA-Sequenzierungsdaten (WGS, WES, Gen-Panels) werden mit dem Isaac Aligner und für WTS-Daten mit dem STAR Aligner der Position im Referenzgenom/-transkriptom zugeordnet.

Sequenzierungsdaten sind oft sensible Daten, die durch höchste Sicherheitsstandards geschützt werden müssen. Die Sequenzier-Rohdaten aus dem NovaSeq-Instrument werden direkt in eine private AWS-Instanz der Amazon Cloud in Frankfurt (AWS, Amazon Web Services) gestreamt, auf die nur ausgewählte Mitarbeiter von MLL Zugriff haben. Die Daten werden vollständig mit einem arbiträren internen Identifikator anonymisiert und es werden keine persönlichen oder klinischen Daten in der Cloud gespeichert. Die Datensicherheitsmaßnahmen entsprechen den höchsten Standards der neuen EU-Datenschutzgrundverordnung (GDPR), was auch von externen Auditoren in ihren Berichten bestätigt wurde, darunter ISO 27001, ISO 27017 und ISO 27018. Darüber hinaus hat AWS auch die C5-Bescheinigung des Bundesamts für Sicherheit in der Informationstechnik erhalten. Die Sequenzier-Rohdaten der MiSeq-Systeme werden lokal ohne externen Zugriff gespeichert.

Ein wichtiger Schritt jeder NGS-Library Vorbereitung ist das Hinzufügen eindeutiger Barcode-Sequenzen (= Indexierung) pro Probe, die es ermöglichen, mehrere Libraries zusammenzufassen und gemeinsam zu sequenzieren. Nach der Sequenzierung werden die Indexinformationen verwendet, um die sequenzierten Fragmente (= Reads) eindeutig den einzelnen Patienten zuzuordnen, wobei automatisch (bcl2fastq-Software) patientenspezifische FASTQ-Dateien erzeugt werden. Die Umwandlung der Rohsequenzierungsdaten eines Multiplex-Laufs in probenspezifische FASTQ-Dateien wird als "Demultiplexing" bezeichnet. Um dem bekannten Phänomen des Index-Hopping (= falsche Zuordnung von Libraries vom erwarteten Index zu einem abweichenden Index) Rechnung zu tragen, wird empfohlen, eindeutige Dual-Indexing-Pooling-Kombinationen zu verwenden, um "gehoppte" Reads aus der nachgeschalteten Analyse auszuschließen.

Kallisto wird zur genauen Quantifizierung von Transkripten aus Gesamt- und Einzelzell-RNA-Seq-Daten verwendet. Standardmäßig verwenden wir einen Kallisto-Index, der auf dem menschlichen hg19-Assembly basiert, aber die Transkripthäufigkeiten können auch für jede Art von Organismus und Zusammensetzung geschätzt werden, wenn ein benutzerdefinierter Index angegeben wird.

Das Ergebnis des Alignments wird verwendet, um vom Referenzgenom abweichende Positionen (=Varianten) zu identifizieren und eine Liste von Varianten zu erstellen, die in einer VCF-Datei (variant call format) aufgeführt sind.

SNV (Single Nucleotide Variant, Einzelbasenaustausch):
Es können sowohl einzelne Basenaustausche als auch kleinere Insertionen und Deletionen erkannt werden. Bei größeren Assays wie WGS oder WES ist es notwendig, sich auf das Matched Tumor-Normal-Varianten-Calling (Strelka2) zu verlassen, um falsch-positive Varianten zu reduzieren und somatische Varianten zuverlässig von Keimbahnvarianten zu unterscheiden.

Die Sensitivität von WGS mit 100 facher Abdeckung liegt bei etwa 10-15% Mutationslast. Bei WES mit einer 250 fachen Abdeckung wird eine Sensitivität von 10% erreicht. Für Gen-Panels wird ein reiner Tumor-Workflow (Pisces) angewandt, aber ein spezifisches Post-Screening von Keimbahnmaterial kann dennoch notwendig sein, um potenzielle somatische Varianten zu validieren. Gen-Panels werden routinemäßig mit einer Zielabdeckung von 1500x sequenziert, was eine Sensitivität von >2% Mutationslast ermöglicht. Große Deletionen und mittelgroße Insertionen, wie sie z. B. in CALR und FLT3 vorkommen, werden mit Pindel detektiert.

CNV (Copy Number Variants, Kopienzahlveränderungen) und SV (Strukturelle Varianten):
Beim WGS können sowohl die Kopienzahlveränderungen als auch die Strukturvarianten analysiert werden. CNVs werden mit GATK4 und SV mit Manta deteltiert.

Fusions-Calling:
Fusion-Calling für RNA-Seq-Daten wird mit Arriba, Manta und STAR-Fusion durchgeführt. Außerdem wird Isaac Variant Caller für die Erkennung von SNV und kleinen Indel verwendet. Für die Fusionserkennung sind Paired-End-Reads erforderlich.

Differentielle Genexpression:
Zur Durchführung von Analysen der differentiellen Expression zu Referenzgenen wird edgeR verwendet. Für diesen Ansatz werden Kontrollproben als Referenz benötigt.

Um die Interpretation der identifizierten Varianten zu erleichtern, können zusätzliche Informationen über die detektierten Varianten bereitgestellt werden. Dazu gehören die Identifizierung des Gens, das sich mit der Variante überschneidet, eine genaue Charakterisierung der genomischen Region (Exon, Intron, Intron-Exon-Übergang), in der die Variante gefunden wurde, eine Übersetzung der Variante in eine standardisierte Nomenklatur, eine Abschätzung der möglichen funktionellen Auswirkung der gefundenen Variante (Missense, Synonym, Polymorphismus usw.) und z. B. die von gnomAD angegebene Populationsfrequenz.

Das MLL dokumentiert routinemäßig die Bewertung nachgewiesener Sequenzvarianten, so dass neben klinischen Datenbanken auch die hauseigene Datenbank ausgewertet werden kann, um die klinische Relevanz für eine Vielzahl von Varianten abzuschätzen. Die Annotation von vcf-Dateien kann entweder automatisiert - nur auf der Basis öffentlicher Datenbanken - mit der Nirvana Annotation Engine und den folgenden Quellen erfolgen: VEP, ClinVar, COSMIC, dbSNP, gnomAD, DGV - oder manuell, unter Verwendung des MLL-Routinediagnose-Workflows mit Variantenklassifizierung für eine definierte Gruppe von Genen.

Neben der Fragmentierung der DNA, der Endreparatur und der Adapterligation, die eindeutige Indizes/Barcodes enthalten, so dass jeder einzelne Read nach der Sequenzierung eindeutig einem Patienten zugeordnet werden kann, umfasst die Library Vorbereitung für die gezielte Panel-Sequenzierung auch die Anreicherung der kodierenden Sequenzen. Mit Hilfe von Sonden, die eine komplementäre Sequenz zu der zu analysierenden Region (Panel von Genen oder die kompletten kodierenden Regionen, Exom) aufweisen, können diese spezifisch selektiert (Capturing) und angereichert werden. Es gibt zwei Arten der DNA-Fragmentierung, die enzymatische und die mechanische Fragmentierung. Während die TruSeq Library Prep (Illumina) eine mechanische Fragmentierung verwendet, nutzt die Illumina DNA Prep eine enzymatische Fragmentierung. Bei MLLSEQ wird die Library Vorbereitung in einem vollautomatischen Verfahren mit Pipettierrobotern (Hamilton NGS Star) durchgeführt. Dies gewährleistet eine standardisierte und homogene Library Vorbereitung.

Neben der Fragmentierung der DNA, der Endreparatur und der Adapterligation, die eindeutige Indizes/Barcodes enthalten, so dass jeder einzelne Read nach der Sequenzierung eindeutig einem Patienten zugeordnet werden kann, umfasst die Library Vorbereitung für die Exom-Sequenzierung (WES) auch die Anreicherung der kodierenden Sequenzen. Mit Hilfe von Sonden, die eine zur vollständigen kodierenden Region (Exom) komplementäre Sequenz aufweisen, können diese gezielt selektiert (Capturing) und angereichert werden. Es gibt zwei Arten der DNA-Fragmentierung, die enzymatische und die mechanische Fragmentierung. Während die TruSeq Library Prep (Illumina) eine mechanische Fragmentierung verwendet, nutzt die Illumina DNA Prep eine enzymatische Fragmentierung. Bei MLLSEQ wird die Library Vorbereitung in einem vollautomatischen Verfahren mit Pipettierrobotern (Hamilton NGS Star) durchgeführt. Dies gewährleistet eine standardisierte und homogene Library Vorbereitung.

Es gibt zwei grundlegend verschiedene Ansätze für die Library Vorbereitung für WGS: PCR-freie und mit DNA-Amplifikation.

Für die PCR-freie Methode ist eine relativ große Menge an Input-DNA erforderlich (1 µg), aber es werden PCR-Artefakte vermieden. Im Allgemeinen kann ausreichend DNA für eine PCR-freie Library Vorbereitung aus Knochenmark und peripherem Blut gewonnen werden.

Liegt das Rohmaterial in Form von fixiertem Gewebe (formalinfixiert, paraffineingebettet; FFPE) oder als zellfreie DNA aus Liquid Biopsy Proben vor, muss eine Voramplifikation gewählt werden, um ausreichend Material für die Sequenzierung zu erhalten. Die Library Vorbereitung umfasst die Fragmentierung der DNA, die Endreparatur und die Adapterligation, die eindeutige Indizes/Barcodes enthalten, so dass jeder einzelne Read nach der Sequenzierung eindeutig einem Patienten zugeordnet werden kann. Bei MLLSEQ wird die Library Vorbereitung in einem vollautomatischen Verfahren mit Pipettierrobotern (Hamilton NGS Star) durchgeführt. Dies gewährleistet eine standardisierte und homogene Library Vorbereitung.

Wie bei der Analyse von DNA (WGS, WES, Targeted Panel Seq) wird vor der Sequenzierung des Transkriptoms eine Library Preparation durchgeführt. Dieser Prozess umfasst die Fragmentierung der RNA, die Entfernung der ribosomalen RNA, die Synthese von cDNA aus der RNA, die Ligation von eindeutig identifizierbaren Indizes/Barcodes, die es ermöglichen, eine Probe von einer anderen zu unterscheiden, und eine anschließende Anreicherung des Materials mittels PCR.

Bei MLLSEQ wird die Library Vorbereitung in einem vollautomatischen Verfahren durch Pipettierroboter (Hamilton NGS Star) durchgeführt. Dies gewährleistet eine standardisierte und homogene Library Vorbereitung.