Lo sviluppo delle colture agrarie ha compiuto progressi sostanziali fin dalle origini della domesticazione delle piante. Nel XX secolo, il plant breeding (miglioramento genetico) è diventato un settore sempre più guidato dalla scienza: nuove scoperte nel campo della genetica hanno aperto la strada alla Rivoluzione Verde negli anni '60, mentre venivano introdotte strategie di breeding nuove e più efficienti, specialmente in casi complessi come le colture pluriennali. Le tecniche di breeding basate su informazioni genomiche si sono sviluppate di pari passo con la disponibilità di tecnologie di sequenziamento progressivamente più efficienti. Di particolare importanza è stato il lavoro sui metodi di genotipizzazione e sui marcatori genetici. Tra i vari tipi di marcatori disponibili, gli SNP (Single Nucleotide Polymorphisms) risultano particolarmente efficaci per via della loro abbondanza nel genoma. Molteplici metodi di genotipizzazione utilizzano gli SNP e gli array di genotipizzazione svolgono un ruolo importante grazie alla loro natura ad alta produttività (high-throughput) e alla facilità di interpretazione. Strategie di plant breeding come il Marker-Assisted Breeding (MAS) e la Selezione Genomica (GS) si basano sulla genotipizzazione; gli array si sono dimostrati estremamente utili, ma l'introduzione di queste risorse genomiche richiede metodologie dedicate per la gestione, la pulizia e la fruibilità dei dati genomici per applicazioni efficaci nei programmi di breeding. Questa tesi si concentra sulla tecnologia degli array SNP Thermo Fisher Axiom per via della loro importanza in agrigenomica. I dati genotipici SNP generati tramite array richiedono pulizia del dato (data curation) prima che possano essere utilizzati in analisi a valle al fine di correggere gli errori di genotipizzazione. Sebbene siano disponibili metodi e strumenti per eseguire tale data curation, essi sono spesso progettati per gli array Illumina Infinium, che si basano su una tecnologia differente. Alcuni metodi possono inoltre richiedere un certo grado di data curation manuale, il che può rappresentare un problema a causa delle dimensioni dei dataset di genotipizzazione tipici dei panel di breeding. In questa sede presento AxioSAFE, una pipeline di data curation implementata come programma automatico, modulare e scalabile. AxioSAFE si rivolge a specie diploidi, fornendo operazioni di filtraggio che processano campioni e SNP sulla base del segnale sottostante e dei dati genotipici e metrici resi disponibili dai flussi di lavoro della genotipizzazione Axiom. I campioni vengono testati per rimuovere poliploidi e duplicati, mentre i filtri per gli SNP rilevano e rimuovono gli "SNP problematici" che presentano un numero non trascurabile di errori di genotipizzazione. Inoltre, AxioSAFE è in grado di rilevare relazioni genitore-prole e genitore-genitore-prole, e include una funzionalità di phasing. Sviluppato originariamente per il melo, AxioSAFE è stato validato su un panel di accessioni di melo e utilizzato come strumento di filtraggio SNP nel contesto dello sviluppo del nuovo array di genotipizzazione Axiom®Vitis22K per vite. In entrambi i casi, AxioSAFE è stato in grado di individuare e rimuovere correttamente gli SNP problematici, portando a una riduzione degli errori mendeliani. Complessivamente, AxioSAFE riesce a fornire una valida alternativa alle opzioni di data curation più dispendiose in termini di tempo, facilitando l'integrazione dei dati di genotipizzazione nei progetti di breeding e abilitando potenziali applicazioni come l'arricchimento di database di dati genotipici preesistenti e conformi ai principi FAIR. Inoltre, il design modulare di AxioSAFE faciliterà il compito di espandere le sue funzionalità implementando la correzione dei dati e il ricalcolo dei genotipi (genotype re-calling).
The development of cultivated crops has made substantial progress since the origins of plant domestication. In the 20th century, plant breeding became an increasingly scientific-driven field: new breakthroughs in genetics opened the way to the Green Revolution in the 60s, while new and more efficient strategies were introduced for breeding, especially in complex cases such as perennial crops. Genomic-informed breeding techniques were developed as progressively more and more efficient sequencing technologies became available. Particularly important was the work on genotyping methods and genetic markers. Among the various types of markers available, SNPs (Single Nucleotide Polymorphisms) are especially powerful due to their abundance in the genome. Multiple genotyping methods use SNPs, and genotyping arrays have an important role thanks to their high-throughput nature and easy interpretation. Plant breeding strategies such as Marker-Assisted Breeding (MAS) and Genomic Selection (GS) rely on genotyping; arrays have proved to very useful, but the introduction of these genomic resources requires dedicated methodologies for managing, cleaning and making usable genomic data for effective applications in breeding programs. This thesis focuses on the Thermo Fisher Axiom SNP array technology due to their importance in agrigenomics. SNP genotypic data generated via arrays requires data curation before that data can be used in downstream analysis in order to address genotyping errors. While methods and tools to perform curation are available, they are often designed for Illumina Infinium arrays, which are based on a different technology. Some methods may also require a certain degree of manual curation, which can be an issue due to the size of genotyping datasets typical of breeding panels. Here I present AxioSAFE, a data curation pipeline implemented as an automatic, modular and scalable bioinformatic tool. AxioSAFE targets diploid species, providing filtering operations that process samples and SNPs based on the underlying signal, genotypic and metric data that are available as the result of Axiom genotyping workflows. Samples are tested in order to remove polyploids and duplicates, while SNPs filters detect and remove “problematic SNPs” that carry a non-negligible number of genotyping errors. Additionally, AxioSAFE is capable of detecting parent-offspring and parent-parent-offspring relationships, and includes a phasing functionality. Originally developed for apple, AxioSAFE has been validated on a panel of apple accessions and used as a SNP filtering tool in the context of the development of the new Axiom®Vitis22K genotyping array. In both cases, AxioSAFE was able to correctly capture and remove problematic SNPs, leading to a reduction in Mendelian errors. Overall, AxioSAFE succeeds in providing a reasonable alternative to more time-consuming data curation options, facilitating the integration of genotyping data into breeding projects and enabling potential applications such as the enrichment of pre-existing, FAIR-compliant databases of genotypic data. Moreover, AxioSAFE’s modular design will ease the task of expanding its features by implementing data correction and genotype re-calling.
Genomic Tools for DNA-Informed Breeding: Data Curation / Spina, Lorenzo. - (2026 May 11).
Genomic Tools for DNA-Informed Breeding: Data Curation
SPINA, LORENZO
2026-05-11
Abstract
Lo sviluppo delle colture agrarie ha compiuto progressi sostanziali fin dalle origini della domesticazione delle piante. Nel XX secolo, il plant breeding (miglioramento genetico) è diventato un settore sempre più guidato dalla scienza: nuove scoperte nel campo della genetica hanno aperto la strada alla Rivoluzione Verde negli anni '60, mentre venivano introdotte strategie di breeding nuove e più efficienti, specialmente in casi complessi come le colture pluriennali. Le tecniche di breeding basate su informazioni genomiche si sono sviluppate di pari passo con la disponibilità di tecnologie di sequenziamento progressivamente più efficienti. Di particolare importanza è stato il lavoro sui metodi di genotipizzazione e sui marcatori genetici. Tra i vari tipi di marcatori disponibili, gli SNP (Single Nucleotide Polymorphisms) risultano particolarmente efficaci per via della loro abbondanza nel genoma. Molteplici metodi di genotipizzazione utilizzano gli SNP e gli array di genotipizzazione svolgono un ruolo importante grazie alla loro natura ad alta produttività (high-throughput) e alla facilità di interpretazione. Strategie di plant breeding come il Marker-Assisted Breeding (MAS) e la Selezione Genomica (GS) si basano sulla genotipizzazione; gli array si sono dimostrati estremamente utili, ma l'introduzione di queste risorse genomiche richiede metodologie dedicate per la gestione, la pulizia e la fruibilità dei dati genomici per applicazioni efficaci nei programmi di breeding. Questa tesi si concentra sulla tecnologia degli array SNP Thermo Fisher Axiom per via della loro importanza in agrigenomica. I dati genotipici SNP generati tramite array richiedono pulizia del dato (data curation) prima che possano essere utilizzati in analisi a valle al fine di correggere gli errori di genotipizzazione. Sebbene siano disponibili metodi e strumenti per eseguire tale data curation, essi sono spesso progettati per gli array Illumina Infinium, che si basano su una tecnologia differente. Alcuni metodi possono inoltre richiedere un certo grado di data curation manuale, il che può rappresentare un problema a causa delle dimensioni dei dataset di genotipizzazione tipici dei panel di breeding. In questa sede presento AxioSAFE, una pipeline di data curation implementata come programma automatico, modulare e scalabile. AxioSAFE si rivolge a specie diploidi, fornendo operazioni di filtraggio che processano campioni e SNP sulla base del segnale sottostante e dei dati genotipici e metrici resi disponibili dai flussi di lavoro della genotipizzazione Axiom. I campioni vengono testati per rimuovere poliploidi e duplicati, mentre i filtri per gli SNP rilevano e rimuovono gli "SNP problematici" che presentano un numero non trascurabile di errori di genotipizzazione. Inoltre, AxioSAFE è in grado di rilevare relazioni genitore-prole e genitore-genitore-prole, e include una funzionalità di phasing. Sviluppato originariamente per il melo, AxioSAFE è stato validato su un panel di accessioni di melo e utilizzato come strumento di filtraggio SNP nel contesto dello sviluppo del nuovo array di genotipizzazione Axiom®Vitis22K per vite. In entrambi i casi, AxioSAFE è stato in grado di individuare e rimuovere correttamente gli SNP problematici, portando a una riduzione degli errori mendeliani. Complessivamente, AxioSAFE riesce a fornire una valida alternativa alle opzioni di data curation più dispendiose in termini di tempo, facilitando l'integrazione dei dati di genotipizzazione nei progetti di breeding e abilitando potenziali applicazioni come l'arricchimento di database di dati genotipici preesistenti e conformi ai principi FAIR. Inoltre, il design modulare di AxioSAFE faciliterà il compito di espandere le sue funzionalità implementando la correzione dei dati e il ricalcolo dei genotipi (genotype re-calling).| File | Dimensione | Formato | |
|---|---|---|---|
|
PhD-SDC-LORENZO_SPINA-THESIS_REVISED_FINAL-2026-04-27.pdf
embargo fino al 11/05/2027
Descrizione: Tesi def
Tipologia:
Tesi di dottorato
Dimensione
6.95 MB
Formato
Adobe PDF
|
6.95 MB | Adobe PDF | Visualizza/Apri Richiedi una copia |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


