La genomica del monococco fa luce sulla storia del più antico grano domestico

Natura (2023) Cita questo articolo

95 Altmetrico

Dettagli sulle metriche

Il farro monococco (Triticum monococcum) fu la prima specie di grano addomesticata e fu fondamentale per la nascita dell'agricoltura e della rivoluzione neolitica nella Mezzaluna Fertile circa 10.000 anni fa1,2. Qui generiamo e analizziamo gruppi di genomi da 5,2 Gb per farro selvatico e domestico, inclusi centromeri completamente assemblati. I centromeri di Einkorn sono altamente dinamici e mostrano prove di spostamenti centromerici antichi e recenti causati da riarrangiamenti strutturali. L’analisi di sequenziamento dell’intero genoma di un pannello di diversità ha scoperto la struttura della popolazione e la storia evolutiva del farro monococco, rivelando modelli complessi di ibridazioni e introgressioni dopo la dispersione del farro monococco addomesticato dalla Mezzaluna Fertile. Mostriamo anche che circa l'1% del sottogenoma A del grano tenero moderno (Triticum aestivum) proviene dal monococco. Queste risorse e scoperte evidenziano la storia dell’evoluzione del monococco e forniscono una base per accelerare il miglioramento assistito dalla genomica del monococco e del grano tenero.

Il farro monococco (T. monococcum) è stata la prima specie di grano addomesticata dall'uomo circa 10.000 anni fa nella Mezzaluna Fertile, una regione del Vicino Oriente spesso definita la Culla della Civiltà1,2. Il farro selvatico era un ingrediente dei più antichi prodotti simili al pane conosciuti, preparati dai cacciatori-raccoglitori nell'odierna Giordania quattro millenni prima dell'alba dell'agricoltura3. Il monococco ha avuto un ruolo fondamentale nello sviluppo dell'agricoltura nella Mezzaluna Fertile ed è l'unica specie di frumento diploide (2n = 2x = 14, genoma AmAm) di cui esistono sia forme selvatiche che domestiche. Una notevole differenza morfologica tra il monococco selvatico e quello domestico è il sistema di dispersione dei cereali. Il monococco selvatico ha un rachide fragile che facilita la dispersione dei semi, mentre il rachide del monococco domestico non è fragile4. Il monococco è strettamente imparentato con Triticum urartu, il donatore del genoma A del grano duro tetraploide (Triticum durum) e del grano tenero esaploide (T. aestivum)5. A differenza di T. urartu, il monococco selvatico e quello domestico hanno una lunga storia di coltivazione e selezione umana in diverse condizioni ambientali, il che rende il monococco una preziosa fonte di variazione genetica per la selezione del grano. Sono state descritte molteplici introgressioni di farro monococco naturale e artificiale nel grano tenero contenente geni importanti dal punto di vista agricolo6,7,8,9,10. Le analisi genetiche della popolazione indicano che il monococco selvatico si raggruppa in tre gruppi distinti (razze α, β e γ) e indicano una regione intorno ai monti Karacadağ nella Turchia sud-orientale come sito di addomesticamento del monococco11,12,13,14,15,16,17 .

Qui stabiliamo e analizziamo un insieme completo di risorse genomiche per il monococco, inclusi gruppi di riferimento su scala cromosomica annotati de novo di un'accessione di monococco selvatico e uno addomesticato, nonché il sequenziamento dell'intero genoma di un pannello di diversità del monococco. I nostri risultati svelano la complessa storia evolutiva del monococco e offrono approfondimenti sulla dinamica del genoma delle Triticeae, inclusa la struttura del centromero, stabilendo risorse preziose che aumentano gli strumenti genomici per il miglioramento del grano.

Abbiamo generato gruppi di riferimento di due accessioni di monococco utilizzando una combinazione di sequenziamento del consenso circolare PacBio18, mappatura ottica19 e cattura della conformazione cromosomica20 (Tabella dati estesi 1, Tabella supplementare 1 e Figura 1 supplementare). TA10622 è una varietà autoctona di monococco domestico (T. monococcum L. subsp. monococcum) con rachide non fragile che è stata raccolta in Albania all'inizio del XX secolo. L'accessione del monococco selvatico TA299 (T. monococcum L. subsp. aegilopoides; razza α) è stata raccolta durante una spedizione nel 1972 nel nord dell'Iraq21 e presenta un rachide fragile. L'integrità dell'assemblaggio è stata verificata utilizzando una mappa genetica del farro (Tabelle supplementari 2 e 3). Abbiamo osservato un alto grado di collinearità tra i due set di pseudomolecole (Fig. 1 e Figura 2 supplementare) e tra i due gruppi di farro e il sottogenoma A del grano tenero (Figura 3 supplementare). Le eccezioni più evidenti sono state i riarrangiamenti ben descritti del cromosoma 4A del grano tenero, che ha subito inversioni e traslocazioni nel grano poliploide22. Abbiamo annotato 32.230 e 32.090 modelli genici ad alta fiducia sulle 7 pseudomolecole di TA299 e TA10622, rispettivamente (punteggi BUSCO del 99,2% per TA299 e 99,4% per TA10622) (Tabelle supplementari 4 e 5).

30% missing) at the population level. In JoinMap, we removed identical markers (similarity = 1) and mapped only one marker of the identical pair. We grouped the markers using minimum LOD of 6 and the markers were mapped using a regression mapping approach and the Kosambi function. The linkage maps were visualized using Mapchart (v.2.32; https://www.wur.nl/en/show/mapchart.htm). Linkage maps were constructed using this approach with both wild and domesticated einkorn assemblies./p>

60.0 || MQ < 40.00 || MQRankSum < −12.5 || ReadPosRankSum < −8.0 || SOR > 3.0’. In total, 208,855,939 SNPs were called from 219 einkorn accessions. After quality control using VCFtools108 (v.0.1.17), the raw SNPs were filtered using GATK107 (v.4.1.8.0) and VCFtools108 (v.0.1.17) as follows: SNP clusters, defined as three or more SNPs located within 10 bp; low and high average SNP depth (4 ≤ DP ≥ 15); and SNPs located in the unanchored chromosome were removed. Moreover, one misclassified accession (TA574; initially was classified as γ) was removed on the basis of PCA and divergence analysis. Finally, only biallelic SNPs were retained for further analyses, representing a final VCF file of 121,459,674 SNPs (Supplementary Table 15). These SNPs were annotated using snpEff109 (v.5.0e) with TA299 HC gene models. The false-positive error rate of variant calling (percentage of polymorphic sites in a resequenced TA299 sample compared with the TA299 reference) was 0.008%, which is comparable to the error rates of other studies43,44,45,46 (Supplementary Fig. 19a). Variants were evenly distributed across the seven chromosomes, except for the centromeres that showed a marked reduction in variant densities due to reduced read mapping (Supplementary Fig. 19b, Supplementary Fig. 20 and Supplementary Table 16). Approximately 2.2% of the total SNPs were gene-proximal (2 kb upstream and downstream of a coding sequence). An additional 0.8% of the SNPs were located in introns and 0.5% in exons. Of the exonic SNPs, 317,023 (53.4%) were non-synonymous affecting 26,505 genes, of which 9,145 SNPs resulted in a disruption of coding sequences (premature stop codon) in 5,726 genes. Furthermore, 45.7% of the total SNPs (55,558,212 SNPs) represented rare variants with a minor allele frequency below 1% (Supplementary Fig. 19c and Supplementary Table 17). Variant calling using the TA10622 assembly revealed very similar results on the basis of population divergence, PCA and nucleotide diversity (α, π = 0.0012; β, π = 0.0017; γ, π = 0.0022; domesticated, π = 0.0012; Supplementary Fig. 21a–c), confirming the high accuracy of variant calling and the independence of population structure analyses from which reference assembly is used. The SNP calling against the TA10622 reference assembly was used for the analyses presented in Extended Data Fig. 7a,b,e./p> 10% and 5% randomly sampled SNPs; total SNPs = 5,318,268). First, the genetic distances were computed using Euclidean distances with the ‘dist’ function in the stats R package. The distance matrix was converted to a phylo object using the R package ape and the tree was generated using the phyclus R package. For estimating individual ancestry coefficients, the R package LEA ‘snmf’ function was used with the entropy option and with 10 independent runs for each K (K is the number of putative ancestral populations) from K = 1 to K = 10 using the same SNP subset used to generate the phylogenetic tree. The cross-entropy value decreased with increasing K and reached a plateau starting from K = 6 (Supplementary Fig. 14)./p>13-fold coverage. We used the Illumina reads of TA4342-L96 (Sequence Read Archive: SRR21543761) as the parental control. We followed the MutMap protocol with minor modifications57. High-quality filtered reads were aligned to the T. monococcum accession TA10622 using BWA96. SAM files were converted into .bam files using SAMtools69. SAMtools (markdup option) was used to mark and remove PCR duplicates. Improperly mapped read pairs were removed from the .bam files retaining only concordantly aligned reads with MAPQ ≥ 30. The BCFtools mpileup tool was used for SNP calling70. SNPs were filtered on the basis of the following criteria: minQ ≥ 30, Fisher Strand (FS) > 40, mapping quality (MQ < 40), minDP > 3 and genotype quality (GQ < 20). SNPs within 10 bp proximity of indels were removed and only the biallelic SNPs were retained. SNP positions with an identical allele in both TA4342-L96 and the tin3 mutant bulk were treated as varietal SNPs and were removed from the analysis. SnpSift109 was used to select EMS-type (G/C to A/T) transitions from the VCF file. We considered the positions with a SNP index of ≥0.9 to be homozygous, whereas SNPs with an SNP index of <0.3 were removed, and the rest were considered to be heterozygous. We used the mutplot tool (https://github.com/VivianBailey/Mutplot) to calculate the average SNP index using a window size of 100 kb116. The average SNP index was plotted along the chromosomes using ggplot2117. SnpEff 5.0c (build 2020-11-25 14:23) was used to calculate the effect of the variants on genes./p>