NCBI Leucoraja erinacea Annotation Release GCF_028641065.1-RS_2023_04

The genome sequence records for Leucoraja erinacea RefSeq assembly GCF_028641065.1 (Leri_hhj_1) were annotated by the NCBI Eukaryotic Genome Annotation Pipeline, an automated pipeline that annotates genes, transcripts and proteins on draft and finished genome assemblies.

The annotation products are available in the sequence databases and on the FTP site.

This report provides:

Annotation Release information: The name of the release, important dates, the software version
Assemblies: A brief description of the annotated assembly(ies)
Gene and feature statistics: The counts and characteristics of the annotated features
BUSCO results: Annotation completeness assessed with BUSCO
Alignment of the annotated proteins to a set of high-quality proteins: The number of annotated proteins with hits to a set of high-quality proteins
Masking of genomic sequence: How much of the genome was masked
Transcript and protein alignments: The number and type of evidence retrieved from public databases and used for gene prediction

For more information on the annotation process, please visit the NCBI Eukaryotic Genome Annotation Pipeline page.

Annotation Release information

This annotation should be referred to as "GCF_028641065.1-RS_2023_04".

Date of Entrez queries for transcripts and proteins: Apr 21 2023
Date of submission of annotation to the public databases: Apr 27 2023
Software version: 10.1

Assemblies

The following assemblies were included in this annotation run:

Assembly name	Assembly accession	Submitter	Assembly date	Reference/Alternate	Assembly content
Leri_hhj_1	GCF_028641065.1	Okinawa Institute of Science and Technology	02-22-2023	Reference	51 assembled chromosomes; unplaced scaffolds

Gene and feature statistics

Counts and length of annotated features are provided below for each assembly.

Feature counts

Feature	Leri_hhj_1
Genes and pseudogenes	23,250
protein-coding	18,970
non-coding	3,054
Transcribed pseudogenes	1
Non-transcribed pseudogenes	1,163
genes with variants	7,526
Immunoglobulin/T-cell receptor gene segments	54
other	8
mRNAs	36,217
fully-supported	34,342
with > 5% ab initio	909
partial	388
with filled gap(s)	1
known RefSeq (NM_)	0
model RefSeq (XM_)	36,217
non-coding RNAs	4,433
fully-supported	3,401
with > 5% ab initio	0
partial	0
with filled gap(s)	0
known RefSeq (NR_)	0
model RefSeq (XR_)	3,790
pseudo transcripts	1
fully-supported	1
with > 5% ab initio	0
partial	0
with filled gap(s)	0
known RefSeq (NR_)	0
model RefSeq (XR_)	1
CDSs	36,284
fully-supported	34,342
with > 5% ab initio	1,106
partial	389
with major correction(s)	1,275
known RefSeq (NP_)	0
model RefSeq (XP_)	36,230

Detailed reports

The counts below do not include pseudogenes.

Feature lengths

Feature	Count	Mean length (bp)	Median length (bp)	Min length (bp)	Max length (bp)
Genes	22,032	53,491	23,668	60	1,787,780
All transcripts	40,650	3,567	2,889	57	106,608
mRNA	36,217	3,782	3,077	96	106,608
misc_RNA	788	3,074	2,421	197	20,211
tRNA	641	74	73	68	87
lncRNA	2,613	2,108	1,582	57	19,769
snoRNA	169	112	94	60	314
snRNA	184	141	132	102	198
rRNA	30	199	119	118	1,679
Single-exon transcripts	977	2,384	1,823	152	18,090
coding transcripts (NM_/XM_ )	977	2,384	1,823	152	18,090
CDSs	36,230	1,962	1,434	96	104,985
Exons	225,788	353	140	1	22,905
in coding transcripts (NM_/XM_ )	217,815	340	139	1	22,905
in non-coding transcripts (NR_/XR_ )	12,553	527	160	10	11,858
Introns	202,894	6,601	2,303	30	573,588
in coding transcripts (NM_/XM_ )	197,460	6,571	2,296	30	573,588
in non-coding transcripts (NR_/XR_ )	9,849	6,711	2,395	30	503,073

Transcripts per gene, exons per transcript

	Mean	Median	Min	Max
Number of transcripts per gene	1.87	1	1	50
Number of exons per transcript	11.65	9	1	298

BUSCO analysis of gene annotation

BUSCO v4.1.4 was run in "protein" mode on the annotated gene set picking one longest protein per gene, and run using the vertebrata_odb10 lineage dataset. Results are reported for the gene set from the primary assembly unit, and presented in BUSCO notation.

Alignment of the annotated proteins to a set of high-quality proteins

The final set of annotated proteins was searched with BLASTP against the UniProtKB/Swiss-Prot curated proteins, using the annotated proteins as the query and the high-quality proteins as the target. Out of 18957 coding genes, 17598 genes had a protein with an alignment covering 50% or more of the query and 8931 had an alignment covering 95% or more of the query.

Definition of query and target coverage. The query coverage is the percentage of the annotated protein length that is included in the alignment. The target coverage is the percentage of the target length that is included in the alignment.

Below is a cumulative graph displaying the number of genes with alignments above a given query or target coverage threshold. For comparison, corresponding statistics for other organisms annotated by the NCBI eukaryotic annotation pipeline were added to the graph.

Query: annotated proteins
Target: UniProtKB/Swiss-Prot curated proteins

Masking of genomic sequence

Transcript and protein alignments are performed on the repeat-masked genome. Below are the percentages of genomic sequence masked by WindowMasker and RepeatMasker (if calculated), for each assembly. RepeatMasker results are only calculated for organisms with complete Dfam HMM model collections.

For this annotation run, transcripts and proteins were aligned to the genome masked with WindowMasker only.

Assembly name	Assembly accession	% Masked with WindowMasker
Leri_hhj_1	GCF_028641065.1	53.15%

Transcript and protein alignments

The annotation pipeline relies heavily on alignments of experimental evidence for gene prediction. Below are the sets of transcripts and proteins that were retrieved from Entrez Nucleotide, Entrez Protein, and SRA, and aligned to the genome.

Transcript alignments

The alignments of the following transcripts with Splign were used for gene prediction:

Source	Number of sequences retrieved from Entrez	Number (%) of sequences aligned by Splign	Number (%) of sequences passed to Gnomon	Average % identity	Average % coverage
Same-species Genbank	178	174 (97.75%)	163 (91.57%)	99.11%	99.08%
Same-species EST	31,167	27,148 (87.10%)	24,966 (80.10%)	98.92%	99.33%

RNA-Seq alignments

The alignments of the following RNA-Seq reads with STAR were also used for gene prediction:

Hide alignments statistics, by sample (SAME, SAMN, SAMD, DRS)

Sample Id	Publication	Track name	Number of reads	Percent aligned reads	Percent of aligned reads with introns	Number of introns
All	NA	Aggregate of all aligned samples	6,405,937,723	70%	35%	242,667
SAMN06227241	28264196	Liver (Leucoraja erinacea, SAMN06227241)	43,370,016	57%	47%	133,234
SAMN06227242	28264196	Body skin (Leucoraja erinacea, SAMN06227242)	45,022,602	63%	42%	148,844
SAMN06227243	28264196	Ampullary canals (Leucoraja erinacea, SAMN06227243)	56,767,270	55%	47%	155,020
SAMN06227244	28264196	Ampullary receptor cells (Leucoraja erinacea, SAMN06227244)	50,007,432	58%	39%	162,804
SAMN10275099	NA	post-synarcual (Leucoraja erinacea, SAMN10275099)	23,389,754	73%	31%	134,480
SAMN10275100	NA	synarcual (Leucoraja erinacea, SAMN10275100)	22,318,548	76%	29%	143,806
SAMN10275101	NA	post-synarcual (Leucoraja erinacea, SAMN10275101)	24,288,508	78%	24%	154,184
SAMN10275102	NA	synarcual (Leucoraja erinacea, SAMN10275102)	19,222,340	78%	24%	148,876
SAMN12091410	NA	Ampullae of Lorenzini (Leucoraja erinacea, Adult, female, SAMN12091410)	17,433,524	50%	22%	108,232
SAMN17106696	NA	S23_24, mandibular_arch_dorsal_left (Leucoraja erinacea, SAMN17106696)	166,650,648	63%	44%	143,535
SAMN17106697	NA	S23_24, mandibular_arch_dorsal_right (Leucoraja erinacea, SAMN17106697)	119,002,216	68%	45%	143,363
SAMN17106698	NA	S23_24, mandibular_arch_ventral (Leucoraja erinacea, SAMN17106698)	74,947,080	68%	42%	136,906
SAMN17106699	NA	S23_24, gill_arch_dorsal (Leucoraja erinacea, SAMN17106699)	79,562,424	68%	43%	139,738
SAMN17106700	NA	S23_24, gill_arch_ventral (Leucoraja erinacea, SAMN17106700)	66,900,799	60%	39%	137,157
SAMN17106701	NA	S23_24, mandibular_arch_dorsal_left (Leucoraja erinacea, SAMN17106701)	71,203,310	67%	42%	132,053
SAMN17106702	NA	S23_24, gill_arch_dorsal (Leucoraja erinacea, SAMN17106702)	9,803,544	58%	44%	79,852
SAMN17106703	NA	S23_24, gill_arch_ventral (Leucoraja erinacea, SAMN17106703)	83,406,512	70%	45%	142,459
SAMN17106704	NA	S23_24, mandibular_arch_dorsal_right (Leucoraja erinacea, SAMN17106704)	50,314,314	64%	47%	123,360
SAMN17106705	NA	S23_24, mandibular_arch_ventral (Leucoraja erinacea, SAMN17106705)	74,037,084	65%	44%	136,669
SAMN17106706	NA	S23_24, mandibular_arch_dorsal_left (Leucoraja erinacea, SAMN17106706)	71,231,172	67%	44%	135,985
SAMN17106707	NA	S23_24, mandibular_arch_ventral_left (Leucoraja erinacea, SAMN17106707)	50,724,334	67%	43%	126,173
SAMN17106708	NA	S23_24, gill_arch_dorsal_left (Leucoraja erinacea, SAMN17106708)	23,184,070	65%	46%	98,314
SAMN17106709	NA	S23_24, mandibular_arch_dorsal_right (Leucoraja erinacea, SAMN17106709)	61,366,676	68%	44%	127,885
SAMN17106710	NA	S23_24, mandibular_arch_ventral_right (Leucoraja erinacea, SAMN17106710)	160,101,064	65%	38%	151,547
SAMN17106711	NA	S23_24, gill_arch_dorsal_right (Leucoraja erinacea, SAMN17106711)	99,749,694	64%	36%	140,581
SAMN17106712	NA	S23_24, mandibular_arch_dorsal_left (Leucoraja erinacea, SAMN17106712)	89,729,734	69%	42%	144,731
SAMN17106713	NA	S23_24, mandibular_arch_ventral_left (Leucoraja erinacea, SAMN17106713)	59,047,138	66%	41%	126,533
SAMN17106714	NA	S23_24, gill_arch_ventral (Leucoraja erinacea, SAMN17106714)	51,808,372	66%	41%	126,646
SAMN17106715	NA	S23_24, mandibular_arch_dorsal_right (Leucoraja erinacea, SAMN17106715)	63,385,072	68%	41%	134,188
SAMN17106716	NA	S23_24, mandibular_arch_ventral_right (Leucoraja erinacea, SAMN17106716)	50,878,564	66%	41%	122,022
SAMN17106717	NA	S23_24, gill_arch_dorsal (Leucoraja erinacea, SAMN17106717)	73,102,550	66%	42%	126,548
SAMN17106718	NA	S25_26, mandibular_arch_dorsal (Leucoraja erinacea, SAMN17106718)	112,756,792	66%	40%	147,297
SAMN17106719	NA	S25_26, mandibular_arch_ventral_1 (Leucoraja erinacea, SAMN17106719)	66,523,052	65%	42%	134,766
SAMN17106720	NA	S25_26, gill_arch_dorsal (Leucoraja erinacea, SAMN17106720)	42,231,960	63%	41%	118,298
SAMN17106721	NA	S25_26, gill_arch_ventral_left (Leucoraja erinacea, SAMN17106721)	15,220,930	52%	42%	81,430
SAMN17106722	NA	S25_26, mandibular_arch_dorsal2 (Leucoraja erinacea, SAMN17106722)	32,528,064	69%	40%	122,873
SAMN17106723	NA	S25_26, mandibular_arch_ventral_2 (Leucoraja erinacea, SAMN17106723)	53,431,538	66%	40%	133,935
SAMN17106724	NA	S25_26, gill_arch_ventral_right (Leucoraja erinacea, SAMN17106724)	31,015,002	64%	39%	110,430
SAMN17106725	NA	S25_26, mandibular_arch_dorsal_left (Leucoraja erinacea, SAMN17106725)	40,763,242	56%	35%	109,063
SAMN17106726	NA	S25_26, mandibular_arch_ventral_left (Leucoraja erinacea, SAMN17106726)	147,209,114	62%	28%	146,121
SAMN17106727	NA	S25_26, gill_arch_dorsal_left (Leucoraja erinacea, SAMN17106727)	92,530,538	63%	30%	132,017
SAMN17106728	NA	S25_26, gill_arch_ventral_left (Leucoraja erinacea, SAMN17106728)	34,169,436	59%	35%	104,410
SAMN17106729	NA	S25_26, mandibular_arch_dorsal_right (Leucoraja erinacea, SAMN17106729)	41,325,032	61%	33%	111,520
SAMN17106730	NA	S25_26, mandibular_arch_ventral_right (Leucoraja erinacea, SAMN17106730)	58,448,348	65%	33%	130,751
SAMN17106731	NA	S25_26, gill_arch_dorsal_right (Leucoraja erinacea, SAMN17106731)	50,815,822	65%	30%	121,429
SAMN17106732	NA	S25_26, gill_arch_ventral_right (Leucoraja erinacea, SAMN17106732)	29,873,218	64%	37%	104,891
SAMN17106733	NA	S25_26, mandibular_arch_dorsal_left (Leucoraja erinacea, SAMN17106733)	38,427,466	70%	33%	122,898
SAMN17106734	NA	S25_26, mandibular_arch_ventral_right (Leucoraja erinacea, SAMN17106734)	175,239,196	63%	26%	146,488
SAMN17106735	NA	S25_26, gill_arch_ventral (Leucoraja erinacea, SAMN17106735)	43,008,032	63%	35%	116,261
SAMN17106736	NA	S25_26, mandibular_arch_dorsal_right (Leucoraja erinacea, SAMN17106736)	81,113,726	66%	39%	127,958
SAMN17106737	NA	S25_26, mandibular_arch_ventral_left (Leucoraja erinacea, SAMN17106737)	13,972,318	55%	35%	83,806
SAMN17106738	NA	S25_26, gill_arch_dorsal (Leucoraja erinacea, SAMN17106738)	62,563,948	67%	33%	131,003
SAMN17106739	NA	S29, mandibular_arch_dorsal (Leucoraja erinacea, SAMN17106739)	114,814,376	75%	44%	159,696
SAMN17106740	NA	S29, mandibular_arch_ventral (Leucoraja erinacea, SAMN17106740)	87,629,052	72%	43%	153,380
SAMN17106741	NA	S29, gill_arch_dorsal (Leucoraja erinacea, SAMN17106741)	182,829,982	77%	43%	166,258
SAMN17106742	NA	S29, gill_arch_ventral (Leucoraja erinacea, SAMN17106742)	97,798,504	78%	41%	163,157
SAMN17106743	NA	S29, mandibular_arch_dorsal (Leucoraja erinacea, SAMN17106743)	130,189,646	75%	39%	159,620
SAMN17106744	NA	S29, mandibular_arch_ventral (Leucoraja erinacea, SAMN17106744)	58,565,816	71%	43%	145,918
SAMN17106745	NA	S29, gill_arch_dorsal (Leucoraja erinacea, SAMN17106745)	160,163,676	76%	42%	168,598
SAMN17106746	NA	S29, gill_arch_ventral (Leucoraja erinacea, SAMN17106746)	252,919,230	77%	44%	174,480
SAMN17106747	NA	S29, mandibular_arch_dorsal (Leucoraja erinacea, SAMN17106747)	106,621,804	78%	40%	164,815
SAMN17106748	NA	S29, mandibular_arch_ventral (Leucoraja erinacea, SAMN17106748)	103,851,174	77%	40%	167,475
SAMN17106749	NA	S29, gill_arch_dorsal (Leucoraja erinacea, SAMN17106749)	73,660,698	77%	40%	153,262
SAMN17106750	NA	S29, gill_arch_ventral (Leucoraja erinacea, SAMN17106750)	51,426,148	76%	40%	153,919
SAMN17106751	NA	S29, mandibular_arch_dorsal (Leucoraja erinacea, SAMN17106751)	98,917,858	77%	42%	164,041
SAMN17106754	NA	S29, gill_arch_ventral (Leucoraja erinacea, SAMN17106754)	119,810,388	76%	41%	164,522
SAMN17106755	NA	S29, mandibular_arch_dorsal (Leucoraja erinacea, SAMN17106755)	157,041,736	77%	43%	170,485
SAMN17106756	NA	S29, mandibular_arch_ventral (Leucoraja erinacea, SAMN17106756)	118,678,800	76%	39%	169,416
SAMN17106757	NA	S29, gill_arch_dorsal (Leucoraja erinacea, SAMN17106757)	112,884,062	76%	44%	170,652
SAMN17106758	NA	S29, gill_arch_ventral (Leucoraja erinacea, SAMN17106758)	53,267,364	77%	39%	150,977
SAMN34114873	37046085	Testis (Leucoraja erinacea, SAMN34114873)	45,573,628	83%	11%	146,819
SAMN34114874	37046085	Testis (Leucoraja erinacea, SAMN34114874)	35,694,531	82%	10%	139,237
SAMN34114875	37046085	Pancreas (Leucoraja erinacea, SAMN34114875)	39,283,755	62%	18%	57,413
SAMN34114876	37046085	Pancreas (Leucoraja erinacea, SAMN34114876)	41,244,433	59%	17%	57,599
SAMN34114877	37046085	Ovary (Leucoraja erinacea, SAMN34114877)	48,078,920	80%	9%	147,381
SAMN34114878	37046085	Ovary (Leucoraja erinacea, SAMN34114878)	42,909,055	79%	9%	141,199
SAMN34114879	37046085	Muscle (Leucoraja erinacea, SAMN34114879)	42,860,088	54%	13%	87,992
SAMN34114880	37046085	Muscle (Leucoraja erinacea, SAMN34114880)	55,803,275	49%	12%	104,109
SAMN34114881	37046085	Midbrain (Leucoraja erinacea, SAMN34114881)	47,411,074	77%	8%	147,952
SAMN34114882	37046085	Midbrain (Leucoraja erinacea, SAMN34114882)	42,526,122	75%	8%	141,241
SAMN34114883	37046085	Liver (Leucoraja erinacea, SAMN34114883)	39,807,873	75%	11%	107,226
SAMN34114884	37046085	Liver (Leucoraja erinacea, SAMN34114884)	39,404,963	73%	10%	90,449
SAMN34114885	37046085	Kidney (Leucoraja erinacea, SAMN34114885)	38,620,674	74%	9%	133,500
SAMN34114886	37046085	Kidney (Leucoraja erinacea, SAMN34114886)	40,727,636	73%	9%	131,134
SAMN34114887	37046085	Intestine (Leucoraja erinacea, SAMN34114887)	48,479,288	77%	9%	129,199
SAMN34114888	37046085	Intestine (Leucoraja erinacea, SAMN34114888)	41,895,940	78%	10%	127,955
SAMN34114889	37046085	Hindbrain (Leucoraja erinacea, SAMN34114889)	42,024,250	75%	7%	138,207
SAMN34114890	37046085	Hindbrain (Leucoraja erinacea, SAMN34114890)	37,977,987	75%	8%	136,325
SAMN34114891	37046085	Heart (Leucoraja erinacea, SAMN34114891)	45,807,744	73%	10%	130,061
SAMN34114892	37046085	Heart (Leucoraja erinacea, SAMN34114892)	44,710,492	70%	10%	123,161
SAMN34114893	37046085	Gills (Leucoraja erinacea, SAMN34114893)	36,978,767	78%	9%	136,035
SAMN34114894	37046085	Gills (Leucoraja erinacea, SAMN34114894)	37,953,323	78%	9%	125,811
SAMN34114895	37046085	Forebrain (Leucoraja erinacea, SAMN34114895)	40,552,211	78%	8%	140,693
SAMN34114896	37046085	Forebrain (Leucoraja erinacea, SAMN34114896)	38,802,349	76%	7%	138,769
SAMN34114897	37046085	Cerebellum (Leucoraja erinacea, SAMN34114897)	41,290,566	77%	7%	138,831
SAMN34114898	37046085	Cerebellum (Leucoraja erinacea, SAMN34114898)	47,907,512	75%	7%	141,239

Show alignments statistics, by run (ERR, SRR, DRR)

Run	Experiment	Project	Sample	Number of reads	Percent aligned reads	Percent of aligned reads with introns
SRR5172152	SRX2488466	SRP096704	SAMN06227241	43,370,016	57%	47%
SRR5172151	SRX2488465	SRP096704	SAMN06227242	45,022,602	63%	42%
SRR5172150	SRX2488464	SRP096704	SAMN06227243	56,767,270	55%	47%
SRR5172149	SRX2488463	SRP096704	SAMN06227244	50,007,432	58%	39%
SRR8090271	SRX4917143	SRP166413	SAMN10275099	23,389,754	73%	31%
SRR8090270	SRX4917142	SRP166413	SAMN10275100	22,318,548	76%	29%
SRR8090269	SRX4917141	SRP166413	SAMN10275101	24,288,508	78%	24%
SRR8090268	SRX4917139	SRP166413	SAMN10275102	19,222,340	78%	24%
SRR9592747	SRX6358492	SRP211883	SAMN12091410	17,433,524	50%	22%
SRR13269325	SRX9699491	SRP298374	SAMN17106696	166,650,648	63%	44%
SRR13269324	SRX9699492	SRP298374	SAMN17106697	119,002,216	68%	45%
SRR13269313	SRX9699503	SRP298374	SAMN17106698	74,947,080	68%	42%
SRR13269365	SRX9699451	SRP298374	SAMN17106699	79,562,424	68%	43%
SRR13269342	SRX9699474	SRP298374	SAMN17106700	66,900,799	60%	39%
SRR13269352	SRX9699464	SRP298374	SAMN17106701	71,203,310	67%	42%
SRR13269354	SRX9699462	SRP298374	SAMN17106702	9,803,544	58%	44%
SRR13269336	SRX9699480	SRP298374	SAMN17106703	83,406,512	70%	45%
SRR13269337	SRX9699479	SRP298374	SAMN17106704	50,314,314	64%	47%
SRR13269338	SRX9699478	SRP298374	SAMN17106705	74,037,084	65%	44%
SRR13269323	SRX9699493	SRP298374	SAMN17106706	71,231,172	67%	44%
SRR13269322	SRX9699494	SRP298374	SAMN17106707	50,724,334	67%	43%
SRR13269321	SRX9699495	SRP298374	SAMN17106708	23,184,070	65%	46%
SRR13269320	SRX9699496	SRP298374	SAMN17106709	61,366,676	68%	44%
SRR13269319	SRX9699497	SRP298374	SAMN17106710	160,101,064	65%	38%
SRR13269318	SRX9699498	SRP298374	SAMN17106711	99,749,694	64%	36%
SRR13269317	SRX9699499	SRP298374	SAMN17106712	89,729,734	69%	42%
SRR13269316	SRX9699500	SRP298374	SAMN17106713	59,047,138	66%	41%
SRR13269315	SRX9699501	SRP298374	SAMN17106714	51,808,372	66%	41%
SRR13269314	SRX9699502	SRP298374	SAMN17106715	63,385,072	68%	41%
SRR13269312	SRX9699504	SRP298374	SAMN17106716	50,878,564	66%	41%
SRR13269311	SRX9699505	SRP298374	SAMN17106717	73,102,550	66%	42%
SRR13269310	SRX9699506	SRP298374	SAMN17106718	112,756,792	66%	40%
SRR13269309	SRX9699507	SRP298374	SAMN17106719	66,523,052	65%	42%
SRR13269308	SRX9699508	SRP298374	SAMN17106720	42,231,960	63%	41%
SRR13269370	SRX9699446	SRP298374	SAMN17106721	15,220,930	52%	42%
SRR13269369	SRX9699447	SRP298374	SAMN17106722	32,528,064	69%	40%
SRR13269368	SRX9699448	SRP298374	SAMN17106723	53,431,538	66%	40%
SRR13269367	SRX9699449	SRP298374	SAMN17106724	31,015,002	64%	39%
SRR13269366	SRX9699450	SRP298374	SAMN17106725	40,763,242	56%	35%
SRR13269364	SRX9699452	SRP298374	SAMN17106726	147,209,114	62%	28%
SRR13269363	SRX9699453	SRP298374	SAMN17106727	92,530,538	63%	30%
SRR13269362	SRX9699454	SRP298374	SAMN17106728	34,169,436	59%	35%
SRR13269361	SRX9699455	SRP298374	SAMN17106729	41,325,032	61%	33%
SRR13269360	SRX9699456	SRP298374	SAMN17106730	58,448,348	65%	33%
SRR13269359	SRX9699457	SRP298374	SAMN17106731	50,815,822	65%	30%
SRR13269358	SRX9699458	SRP298374	SAMN17106732	29,873,218	64%	37%
SRR13269339	SRX9699477	SRP298374	SAMN17106733	38,427,466	70%	33%
SRR13269340	SRX9699476	SRP298374	SAMN17106734	175,239,196	63%	26%
SRR13269341	SRX9699475	SRP298374	SAMN17106735	43,008,032	63%	35%
SRR13269343	SRX9699473	SRP298374	SAMN17106736	81,113,726	66%	39%
SRR13269344	SRX9699472	SRP298374	SAMN17106737	13,972,318	55%	35%
SRR13269345	SRX9699471	SRP298374	SAMN17106738	62,563,948	67%	33%
SRR13269346	SRX9699470	SRP298374	SAMN17106739	114,814,376	75%	44%
SRR13269347	SRX9699469	SRP298374	SAMN17106740	87,629,052	72%	43%
SRR13269348	SRX9699468	SRP298374	SAMN17106741	182,829,982	77%	43%
SRR13269349	SRX9699467	SRP298374	SAMN17106742	97,798,504	78%	41%
SRR13269350	SRX9699466	SRP298374	SAMN17106743	130,189,646	75%	39%
SRR13269351	SRX9699465	SRP298374	SAMN17106744	58,565,816	71%	43%
SRR13269326	SRX9699490	SRP298374	SAMN17106745	160,163,676	76%	42%
SRR13269353	SRX9699463	SRP298374	SAMN17106746	252,919,230	77%	44%
SRR13269327	SRX9699489	SRP298374	SAMN17106747	106,621,804	78%	40%
SRR13269328	SRX9699488	SRP298374	SAMN17106748	103,851,174	77%	40%
SRR13269329	SRX9699487	SRP298374	SAMN17106749	73,660,698	77%	40%
SRR13269330	SRX9699486	SRP298374	SAMN17106750	51,426,148	76%	40%
SRR13269331	SRX9699485	SRP298374	SAMN17106751	98,917,858	77%	42%
SRR13269334	SRX9699482	SRP298374	SAMN17106754	119,810,388	76%	41%
SRR13269335	SRX9699481	SRP298374	SAMN17106755	157,041,736	77%	43%
SRR13269355	SRX9699461	SRP298374	SAMN17106756	118,678,800	76%	39%
SRR13269356	SRX9699460	SRP298374	SAMN17106757	112,884,062	76%	44%
SRR13269357	SRX9699459	SRP298374	SAMN17106758	53,267,364	77%	39%
SRR24105878	SRX19906039	SRP431486	SAMN34114873	45,573,628	83%	11%
SRR24105879	SRX19906038	SRP431486	SAMN34114874	35,694,531	82%	10%
SRR24105880	SRX19906037	SRP431486	SAMN34114875	39,283,755	62%	18%
SRR24105881	SRX19906036	SRP431486	SAMN34114876	41,244,433	59%	17%
SRR24105882	SRX19906035	SRP431486	SAMN34114877	48,078,920	80%	9%
SRR24105883	SRX19906034	SRP431486	SAMN34114878	42,909,055	79%	9%
SRR24105884	SRX19906033	SRP431486	SAMN34114879	42,860,088	54%	13%
SRR24105885	SRX19906032	SRP431486	SAMN34114880	55,803,275	49%	12%
SRR24105886	SRX19906031	SRP431486	SAMN34114881	47,411,074	77%	8%
SRR24105887	SRX19906030	SRP431486	SAMN34114882	42,526,122	75%	8%
SRR24105888	SRX19906029	SRP431486	SAMN34114883	39,807,873	75%	11%
SRR24105889	SRX19906028	SRP431486	SAMN34114884	39,404,963	73%	10%
SRR24105890	SRX19906027	SRP431486	SAMN34114885	38,620,674	74%	9%
SRR24105891	SRX19906026	SRP431486	SAMN34114886	40,727,636	73%	9%
SRR24105892	SRX19906025	SRP431486	SAMN34114887	48,479,288	77%	9%
SRR24105893	SRX19906024	SRP431486	SAMN34114888	41,895,940	78%	10%
SRR24105894	SRX19906023	SRP431486	SAMN34114889	42,024,250	75%	7%
SRR24105895	SRX19906022	SRP431486	SAMN34114890	37,977,987	75%	8%
SRR24105896	SRX19906021	SRP431486	SAMN34114891	45,807,744	73%	10%
SRR24105897	SRX19906020	SRP431486	SAMN34114892	44,710,492	70%	10%
SRR24105898	SRX19906019	SRP431486	SAMN34114893	36,978,767	78%	9%
SRR24105899	SRX19906018	SRP431486	SAMN34114894	37,953,323	78%	9%
SRR24105900	SRX19906017	SRP431486	SAMN34114895	40,552,211	78%	8%
SRR24105901	SRX19906016	SRP431486	SAMN34114896	38,802,349	76%	7%
SRR24105902	SRX19906015	SRP431486	SAMN34114897	41,290,566	77%	7%
SRR24105903	SRX19906014	SRP431486	SAMN34114898	47,907,512	75%	7%

Protein alignments

The alignments of the following proteins with ProSplign were used for gene prediction:

Source	Number of sequences retrieved from Entrez	Number (%) of sequences aligned by ProSplign	Number (%) of sequences passed to Gnomon	Average % identity	Average % coverage
Betta splendens high-quality model RefSeq (XP_)	18,343	16,479 (89.84%)	16,479 (89.84%)	66.91%	70.42%
Amblyraja radiata high-quality model RefSeq (XP_)	13,167	13,051 (99.12%)	13,051 (99.12%)	81.93%	88.23%
Actinopterygii GenBank	91,693	77,624 (84.66%)	77,624 (84.66%)	68.11%	74.72%
Actinopterygii known RefSeq (NP_)	25,457	21,805 (85.65%)	21,805 (85.65%)	66.84%	72.71%
Danio rerio high-quality model RefSeq (XP_)	7,712	6,818 (88.41%)	6,818 (88.41%)	66.84%	66.93%
Esox lucius high-quality model RefSeq (XP_)	18,508	16,669 (90.06%)	16,669 (90.06%)	65.90%	69.51%
Xiphophorus maculatus high-quality model RefSeq (XP_)	18,457	16,499 (89.39%)	16,499 (89.39%)	66.29%	69.58%
Xenopus tropicalis high-quality model RefSeq (XP_)	10,217	8,912 (87.23%)	8,912 (87.23%)	68.99%	72.58%
Xenopus tropicalis known RefSeq (NP_)	8,634	7,854 (90.97%)	7,854 (90.97%)	68.23%	76.05%
Homo sapiens known RefSeq (NP_)	66,922	55,370 (82.74%)	55,370 (82.74%)	67.94%	71.08%

References

RefSeq: Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J, Landrum MJ, McGarvey KM, Murphy MR, O'Leary NA, Pujar S, Rajput B, Rangwala SH, Riddick LD, Shkeda A, Sun H, Tamez P, Tully RE, Wallin C, Webb D, Weber J, Wu W, Dicuccio M, Kitts P, Maglott DR, Murphy TD, Ostell JM. Nucleic Acids Research 2014, 42(Database issue):D756-63
BUSCO: Manni M, Berkeley MR, Seppey M, Simão FA, Zdobnov EM. Molecular biology and evolution 2021.38(10):4647-4654
RepeatMasker: Smit AFA, Hubley R, Green P. RepeatMasker Open-3.0. 1996–2004. http://www.repeatmasker.org
WindowMasker: Morgulis A, Gertz EM, Schäffer AA, Agarwala R. Bioinformatics 2006, 2:134-41
Splign: Kapustin Y, Souvorov A, Tatusova T, Lipman D. Biology Direct 2008, 3:20
STAR: Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR. Bioinformatics 2013 Jan 1;29(1):15-21.
Minimap2: Li H. Bioinformatics 2018 Sep 15;34(18):3094-3100

RefSeq

Integrated reference sequences