NCBI Carassius auratus Annotation Release 100

The RefSeq genome records for Carassius auratus were annotated by the NCBI Eukaryotic Genome Annotation Pipeline, an automated pipeline that annotates genes, transcripts and proteins on draft and finished genome assemblies. This report presents statistics on the annotation products, the input data used in the pipeline and intermediate alignment results.

The annotation products are available in the sequence databases and on the FTP site.

This report provides:

Annotation Release information: The name of the release, important dates, the software version
Assemblies: A brief description of the annotated assembly(ies)
Gene and feature statistics: The counts and characteristics of the annotated features
Alignment of the annotated proteins to a set of high-quality proteins: The number of annotated proteins with hits to a set of high-quality proteins
Masking of genomic sequence: How much of the genome was masked
Transcript and protein alignments: The number and type of evidence retrieved from public databases and used for gene prediction

For more information on the annotation process, please visit the NCBI Eukaryotic Genome Annotation Pipeline page.

Annotation Release information

This annotation should be referred to as NCBI Carassius auratus Annotation Release 100

Annotation release ID: 100
Date of Entrez queries for transcripts and proteins: Aug 30 2018
Date of submission of annotation to the public databases: Sep 5 2018
Software version: 8.1

Assemblies

The following assemblies were included in this annotation run:

Assembly name	Assembly accession	Submitter	Assembly date	Reference/Alternate	Assembly content
ASM336829v1	GCF_003368295.1	National Institutes of Health	08-09-2018	Reference	60 assembled chromosomes; unplaced scaffolds

Gene and feature statistics

Counts and length of annotated features are provided below for each assembly.

Feature counts

Feature	ASM336829v1
Genes and pseudogenes	83,650
protein-coding	53,065
non-coding	22,671
transcribed pseudogenes	26
non-transcribed pseudogenes	7,339
genes with variants	20,720
immunoglobulin/T-cell receptor gene segments	549
other	0
mRNAs	96,690
fully-supported	92,634
with > 5% ab initio	1,711
partial	978
with filled gap(s)	50
known RefSeq (NM_)	0
model RefSeq (XM_)	96,690
non-coding RNAs	26,715
fully-supported	10,951
with > 5% ab initio	0
partial	0
with filled gap(s)	0
known RefSeq (NR_)	0
model RefSeq (XR_)	20,026
pseudo transcripts	29
fully-supported	25
with > 5% ab initio	0
partial	0
with filled gap(s)	0
known RefSeq (NR_)	0
model RefSeq (XR_)	29
CDSs	97,252
fully-supported	92,634
with > 5% ab initio	1,992
partial	986
with major correction(s)	828
known RefSeq (NP_)	13
model RefSeq (XP_)	96,690

Detailed reports

The counts below do not include pseudogenes.

Feature lengths

Feature	Count	Mean length (bp)	Median length (bp)	Min length (bp)	Max length (bp)
Genes	75,736	12,662	4,781	54	1,160,083
All transcripts	123,405	2,781	2,195	54	91,332
mRNA	96,690	3,370	2,673	219	91,332
misc_RNA	1,960	2,921	2,384	167	26,726
tRNA	6,687	74	73	69	89
lncRNA	8,991	1,100	795	78	12,752
snoRNA	443	125	125	59	301
snRNA	774	154	164	54	199
guide_RNA	22	247	273	127	386
rRNA	7,838	126	119	116	4,077
Single-exon transcripts	1,744	1,693	1,321	248	10,517
coding transcripts (NM_/XM_ )	1,744	1,693	1,321	248	10,517
CDSs	96,703	2,172	1,500	99	90,042
Exons	614,178	283	139	1	24,036
in coding transcripts (NM_/XM_ )	584,183	281	139	1	24,036
in non-coding transcripts (NR_/XR_ )	42,195	285	134	2	9,309
Introns	544,301	1,763	390	30	1,156,892
in coding transcripts (NM_/XM_ )	523,420	1,760	389	30	1,156,892
in non-coding transcripts (NR_/XR_ )	32,835	1,823	408	30	999,069

Transcripts per gene, exons per transcript

	Mean	Median	Min	Max
Number of transcripts per gene	1.69	1	1	50
Number of exons per transcript	11.55	8	1	232

Alignment of the annotated proteins to a set of high-quality proteins

The final set of annotated proteins was searched with BLASTP against the UniProtKB/Swiss-Prot curated proteins, using the annotated proteins as the query and the high-quality proteins as the target. Out of 53052 coding genes, 47764 genes had a protein with an alignment covering 50% or more of the query and 25057 had an alignment covering 95% or more of the query.

Definition of query and target coverage. The query coverage is the percentage of the annotated protein length that is included in the alignment. The target coverage is the percentage of the target length that is included in the alignment.

Below is a cumulative graph displaying the number of genes with alignments above a given query or target coverage threshold. For comparison, corresponding statistics for other organisms annotated by the NCBI eukaryotic annotation pipeline were added to the graph.

Query: annotated proteins
Target: UniProtKB/Swiss-Prot curated proteins

Masking of genomic sequence

Transcript and protein alignments are performed on the repeat-masked genome. Below are the percentages of genomic sequence masked by WindowMasker and RepeatMasker for each assembly. RepeatMasker results are only used for organisms for which a comprehensive repeat library is available.

For this annotation run, transcripts and proteins were aligned to the genome masked with WindowMasker only.

Assembly name	Assembly accession	% Masked with RepeatMasker	% Masked with WindowMasker
ASM336829v1	GCF_003368295.1	5.39%	39.47%

Transcript and protein alignments

The annotation pipeline relies heavily on alignments of experimental evidence for gene prediction. Below are the sets of transcripts and proteins that were retrieved from Entrez, aligned to the genome by Splign or ProSplign and passed to Gnomon, NCBI's gene prediction software.

Depending on the other evidence available, long 454 reads (with average length above 250 nt) may be aligned as traditional evidence and reported in the Transcript alignments section or aligned with RNA-Seq reads and reported in the RNA-Seq alignments section.

Transcript alignments

Source	Number of sequences retrieved from Entrez	Number (%) of sequences aligned by Splign	Number (%) of sequences passed to Gnomon	Average % identity	Average % coverage
Same-species Genbank	1,264	1,245 (98.50%)	1,109 (87.74%)	98.86%	98.87%
Same-species EST	11,310	9,864 (87.21%)	8,885 (78.56%)	98.85%	97.43%

RNA-Seq alignments

The following RNA-Seq reads from the Sequence Read Archive were also used for gene prediction:

Hide alignments statistics, by sample (SAME, SAMN, SAMD, DRS)

Sample Id	Publication	Track name	Number of reads	Percent aligned reads	Percent of aligned reads with introns	Number of introns
All	NA	Aggregate of all aligned samples	4,293,088,470	84%	36%	668,575
SAMD00013508	24569511	Goldfish Transcriptome (Carassius auratus, SAMD00013508)	98,012,856	80%	29%	396,569
SAMEA3856494	27708388	MAP-1 (Carassius auratus, SAMEA3856494)	24,285,024	81%	34%	427,366
SAMEA3856495	27708388	MAP-2 (Carassius auratus, SAMEA3856495)	20,076,650	80%	33%	418,193
SAMEA3856496	27708388	MAP-3; goldfish linkage map (Carassius auratus, SAMEA3856496)	22,287,378	88%	33%	415,124
SAMEA3856497	27708388	MAP-4 (Carassius auratus, SAMEA3856497)	22,080,396	89%	34%	398,076
SAMEA3856498	27708388	MAP-6; goldfish linkage map (Carassius auratus, SAMEA3856498)	20,706,286	87%	32%	414,201
SAMEA3856499	27708388	MAP-8 (Carassius auratus, SAMEA3856499)	23,202,930	86%	33%	410,679
SAMEA3856500	27708388	MAP-9 (Carassius auratus, SAMEA3856500)	21,934,436	84%	33%	407,842
SAMEA3856501	27708388	MAP-11 (Carassius auratus, SAMEA3856501)	22,362,056	84%	32%	423,126
SAMEA3856502	27708388	MAP-12 (Carassius auratus, SAMEA3856502)	22,280,896	85%	32%	395,407
SAMEA3856503	27708388	MAP-14 (Carassius auratus, SAMEA3856503)	20,027,718	88%	33%	377,433
SAMEA3856504	27708388	MAP-15 (Carassius auratus, SAMEA3856504)	19,256,148	82%	33%	383,962
SAMEA3856505	27708388	MAP-16 (Carassius auratus, SAMEA3856505)	25,803,512	82%	31%	424,145
SAMEA3856506	27708388	MAP-17 (Carassius auratus, SAMEA3856506)	22,404,554	87%	31%	411,947
SAMEA3856507	27708388	MAP-18 (Carassius auratus, SAMEA3856507)	24,248,204	84%	32%	414,123
SAMEA3856508	27708388	MAP-19; goldfish linkage map (Carassius auratus, SAMEA3856508)	28,963,590	86%	32%	436,632
SAMEA3856509	27708388	MAP-20 (Carassius auratus, SAMEA3856509)	21,160,978	81%	33%	398,953
SAMEA3856510	27708388	MAP-21 (Carassius auratus, SAMEA3856510)	23,527,978	84%	32%	419,752
SAMEA3856511	27708388	MAP-22; goldfish linkage map (Carassius auratus, SAMEA3856511)	28,581,652	82%	31%	437,464
SAMEA3856512	27708388	MAP-23 (Carassius auratus, SAMEA3856512)	22,076,156	86%	34%	417,655
SAMEA3856513	27708388	MAP-24 (Carassius auratus, SAMEA3856513)	23,165,178	87%	31%	430,178
SAMEA3856514	27708388	MAP-25 (Carassius auratus, SAMEA3856514)	23,683,978	86%	33%	435,667
SAMEA3856515	27708388	MAP-26 (Carassius auratus, SAMEA3856515)	23,684,644	87%	33%	422,794
SAMEA3856516	27708388	MAP-27 (Carassius auratus, SAMEA3856516)	21,734,234	87%	33%	417,898
SAMEA3856517	27708388	MAP-28 (Carassius auratus, SAMEA3856517)	21,672,002	88%	32%	425,710
SAMEA3856518	27708388	MAP-29 (Carassius auratus, SAMEA3856518)	20,185,962	88%	33%	419,632
SAMEA3856519	27708388	MAP-30; goldfish linkage map (Carassius auratus, SAMEA3856519)	23,741,442	87%	31%	434,842
SAMEA3856520	27708388	MAP-31; goldfish linkage map (Carassius auratus, SAMEA3856520)	22,580,402	83%	32%	426,077
SAMEA3856521	27708388	MAP-32; goldfish linkage map (Carassius auratus, SAMEA3856521)	22,525,284	83%	34%	426,106
SAMEA3856522	27708388	MAP-35; goldfish linkage map (Carassius auratus, SAMEA3856522)	22,895,046	84%	34%	425,858
SAMEA3856523	27708388	MAP-36; goldfish linkage map (Carassius auratus, SAMEA3856523)	21,921,822	89%	33%	423,441
SAMEA3856524	27708388	MAP-38; goldfish linkage map (Carassius auratus, SAMEA3856524)	27,049,372	88%	33%	431,317
SAMEA3856525	27708388	MAP-39; goldfish linkage map (Carassius auratus, SAMEA3856525)	44,347,164	88%	33%	481,071
SAMEA3856526	27708388	MAP-40; goldfish linkage map (Carassius auratus, SAMEA3856526)	24,248,662	89%	26%	423,801
SAMEA3856527	27708388	MAP-41; goldfish linkage map (Carassius auratus, SAMEA3856527)	20,637,488	83%	33%	417,617
SAMEA3856528	27708388	MAP-42; goldfish linkage map (Carassius auratus, SAMEA3856528)	20,858,962	89%	33%	411,056
SAMEA3856529	27708388	MAP-43 (Carassius auratus, SAMEA3856529)	25,114,142	90%	28%	419,843
SAMEA3856530	27708388	MAP-44 (Carassius auratus, SAMEA3856530)	20,769,390	89%	23%	401,410
SAMEA3856531	27708388	MAP-45; goldfish linkage map (Carassius auratus, SAMEA3856531)	22,264,834	88%	32%	421,995
SAMEA3856532	27708388	MAP-47; goldfish linkage map (Carassius auratus, SAMEA3856532)	24,164,380	90%	31%	414,496
SAMEA3856533	27708388	MAP-48 (Carassius auratus, SAMEA3856533)	18,734,008	89%	30%	397,306
SAMEA3856534	27708388	MAP-51 (Carassius auratus, SAMEA3856534)	22,028,864	88%	23%	373,292
SAMEA3856535	27708388	MAP-53 (Carassius auratus, SAMEA3856535)	19,450,334	87%	20%	349,597
SAMEA3856536	27708388	MAP-56 (Carassius auratus, SAMEA3856536)	20,283,248	88%	34%	422,565
SAMEA3856537	27708388	MAP-60 (Carassius auratus, SAMEA3856537)	16,755,308	87%	33%	410,941
SAMEA3856538	27708388	MAP-61 (Carassius auratus, SAMEA3856538)	24,206,708	86%	32%	441,365
SAMEA3856539	27708388	MAP-62 (Carassius auratus, SAMEA3856539)	22,989,766	88%	33%	423,175
SAMEA3856540	27708388	MAP-63 (Carassius auratus, SAMEA3856540)	22,345,892	90%	23%	404,943
SAMEA3856541	27708388	MAP-64 (Carassius auratus, SAMEA3856541)	22,201,418	82%	34%	417,659
SAMEA3856542	27708388	MAP-65 (Carassius auratus, SAMEA3856542)	24,701,312	87%	32%	415,734
SAMEA3856543	27708388	MAP-68 (Carassius auratus, SAMEA3856543)	15,601,796	82%	31%	350,294
SAMEA3856544	27708388	MAP-69 (Carassius auratus, SAMEA3856544)	22,432,542	86%	31%	410,674
SAMEA3856545	27708388	MAP-70 (Carassius auratus, SAMEA3856545)	17,048,156	79%	32%	391,818
SAMEA3856546	27708388	MAP-71 (Carassius auratus, SAMEA3856546)	18,846,122	84%	32%	400,555
SAMEA3856547	27708388	MAP-72 (Carassius auratus, SAMEA3856547)	19,304,774	83%	32%	409,731
SAMEA3856548	27708388	MAP-73 (Carassius auratus, SAMEA3856548)	21,753,622	79%	32%	419,886
SAMEA3856549	27708388	MAP-74 (Carassius auratus, SAMEA3856549)	14,112,500	87%	30%	355,495
SAMEA3856550	27708388	MAP-75 (Carassius auratus, SAMEA3856550)	22,641,752	86%	33%	424,184
SAMEA3856551	27708388	MAP-77 (Carassius auratus, SAMEA3856551)	18,534,578	88%	24%	346,789
SAMEA3856552	27708388	MAP-78 (Carassius auratus, SAMEA3856552)	17,343,206	86%	33%	400,882
SAMEA3856553	27708388	MAP-79 (Carassius auratus, SAMEA3856553)	20,537,400	87%	28%	417,867
SAMEA3856554	27708388	MAP-80 (Carassius auratus, SAMEA3856554)	18,954,788	87%	33%	415,519
SAMEA3856555	27708388	MAP-81 (Carassius auratus, SAMEA3856555)	19,667,548	80%	32%	402,520
SAMEA3856556	27708388	MAP-82 (Carassius auratus, SAMEA3856556)	24,051,910	87%	33%	429,128
SAMEA3856557	27708388	MAP-83 (Carassius auratus, SAMEA3856557)	21,859,806	87%	33%	431,648
SAMEA3856558	27708388	MAP-84 (Carassius auratus, SAMEA3856558)	21,280,658	83%	34%	416,397
SAMEA3856559	27708388	MAP-85 (Carassius auratus, SAMEA3856559)	14,126,912	87%	35%	387,046
SAMEA3856560	27708388	MAP-86 (Carassius auratus, SAMEA3856560)	25,643,438	87%	23%	416,330
SAMEA3856561	27708388	MAP-87 (Carassius auratus, SAMEA3856561)	19,978,608	87%	34%	426,566
SAMEA3856562	27708388	MAP-88 (Carassius auratus, SAMEA3856562)	19,708,884	81%	30%	404,755
SAMEA3856563	27708388	MAP-89 (Carassius auratus, SAMEA3856563)	17,773,532	79%	32%	410,191
SAMEA3856564	27708388	MAP-90 (Carassius auratus, SAMEA3856564)	17,139,014	87%	33%	415,558
SAMEA3856565	27708388	MAP-91 (Carassius auratus, SAMEA3856565)	17,971,876	84%	32%	407,079
SAMEA3856566	27708388	MAP-92 (Carassius auratus, SAMEA3856566)	21,799,796	87%	32%	423,834
SAMEA3856567	27708388	MAP-93 (Carassius auratus, SAMEA3856567)	16,520,856	86%	34%	403,705
SAMEA3856568	27708388	MAP-94 (Carassius auratus, SAMEA3856568)	17,113,080	85%	33%	398,299
SAMEA3856569	27708388	MAP-95 (Carassius auratus, SAMEA3856569)	19,507,948	86%	34%	416,602
SAMEA3856570	27708388	MAP-96 (Carassius auratus, SAMEA3856570)	18,271,358	87%	31%	406,874
SAMEA3856571	27708388	MAP-97 (Carassius auratus, SAMEA3856571)	15,612,174	87%	33%	399,497
SAMEA3856572	27708388	MAP-98 (Carassius auratus, SAMEA3856572)	14,107,166	87%	34%	380,768
SAMEA3856573	27708388	MAP-Sire (Carassius auratus, SAMEA3856573)	21,150,350	68%	21%	354,302
SAMEA3856574	27708388	MAP-Dam (Carassius auratus, SAMEA3856574)	25,949,780	78%	26%	293,279
SAMEA4552928	NA	Fast skeletal muscle (Carassius auratus, SAMEA4552928)	2,293,072	89%	42%	167,575
SAMEA4552929	NA	Fast skeletal muscle (Carassius auratus, SAMEA4552929)	4,063,032	89%	41%	233,901
SAMN00780320	NA	liver (Carassius auratus red var., SAMN00780320)	850,537	64%	70%	49,223
SAMN01109300	NA	Transcriptome analysis of crucian carp (Carassius auratus) (Carassius auratus, SAMN01109300)	2,620,642	67%	10%	42,439
SAMN01110263	NA	Transcriptome sequence of red crucian carp by using Illumina GAII (Carassius auratus red var., SAMN01110263)	100,035,305	73%	29%	339,180
SAMN02214199	NA	General Sample for Carassius auratus red var. (Carassius auratus red var., SAMN02214199)	24,271,076	81%	35%	406,358
SAMN02420194	NA	General Sample for Carassius auratus (Carassius auratus, male, SAMN02420194)	71,101,520	88%	37%	493,554
SAMN02420195	NA	General Sample for female Carassius auratus (Carassius auratus, female, SAMN02420195)	63,852,376	83%	38%	359,057
SAMN02726260	NA	Skin (Carassius auratus, 1, male, SAMN02726260)	65,108,584	88%	40%	417,629
SAMN02726261	NA	head kidney (Carassius auratus, 1, male, SAMN02726261)	78,610,262	41%	13%	327,772
SAMN02950729	NA	liver (Carassius auratus red var., 2 year old, female, SAMN02950729)	100,391,950	89%	38%	261,140
SAMN03488066	NA	brain, muscle, liver, skin, kidney, gill, intestine, gonad, spleen, and heart (Carassius auratus, one year, not determined, SAMN03488066)	26,045,474	79%	36%	385,257
SAMN03765698	NA	Dissected (Carassius auratus, Adult, not collected, SAMN03765698)	124,008,392	81%	26%	510,924
SAMN05364087	NA	Spleen (Carassius auratus langsdorfii, 12 to 18 months, not determined, SAMN05364087)	47,835,907	87%	30%	384,010
SAMN07313354	NA	skin (Carassius auratus red var., 2 years, female, SAMN07313354)	205,876,274	84%	36%	463,510
SAMN07418467	NA	liver (Carassius auratus, 15 months old, not determined, SAMN07418467)	20,672,418	140%	57%	240,457
SAMN07508213	NA	liver (Carassius auratus, 15 months old, not determined, SAMN07508213)	25,745,135	100%	32%	183,877
SAMN07637256	NA	blood (Carassius auratus, adult, not determined, SAMN07637256)	48,455,148	88%	55%	297,691
SAMN07644397	NA	blood (Carassius auratus, adult, not determined, SAMN07644397)	46,237,958	89%	61%	265,882
SAMN07652556	NA	blood (Carassius auratus, adult, not determined, SAMN07652556)	39,596,926	89%	58%	264,904
SAMN07660547	NA	blood (Carassius auratus, adult, not determined, SAMN07660547)	43,426,692	90%	59%	270,953
SAMN07829745	29097753	hypothalamus and telencephalon, radial glial cell, (Carassius auratus, female, SAMN07829745)	27,933,702	87%	42%	320,145
SAMN07829746	29097753	hypothalamus and telencephalon, radial glial cell, (Carassius auratus, female, SAMN07829746)	30,067,316	88%	42%	329,644
SAMN07829747	29097753	hypothalamus and telencephalon, radial glial cell, (Carassius auratus, female, SAMN07829747)	30,582,732	88%	43%	334,537
SAMN07829748	29097753	hypothalamus and telencephalon, radial glial cell, (Carassius auratus, female, SAMN07829748)	33,730,778	88%	43%	338,960
SAMN07829749	29097753	hypothalamus and telencephalon, radial glial cell, (Carassius auratus, female, SAMN07829749)	20,609,484	87%	41%	300,567
SAMN07829750	29097753	hypothalamus and telencephalon, radial glial cell, (Carassius auratus, female, SAMN07829750)	22,297,064	88%	42%	308,463
SAMN07829751	29097753	hypothalamus and telencephalon, radial glial cell, (Carassius auratus, female, SAMN07829751)	27,671,840	88%	43%	326,616
SAMN07829752	29097753	hypothalamus and telencephalon, radial glial cell, (Carassius auratus, female, SAMN07829752)	73,897,834	86%	35%	366,735
SAMN07829753	29097753	hypothalamus and telencephalon, radial glial cell, (Carassius auratus, female, SAMN07829753)	32,336,084	88%	43%	336,098
SAMN07829754	29097753	hypothalamus and telencephalon, radial glial cell, (Carassius auratus, female, SAMN07829754)	28,156,592	85%	37%	306,469
SAMN08812970	NA	Embryo (Carassius auratus, SAMN08812970)	53,803,484	86%	42%	399,590
SAMN08813009	NA	Embryo (Carassius auratus, not determined, SAMN08813009)	54,330,908	87%	41%	401,491
SAMN08813010	NA	Embryo (Carassius auratus, not determined, SAMN08813010)	46,787,356	86%	42%	397,958
SAMN08813013	NA	Embryo (Carassius auratus, not determined, SAMN08813013)	51,188,066	87%	44%	442,764
SAMN08813014	NA	Embryo (Carassius auratus, not determined, SAMN08813014)	60,943,450	87%	42%	442,030
SAMN08813016	NA	Embryo (Carassius auratus, not determined, SAMN08813016)	51,046,974	87%	46%	446,004
SAMN08813017	NA	Embryo (Carassius auratus, not determined, SAMN08813017)	54,233,244	84%	45%	397,201
SAMN08813018	NA	Embryo (Carassius auratus, not determined, SAMN08813018)	47,167,242	86%	42%	389,633
SAMN08813019	NA	Embryo (Carassius auratus, not determined, SAMN08813019)	54,685,866	85%	40%	400,179
SAMN08813021	NA	Embryo (Carassius auratus, not determined, SAMN08813021)	60,772,490	87%	45%	453,116
SAMN08813022	NA	Embryo (Carassius auratus, not determined, SAMN08813022)	47,525,900	84%	44%	441,902
SAMN08813023	NA	Embryo (Carassius auratus, not determined, SAMN08813023)	51,058,746	88%	47%	450,551
SAMN09907422	NA	Skeletal Bone, Skeletal bone, (Carassius auratus, not determined, SAMN09907422)	182,860,514	80%	35%	444,852
SAMN09907426	NA	Skeletal Muscle, Skeletal Muscle, (Carassius auratus, not determined, SAMN09907426)	167,735,550	83%	39%	339,054

Show alignments statistics, by run (ERR, SRR, DRR)

Run	Experiment	Project	Sample	Number of reads	Percent aligned reads	Percent of aligned reads with introns
DRR014529	DRX013049	DRP001289	SAMD00013508	98,012,856	80%	29%
ERR1227801	ERX1299853	ERP014006	SAMEA3856494	24,285,024	81%	34%
ERR1227803	ERX1299855	ERP014006	SAMEA3856495	20,076,650	80%	33%
ERR1227804	ERX1299856	ERP014006	SAMEA3856496	22,287,378	88%	33%
ERR1227805	ERX1299857	ERP014006	SAMEA3856497	22,080,396	89%	34%
ERR1227806	ERX1299858	ERP014006	SAMEA3856498	20,706,286	87%	32%
ERR1227792	ERX1299844	ERP014006	SAMEA3856499	23,202,930	86%	33%
ERR1227793	ERX1299845	ERP014006	SAMEA3856500	21,934,436	84%	33%
ERR1227788	ERX1299840	ERP014006	SAMEA3856501	22,362,056	84%	32%
ERR1227789	ERX1299841	ERP014006	SAMEA3856502	22,280,896	85%	32%
ERR1227795	ERX1299847	ERP014006	SAMEA3856503	20,027,718	88%	33%
ERR1227796	ERX1299848	ERP014006	SAMEA3856504	19,256,148	82%	33%
ERR1227797	ERX1299849	ERP014006	SAMEA3856505	25,803,512	82%	31%
ERR1227798	ERX1299850	ERP014006	SAMEA3856506	22,404,554	87%	31%
ERR1227799	ERX1299851	ERP014006	SAMEA3856507	24,248,204	84%	32%
ERR1227800	ERX1299852	ERP014006	SAMEA3856508	28,963,590	86%	32%
ERR1227802	ERX1299854	ERP014006	SAMEA3856509	21,160,978	81%	33%
ERR1227808	ERX1299860	ERP014006	SAMEA3856510	23,527,978	84%	32%
ERR1227809	ERX1299861	ERP014006	SAMEA3856511	28,581,652	82%	31%
ERR1227810	ERX1299862	ERP014006	SAMEA3856512	22,076,156	86%	34%
ERR1227868	ERX1299920	ERP014006	SAMEA3856513	23,165,178	87%	31%
ERR1227790	ERX1299842	ERP014006	SAMEA3856514	23,683,978	86%	33%
ERR1227811	ERX1299863	ERP014006	SAMEA3856515	23,684,644	87%	33%
ERR1227791	ERX1299843	ERP014006	SAMEA3856516	21,734,234	87%	33%
ERR1227812	ERX1299864	ERP014006	SAMEA3856517	21,672,002	88%	32%
ERR1227813	ERX1299865	ERP014006	SAMEA3856518	20,185,962	88%	33%
ERR1227814	ERX1299866	ERP014006	SAMEA3856519	23,741,442	87%	31%
ERR1227815	ERX1299867	ERP014006	SAMEA3856520	22,580,402	83%	32%
ERR1227816	ERX1299868	ERP014006	SAMEA3856521	22,525,284	83%	34%
ERR1227817	ERX1299869	ERP014006	SAMEA3856522	22,895,046	84%	34%
ERR1227818	ERX1299870	ERP014006	SAMEA3856523	21,921,822	89%	33%
ERR1227819	ERX1299871	ERP014006	SAMEA3856524	27,049,372	88%	33%
ERR1227820	ERX1299872	ERP014006	SAMEA3856525	44,347,164	88%	33%
ERR1227821	ERX1299873	ERP014006	SAMEA3856526	24,248,662	89%	26%
ERR1227822	ERX1299874	ERP014006	SAMEA3856527	20,637,488	83%	33%
ERR1227823	ERX1299875	ERP014006	SAMEA3856528	20,858,962	89%	33%
ERR1227824	ERX1299876	ERP014006	SAMEA3856529	25,114,142	90%	28%
ERR1227825	ERX1299877	ERP014006	SAMEA3856530	20,769,390	89%	23%
ERR1227826	ERX1299878	ERP014006	SAMEA3856531	22,264,834	88%	32%
ERR1227827	ERX1299879	ERP014006	SAMEA3856532	24,164,380	90%	31%
ERR1227828	ERX1299880	ERP014006	SAMEA3856533	18,734,008	89%	30%
ERR1227829	ERX1299881	ERP014006	SAMEA3856534	22,028,864	88%	23%
ERR1227830	ERX1299882	ERP014006	SAMEA3856535	19,450,334	87%	20%
ERR1227831	ERX1299883	ERP014006	SAMEA3856536	20,283,248	88%	34%
ERR1227832	ERX1299884	ERP014006	SAMEA3856537	16,755,308	87%	33%
ERR1227833	ERX1299885	ERP014006	SAMEA3856538	24,206,708	86%	32%
ERR1227834	ERX1299886	ERP014006	SAMEA3856539	22,989,766	88%	33%
ERR1227835	ERX1299887	ERP014006	SAMEA3856540	22,345,892	90%	23%
ERR1227836	ERX1299888	ERP014006	SAMEA3856541	22,201,418	82%	34%
ERR1227837	ERX1299889	ERP014006	SAMEA3856542	24,701,312	87%	32%
ERR1227838	ERX1299890	ERP014006	SAMEA3856543	15,601,796	82%	31%
ERR1227839	ERX1299891	ERP014006	SAMEA3856544	22,432,542	86%	31%
ERR1227840	ERX1299892	ERP014006	SAMEA3856545	17,048,156	79%	32%
ERR1227841	ERX1299893	ERP014006	SAMEA3856546	18,846,122	84%	32%
ERR1227842	ERX1299894	ERP014006	SAMEA3856547	19,304,774	83%	32%
ERR1227843	ERX1299895	ERP014006	SAMEA3856548	21,753,622	79%	32%
ERR1227844	ERX1299896	ERP014006	SAMEA3856549	14,112,500	87%	30%
ERR1227845	ERX1299897	ERP014006	SAMEA3856550	22,641,752	86%	33%
ERR1227846	ERX1299898	ERP014006	SAMEA3856551	18,534,578	88%	24%
ERR1227847	ERX1299899	ERP014006	SAMEA3856552	17,343,206	86%	33%
ERR1227848	ERX1299900	ERP014006	SAMEA3856553	20,537,400	87%	28%
ERR1227849	ERX1299901	ERP014006	SAMEA3856554	18,954,788	87%	33%
ERR1227850	ERX1299902	ERP014006	SAMEA3856555	19,667,548	80%	32%
ERR1227851	ERX1299903	ERP014006	SAMEA3856556	24,051,910	87%	33%
ERR1227852	ERX1299904	ERP014006	SAMEA3856557	21,859,806	87%	33%
ERR1227853	ERX1299905	ERP014006	SAMEA3856558	21,280,658	83%	34%
ERR1227854	ERX1299906	ERP014006	SAMEA3856559	14,126,912	87%	35%
ERR1227855	ERX1299907	ERP014006	SAMEA3856560	25,643,438	87%	23%
ERR1227856	ERX1299908	ERP014006	SAMEA3856561	19,978,608	87%	34%
ERR1227857	ERX1299909	ERP014006	SAMEA3856562	19,708,884	81%	30%
ERR1227858	ERX1299910	ERP014006	SAMEA3856563	17,773,532	79%	32%
ERR1227859	ERX1299911	ERP014006	SAMEA3856564	17,139,014	87%	33%
ERR1227860	ERX1299912	ERP014006	SAMEA3856565	17,971,876	84%	32%
ERR1227861	ERX1299913	ERP014006	SAMEA3856566	21,799,796	87%	32%
ERR1227862	ERX1299914	ERP014006	SAMEA3856567	16,520,856	86%	34%
ERR1227863	ERX1299915	ERP014006	SAMEA3856568	17,113,080	85%	33%
ERR1227864	ERX1299916	ERP014006	SAMEA3856569	19,507,948	86%	34%
ERR1227865	ERX1299917	ERP014006	SAMEA3856570	18,271,358	87%	31%
ERR1227866	ERX1299918	ERP014006	SAMEA3856571	15,612,174	87%	33%
ERR1227867	ERX1299919	ERP014006	SAMEA3856572	14,107,166	87%	34%
ERR1227807	ERX1299859	ERP014006	SAMEA3856573	21,150,350	68%	21%
ERR1227794	ERX1299846	ERP014006	SAMEA3856574	25,949,780	78%	26%
ERR1735896	ERX1805731	ERP019892	SAMEA4552928	2,293,072	89%	42%
ERR1735897	ERX1805732	ERP019892	SAMEA4552929	4,063,032	89%	41%
SRR404228	SRX118433	SRP010735	SAMN00780320	100,103	58%	63%
SRR404229	SRX118434	SRP010735	SAMN00780320	329,046	64%	72%
SRR404230	SRX118435	SRP010735	SAMN00780320	91,751	66%	73%
SRR404231	SRX118436	SRP010735	SAMN00780320	329,637	65%	70%
SRR609299	SRX174595	SRP014748	SAMN01109300	604,576	68%	6%
SRR609300	SRX174595	SRP014748	SAMN01109300	685,222	66%	13%
SRR609301	SRX174595	SRP014748	SAMN01109300	700,667	78%	6%
SRR609302	SRX174595	SRP014748	SAMN01109300	630,177	53%	18%
SRR538839	SRX176547	SRP014837	SAMN01110263	66,905,738	69%	27%
SRR542431	SRX177691	SRP014837	SAMN01110263	33,129,567	81%	31%
SRR924100	SRX316744	SRP026408	SAMN02214199	24,271,076	81%	35%
SRR1038441	SRX375790	SRP032931	SAMN02420194	71,101,520	88%	37%
SRR1038442	SRX383859	SRP032931	SAMN02420195	63,852,376	83%	38%
SRR3201329	SRX1610992	SRP045209	SAMN02950729	40,000,000	90%	35%
SRR1535135	SRX668453	SRP045209	SAMN02950729	60,391,950	89%	39%
SRR2191514	SRX1167030	SRP051553	SAMN02726260	65,108,584	88%	40%
SRR2191513	SRX824442	SRP051553	SAMN02726261	78,610,262	41%	13%
SRR1980635	SRX999529	SRP057403	SAMN03488066	26,045,474	79%	36%
SRR2060961	SRX1056935	SRP059403	SAMN03765698	17,444,618	81%	25%
SRR2061049	SRX1056935	SRP059403	SAMN03765698	26,313,076	81%	27%
SRR2061050	SRX1056935	SRP059403	SAMN03765698	20,528,296	79%	25%
SRR2061051	SRX1056935	SRP059403	SAMN03765698	21,395,908	81%	26%
SRR2061052	SRX1056935	SRP059403	SAMN03765698	20,061,598	82%	26%
SRR2061053	SRX1056935	SRP059403	SAMN03765698	18,264,896	81%	26%
SRR3944611	SRX1903524	SRP059469	SAMN05364087	47,835,907	87%	30%
SRR5813864	SRX2981769	SRP111035	SAMN07313354	205,876,274	84%	36%
SRR5873932	SRX3041134	SRP113650	SAMN07418467	20,672,418	140%	57%
SRR5936567	SRX3096523	SRP115452	SAMN07508213	25,745,135	100%	32%
SRR6031360	SRX3181588	SRP117466	SAMN07637256	48,455,148	88%	55%
SRR6037142	SRX3185708	SRP117466	SAMN07644397	46,237,958	89%	61%
SRR6040091	SRX3188220	SRP117466	SAMN07652556	39,596,926	89%	58%
SRR6047126	SRX3194182	SRP117466	SAMN07660547	43,426,692	90%	59%
SRR6207422	SRX3316710	SRP121283	SAMN07829745	21,229,068	88%	42%
SRR6207423	SRX3316710	SRP121283	SAMN07829745	6,704,634	86%	42%
SRR6207439	SRX3316719	SRP121283	SAMN07829746	15,010,222	87%	42%
SRR6207440	SRX3316719	SRP121283	SAMN07829746	15,057,094	88%	42%
SRR6207437	SRX3316718	SRP121283	SAMN07829747	15,854,298	88%	43%
SRR6207438	SRX3316718	SRP121283	SAMN07829747	14,728,434	88%	43%
SRR6207435	SRX3316717	SRP121283	SAMN07829748	16,713,524	88%	43%
SRR6207436	SRX3316717	SRP121283	SAMN07829748	17,017,254	88%	43%
SRR6207433	SRX3316716	SRP121283	SAMN07829749	10,584,614	88%	41%
SRR6207434	SRX3316716	SRP121283	SAMN07829749	10,024,870	87%	41%
SRR6207431	SRX3316715	SRP121283	SAMN07829750	11,682,660	88%	42%
SRR6207432	SRX3316715	SRP121283	SAMN07829750	10,614,404	88%	42%
SRR6207429	SRX3316714	SRP121283	SAMN07829751	14,384,676	88%	43%
SRR6207430	SRX3316714	SRP121283	SAMN07829751	13,287,164	88%	43%
SRR6207428	SRX3316713	SRP121283	SAMN07829752	73,897,834	86%	35%
SRR6207426	SRX3316712	SRP121283	SAMN07829753	15,900,112	88%	43%
SRR6207427	SRX3316712	SRP121283	SAMN07829753	16,435,972	89%	43%
SRR6207424	SRX3316711	SRP121283	SAMN07829754	13,775,562	85%	37%
SRR6207425	SRX3316711	SRP121283	SAMN07829754	14,381,030	85%	37%
SRR6981196	SRX3921619	SRP139414	SAMN08812970	53,803,484	86%	42%
SRR6981193	SRX3921622	SRP139414	SAMN08813009	54,330,908	87%	41%
SRR6981194	SRX3921621	SRP139414	SAMN08813010	46,787,356	86%	42%
SRR6981195	SRX3921620	SRP139414	SAMN08813013	51,188,066	87%	44%
SRR6981200	SRX3921615	SRP139414	SAMN08813014	60,943,450	87%	42%
SRR6981201	SRX3921614	SRP139414	SAMN08813016	51,046,974	87%	46%
SRR6981198	SRX3921617	SRP139414	SAMN08813017	54,233,244	84%	45%
SRR6981199	SRX3921616	SRP139414	SAMN08813018	47,167,242	86%	42%
SRR6981191	SRX3921624	SRP139414	SAMN08813019	54,685,866	85%	40%
SRR6981192	SRX3921623	SRP139414	SAMN08813021	60,772,490	87%	45%
SRR6981190	SRX3921625	SRP139414	SAMN08813022	47,525,900	84%	44%
SRR6981197	SRX3921618	SRP139414	SAMN08813023	51,058,746	88%	47%
SRR7749870	SRX4605804	SRP154139	SAMN09907422	182,860,514	80%	35%
SRR7749878	SRX4605796	SRP154139	SAMN09907426	167,735,550	83%	39%

Protein alignments

Source	Number of sequences retrieved from Entrez	Number (%) of sequences aligned by ProSplign	Number (%) of sequences passed to Gnomon	Average % identity	Average % coverage
Cynoglossus semilaevis high-quality model RefSeq (XP_)	14,331	14,052 (98.05%)	14,052 (98.05%)	68.94%	77.10%
Actinopterygii GenBank	81,397	78,444 (96.37%)	78,444 (96.37%)	72.07%	83.53%
Actinopterygii known RefSeq (NP_)	24,929	24,388 (97.83%)	24,388 (97.83%)	72.26%	83.00%
Danio rerio high-quality model RefSeq (XP_)	7,987	7,912 (99.06%)	7,912 (99.06%)	71.76%	80.93%
Xiphophorus maculatus high-quality model RefSeq (XP_)	18,457	18,029 (97.68%)	18,029 (97.68%)	67.89%	76.06%
Oryzias latipes high-quality model RefSeq (XP_)	17,157	16,789 (97.86%)	16,789 (97.86%)	68.34%	76.12%
Oreochromis niloticus high-quality model RefSeq (XP_)	19,547	18,973 (97.06%)	18,973 (97.06%)	67.48%	76.32%
Homo sapiens known RefSeq (NP_)	51,204	44,555 (87.01%)	44,555 (87.01%)	66.97%	71.97%

References

RefSeq: Pruitt KD, Brown GR, Hiatt SM, Thibaud-Nissen F, Astashyn A, Ermolaeva O, Farrell CM, Hart J, Landrum MJ, McGarvey KM, Murphy MR, O'Leary NA, Pujar S, Rajput B, Rangwala SH, Riddick LD, Shkeda A, Sun H, Tamez P, Tully RE, Wallin C, Webb D, Weber J, Wu W, Dicuccio M, Kitts P, Maglott DR, Murphy TD, Ostell JM. Nucleic Acids Research 2014, 42(Database issue):D756-63
RepeatMasker: Smit AFA, Hubley R, Green P. RepeatMasker Open-3.0. 1996–2004. http://www.repeatmasker.org
WindowMasker: Morgulis A, Gertz EM, Schäffer AA, Agarwala R. Bioinformatics 2006, 2:134-41
Splign: Kapustin Y, Souvorov A, Tatusova T, Lipman D. Biology Direct 2008, 3:20

RefSeq

Integrated reference sequences