CPP_DOC/doxyhtml/gff__reader_8cpp_source.html

 /*  $Id: gff_reader.cpp 93442 2021-04-13 14:13:59Z ludwigf $

 * ===========================================================================

 *

 *                            PUBLIC DOMAIN NOTICE

 *               National Center for Biotechnology Information

 *

 *  This software/database is a "United States Government Work" under the

 *  terms of the United States Copyright Act.  It was written as part of

 *  the author's official duties as a United States Government employee and

 *  thus cannot be copyrighted.  This software/database is freely available

 *  to the public for use. The National Library of Medicine and the U.S.

 *  Government have not placed any restriction on its use or reproduction.

 *

 *  Although all reasonable efforts have been taken to ensure the accuracy

 *  and reliability of the software and data, the NLM and the U.S.

 *  Government do not and cannot warrant the performance or results that

 *  may be obtained by using this software or data. The NLM and the U.S.

 *  Government disclaim all warranties, express or implied, including

 *  warranties of performance, merchantability or fitness for any particular

 *  purpose.

 *

 *  Please cite the author in any work or product based on this material.

 *

 * ===========================================================================

 *

 * Authors:  Aaron Ucko, Wratko Hlavina

 *

 * File Description:

 *   Reader for GFF (including GTF) files.

 *

 * ===========================================================================

 */


 #include <ncbi_pch.hpp>

 #include "gff_reader.hpp"


 #include <corelib/ncbitime.hpp>

 #include <corelib/ncbiutil.hpp>

 #include <corelib/stream_utils.hpp>

 #include <serial/iterator.hpp>


 #include <objects/general/Date.hpp>

 #include <objects/general/Object_id.hpp>

 #include <objects/seq/Seq_annot.hpp>

 #include <objects/seq/Seq_descr.hpp>

 #include <objects/seq/Seq_inst.hpp>

 #include <objects/seq/Seqdesc.hpp>

 #include <objects/seqalign/Dense_seg.hpp>

 #include <objects/seqalign/Score.hpp>

 #include <objects/seqalign/Std_seg.hpp>

 #include <objects/seqfeat/Feat_id.hpp>

 #include <objects/seqfeat/Cdregion.hpp>

 #include <objects/seqfeat/SeqFeatXref.hpp>

 #include <objects/seqfeat/Gb_qual.hpp>

 #include <objects/seqloc/Seq_interval.hpp>

 #include <objects/seqloc/Seq_point.hpp>

 #include <objects/seqset/Bioseq_set.hpp>


 #include <objtools/readers/cigar.hpp>

 #include <objtools/readers/fasta.hpp>

 #include <objtools/readers/readfeat.hpp>

 #include <objtools/error_codes.hpp>


 #include <algorithm>

 #include <ctype.h>


 #define NCBI_USE_ERRCODE_X   Objtools_Rd_GFF


 BEGIN_NCBI_SCOPE

 BEGIN_SCOPE(objects)


 static CRef<CFeat_id>

 s_StringToFeatId( const string& str )

 {

     CRef<CObject_id> objid( new CObject_id );

     objid->SetStr( str );

     CRef<CFeat_id> featid( new CFeat_id );

     featid->SetLocal( *objid );

     return featid;

 }


 static string& s_URLDecode(const CTempString& s, string& out) {

     SIZE_TYPE pos = 0;

     out.erase();

     out.reserve(s.size());

     while (pos < s.size()) {

         SIZE_TYPE pos2 = s.find_first_of("%" /* "+" */, pos);

         out += s.substr(pos, pos2 - pos);

         if (pos2 == NPOS) {

             break;

         } else if (s[pos2] == '+') { // disabled -- often used literally

             out += ' ';

             pos = pos2 + 1;

         } else if (s[pos2] == '%') {

             try {

                 out += (char)NStr::StringToInt(s.substr(pos2 + 1, 2), 0, 16);

                 pos = pos2 + 3;

             } catch (CStringException&) {

                 // some sources neglect to encode % (!)

                 out += '%';

                 pos = pos2 + 1;

             }

         } else {

             _TROUBLE;

         }

     }

     return out;

 }


 CRef<CSeq_entry> CGFFReader::Read(CNcbiIstream& in, TFlags flags)

 {

     CStreamLineReader lr(in);

     return Read(lr, flags);

 }


 CRef<CSeq_entry> CGFFReader::Read(ILineReader& in, TFlags flags)

 {

     x_Reset();

     m_Flags  = flags;

     m_LineReader = &in;


     if (m_Flags & fSetVersion3) {

         m_Version = 3;

     }


     TStr line;

     while ( !in.AtEOF() ) {

         ++m_LineNumber;

         char c = in.PeekChar();

         if (c == '#') {

             line = *++in;

             if (line.size() > 2  &&  line[1] == '#') {

                 x_ParseStructuredComment(line);

                 // ignore regular comments

             }

         } else if (c == '>') {

             // implicit ##FASTA

             x_ReadFastaSequences(in);

         } else {

             line = *++in;

             if ( x_IsLineUcscMetaInformation(line) ) {

                 // UCSC browser or track line. For now, we ignore those.

                 continue;

             }

             if ( line.empty() ) {

                 // too commonly used for file formatting to even warn about

                 continue;

             }

             CRef<SRecord> record = x_ParseFeatureInterval(line);

             if (record) {


                 if (record->id.empty()) {

                     x_ParseAndPlace(*record);

                 } else {

                     CRef<SRecord>& match = m_DelayedRecords[ record->id ];

                     // _TRACE(id << " -> " << match.GetPointer());

                     if (match) {

                         x_MergeRecords(*match, *record);

                     } else {

                         match.Reset(record);

                     }

                 }

             }

         }

     }


     NON_CONST_ITERATE (TDelayedRecords, it, m_DelayedRecords) {

         SRecord& rec = *it->second;

         /// merge mergeable ranges

         NON_CONST_ITERATE (SRecord::TLoc, loc_iter, rec.loc) {

             ITERATE (set<TSeqRange>, src_iter, loc_iter->merge_ranges) {

                 TSeqRange range(*src_iter);

                 set<TSeqRange>::iterator dst_iter =

                     loc_iter->ranges.begin();

                 for ( ;  dst_iter != loc_iter->ranges.end();  ) {

                     TSeqRange r(range);

                     r += *dst_iter;

                     if (r.GetLength() <=

                         range.GetLength() + dst_iter->GetLength()) {

                         range += *dst_iter;

                         _TRACE("merging overlapping ranges: "

                                << range.GetFrom() << " - "

                                << range.GetTo() << " <-> "

                                << dst_iter->GetFrom() << " - "

                                << dst_iter->GetTo());

                         loc_iter->ranges.erase(dst_iter++);

                         break;

                     } else {

                         ++dst_iter;

                     }

                 }

                 loc_iter->ranges.insert(range);

             }

         }


         if (rec.key == "exon") {

             rec.key = "mRNA";

         }

         x_ParseAndPlace(rec);

     }


     ///

     /// remap gene refs

     /// we have built a set of gene-id -> gene-ref pairs

     ///

     if (m_TSE  &&  m_GeneRefs.size()) {

         NON_CONST_ITERATE (TGeneRefs, iter, m_GeneRefs) {

             if ( !iter->second->IsSetLocus()  &&

                  !iter->second->IsSetLocus_tag()) {

                 iter->second->SetLocus(iter->first);

             } else if ( !iter->second->IsSetLocus()  ||

                         iter->second->GetLocus() != iter->first) {

                 iter->second->SetSyn().push_back(iter->first);

             }

         }


         CTypeIterator<CSeq_feat> feat_iter(*m_TSE);

         for ( ;  feat_iter;  ++feat_iter) {

             const CGene_ref* ref = NULL;

             if (feat_iter->GetData().IsGene()) {

                 ref = &feat_iter->GetData().GetGene();

             } else {

                 ref = feat_iter->GetGeneXref();

             }

             if (ref  &&  ref->IsSetLocus()) {

                 TGeneRefs::const_iterator iter =

                     m_GeneRefs.find(ref->GetLocus());

                 if (iter != m_GeneRefs.end()) {

                     const_cast<CGene_ref*>(ref)->Assign(*iter->second);

                 }

             }

         }

     }


     CRef<CSeq_entry> tse(m_TSE); // need to save before resetting.

     x_Reset();


     // promote transcript_id and protein_id to products

     if (flags & fSetProducts) {

         CTypeIterator<CSeq_feat> feat_iter(*tse);

         for ( ;  feat_iter;  ++feat_iter) {

             CSeq_feat& feat = *feat_iter;


             string qual_name;

             switch (feat.GetData().GetSubtype()) {

             case CSeqFeatData::eSubtype_cdregion:

                 qual_name = "protein_id";

                 break;


             case CSeqFeatData::eSubtype_mRNA:

                 qual_name = "transcript_id";

                 break;


             default:

                 continue;

                 break;

             }


             string id_str = feat.GetNamedQual(qual_name);

             if ( !id_str.empty() ) {

                 CRef<CSeq_id> id = x_ResolveSeqName(id_str);

                 feat.SetProduct().SetWhole(*id);

             }

         }

     }


     if (flags & fCreateGeneFeats) {

         CTypeIterator<CSeq_annot> annot_iter(*tse);

         for ( ;  annot_iter;  ++annot_iter) {

             CSeq_annot& annot = *annot_iter;

             if (annot.GetData().Which() != CSeq_annot::TData::e_Ftable) {

                 continue;

             }


             // we work within the scope of one annotation

             CSeq_annot::TData::TFtable::iterator feat_iter =

                 annot.SetData().SetFtable().begin();

             CSeq_annot::TData::TFtable::iterator feat_end =

                 annot.SetData().SetFtable().end();


             /// we plan to create a series of gene features, one for each gene

             /// identified above

             /// genes are identified via a 'gene_id' marker

             typedef map<string, CRef<CSeq_feat> > TGeneMap;

             TGeneMap genes;

             for (bool has_genes = false;

                  feat_iter != feat_end  &&  !has_genes;  ++feat_iter) {

                 CSeq_feat& feat = **feat_iter;


                 switch (feat.GetData().GetSubtype()) {

                 case CSeqFeatData::eSubtype_gene:

                     /// we already have genes, so don't add any more

                     has_genes = true;

                     genes.clear();

                     break;


                 case CSeqFeatData::eSubtype_mRNA:

                 case CSeqFeatData::eSubtype_cdregion:

                     /// for mRNA and CDS features, create a gene

                     /// this is only done if the gene_id parameter was set

                     /// in parsing, we promote gene_id to a gene xref

                     if ( !feat.GetGeneXref() ) {

                         continue;

                     }

                     {{

                         string gene_id;

                         feat.GetGeneXref()->GetLabel(&gene_id);

                         _ASSERT( !gene_id.empty() );

                         TSeqRange range = feat.GetLocation().GetTotalRange();


                         ENa_strand strand = feat.GetLocation().GetStrand();

                         const CSeq_id* id = feat.GetLocation().GetId();

                         if ( !id ) {

                             x_Error("No consistent ID found; gene feature skipped");

                             continue;

                         }


                         TGeneMap::iterator iter = genes.find(gene_id);

                         if (iter == genes.end()) {

                             /// new gene feature

                             CRef<CSeq_feat> gene(new CSeq_feat());

                             gene->SetData().SetGene().Assign(*feat.GetGeneXref());


                             gene->SetLocation().SetInt().SetFrom(range.GetFrom());

                             gene->SetLocation().SetInt().SetTo  (range.GetTo());

                             gene->SetLocation().SetId(*id);

                             gene->SetLocation().SetInt().SetStrand(strand);

                             genes[gene_id] = gene;

                         } else {

                             /// we agglomerate the old location

                             CRef<CSeq_feat> gene = iter->second;


                             TSeqRange r2 = gene->GetLocation().GetTotalRange();

                             range += r2;

                             gene->SetLocation().SetInt().SetFrom(range.GetFrom());

                             gene->SetLocation().SetInt().SetTo  (range.GetTo());

                             gene->SetLocation().InvalidateTotalRangeCache();

                         }

                     }}

                     break;


                 default:

                     break;

                 }

             }


             ITERATE (TGeneMap, iter, genes) {

                 annot.SetData().SetFtable().push_back(iter->second);

             }

         }

     }


     return tse;

 }


 void CGFFReader::x_Warn(const string& message, unsigned int line)

 {

     if (line) {

         ERR_POST_X(2, Warning << message << " [GFF input, line " << line << ']');

     } else {

         ERR_POST_X(3, Warning << message << " [GFF input]");

     }

 }


 void CGFFReader::x_Error(const string& message, unsigned int line)

 {

     if (line) {

         ERR_POST_X(1, Error << message << " [GFF input, line " << line << ']');

     } else {

         ERR_POST_X(1, Error << message << " [GFF input]");

     }

 }


 void CGFFReader::x_Info(const string& message, unsigned int line)

 {

     if (line) {

         ERR_POST_X(1, Info << message << " [GFF input, line " << line << ']');

     } else {

         ERR_POST_X(1, Info << message << " [GFF input]");

     }

 }


 void CGFFReader::x_Reset(void)

 {

     m_TSE.Reset(new CSeq_entry);

     m_SeqNameCache.clear();

     m_SeqCache.clear();

     m_DelayedRecords.clear();

     m_GeneRefs.clear();

     m_DefMol.erase();

     m_LineNumber = 0;

     m_Version = 2;

 }


 bool CGFFReader::x_ParseStructuredComment(const TStr& line)

 {

     if ( line.empty() || line[0] != '#' || line[1] != '#' ) {

         return false;

     }

     TStrVec v;

     NStr::Split(line, "# \t", v, NStr::fSplit_Tokenize);

     if (v.empty()) {

         return true;

     }

     if (v[0] == "date"  &&  v.size() > 1) {

         x_ParseDateComment(v[1]);

     } else if (v[0] == "Type"  &&  v.size() > 1) {

         x_ParseTypeComment(v[1], v.size() > 2 ? v[2] : TStr());

     } else if (v[0] == "gff-version"  &&  v.size() > 1) {

         m_Version = NStr::StringToInt(v[1]);

     } else if (v[0] == "FASTA") {

         x_ReadFastaSequences(*m_LineReader);

     }

     // etc.

     return true;

 }


 void CGFFReader::x_ParseDateComment(const TStr& date)

 {

     try {

         CRef<CSeqdesc> desc(new CSeqdesc);

         desc->SetUpdate_date().SetToTime(CTime(date, "Y-M-D"),

                                          CDate::ePrecision_day);

         m_TSE->SetSet().SetDescr().Set().push_back(desc);

     } catch (exception& e) {

         x_Error(string("Bad ISO date: ") + e.what(), x_GetLineNumber());

     }

 }


 void CGFFReader::x_ParseTypeComment(const TStr& moltype, const TStr& seqname)

 {

     if (seqname.empty()) {

         m_DefMol = moltype;

     } else {

         // automatically adds to m_TSE if new

         x_ResolveID(*x_ResolveSeqName(seqname), moltype);

     }

 }


 void CGFFReader::x_ReadFastaSequences(ILineReader& in)

 {

     CFastaReader reader(in, CFastaReader::fAssumeNuc);

     CRef<CSeq_entry> seqs = reader.ReadSet();

     for (CTypeIterator<CBioseq> it(*seqs);  it;  ++it) {

         if (it->GetId().empty()) { // can this happen?

             CRef<CSeq_entry> parent(new CSeq_entry);

             parent->SetSeq(*it);

             m_TSE->SetSet().SetSeq_set().push_back(parent);

             continue;

         }

         CRef<CBioseq> our_bs = x_ResolveID(*it->GetId().front(), kEmptyStr);

         // keep our annotations, but replace everything else.

         // (XXX - should also keep mol)

         our_bs->SetId() = it->GetId();

         if (it->IsSetDescr()) {

             our_bs->SetDescr(it->SetDescr());

         }

         our_bs->SetInst(it->SetInst());

     }

 }


 CRef<CGFFReader::SRecord>

 CGFFReader::x_ParseFeatureInterval(const TStr& line)

 {

     TStrVec v;

     bool    misdelimited = false;


     NStr::Split(line, "\t", v);

     if (v.size() < 8) {

         v.clear();

         NStr::Split(line, " \t", v, NStr::fSplit_Tokenize);

         if (v.size() < 8) {

             x_Error("Skipping line due to insufficient fields",

                    x_GetLineNumber());

             return null;

         } else if (m_Version < 3) {

             x_Info("(Recovered) Bad delimiters (should use tabs)", x_GetLineNumber());

             misdelimited = true;

         }

     } else {

         // XXX - warn about extra fields (if any), but only if they're

         // not comments

         // v.resize(9);

     }


     CRef<SRecord> record(x_NewRecord());

     string        accession;

     TSeqPos       from = 0, to = numeric_limits<TSeqPos>::max();

     ENa_strand    strand = eNa_strand_unknown;

     s_URLDecode(v[0], accession);

     record->source = v[1];

     record->key = v[2];


     try {

         from = NStr::StringToUInt(v[3]) - 1;

     } catch (std::exception& e) {

         x_Error(string("Bad FROM position: ") + e.what(), x_GetLineNumber());

     }


     try {

         to = NStr::StringToUInt(v[4]) - 1;

     } catch (std::exception& e) {

         x_Error(string("Bad TO position: ") + e.what(), x_GetLineNumber());

     }


     record->score = v[5];


     if (v[6] == "+") {

         strand = eNa_strand_plus;

     } else if (v[6] == "-") {

         strand = eNa_strand_minus;

     } else if ( !(v[6] == ".") ) {

         x_Warn("Bad strand " + string(v[6]) + " (should be [+-.])",

                x_GetLineNumber());

     }


     if (v[7] == "0"  ||  v[7] == "1"  ||  v[7] == "2") {

         record->frame = v[7][0] - '0';

     } else if (v[7] == ".") {

         record->frame = -1;

     } else {

         x_Warn("Bad frame " + string(v[7]) + " (should be [012.])",

                x_GetLineNumber());

         record->frame = -1;

     }


     {{

         SRecord::SSubLoc subloc;

         subloc.accession = accession;

         subloc.strand    = strand;

         subloc.ranges.insert(TSeqRange(from, to));


         record->loc.push_back(subloc);

     }}


     SIZE_TYPE i = 8;

     if (m_Version >= 3) {

         x_ParseV3Attributes(*record, v, i);

     } else {

         x_ParseV2Attributes(*record, v, i);

     }


     if ( !misdelimited  &&  (i > 9  ||  (i == 9  &&  v.size() > 9

                                          &&  !NStr::StartsWith(v[9], "#") ))) {

         x_Warn("Extra non-comment fields", x_GetLineNumber());

     }


     if (record->FindAttribute("Target") != record->attrs.end()) {

         record->type = SRecord::eAlign;

     } else {

         record->type = SRecord::eFeat;

     }


     // extracting additional gff3 attributes

     if (m_Version == 3) {

         SRecord::TAttrs::const_iterator id_it = record->FindAttribute("ID");

         if (id_it != record->attrs.end()) {

             record->id = (*id_it)[1];

         }


         SRecord::TAttrs::const_iterator parent_it = record->FindAttribute("Parent");

         if (parent_it != record->attrs.end()) {

             record->parent = (*parent_it)[1];

         }


         SRecord::TAttrs::const_iterator name_it = record->FindAttribute("Name");

         if (name_it != record->attrs.end()) {

             record->name = (*name_it)[1];

         }

     }


     record->line_no = m_LineNumber;

     record->id = x_FeatureID(*record);

     return record;

 }


 CRef<CSeq_feat> CGFFReader::x_ParseFeatRecord(const SRecord& record)

 {

     CRef<CSeq_feat> feat(CFeature_table_reader::CreateSeqFeat

                          (record.key, *x_ResolveLoc(record.loc),

                           CFeature_table_reader::fTranslateBadKey));

     if (record.frame >= 0  &&  feat->GetData().IsCdregion()) {

         feat->SetData().SetCdregion().SetFrame

             (static_cast<CCdregion::EFrame>(record.frame + 1));

     }

     if ( m_Version == 3 ) {

         ITERATE (SRecord::TAttrs, it, record.attrs) {

             string tag = it->front();

             if (tag == "ID") {

                 feat->SetId( *s_StringToFeatId( (*it)[1] ) );

             }

             if (tag == "Parent") {

                 CRef<CSeqFeatXref> xref( new CSeqFeatXref );

                 xref->SetId( *s_StringToFeatId( (*it)[1] ) );

                 feat->SetXref().push_back( xref );

             }

         }

     }


     if ( record.source != "." ) {

         CRef<CGb_qual> source( new CGb_qual );

         source->SetQual( "source" );

         source->SetVal( record.source );

         feat->SetQual().push_back( source );

     }


     string gene_id;

     string gene;

     string locus_tag;

     ITERATE (SRecord::TAttrs, it, record.attrs) {

         string tag = it->front();

         string value;

         switch (it->size()) {

         case 1:

             break;

         case 2:

             value = (*it)[1];

             break;

         default:

             x_Warn("Ignoring extra fields in value of " + tag, record.line_no);

             value = (*it)[1];

             break;

         }

         if (x_GetFlags() & fGBQuals) {

             if (tag == "transcript_id") {

                 //continue;

             } else if (tag == "gene_id") {

                 gene_id = value;

                 continue;

             } else if (tag == "gene") {

                 gene = value;

                 continue;

             } else if (tag == "locus_tag") {

                 locus_tag = value;

                 continue;

             } else if (tag == "exon_number") {

                 tag = "number";

             } else if (NStr::StartsWith(tag, "insd_")) {

                 tag.erase(0, 5);

             }


             CFeature_table_reader::AddFeatQual

                 (feat, kEmptyStr, tag, value, CFeature_table_reader::fKeepBadKey);

         } else { // don't attempt to parse, just treat as imported

             CRef<CGb_qual> qual(new CGb_qual);

             qual->SetQual(tag);

             qual->SetVal(value);

             feat->SetQual().push_back(qual);

         }

     }


     if ( !gene_id.empty() ) {

         SIZE_TYPE colon = gene_id.find(':');

         if (colon != NPOS) {

             gene_id.erase(0, colon + 1);

         }


         TGeneRefs::value_type val(gene_id, CRef<CGene_ref>());

         TGeneRefs::iterator iter = m_GeneRefs.insert(val).first;

         if ( !iter->second ) {

             iter->second.Reset(new CGene_ref);

         }

         if ( !gene.empty() ) {

             if (iter->second->IsSetLocus()  &&

                 iter->second->GetLocus() != gene) {

                 ERR_POST_X(4, Warning << "CGFFReader::x_ParseFeatRecord(): "

                            << "inconsistent gene name: "

                            << gene << " != " << iter->second->GetLocus()

                            << ", ignoring second");

             } else if ( !iter->second->IsSetLocus() ) {

                 iter->second->SetLocus(gene);

             }

         }

         if ( !locus_tag.empty() ) {

             if (iter->second->IsSetLocus_tag()  &&

                 iter->second->GetLocus_tag() != locus_tag) {

                 ERR_POST_X(5, Warning << "CGFFReader::x_ParseFeatRecord(): "

                            << "inconsistent locus tag: "

                            << locus_tag << " != " << iter->second->GetLocus_tag()

                            << ", ignoring second");

             } else if ( !iter->second->IsSetLocus_tag() ) {

                 iter->second->SetLocus_tag(locus_tag);

             }

         }


         // translate

         CFeature_table_reader::AddFeatQual

             (feat, kEmptyStr, "gene_id", gene_id,

              CFeature_table_reader::fKeepBadKey);

         if (x_GetFlags() & fGBQuals) {

             CFeature_table_reader::AddFeatQual

                 (feat, kEmptyStr, "gene", gene_id,

                  CFeature_table_reader::fKeepBadKey);

         }

     }


     return feat;

 }


 CRef<CSeq_align> CGFFReader::x_ParseAlignRecord(const SRecord& record)

 {

     CRef<CSeq_align> align(new CSeq_align);

     align->SetType(CSeq_align::eType_partial);

     align->SetDim(2);

     SRecord::TAttrs::const_iterator tgit = record.FindAttribute("Target");

     vector<string> target;

     if (tgit != record.attrs.end()) {

         NStr::Split((*tgit)[1], " +-", target, NStr::fSplit_MergeDelimiters | NStr::fSplit_Truncate);

     }

     if (target.size() != 3) {

         x_Warn("Bad Target attribute", record.line_no);

         return align;

     }

     CRef<CSeq_id> tgid    = x_ResolveSeqName(target[0]);

     TSeqPos       tgstart = NStr::StringToUInt(target[1]) - 1;

     TSeqPos       tgstop  = NStr::StringToUInt(target[2]) - 1;

     TSeqPos       tglen   = tgstop - tgstart + 1;


     CRef<CSeq_loc> refloc = x_ResolveLoc(record.loc);

     CRef<CSeq_id>  refid(&refloc->SetInt().SetId());

     TSeqPos        reflen = 0;

     for (CSeq_loc_CI it(*refloc);  it;  ++it) {

         reflen += it.GetRange().GetLength();

     }


     CRef<CSeq_loc> tgloc(new CSeq_loc);

     tgloc->SetInt().SetId(*tgid);

     tgloc->SetInt().SetFrom(tgstart);

     tgloc->SetInt().SetTo(tgstop);


     SRecord::TAttrs::const_iterator gap_it = record.FindAttribute("Gap");

     if (gap_it == record.attrs.end()) {

         // single ungapped alignment

         if (reflen == tglen  &&  refloc->IsInt()) {

             CDense_seg& ds = align->SetSegs().SetDenseg();

             ds.SetNumseg(1);

             ds.SetIds().push_back(refid);

             ds.SetIds().push_back(tgid);

             ds.SetStarts().push_back(refloc->GetInt().GetFrom());

             ds.SetStarts().push_back(tgstart);

             ds.SetLens().push_back(reflen);

             if (refloc->GetInt().IsSetStrand()) {

                 ds.SetStrands().push_back(refloc->GetInt().GetStrand());

                 ds.SetStrands().push_back(eNa_strand_plus);

             }

         } else {

             if (reflen != tglen  &&  reflen != 3 * tglen) {

                 x_Warn("Reference and target locations have an irregular"

                        " ratio.", record.line_no);

             }

             CRef<CStd_seg> ss(new CStd_seg);

             ss->SetLoc().push_back(refloc);

             ss->SetLoc().push_back(tgloc);

             align->SetSegs().SetStd().push_back(ss);

         }

     } else {

         SCigarAlignment cigar

             ((*gap_it)[1], SCigarAlignment::eOpFirstIfAmbiguous);

         align = cigar(refloc->GetInt(), tgloc->GetInt());

     }


     try {

         CRef<CScore> score(new CScore);

         score->SetValue().SetReal(NStr::StringToDouble(record.score));

         align->SetScore().push_back(score);

     } catch (...) {

     }


     return align;

 }


 CRef<CSeq_loc> CGFFReader::x_ResolveLoc(const SRecord::TLoc& loc)

 {

     CRef<CSeq_loc> seqloc(new CSeq_loc);

     ITERATE (SRecord::TLoc, it, loc) {

         CRef<CSeq_id> id = x_ResolveSeqName(it->accession);

         ITERATE (set<TSeqRange>, range, it->ranges) {

             CRef<CSeq_loc> segment(new CSeq_loc);

             if (range->GetLength() == 1) {

                 CSeq_point& pnt = segment->SetPnt();

                 pnt.SetId   (*id);

                 pnt.SetPoint(range->GetFrom());

                 if (it->strand != eNa_strand_unknown) {

                     pnt.SetStrand(it->strand);

                 }

             } else {

                 CSeq_interval& si = segment->SetInt();

                 si.SetId  (*id);

                 si.SetFrom(range->GetFrom());

                 si.SetTo  (range->GetTo());

                 if (it->strand != eNa_strand_unknown) {

                     si.SetStrand(it->strand);

                 }

             }

             if (IsReverse(it->strand)) {

                 seqloc->SetMix().Set().push_front(segment);

             } else {

                 seqloc->SetMix().Set().push_back(segment);

             }

         }

     }


     if (seqloc->GetMix().Get().size() == 1) {

         return seqloc->SetMix().Set().front();

     } else {

         return seqloc;

     }

 }


 void CGFFReader::x_ParseV2Attributes(SRecord& record, const TStrVec& v,

                                      SIZE_TYPE& i)

 {

     string         attr_last_value;

     vector<string> attr_values;

     char           quote_char = 0;


     for (;  i < v.size();  ++i) {

         string s = string(v[i]) + ' ';

         SIZE_TYPE pos = 0;

         while (pos < s.size()) {

             SIZE_TYPE pos2;

             if (quote_char) { // must be inside a value

                 pos2 = s.find_first_of(" \'\"\\", pos);

                 _ASSERT(pos2 != NPOS); // due to trailing space

                 if (s[pos2] == quote_char) {

                     if (attr_values.empty()) {

                         x_Warn("quoted attribute tag " + attr_last_value,

                                x_GetLineNumber());

                     }

                     quote_char = 0;

                     attr_last_value += s.substr(pos, pos2 - pos);

                     try {

                         attr_values.push_back(NStr::ParseEscapes

                                               (attr_last_value));

                     } catch (CStringException& e) {

                         attr_values.push_back(attr_last_value);

                         x_Warn(e.what() + (" in value of " + attr_values[0]),

                                x_GetLineNumber());

                     }

                     attr_last_value.erase();

                 } else if (s[pos2] == '\\') {

                     _VERIFY(++pos2 != s.size());

                     attr_last_value += s.substr(pos, pos2 + 1 - pos);

                 } else {

                     attr_last_value += s.substr(pos, pos2 + 1 - pos);

                 }

             } else {

                 pos2 = s.find_first_of(" #;\"", pos); // also look for \'?

                 _ASSERT(pos2 != NPOS); // due to trailing space

                 if (pos != pos2) {

                     // grab and place the preceding token

                     attr_last_value += s.substr(pos, pos2 - pos);

                     attr_values.push_back(attr_last_value);

                     attr_last_value.erase();

                 }


                 switch (s[pos2]) {

                 case ' ':

                     if (pos2 == s.size() - 1) {

                         x_AddAttribute(record, attr_values);

                         attr_values.clear();

                     }

                     break;


                 case '#':

                     return;


                 case ';':

                     if (attr_values.empty()) {

                         x_Warn("null attribute", x_GetLineNumber());

                     } else {

                         x_AddAttribute(record, attr_values);

                         attr_values.clear();

                     }

                     break;


                 // NB: we don't currently search for single quotes.

                 case '\"':

                 case '\'':

                     quote_char = s[pos2];

                     break;


                 default:

                     _TROUBLE;

                 }

             }

             pos = pos2 + 1;

         }

     }


     if ( !attr_values.empty() ) {

         x_Warn("unterminated attribute " + attr_values[0], x_GetLineNumber());

         x_AddAttribute(record, attr_values);

     }

 }


 bool CGFFReader::x_SplitKeyValuePair( const string& pair, string& key, string& value )

 {

     if ( NStr::SplitInTwo( pair, "=", key, value ) ) {

         return true;

     }

     if ( NStr::SplitInTwo( pair, " ", key, value ) ) {

         x_Info("(recovered) missdelimited attribute/value pair: " + key, x_GetLineNumber());

         return true;

     }

     x_Warn("attribute without value: " + key, x_GetLineNumber());

     return false;

 }


 void CGFFReader::x_ParseV3Attributes(SRecord& record, const TStrVec& v,

                                      SIZE_TYPE& i)

 {

     vector<string> v2, attr;

     NStr::Split(v[i], ";", v2, NStr::fSplit_Tokenize);

     ITERATE (vector<string>, it, v2) {

         attr.clear();

         string key, values;

         if (x_SplitKeyValuePair( *it, key, values )) {

             vector<string> vals;

             attr.resize(2);

             s_URLDecode(key, attr[0]);

             NStr::Split(values, ",", vals);

             ITERATE (vector<string>, it2, vals) {

                 string value( *it2 );

                 if ( NStr::MatchesMask(value, "\"*\"") ) {

                     //

                     //  Note: The GFF3 spec is ambiguous on whether quoting is

                     //  required for free text values.

                     //

                     value = value.substr(1, value.length()-2);

                 }

                 s_URLDecode(value, attr[1]);

                 x_AddAttribute(record, attr);

             }

         } else {

             x_Warn("attribute without value: " + key, x_GetLineNumber());

             attr.resize(1);

             s_URLDecode(*it, attr[0]);

             x_AddAttribute(record, attr);

             continue;

         }

     }

 }


 void CGFFReader::x_AddAttribute(SRecord& record, vector<string>& attr)

 {

     if (attr.size() == 0) {

         return;

     }


     if (x_GetFlags() & fGBQuals) {

         if (attr[0] == "gbkey"  &&  attr.size() == 2) {

             record.key = attr[1];

             return;

         }

     }

     record.attrs.insert(attr);

 }


 string CGFFReader::x_FeatureID(const SRecord& record)

 {

     if (record.type != SRecord::eFeat  ||  x_GetFlags() & fNoGTF) {

         return kEmptyStr;

     }


     // has been retrieved in initial interval parsing

     if (m_Version == 3) {

         if (!record.id.empty()) {

             return  record.id;

         }

         else if (!record.parent.empty()) {

             return record.source + record.key + record.parent;

         }

         else {

             return "";

         }

     }


     SRecord::TAttrs::const_iterator gene_it = record.FindAttribute("gene_id");

     SRecord::TAttrs::const_iterator transcript_it

         = record.FindAttribute("transcript_id");


     // concatenate our IDs from above, if found

     string id;

     if (gene_it != record.attrs.end()) {

         id += (*gene_it)[1];

     }


     if (transcript_it != record.attrs.end()) {

         if ( !id.empty() ) {

             id += ' ';

         }

         id += (*transcript_it)[1];

     }


     // look for db xrefs

     SRecord::TAttrs::const_iterator dbxref_it

         = record.FindAttribute("db_xref");

     for ( ; dbxref_it != record.attrs.end()  &&

             dbxref_it->front() == "db_xref";  ++dbxref_it) {

         if ( !id.empty() ) {

             id += ' ';

         }

         id += (*dbxref_it)[1];

     }


     if ( id.empty() ) {

         return id;

     }


     if (record.key == "start_codon" ||  record.key == "stop_codon") {

         //id += " " + record.key;

         id += "CDS";

     } else if (record.key == "CDS"

                ||  NStr::FindNoCase(record.key, "rna") != NPOS) {

         //id += " " + record.key;

         id += record.key;

     } else if (record.key == "exon") {

         // normally separate intervals, but may want to merge.

         if (x_GetFlags() & fMergeExons) {

             id += record.key;

         } else {

             SRecord::TAttrs::const_iterator it

                 = record.FindAttribute("exon_number");

             if (it == record.attrs.end()) {

                 return kEmptyStr;

             } else {

                 id += record.key + ' ' + (*it)[1];

             }

         }

     } else if (x_GetFlags() & fMergeOnyCdsMrna) {

         return kEmptyStr;

     }

     return id;

 }


 void CGFFReader::x_MergeRecords(SRecord& dest, const SRecord& src)

 {

     // XXX - perform sanity checks and warn on mismatch


     bool merge_overlaps = false;

     if (dest.key == "CDS"  &&

         (src.key == "start_codon"  ||  src.key == "stop_codon")) {

         // start_codon and stop_codon features should be merged into

         // existing CDS locations

         merge_overlaps = true;

     }


     if ((dest.key == "start_codon"  ||  dest.key == "stop_codon") &&

         src.key == "CDS") {

         // start_codon and stop_codon features should be merged into

         // existing CDS locations

         merge_overlaps = true;

         dest.key = "CDS";

     }


     // adjust the frame as needed

     int best_frame = dest.frame;


     ITERATE (SRecord::TLoc, slit, src.loc) {

         bool merged = false;

         NON_CONST_ITERATE (SRecord::TLoc, dlit, dest.loc) {

             if (slit->accession != dlit->accession) {

                 if (dest.loc.size() == 1) {

                     x_Warn("Multi-accession feature", src.line_no);

                 }

                 continue;

             } else if (slit->strand != dlit->strand) {

                 if (dest.loc.size() == 1) {

                     x_Warn("Multi-orientation feature", src.line_no);

                 }

                 continue;

             } else {

                 if (slit->strand == eNa_strand_plus) {

                     if (slit->ranges.begin()->GetFrom() <

                         dlit->ranges.begin()->GetFrom()) {

                         best_frame = src.frame;

                     }

                 } else {

                     if (slit->ranges.begin()->GetTo() >

                         dlit->ranges.begin()->GetTo()) {

                         best_frame = src.frame;

                     }

                 }

                 if (merge_overlaps) {

                     ITERATE (set<TSeqRange>, set_iter, slit->ranges) {

                         dlit->merge_ranges.insert(*set_iter);

                     }

                 } else {

                     ITERATE (set<TSeqRange>, set_iter, slit->ranges) {

                         dlit->ranges.insert(*set_iter);

                     }

                 }

                 merged = true;

                 break;

             }

         }

         if ( !merged ) {

             dest.loc.push_back(*slit);

         }

     }


     dest.frame = best_frame;

     if (src.key != dest.key) {

         if (dest.key == "CDS"  &&  NStr::EndsWith(src.key, "_codon")

             &&  !(x_GetFlags() & fNoGTF) ) {

             // ok

         } else if (src.key == "CDS" &&  NStr::EndsWith(dest.key, "_codon")

             &&  !(x_GetFlags() & fNoGTF) ) {

             dest.key = "CDS";

         } else {

             x_Warn("Merging features with different keys: " + dest.key

                    + " != " + src.key, src.line_no);

         }

     }


     x_MergeAttributes(dest, src);

 }


 void CGFFReader::x_MergeAttributes(SRecord& dest, const SRecord& src)

 {

     SRecord::TAttrs::iterator dait     = dest.attrs.begin();

     SRecord::TAttrs::iterator dait_end = dest.attrs.end();

     SRecord::TAttrs::iterator dait_tag = dait_end;

     ITERATE (SRecord::TAttrs, sait, src.attrs) {

         const string& tag = sait->front();

         while (dait != dait_end  &&  dait->front() < tag) {

             ++dait;

         }


         if (dait_tag == dait_end  ||  dait_tag->front() != tag) {

             dait_tag = dait;

         }

         if (dait != dait_end  &&  dait->front() == tag) {

             while (dait != dait_end  &&  *dait < *sait) {

                 ++dait;

             }

         }

         if (dait != dait_end  &&  *dait == *sait) {

             continue; // identical

         } else if ( !(x_GetFlags() & fNoGTF)  &&  tag == "exon_number") {

             if (dait_tag != dait_end) {

                 while (dait != dait_end  &&  dait->front() == tag) {

                     ++dait;

                 }

                 dest.attrs.erase(dait_tag, dait);

                 dait_tag = dait_end;

             }

         } else {

             dest.attrs.insert(dait, *sait);

         }

     }

 }


 void CGFFReader::x_PlaceFeature(CSeq_feat& feat, const SRecord&)

 {

     CRef<CBioseq> seq;

     if ( !feat.IsSetProduct() ) {

         for (CTypeConstIterator<CSeq_id> it(feat.GetLocation());  it;  ++it) {

             CRef<CBioseq> seq2 = x_ResolveID(*it, kEmptyStr);

             if ( !seq ) {

                 seq.Reset(seq2);

             } else if ( seq2.NotEmpty()  &&  seq != seq2) {

                 seq.Reset();

                 BREAK(it);

             }

         }

     }


     CBioseq::TAnnot& annots

         = seq ? seq->SetAnnot() : m_TSE->SetSet().SetAnnot();

     NON_CONST_ITERATE (CBioseq::TAnnot, it, annots) {

         if ((*it)->GetData().IsFtable()) {

             (*it)->SetData().SetFtable().push_back(CRef<CSeq_feat>(&feat));

             return;

         }

     }

     CRef<CSeq_annot> annot(new CSeq_annot);

     annot->SetData().SetFtable().push_back(CRef<CSeq_feat>(&feat));

     annots.push_back(annot);

 }


 void CGFFReader::x_PlaceAlignment(CSeq_align& align, const SRecord& record)

 {

     CRef<CBioseq> seq;

     try {

         seq = x_ResolveID(align.GetSeq_id(0), kEmptyStr);

     } catch (...) {

     }

     CBioseq::TAnnot& annots

         = seq ? seq->SetAnnot() : m_TSE->SetSet().SetAnnot();

     NON_CONST_ITERATE (CBioseq::TAnnot, it, annots) {

         if ((*it)->GetData().IsAlign()) {

             (*it)->SetData().SetAlign().push_back(CRef<CSeq_align>(&align));

             return;

         }

     }

     CRef<CSeq_annot> annot(new CSeq_annot);

     annot->SetData().SetAlign().push_back(CRef<CSeq_align>(&align));

     annots.push_back(annot);

 }


 void CGFFReader::x_ParseAndPlace(const SRecord& record)

 {

     switch (record.type) {

     case SRecord::eFeat:

         x_PlaceFeature(*x_ParseFeatRecord(record), record);

         break;

     case SRecord::eAlign:

         x_PlaceAlignment(*x_ParseAlignRecord(record), record);

         break;

     default:

         x_Warn("Unknown record type " + NStr::IntToString(record.type),

                record.line_no);

     }

 }


 CRef<CSeq_id> CGFFReader::x_ResolveSeqName(const string& name)

 {

     CRef<CSeq_id>& id = m_SeqNameCache[name];

     if (id.NotEmpty()

         &&  (id->Which() == CSeq_id::e_not_set

              ||  static_cast<int>(id->Which()) >= CSeq_id::e_MaxChoice)) {

         x_Warn("x_ResolveSeqName: invalid cache entry for " + name);

         id.Reset();

     }

     if ( !id ) {

         id.Reset(x_ResolveNewSeqName(name));

     }

     if ( !id ||  id->Which() == CSeq_id::e_not_set

         ||  static_cast<int>(id->Which()) >= CSeq_id::e_MaxChoice) {

         x_Warn("x_ResolveNewSeqName returned null or invalid ID for " + name);

         id.Reset(new CSeq_id(CSeq_id::e_Local, name, name));

     }

     return id;

 }


 CRef<CSeq_id> CGFFReader::x_ResolveNewSeqName(const string& name)

 {

     if (m_Flags & fAllIdsAsLocal) {

         if (NStr::StartsWith(name, "lcl|")) {

             return CRef<CSeq_id>(new CSeq_id(name));

         } else {

             return CRef<CSeq_id>(new CSeq_id(CSeq_id::e_Local, name));

         }

     }


     if (m_Flags & fNumericIdsAsLocal) {

         if (name.find_first_not_of("0123456789") == string::npos) {

             return CRef<CSeq_id>(new CSeq_id(CSeq_id::e_Local, name));

         }

     }

     try {

         CRef<CSeq_id> pId(new CSeq_id(name));

         if (!pId || (pId->IsGi() && pId->GetGi() < GI_CONST(500)) ) {

             pId = new CSeq_id(CSeq_id::e_Local, name);

         }

         return pId;

     }

     catch (CSeqIdException&) {

         return CRef<CSeq_id>(new CSeq_id(CSeq_id::e_Local, name));

     }

 }


 CRef<CBioseq> CGFFReader::x_ResolveID(const CSeq_id& id, const TStr& mol)

 {

     CRef<CBioseq>& seq = m_SeqCache[CConstRef<CSeq_id>(&id)];

     if ( !seq ) {

         seq.Reset(x_ResolveNewID(id, mol));

         // Derived versions of x_ResolveNewID may legimately return null

         // results....

         if (seq) {

             x_PlaceSeq(*seq);

             ITERATE (CBioseq::TId, it, seq->GetId()) {

                 m_SeqCache.insert(make_pair(CConstRef<CSeq_id>(*it), seq));

             }

         }

     }

     return seq;

 }


 CRef<CBioseq> CGFFReader::x_ResolveNewID(const CSeq_id& id, const string& mol0)

 {

     CRef<CBioseq> seq(new CBioseq);

     CRef<CSeq_id> id_copy(new CSeq_id);


     id_copy->Assign(id);

     seq->SetId().push_back(id_copy);

     seq->SetInst().SetRepr(CSeq_inst::eRepr_virtual);


     const string& mol = mol0.empty() ? m_DefMol : mol0;

     if (mol.empty()  ||  mol == "dna") {

         seq->SetInst().SetMol(CSeq_inst::eMol_dna);

     } else if (mol == "rna")  {

         seq->SetInst().SetMol(CSeq_inst::eMol_rna);

     } else if (mol == "protein")  {

         seq->SetInst().SetMol(CSeq_inst::eMol_aa);

     } else {

         x_Warn("unrecognized sequence type " + mol + "; assuming DNA");

         seq->SetInst().SetMol(CSeq_inst::eMol_dna);

     }


     return seq;

 }


 void CGFFReader::x_SetProducts( CRef<CSeq_entry>& tse )

 {

     CTypeIterator<CSeq_feat> feat_iter(*tse);

     for ( ;  feat_iter;  ++feat_iter) {

         CSeq_feat& feat = *feat_iter;


         string qual_name;

         switch (feat.GetData().GetSubtype()) {

         case CSeqFeatData::eSubtype_cdregion:

             qual_name = "protein_id";

             break;


         case CSeqFeatData::eSubtype_mRNA:

             qual_name = "transcript_id";

             break;


         default:

             continue;

             break;

         }


         string id_str = feat.GetNamedQual(qual_name);

         if ( !id_str.empty() ) {

             CRef<CSeq_id> id = x_ResolveSeqName(id_str);

             feat.SetProduct().SetWhole(*id);

         }

     }

 }


 void CGFFReader::x_CreateGeneFeatures( CRef<CSeq_entry>& tse )

 {

     CTypeIterator<CSeq_annot> annot_iter(*tse);

     for ( ;  annot_iter;  ++annot_iter) {

         CSeq_annot& annot = *annot_iter;

         if (annot.GetData().Which() != CSeq_annot::TData::e_Ftable) {

             continue;

         }


         // we work within the scope of one annotation

         CSeq_annot::TData::TFtable::iterator feat_iter =

             annot.SetData().SetFtable().begin();

         CSeq_annot::TData::TFtable::iterator feat_end =

             annot.SetData().SetFtable().end();


         /// we plan to create a series of gene features, one for each gene

         /// identified above

         /// genes are identified via a 'gene_id' marker

         typedef map<string, CRef<CSeq_feat> > TGeneMap;

         TGeneMap genes;

         for (bool has_genes = false;

              feat_iter != feat_end  &&  !has_genes;  ++feat_iter) {

             CSeq_feat& feat = **feat_iter;


             switch (feat.GetData().GetSubtype()) {

             case CSeqFeatData::eSubtype_gene:

                 /// we already have genes, so don't add any more

                 has_genes = true;

                 genes.clear();

                 break;


             case CSeqFeatData::eSubtype_mRNA:

             case CSeqFeatData::eSubtype_cdregion:

                 /// for mRNA and CDS features, create a gene

                 /// this is only done if the gene_id parameter was set

                 /// in parsing, we promote gene_id to a gene xref

                 if ( !feat.GetGeneXref() ) {

                     continue;

                 }

                 {{

                     string gene_id;

                     feat.GetGeneXref()->GetLabel(&gene_id);

                     _ASSERT( !gene_id.empty() );

                     TSeqRange range = feat.GetLocation().GetTotalRange();


                     ENa_strand strand = feat.GetLocation().GetStrand();

                     const CSeq_id* id = feat.GetLocation().GetId();

                     if ( !id ) {

                         x_Error("No consistent ID found; gene feature skipped");

                         continue;

                     }


                     TGeneMap::iterator iter = genes.find(gene_id);

                     if (iter == genes.end()) {

                         /// new gene feature

                         CRef<CSeq_feat> gene(new CSeq_feat());

                         gene->SetData().SetGene().Assign(*feat.GetGeneXref());


                         gene->SetLocation().SetInt().SetFrom(range.GetFrom());

                         gene->SetLocation().SetInt().SetTo  (range.GetTo());

                         gene->SetLocation().SetId(*id);

                         gene->SetLocation().SetInt().SetStrand(strand);

                         genes[gene_id] = gene;

                     } else {

                         /// we agglomerate the old location

                         CRef<CSeq_feat> gene = iter->second;


                         TSeqRange r2 = gene->GetLocation().GetTotalRange();

                         range += r2;

                         gene->SetLocation().SetInt().SetFrom(range.GetFrom());

                         gene->SetLocation().SetInt().SetTo  (range.GetTo());

                         gene->SetLocation().InvalidateTotalRangeCache();

                     }

                 }}

                 break;


             default:

                 break;

             }

         }


         ITERATE (TGeneMap, iter, genes) {

             annot.SetData().SetFtable().push_back(iter->second);

         }

     }

 }


 void CGFFReader::x_RemapGeneRefs( CRef<CSeq_entry>& tse, TGeneRefs& gene_refs )

 {

     if ( !tse  ||  gene_refs.empty() ) {

         return;

     }

     NON_CONST_ITERATE (TGeneRefs, iter, gene_refs) {

         if ( !iter->second->IsSetLocus()  &&

              !iter->second->IsSetLocus_tag()) {

             iter->second->SetLocus(iter->first);

         } else if ( !iter->second->IsSetLocus()  ||

                     iter->second->GetLocus() != iter->first) {

             iter->second->SetSyn().push_back(iter->first);

         }

     }


     CTypeIterator<CSeq_feat> feat_iter(*tse);

     for ( ;  feat_iter;  ++feat_iter) {

         const CGene_ref* ref = NULL;

         if (feat_iter->GetData().IsGene()) {

             ref = &feat_iter->GetData().GetGene();

         } else {

             ref = feat_iter->GetGeneXref();

         }

         if (ref  &&  ref->IsSetLocus()) {

             TGeneRefs::const_iterator iter =

                 gene_refs.find(ref->GetLocus());

             if (iter != gene_refs.end()) {

                 const_cast<CGene_ref*>(ref)->Assign(*iter->second);

             }

         }

     }

 }


 void CGFFReader::x_PlaceSeq(CBioseq& seq)

 {

     bool found = false;

     for (CTypeConstIterator<CBioseq> it(*m_TSE);  it;  ++it) {

         if (&*it == &seq) {

             found = true;

             BREAK(it);

         }

     }

     if ( !found ) {

         CRef<CSeq_entry> se(new CSeq_entry);

         se->SetSeq(seq);

         m_TSE->SetSet().SetSeq_set().push_back(se);

     }

 }


 CGFFReader::SRecord::TAttrs::const_iterator

 CGFFReader::SRecord::FindAttribute(const string& att_name, size_t min_values)

 const

 {

     SRecord::TAttrs::const_iterator it

         = attrs.lower_bound(vector<string>(1, att_name));

     while (it != attrs.end()  &&  it->front() == att_name

            &&  it->size() <= min_values) {

         ++it;

     }

     return (it == attrs.end() || it->front() == att_name) ? it : attrs.end();

 }


 bool

 CGFFReader::x_IsLineUcscMetaInformation(const TStr& line)

 {

     // line starts with keyword "browser" or "track"

     return (NStr::StartsWith(line, "browser") || NStr::StartsWith(line, "track") );

 }


 END_SCOPE(objects)

 END_NCBI_SCOPE

Bioseq_set.hpp

Cdregion.hpp
User-defined methods of the data storage class.

Date.hpp

Dense_seg.hpp

Feat_id.hpp
User-defined methods of the data storage class.

Gb_qual.hpp

IsReverse
bool IsReverse(ENa_strand s)
Definition: Na_strand.hpp:75

Object_id.hpp

Score.hpp
User-defined methods of the data storage class.

SeqFeatXref.hpp
User-defined methods of the data storage class.

Seq_annot.hpp

Seq_descr.hpp

Seq_inst.hpp

Seq_interval.hpp

Seq_point.hpp

Seqdesc.hpp

Std_seg.hpp

cigar.hpp
Code to handle Concise Idiosyncratic Gapped Alignment Report notation.

CBioseq
Definition: Bioseq.hpp:63

CConstRef< CSeq_id >

CDate::SetToTime
void SetToTime(const CTime &time, EPrecision prec=ePrecision_second)
Definition: Date.cpp:57

CDate::ePrecision_day
@ ePrecision_day
Definition: Date.hpp:58

CDense_seg
Definition: Dense_seg.hpp:61

CFastaReader
Base class for reading FASTA sequences.
Definition: fasta.hpp:80

CFeat_id
CFeat_id –.
Definition: Feat_id.hpp:66

CFeature_table_reader::fKeepBadKey
@ fKeepBadKey
= 0x02 (As much as possible, try to use bad keys as if they were acceptable)
Definition: readfeat.hpp:68

CFeature_table_reader::fTranslateBadKey
@ fTranslateBadKey
= 0x04 (yields misc_feature /standard_name="...")
Definition: readfeat.hpp:69

CFeature_table_reader::CreateSeqFeat
static CRef< CSeq_feat > CreateSeqFeat(const string &feat, CSeq_loc &location, const TFlags flags=0, ILineErrorListener *pMessageListener=nullptr, unsigned int line=0, std::string *seq_id=nullptr, ITableFilter *filter=nullptr)
Definition: readfeat.cpp:3815

CFeature_table_reader::AddFeatQual
static void AddFeatQual(CRef< CSeq_feat > sfp, const string &feat_name, const string &qual, const string &val, const TFlags flags=0, ILineErrorListener *pMessageListener=nullptr, int line=0, const string &seq_id=std::string())
Definition: readfeat.cpp:3830

CGb_qual
@Gb_qual.hpp User-defined methods of the data storage class.
Definition: Gb_qual.hpp:61

CGene_ref
Definition: Gene_ref.hpp:52

CGene_ref::GetLabel
void GetLabel(string *label) const
Definition: Gene_ref.cpp:57

CObject_id
Definition: Object_id.hpp:54

CRange< TSeqPos >

CRef< CFeat_id >

CScore
Definition: Score.hpp:57

CSeqFeatData::GetSubtype
ESubtype GetSubtype(void) const
Definition: SeqFeatData.cpp:361

CSeqFeatData::eSubtype_mRNA
@ eSubtype_mRNA
Definition: SeqFeatData.hpp:141

CSeqFeatData::eSubtype_gene
@ eSubtype_gene
Definition: SeqFeatData.hpp:132

CSeqFeatData::eSubtype_cdregion
@ eSubtype_cdregion
Definition: SeqFeatData.hpp:134

CSeqFeatXref
CSeqFeatXref –.
Definition: SeqFeatXref.hpp:66

CSeqIdException
CSeqIdException –.
Definition: Seq_id.hpp:1001

CSeq_align
Definition: Seq_align.hpp:55

CSeq_align::GetSeq_id
const CSeq_id & GetSeq_id(TDim row) const
Get seq-id (the first one if segments have different ids).
Definition: Seq_align.cpp:317

CSeq_annot
Definition: Seq_annot.hpp:58

CSeq_entry
Definition: Seq_entry.hpp:56

CSeq_feat
namespace ncbi::objects::
Definition: Seq_feat.hpp:58

CSeq_feat::GetNamedQual
const string & GetNamedQual(const CTempString &qual_name) const
Return a named qualifier.
Definition: Seq_feat.cpp:429

CSeq_feat::GetGeneXref
const CGene_ref * GetGeneXref(void) const
See related function in util/feature.hpp.
Definition: Seq_feat.cpp:181

CSeq_id
Definition: Seq_id.hpp:71

CSeq_interval
Definition: Seq_interval.hpp:51

CSeq_loc_CI
Seq-loc iterator class – iterates all intervals from a seq-loc in the correct order.
Definition: Seq_loc.hpp:453

CSeq_loc
Definition: Seq_loc.hpp:94

CSeq_point
Definition: Seq_point.hpp:51

CSeqdesc
Definition: Seqdesc.hpp:51

CStd_seg
Definition: Std_seg.hpp:54

CStreamLineReader
Simple implementation of ILineReader for i(o)streams.
Definition: line_reader.hpp:120

CStringException
CStringException –.
Definition: ncbistr.hpp:4506

CTempString
CTempString implements a light-weight string on top of a storage buffer whose lifetime management is ...
Definition: tempstr.hpp:65

CTime
CTime –.
Definition: ncbitime.hpp:296

CTypeConstIterator
Template class for iteration on objects of class C (non-medifiable version)
Definition: iterator.hpp:767

CTypeIterator
Template class for iteration on objects of class C.
Definition: iterator.hpp:673

ILineReader
Abstract base class for lightweight line-by-line reading.
Definition: line_reader.hpp:54

map_checker::size
size_type size() const
Definition: map.hpp:148

map_checker< std::map< string, CRef< CGene_ref >, less< string > > >::const_iterator
container_type::const_iterator const_iterator
Definition: map.hpp:53

map_checker< std::map< string, CRef< CGene_ref >, less< string > > >::iterator
container_type::iterator iterator
Definition: map.hpp:54

map_checker::end
const_iterator end() const
Definition: map.hpp:152

map_checker::insert
iterator_bool insert(const value_type &val)
Definition: map.hpp:165

map_checker::empty
bool empty() const
Definition: map.hpp:149

map_checker< std::map< string, CRef< CGene_ref >, less< string > > >::value_type
container_type::value_type value_type
Definition: map.hpp:52

map_checker::clear
void clear()
Definition: map.hpp:169

map_checker::find
const_iterator find(const key_type &key) const
Definition: map.hpp:153

map< string, CRef< SRecord >, PNocase >

set
Definition: set.hpp:45

set::insert
iterator_bool insert(const value_type &val)
Definition: set.hpp:149

set::begin
const_iterator begin() const
Definition: set.hpp:135

set::iterator
parent_type::iterator iterator
Definition: set.hpp:80

set::erase
void erase(iterator pos)
Definition: set.hpp:151

set::end
const_iterator end() const
Definition: set.hpp:136

set::lower_bound
const_iterator lower_bound(const key_type &key) const
Definition: set.hpp:138

set< vector< string > >::const_iterator
parent_type::const_iterator const_iterator
Definition: set.hpp:79

flags
static uch flags
Definition: ct_nlmzip_trees.cpp:342

si
static const char si[8][64]
Definition: des.c:146

out
std::ofstream out("events_result.xml")
main entry point for tests

fasta.hpp
Operators to edit gaps in sequences.

str
static const char * str(char *buf, int n)
Definition: stats.c:84

s_StringToFeatId
static CRef< CFeat_id > s_StringToFeatId(const string &str)
Definition: gff_reader.cpp:74

s_URLDecode
static string & s_URLDecode(const CTempString &s, string &out)
Definition: gff_reader.cpp:83

gff_reader.hpp
Reader for GFF (including GTF) files.

TSeqPos
unsigned int TSeqPos
Type for sequence locations and lengths.
Definition: ncbimisc.hpp:875

ITERATE
#define ITERATE(Type, Var, Cont)
ITERATE macro to sequence through container elements.
Definition: ncbimisc.hpp:815

NON_CONST_ITERATE
#define NON_CONST_ITERATE(Type, Var, Cont)
Non constant version of ITERATE macro.
Definition: ncbimisc.hpp:822

GI_CONST
#define GI_CONST(gi)
Definition: ncbimisc.hpp:1087

string
string
Definition: cgiapp.hpp:687

NULL
#define NULL
Definition: ncbistd.hpp:225

_TRACE
#define _TRACE(message)
Definition: ncbidbg.hpp:122

_VERIFY
#define _VERIFY(expr)
Definition: ncbidbg.hpp:161

ERR_POST_X
#define ERR_POST_X(err_subcode, message)
Error posting with default error code and given error subcode.
Definition: ncbidiag.hpp:550

Error
void Error(CExceptionArgs_Base &args)
Definition: ncbiexpt.hpp:1197

Warning
void Warning(CExceptionArgs_Base &args)
Definition: ncbiexpt.hpp:1191

Info
void Info(CExceptionArgs_Base &args)
Definition: ncbiexpt.hpp:1185

v2
const CVect2< U > & v2
Definition: globals.hpp:440

CGFFReader::m_SeqCache
TSeqCache m_SeqCache
Definition: gff_reader.hpp:248

CGFFReader::SRecord::TLoc
vector< SSubLoc > TLoc
Definition: gff_reader.hpp:133

CGFFReader::x_ResolveSeqName
virtual CRef< CSeq_id > x_ResolveSeqName(const string &name)
Falls back to x_ResolveNewSeqName on cache misses.
Definition: gff_reader.cpp:1242

CGFFReader::x_PlaceAlignment
virtual void x_PlaceAlignment(CSeq_align &align, const SRecord &record)
Definition: gff_reader.cpp:1205

CGFFReader::x_ParseV3Attributes
virtual void x_ParseV3Attributes(SRecord &record, const TStrVec &v, SIZE_TYPE &i)
Definition: gff_reader.cpp:926

CGFFReader::x_ParseDateComment
virtual void x_ParseDateComment(const TStr &date)
Definition: gff_reader.cpp:426

CGFFReader::SRecord::id
string id
Definition: gff_reader.hpp:150

CGFFReader::x_ResolveID
virtual CRef< CBioseq > x_ResolveID(const CSeq_id &id, const TStr &mol)
Falls back to x_ResolveNewID on cache misses.
Definition: gff_reader.cpp:1291

CGFFReader::SRecord::type
EType type
Definition: gff_reader.hpp:147

CGFFReader::x_PlaceSeq
virtual void x_PlaceSeq(CBioseq &seq)
Definition: gff_reader.cpp:1482

CGFFReader::x_PlaceFeature
virtual void x_PlaceFeature(CSeq_feat &feat, const SRecord &record)
Definition: gff_reader.cpp:1176

CGFFReader::x_ResolveLoc
virtual CRef< CSeq_loc > x_ResolveLoc(const SRecord::TLoc &loc)
Definition: gff_reader.cpp:786

CGFFReader::SRecord::SSubLoc::strand
ENa_strand strand
Definition: gff_reader.hpp:118

CGFFReader::x_MergeRecords
virtual void x_MergeRecords(SRecord &dest, const SRecord &src)
Definition: gff_reader.cpp:1056

CGFFReader::x_Warn
virtual void x_Warn(const string &message, unsigned int line=0)
Definition: gff_reader.cpp:359

CGFFReader::m_DelayedRecords
TDelayedRecords m_DelayedRecords
Definition: gff_reader.hpp:249

CFastaReader::ReadSet
CRef< CSeq_entry > ReadSet(int max_seqs=kMax_Int, ILineErrorListener *pMessageListener=nullptr)
Read multiple sequences (by default, as many as are available.)
Definition: fasta.cpp:442

CGFFReader::SRecord::loc
TLoc loc
from accession, start, stop, strand
Definition: gff_reader.hpp:140

CGFFReader::x_ParseTypeComment
virtual void x_ParseTypeComment(const TStr &moltype, const TStr &seqname)
Definition: gff_reader.cpp:439

CGFFReader::x_ResolveNewID
virtual CRef< CBioseq > x_ResolveNewID(const CSeq_id &id, const string &mol)
The base version just constructs a shell so as not to depend on the object manager,...
Definition: gff_reader.cpp:1309

CGFFReader::m_TSE
CRef< CSeq_entry > m_TSE
Definition: gff_reader.hpp:246

CGFFReader::Read
CRef< CSeq_entry > Read(CNcbiIstream &in, TFlags flags=fDefaults)
Definition: gff_reader.cpp:112

CGFFReader::x_GetLineNumber
unsigned int x_GetLineNumber(void)
Definition: gff_reader.hpp:183

CGFFReader::SRecord::line_no
unsigned int line_no
Definition: gff_reader.hpp:146

CGFFReader::x_ReadFastaSequences
virtual void x_ReadFastaSequences(ILineReader &in)
Definition: gff_reader.cpp:450

CGFFReader::x_NewRecord
virtual CRef< SRecord > x_NewRecord(void)
Definition: gff_reader.hpp:192

CGFFReader::x_ParseAndPlace
virtual void x_ParseAndPlace(const SRecord &record)
Definition: gff_reader.cpp:1226

CGFFReader::x_MergeAttributes
virtual void x_MergeAttributes(SRecord &dest, const SRecord &src)
Definition: gff_reader.cpp:1140

CGFFReader::SRecord::source
string source
Definition: gff_reader.hpp:141

CGFFReader::SRecord::SSubLoc::accession
string accession
Definition: gff_reader.hpp:117

CGFFReader::x_Reset
virtual void x_Reset(void)
Reset all state, since we're between streams.
Definition: gff_reader.cpp:389

CGFFReader::m_Flags
TFlags m_Flags
Definition: gff_reader.hpp:253

CGFFReader::x_GetFlags
TFlags x_GetFlags(void) const
Definition: gff_reader.hpp:182

CGFFReader::SRecord::key
string key
Definition: gff_reader.hpp:142

CGFFReader::x_ResolveNewSeqName
virtual CRef< CSeq_id > x_ResolveNewSeqName(const string &name)
Definition: gff_reader.cpp:1263

CGFFReader::x_Error
virtual void x_Error(const string &message, unsigned int line=0)
Definition: gff_reader.cpp:369

CGFFReader::x_RemapGeneRefs
virtual void x_RemapGeneRefs(CRef< CSeq_entry > &, TGeneRefs &)
Definition: gff_reader.cpp:1449

CGFFReader::x_CreateGeneFeatures
virtual void x_CreateGeneFeatures(CRef< CSeq_entry > &)
Definition: gff_reader.cpp:1362

CGFFReader::m_LineNumber
unsigned int m_LineNumber
Definition: gff_reader.hpp:252

CGFFReader::SRecord::parent
string parent
Definition: gff_reader.hpp:151

CGFFReader::m_SeqNameCache
TSeqNameCache m_SeqNameCache
Definition: gff_reader.hpp:247

CGFFReader::SRecord::FindAttribute
TAttrs::const_iterator FindAttribute(const string &att_name, size_t min_values=1) const
Definition: gff_reader.cpp:1500

CGFFReader::x_AddAttribute
virtual void x_AddAttribute(SRecord &record, vector< string > &attr)
Definition: gff_reader.cpp:962

CGFFReader::x_IsLineUcscMetaInformation
virtual bool x_IsLineUcscMetaInformation(const TStr &)
Definition: gff_reader.cpp:1514

CGFFReader::SRecord::frame
int frame
Definition: gff_reader.hpp:145

CGFFReader::m_Version
int m_Version
Definition: gff_reader.hpp:255

CGFFReader::x_FeatureID
virtual string x_FeatureID(const SRecord &record)
Returning the empty string indicates that record constitutes an entire feature.
Definition: gff_reader.cpp:978

CGFFReader::m_GeneRefs
TGeneRefs m_GeneRefs
Definition: gff_reader.hpp:250

CGFFReader::x_Info
virtual void x_Info(const string &message, unsigned int line=0)
Definition: gff_reader.cpp:379

CGFFReader::x_ParseStructuredComment
virtual bool x_ParseStructuredComment(const TStr &line)
Definition: gff_reader.cpp:402

CGFFReader::x_ParseAlignRecord
virtual CRef< CSeq_align > x_ParseAlignRecord(const SRecord &record)
Definition: gff_reader.cpp:713

CGFFReader::x_ParseFeatRecord
virtual CRef< CSeq_feat > x_ParseFeatRecord(const SRecord &record)
Definition: gff_reader.cpp:589

CGFFReader::x_SetProducts
virtual void x_SetProducts(CRef< CSeq_entry > &)
Definition: gff_reader.cpp:1333

CGFFReader::m_DefMol
string m_DefMol
Definition: gff_reader.hpp:251

CGFFReader::SRecord::SSubLoc::ranges
set< TSeqRange > ranges
the set of ranges that make up this location this allows us to separately assign frame even if the ra...
Definition: gff_reader.hpp:123

CGFFReader::SRecord::attrs
TAttrs attrs
Definition: gff_reader.hpp:144

CGFFReader::x_SplitKeyValuePair
virtual bool x_SplitKeyValuePair(const string &, string &, string &)
Definition: gff_reader.cpp:912

CGFFReader::TFlags
int TFlags
Definition: gff_reader.hpp:105

CGFFReader::TStrVec
vector< TStr > TStrVec
Definition: gff_reader.hpp:168

CGFFReader::x_ParseV2Attributes
virtual void x_ParseV2Attributes(SRecord &record, const TStrVec &v, SIZE_TYPE &i)
Definition: gff_reader.cpp:825

CGFFReader::SRecord::score
string score
Definition: gff_reader.hpp:143

CGFFReader::x_ParseFeatureInterval
virtual CRef< SRecord > x_ParseFeatureInterval(const TStr &line)
Definition: gff_reader.cpp:474

CGFFReader::m_LineReader
ILineReader * m_LineReader
Definition: gff_reader.hpp:254

SCigarAlignment::eOpFirstIfAmbiguous
@ eOpFirstIfAmbiguous
Definition: cigar.hpp:83

CFastaReader::fAssumeNuc
@ fAssumeNuc
Assume nucs unless accns indicate otherwise.
Definition: fasta.hpp:87

CGFFReader::fMergeOnyCdsMrna
@ fMergeOnyCdsMrna
move protein_id and transcript_id to products for mRNA and CDS features
Definition: gff_reader.hpp:85

CGFFReader::fAllIdsAsLocal
@ fAllIdsAsLocal
all identifiers are local IDs
Definition: gff_reader.hpp:98

CGFFReader::fNoGTF
@ fNoGTF
don't honor/recognize GTF conventions
Definition: gff_reader.hpp:76

CGFFReader::fSetProducts
@ fSetProducts
create gene features for mRNAs and CDSs if none exist already
Definition: gff_reader.hpp:89

CGFFReader::fCreateGeneFeats
@ fCreateGeneFeats
numeric identifiers are local IDs
Definition: gff_reader.hpp:92

CGFFReader::fGBQuals
@ fGBQuals
merge exons with the same transcript_id
Definition: gff_reader.hpp:79

CGFFReader::fNumericIdsAsLocal
@ fNumericIdsAsLocal
all identifiers are local IDs
Definition: gff_reader.hpp:95

CGFFReader::fSetVersion3
@ fSetVersion3
Definition: gff_reader.hpp:101

CGFFReader::fMergeExons
@ fMergeExons
restrict merging to just CDS and mRNA features
Definition: gff_reader.hpp:82

CGFFReader::SRecord::eAlign
@ eAlign
Definition: gff_reader.hpp:137

CGFFReader::SRecord::eFeat
@ eFeat
Definition: gff_reader.hpp:136

CSeq_id::Assign
virtual void Assign(const CSerialObject &source, ESerialRecursionMode how=eRecursive)
Optimized implementation of CSerialObject::Assign, which is not so efficient.
Definition: Seq_id.cpp:318

CSeq_loc::SetMix
void SetMix(TMix &v)
Definition: Seq_loc.hpp:987

CSeq_loc::GetStrand
ENa_strand GetStrand(void) const
Get the location's strand.
Definition: Seq_loc.cpp:882

CSeq_loc::GetTotalRange
TRange GetTotalRange(void) const
Definition: Seq_loc.hpp:913

CSeq_loc::SetPnt
void SetPnt(TPnt &v)
Definition: Seq_loc.hpp:985

CSeq_loc::SetInt
void SetInt(TInt &v)
Definition: Seq_loc.hpp:983

CSeq_loc::GetId
const CSeq_id * GetId(void) const
Get the id of the location return NULL if has multiple ids or no id at all.
Definition: Seq_loc.hpp:941

CRef::Reset
void Reset(void)
Reset reference object.
Definition: ncbiobj.hpp:773

CRef::NotEmpty
bool NotEmpty(void) const THROWS_NONE
Check if CRef is not empty – pointing to an object and has a non-null value.
Definition: ncbiobj.hpp:726

TSeqRange
CRange< TSeqPos > TSeqRange
typedefs for sequence ranges
Definition: range.hpp:419

END_NCBI_SCOPE
#define END_NCBI_SCOPE
End previously defined NCBI scope.
Definition: ncbistl.hpp:103

END_SCOPE
#define END_SCOPE(ns)
End the previously defined scope.
Definition: ncbistl.hpp:75

BEGIN_NCBI_SCOPE
#define BEGIN_NCBI_SCOPE
Define ncbi namespace.
Definition: ncbistl.hpp:100

BREAK
#define BREAK(it)
Definition: ncbistl.hpp:175

BEGIN_SCOPE
#define BEGIN_SCOPE(ns)
Define a new scope.
Definition: ncbistl.hpp:72

CNcbiIstream
IO_PREFIX::istream CNcbiIstream
Portable alias for istream.
Definition: ncbistre.hpp:146

SIZE_TYPE
NCBI_NS_STD::string::size_type SIZE_TYPE
Definition: ncbistr.hpp:132

kEmptyStr
#define kEmptyStr
Definition: ncbistr.hpp:123

NStr::StringToInt
static int StringToInt(const CTempString str, TStringToNumFlags flags=0, int base=10)
Convert string to int.
Definition: ncbistr.cpp:630

NStr::Split
static list< string > & Split(const CTempString str, const CTempString delim, list< string > &arr, TSplitFlags flags=0, vector< SIZE_TYPE > *token_pos=NULL)
Split a string using specified delimiters.
Definition: ncbistr.cpp:3461

NStr::FindNoCase
static SIZE_TYPE FindNoCase(const CTempString str, const CTempString pattern, SIZE_TYPE start, SIZE_TYPE end, EOccurrence which=eFirst)
Find the pattern in the specified range of a string using a case insensitive search.
Definition: ncbistr.cpp:2993

NStr::MatchesMask
static bool MatchesMask(CTempString str, CTempString mask, ECase use_case=eCase)
Match "str" against the "mask".
Definition: ncbistr.cpp:389

NStr::EndsWith
static bool EndsWith(const CTempString str, const CTempString end, ECase use_case=eCase)
Check if a string ends with a specified suffix value.
Definition: ncbistr.hpp:5430

NStr::StringToDouble
static double StringToDouble(const CTempStringEx str, TStringToNumFlags flags=0)
Convert string to double.
Definition: ncbistr.cpp:1387

NPOS
#define NPOS
Definition: ncbistr.hpp:133

NStr::IntToString
static string IntToString(int value, TNumToStringFlags flags=0, int base=10)
Convert int to string.
Definition: ncbistr.hpp:5084

NStr::ParseEscapes
static string ParseEscapes(const CTempString str, EEscSeqRange mode=eEscSeqRange_Standard, char user_char='?')
Parse C-style escape sequences in the specified string.
Definition: ncbistr.cpp:4793

CTempString::empty
bool empty(void) const
Return true if the represented string is empty (i.e., the length is zero)
Definition: tempstr.hpp:334

NStr::StartsWith
static bool StartsWith(const CTempString str, const CTempString start, ECase use_case=eCase)
Check if a string starts with a specified prefix value.
Definition: ncbistr.hpp:5412

NStr::SplitInTwo
static bool SplitInTwo(const CTempString str, const CTempString delim, string &str1, string &str2, TSplitFlags flags=0)
Split a string into two pieces using the specified delimiters.
Definition: ncbistr.cpp:3554

NStr::StringToUInt
static unsigned int StringToUInt(const CTempString str, TStringToNumFlags flags=0, int base=10)
Convert string to unsigned int.
Definition: ncbistr.cpp:642

CTempString::substr
CTempString substr(size_type pos) const
Obtain a substring from this string, beginning at a given offset.
Definition: tempstr.hpp:776

CTempString::find_first_of
size_type find_first_of(const CTempString match, size_type pos=0) const
Find the first occurrence of any character in the matching string within the current string,...
Definition: tempstr.hpp:538

CTempString::size
size_type size(void) const
Return the length of the represented array.
Definition: tempstr.hpp:327

NStr::fSplit_Truncate
@ fSplit_Truncate
Definition: ncbistr.hpp:2501

NStr::fSplit_Tokenize
@ fSplit_Tokenize
All delimiters are merged and trimmed, to get non-empty tokens only.
Definition: ncbistr.hpp:2508

NStr::fSplit_MergeDelimiters
@ fSplit_MergeDelimiters
Merge adjacent delimiters.
Definition: ncbistr.hpp:2498

CGene_ref_Base::IsSetLocus
bool IsSetLocus(void) const
Official gene symbol Check if a value has been assigned to Locus data member.
Definition: Gene_ref_.hpp:493

CGene_ref_Base::GetLocus
const TLocus & GetLocus(void) const
Get the Locus member data.
Definition: Gene_ref_.hpp:505

CObject_id_Base::SetStr
TStr & SetStr(void)
Select the variant.
Definition: Object_id_.hpp:304

CSeq_align_Base::SetScore
TScore & SetScore(void)
Assign a value to Score data member.
Definition: Seq_align_.hpp:902

CDense_seg_Base::SetLens
TLens & SetLens(void)
Assign a value to Lens data member.
Definition: Dense_seg_.hpp:561

CSeq_align_Base::SetSegs
void SetSegs(TSegs &value)
Assign a value to Segs data member.
Definition: Seq_align_.cpp:310

CSeq_align_Base::SetDim
void SetDim(TDim value)
Assign a value to Dim data member.
Definition: Seq_align_.hpp:865

CSeq_align_Base::SetType
void SetType(TType value)
Assign a value to Type data member.
Definition: Seq_align_.hpp:818

CDense_seg_Base::SetStarts
TStarts & SetStarts(void)
Assign a value to Starts data member.
Definition: Dense_seg_.hpp:536

CDense_seg_Base::SetStrands
TStrands & SetStrands(void)
Assign a value to Strands data member.
Definition: Dense_seg_.hpp:586

CDense_seg_Base::SetNumseg
void SetNumseg(TNumseg value)
Assign a value to Numseg data member.
Definition: Dense_seg_.hpp:474

CDense_seg_Base::SetIds
TIds & SetIds(void)
Assign a value to Ids data member.
Definition: Dense_seg_.hpp:511

CSeq_align_Base::eType_partial
@ eType_partial
mapping pieces together
Definition: Seq_align_.hpp:103

CSeq_feat_Base::SetXref
TXref & SetXref(void)
Assign a value to Xref data member.
Definition: Seq_feat_.hpp:1314

CGb_qual_Base::SetQual
void SetQual(const TQual &value)
Assign a value to Qual data member.
Definition: Gb_qual_.hpp:221

CSeq_feat_Base::SetLocation
void SetLocation(TLocation &value)
Assign a value to Location data member.
Definition: Seq_feat_.cpp:131

CSeqFeatData_Base::IsCdregion
bool IsCdregion(void) const
Check if variant Cdregion is selected.
Definition: SeqFeatData_.hpp:898

CSeq_feat_Base::SetProduct
void SetProduct(TProduct &value)
Assign a value to Product data member.
Definition: Seq_feat_.cpp:110

CSeq_feat_Base::GetLocation
const TLocation & GetLocation(void) const
Get the Location member data.
Definition: Seq_feat_.hpp:1117

CFeat_id_Base::SetLocal
TLocal & SetLocal(void)
Select the variant.
Definition: Feat_id_.cpp:140

CSeq_feat_Base::GetData
const TData & GetData(void) const
Get the Data member data.
Definition: Seq_feat_.hpp:925

CSeq_feat_Base::SetId
void SetId(TId &value)
Assign a value to Id data member.
Definition: Seq_feat_.cpp:73

CCdregion_Base::EFrame
EFrame
Definition: Cdregion_.hpp:94

CSeq_feat_Base::SetData
void SetData(TData &value)
Assign a value to Data data member.
Definition: Seq_feat_.cpp:94

CGb_qual_Base::SetVal
void SetVal(const TVal &value)
Assign a value to Val data member.
Definition: Gb_qual_.hpp:268

CSeq_feat_Base::SetQual
TQual & SetQual(void)
Assign a value to Qual data member.
Definition: Seq_feat_.hpp:1153

CSeq_feat_Base::IsSetProduct
bool IsSetProduct(void) const
product of process Check if a value has been assigned to Product data member.
Definition: Seq_feat_.hpp:1084

CSeq_point_Base::SetPoint
void SetPoint(TPoint value)
Assign a value to Point data member.
Definition: Seq_point_.hpp:312

CSeq_point_Base::SetId
void SetId(TId &value)
Assign a value to Id data member.
Definition: Seq_point_.cpp:61

ENa_strand
ENa_strand
strand of nucleic acid
Definition: Na_strand_.hpp:64

CSeq_point_Base::SetStrand
void SetStrand(TStrand value)
Assign a value to Strand data member.
Definition: Seq_point_.hpp:359

CSeq_interval_Base::GetFrom
TFrom GetFrom(void) const
Get the From member data.
Definition: Seq_interval_.hpp:383

CSeq_id_Base::Which
E_Choice Which(void) const
Which variant is currently selected.
Definition: Seq_id_.hpp:746

CSeq_id_Base::GetGi
TGi GetGi(void) const
Get the variant data.
Definition: Seq_id_.hpp:889

CSeq_loc_mix_Base::Get
const Tdata & Get(void) const
Get the member data.
Definition: Seq_loc_mix_.hpp:165

CSeq_interval_Base::IsSetStrand
bool IsSetStrand(void) const
Check if a value has been assigned to Strand data member.
Definition: Seq_interval_.hpp:458

CSeq_interval_Base::GetStrand
TStrand GetStrand(void) const
Get the Strand member data.
Definition: Seq_interval_.hpp:477

CSeq_id_Base::IsGi
bool IsGi(void) const
Check if variant Gi is selected.
Definition: Seq_id_.hpp:883

CSeq_loc_Base::IsInt
bool IsInt(void) const
Check if variant Int is selected.
Definition: Seq_loc_.hpp:528

CSeq_loc_Base::GetInt
const TInt & GetInt(void) const
Get the variant data.
Definition: Seq_loc_.cpp:194

CSeq_loc_Base::GetMix
const TMix & GetMix(void) const
Get the variant data.
Definition: Seq_loc_.cpp:282

eNa_strand_plus
@ eNa_strand_plus
Definition: Na_strand_.hpp:66

eNa_strand_minus
@ eNa_strand_minus
Definition: Na_strand_.hpp:67

eNa_strand_unknown
@ eNa_strand_unknown
Definition: Na_strand_.hpp:65

CSeq_id_Base::e_not_set
@ e_not_set
No variant selected.
Definition: Seq_id_.hpp:94

CSeq_id_Base::e_Local
@ e_Local
local use
Definition: Seq_id_.hpp:95

CSeq_id_Base::e_MaxChoice
@ e_MaxChoice
== e_Named_annot_track+1
Definition: Seq_id_.hpp:118

CSeq_entry_Base::SetSet
TSet & SetSet(void)
Select the variant.
Definition: Seq_entry_.cpp:130

CBioseq_set_Base::SetAnnot
TAnnot & SetAnnot(void)
Assign a value to Annot data member.
Definition: Bioseq_set_.hpp:787

CBioseq_set_Base::SetDescr
void SetDescr(TDescr &value)
Assign a value to Descr data member.
Definition: Bioseq_set_.cpp:150

CSeq_entry_Base::SetSeq
TSeq & SetSeq(void)
Select the variant.
Definition: Seq_entry_.cpp:108

CBioseq_set_Base::SetSeq_set
TSeq_set & SetSeq_set(void)
Assign a value to Seq_set data member.
Definition: Bioseq_set_.hpp:762

CSeq_annot_Base::SetData
void SetData(TData &value)
Assign a value to Data data member.
Definition: Seq_annot_.cpp:244

CBioseq_Base::SetId
TId & SetId(void)
Assign a value to Id data member.
Definition: Bioseq_.hpp:296

CBioseq_Base::SetAnnot
TAnnot & SetAnnot(void)
Assign a value to Annot data member.
Definition: Bioseq_.hpp:372

CBioseq_Base::GetId
const TId & GetId(void) const
Get the Id member data.
Definition: Bioseq_.hpp:290

CBioseq_Base::TId
list< CRef< CSeq_id > > TId
Definition: Bioseq_.hpp:94

CBioseq_Base::SetInst
void SetInst(TInst &value)
Assign a value to Inst data member.
Definition: Bioseq_.cpp:86

CBioseq_Base::SetDescr
void SetDescr(TDescr &value)
Assign a value to Descr data member.
Definition: Bioseq_.cpp:65

CSeq_annot_Base::GetData
const TData & GetData(void) const
Get the Data member data.
Definition: Seq_annot_.hpp:873

CBioseq_Base::TAnnot
list< CRef< CSeq_annot > > TAnnot
Definition: Bioseq_.hpp:97

CSeqdesc_Base::SetUpdate_date
TUpdate_date & SetUpdate_date(void)
Select the variant.
Definition: Seqdesc_.cpp:500

CSeq_annot_Base::C_Data::Which
E_Choice Which(void) const
Which variant is currently selected.
Definition: Seq_annot_.hpp:586

CSeq_inst_Base::eRepr_virtual
@ eRepr_virtual
no seq data
Definition: Seq_inst_.hpp:93

CSeq_annot_Base::C_Data::e_Ftable
@ e_Ftable
Definition: Seq_annot_.hpp:133

CSeq_inst_Base::eMol_dna
@ eMol_dna
Definition: Seq_inst_.hpp:110

CSeq_inst_Base::eMol_aa
@ eMol_aa
Definition: Seq_inst_.hpp:112

CSeq_inst_Base::eMol_rna
@ eMol_rna
Definition: Seq_inst_.hpp:111

error_codes.hpp
Definition of all error codes used in objtools libraries.

iterator.hpp

i
int i
Definition: lex.newick.cpp:1456

compile_time_bits::range
range(_Ty, _Ty) -> range< _Ty >

ctll::empty
constexpr bool empty(list< Ts... >) noexcept
Definition: ctre-unicode.hpp:525

ncbi::grid::netcache::search::fields::key
const struct ncbi::grid::netcache::search::fields::KEY key

objects
Definition: wiggle_export_job.hpp:44

rapidjson::value
const GenericPointer< typename T::ValueType > T2 value
Definition: pointer.h:1227

rapidjson::source
const CharType(& source)[N]
Definition: pointer.h:1149

ncbi_pch.hpp

tag
const char * tag
Definition: ncbi_server_info.c:103

ncbitime.hpp
Defines: CTimeFormat - storage class for time format.

ncbiutil.hpp
Useful/utility classes and methods.

max
T max(T x_, T y_)
Definition: njn_function.hpp:105

in
std::istream & in(std::istream &in_, double &x_)

r
double r(size_t dimension_, const Int4 *score_, const double *prob_, double theta_)

match
static int match(register const pcre_uchar *eptr, register const pcre_uchar *ecode, const pcre_uchar *mstart, int offset_top, match_data *md, eptrblock *eptrb, unsigned int rdepth)
Definition: pcre_exec.c:513

readfeat.hpp

stream_utils.hpp

CGFFReader::SRecord::SSubLoc
Definition: gff_reader.hpp:116

CGFFReader::SRecord
Definition: gff_reader.hpp:114

SCigarAlignment
Definition: cigar.hpp:55

eFiles::val
@ val

_TROUBLE
#define _TROUBLE
Definition: test_assert_impl.h:178

_ASSERT
#define _ASSERT
Definition: test_assert_impl.h:173