CPP_DOC/doxyhtml/lexer_8cpp_source.html

 /*  $Id: lexer.cpp 91618 2020-11-20 15:04:21Z gouriano $

 * ===========================================================================

 *

 *                            PUBLIC DOMAIN NOTICE

 *               National Center for Biotechnology Information

 *

 *  This software/database is a "United States Government Work" under the

 *  terms of the United States Copyright Act.  It was written as part of

 *  the author's official duties as a United States Government employee and

 *  thus cannot be copyrighted.  This software/database is freely available

 *  to the public for use. The National Library of Medicine and the U.S.

 *  Government have not placed any restriction on its use or reproduction.

 *

 *  Although all reasonable efforts have been taken to ensure the accuracy

 *  and reliability of the software and data, the NLM and the U.S.

 *  Government do not and cannot warrant the performance or results that

 *  may be obtained by using this software or data. The NLM and the U.S.

 *  Government disclaim all warranties, express or implied, including

 *  warranties of performance, merchantability or fitness for any particular

 *  purpose.

 *

 *  Please cite the author in any work or product based on this material.

 *

 * ===========================================================================

 *

 * Author: Eugene Vasilchenko

 *

 * File Description:

 *   ASN.1 lexer

 *

 */


 #include <ncbi_pch.hpp>

 #include "lexer.hpp"

 #include "tokens.hpp"


 BEGIN_NCBI_SCOPE


 inline bool IsAlNum(char c)

 {

     return isalnum((unsigned char) c) ? true : false;

 }


 inline bool IsDigit(char c)

 {

     return isdigit((unsigned char) c) ? true : false;

 }


 ASNLexer::ASNLexer(CNcbiIstream& in, const string& name)

     : AbstractLexer(in,name)

 {

 }


 ASNLexer::~ASNLexer(void)

 {

 }


 TToken ASNLexer::LookupToken(void)

 {

     char c = Char();

     switch ( c ) {

     case ':':

         if ( Char(1) == ':' && Char(2) == '=' ) {

             StartToken();

             AddChars(3);

             return T_DEFINE;

         }

         return T_SYMBOL;

     case '-':

     case '+':

         if ( IsDigit(Char(1)) ) {

             StartToken();

             AddChar();

             return LookupNumber();

         }

         return T_SYMBOL;

     case '\"':

         StartToken();

         AddChar();

         StartString();

         LookupString();

         return T_STRING;

     case '\'':

         StartToken();

         AddChar();

         return LookupBinHexString();

 #if 0

     case '[':

         StartToken();

         AddChar();

         LookupTag();

         return T_TAG;

 #else

     case '[':

         StartToken();

         AddChar();

         return T_TAG_BEGIN;

     case ']':

         StartToken();

         AddChar();

         return T_TAG_END;

 #endif

     default:

         if ( IsDigit(c) ) {

             StartToken();

             AddChar();

             return LookupNumber();

         }

         else if ( c >= 'a' && c <= 'z' ) {

             StartToken();

             AddChar();

             LookupIdentifier();

             return T_IDENTIFIER;

         }

         else if ( c >= 'A' && c <= 'Z' ) {

             StartToken();

             AddChar();

             LookupIdentifier();

             return LookupKeyword();

         }

         return T_SYMBOL;

     }

 }


 void ASNLexer::LookupComments(void)

 {

     while ( true ) {

         char c = Char();

         switch ( c ) {

         case ' ':

         case '\t':

         case '\r':

             SkipChar();

             break;

         case '\n':

             SkipChar();

             NextLine();

             break;

         case '-':

             if ( Char(1) == '-' ) {

                 // comments

                 SkipChars(2);

                 SkipComment();

                 break;

             }

             return;

         case '/':

             if ( Char(1) == '*' ) {

                 // comments

                 SkipChars(2);

                 SkipComment();

                 break;

             }

             return;

         default:

             return;

         }

     }

 }


 void ASNLexer::SkipComment(void)

 {

     CComment& comment = AddComment();

     while ( true ) {

         // wait for end of comments

         char c = Char();

         if (c == '\r') {

             SkipChar();

             continue;

         }

         switch ( c ) {

         case '\n':

             SkipChar();

             NextLine();

             return;

         case 0:

             if ( Eof() )

                 return;

             break;

         case '-':

             if ( Char(1) == '-' ) {

                 SkipChars(2);

                 return;

             }

             break;

         case '*':

             if ( Char(1) == '/' ) {

                 SkipChars(2);

                 return;

             }

             break;

         }

         comment.AddChar(c);

         SkipChar();

     }

 }


 void ASNLexer::LookupString(void)

 {

     while ( true ) {

         char c = Char();

         switch ( c ) {

         case '\r':

         case '\n':

             LexerWarning("unclosed string", 1);

             return;

         case 0:

             if ( Eof() ) {

                 LexerWarning("unclosed string", 2);

                 return;

             }

             LexerWarning("illegal character in string: \\0", 3);

             AddStringChar(c);

             AddChar();

             break;

         case '\"':

             if ( Char(1) != '\"' ) {

                 AddChar();

                 return;

             }

             AddChars(2);

             break;

         default:

             if ( c < ' ' && c > '\0' ) {

                 LexerWarning("illegal character in string: \\...", 4);

             }

             else {

                 AddStringChar(c);

             }

             AddChar();

             break;

         }

     }

 }


 TToken ASNLexer::LookupBinHexString(void)

 {

     TToken token = T_BINARY_STRING;

     while ( true ) {

         char c = Char();

         switch ( c ) {

         case '\r':

         case '\n':

             LexerWarning("unclosed bit string", 5);

             return token;

         case 0:

             if ( Eof() ) {

                 LexerWarning("unclosed bit string", 6);

                 return token;

             }

             AddChar();

             LexerWarning("illegal character in bit string", 7);

             break;

         case '0':

         case '1':

             AddChar();

             break;

         case '2': case '3': case '4': case '5': case '6': case '7': case '8':

         case '9': case 'A': case 'B': case 'C': case 'D': case 'E': case 'F':

             AddChar();

             token = T_HEXADECIMAL_STRING;

             break;

         case '\'':

             switch ( Char(1) ) {

             case 'B':

                 AddChars(2);

                 if ( token != T_BINARY_STRING )

                     LexerWarning("binary string contains hexadecimal digits", 8);

                 return T_BINARY_STRING;

             case 'H':

                 AddChars(2);

                 return T_HEXADECIMAL_STRING;

             default:

                 AddChar();

                 LexerWarning("unknown type of bit string", 9);

                 return token;

             }

         default:

             AddChar();

             LexerWarning("illegal character in bit string", 10);

             break;

         }

     }

 }


 void ASNLexer::LookupIdentifier(void)

 {

     while ( true ) {

         char c = Char();

         if ( IsAlNum(c) )

             AddChar();

         else if ( c == '-' ) {

             if ( IsAlNum(Char(1)) )

                 AddChars(2);

             else {

                 if ( AllowIDsEndingWithMinus() )

                     AddChar();

                 return;

             }

         }

         else

             return;

     }

 }


 TToken ASNLexer::LookupNumber(void)

 {

     while ( IsDigit(Char()) ) {

         AddChar();

     }

     char c = Char();

     if (c == '.' || c == 'e' || c == 'E' || c == '-' || c == '+') {

         AddChar();

         LookupNumber();

         return T_DOUBLE;

     }

     return T_NUMBER;

 }


 void ASNLexer::LookupTag(void)

 {

     while ( true ) {

         char c = Char();

         switch ( c ) {

         case '\r':

         case '\n':

             LexerWarning("unclosed tag", 11);

             return;

         case 0:

             if ( Eof() ) {

                 LexerWarning("unclosed tag", 12);

                 return;

             }

             AddChar();

             LexerWarning("illegal character in tag", 13);

             break;

         case ']':

             AddChar();

             return;

         case '0': case '1': case '2': case '3': case '4':

         case '5': case '6': case '7': case '8': case '9':

         // case 'A': case 'B': case 'C': case 'D': case 'E': case 'F':

             AddChar();

             break;

         default:

             AddChar();

 //            LexerWarning("illegal character in tag", 14);

             break;

         }

     }

 }


 #define CHECK(keyword, t, length) \

     if ( memcmp(token, keyword, length) == 0 ) return t


 TToken ASNLexer::LookupKeyword(void)

 {

     const char* token = CurrentTokenStart();

     switch ( CurrentTokenLength() ) {

     case 2:

         CHECK("OF", K_OF, 2);

         break;

     case 3:

         CHECK("SET", K_SET, 3);

         CHECK("BIT", K_BIT, 3);

         CHECK("END", K_END, 3);

         break;

     case 4:

         CHECK("TRUE", K_TRUE, 4);

         CHECK("NULL", K_NULL, 4);

         CHECK("REAL", K_REAL, 4);

         CHECK("FROM", K_FROM, 4);

         CHECK("TAGS", K_TAGS, 4);

         break;

     case 5:

         CHECK("OCTET", K_OCTET, 5);

         CHECK("BEGIN", K_BEGIN, 5);

         CHECK("FALSE", K_FALSE, 5);

         break;

     case 6:

         CHECK("CHOICE", K_CHOICE, 6);

         CHECK("STRING", K_STRING, 6);

         CHECK("BigInt", K_BIGINT, 6);

         break;

     case 7:

         CHECK("INTEGER", K_INTEGER, 7);

         CHECK("BOOLEAN", K_BOOLEAN, 7);

         CHECK("DEFAULT", K_DEFAULT, 7);

         CHECK("IMPORTS", K_IMPORTS, 7);

         CHECK("EXPORTS", K_EXPORTS, 7);

         CHECK("PRIVATE", K_PRIVATE, 7);

         break;

     case 8:

         CHECK("SEQUENCE", K_SEQUENCE, 8);

         CHECK("OPTIONAL", K_OPTIONAL, 8);

         CHECK("EXPLICIT", K_EXPLICIT, 8);

         CHECK("IMPLICIT", K_IMPLICIT, 8);

         break;

     case 9:

         CHECK("AUTOMATIC", K_AUTOMATIC, 9);

         CHECK("UNIVERSAL", K_UNIVERSAL, 9);

     case 10:

         CHECK("ENUMERATED", K_ENUMERATED, 10);

         CHECK("UTF8String", K_UTF8String, 10);

         CHECK("COMPONENTS", K_COMPONENTS, 10);

         break;

     case 11:

         CHECK("StringStore", K_StringStore, 11);

         CHECK("DEFINITIONS", K_DEFINITIONS, 11);

         CHECK("APPLICATION", K_APPLICATION, 11);

         break;

     case 13:

         CHECK("VisibleString", K_VisibleString, 13);

         break;

     }

     return T_TYPE_REFERENCE;

 }


 void ASNLexer::StartString(void)

 {

     _ASSERT(TokenStarted());

     m_StringValue.erase();

 }


 void ASNLexer::AddStringChar(char c)

 {

     _ASSERT(TokenStarted());

     m_StringValue += c;

 }


 END_NCBI_SCOPE

ASNLexer::LookupKeyword
TToken LookupKeyword(void)
Definition: lexer.cpp:356

ASNLexer::AddStringChar
void AddStringChar(char c)
Definition: lexer.cpp:425

ASNLexer::AllowIDsEndingWithMinus
bool AllowIDsEndingWithMinus(void) const
Definition: lexer.hpp:53

ASNLexer::LookupBinHexString
TToken LookupBinHexString(void)
Definition: lexer.cpp:236

ASNLexer::LookupNumber
TToken LookupNumber(void)
Definition: lexer.cpp:306

ASNLexer::LookupString
void LookupString(void)
Definition: lexer.cpp:198

ASNLexer::m_StringValue
string m_StringValue
Definition: lexer.hpp:77

ASNLexer::SkipComment
void SkipComment(void)
Definition: lexer.cpp:161

ASNLexer::LookupTag
void LookupTag(void)
Definition: lexer.cpp:320

ASNLexer::LookupIdentifier
void LookupIdentifier(void)
Definition: lexer.cpp:286

ASNLexer::~ASNLexer
virtual ~ASNLexer()
Definition: lexer.cpp:54

ASNLexer::LookupComments
virtual void LookupComments(void) override
Definition: lexer.cpp:125

ASNLexer::ASNLexer
ASNLexer(CNcbiIstream &in, const string &name)
Definition: lexer.cpp:49

ASNLexer::LookupToken
virtual TToken LookupToken(void) override
Definition: lexer.cpp:58

ASNLexer::StartString
void StartString(void)
Definition: lexer.cpp:419

AbstractLexer::CComment
Definition: alexer.hpp:90

AbstractLexer::CComment::AddChar
void AddChar(char c)
Definition: alexer.cpp:208

AbstractLexer
Definition: alexer.hpp:46

AbstractLexer::TokenStarted
bool TokenStarted(void) const
Definition: alexer.hpp:131

AbstractLexer::LexerWarning
virtual void LexerWarning(const char *error, int err_subcode=0)
Definition: alexer.cpp:70

AbstractLexer::SkipChars
void SkipChars(size_t count)
Definition: alexer.hpp:161

AbstractLexer::Char
char Char(void)
Definition: alexer.hpp:179

AbstractLexer::StartToken
void StartToken(void)
Definition: alexer.hpp:145

AbstractLexer::SkipChar
void SkipChar(void)
Definition: alexer.hpp:167

AbstractLexer::CurrentTokenLength
size_t CurrentTokenLength(void) const
Definition: alexer.hpp:195

AbstractLexer::NextLine
void NextLine(void)
Definition: alexer.hpp:141

AbstractLexer::AddComment
CComment & AddComment(void)
Definition: alexer.cpp:197

AbstractLexer::AddChars
void AddChars(size_t count)
Definition: alexer.hpp:151

AbstractLexer::Eof
bool Eof(void)
Definition: alexer.hpp:183

AbstractLexer::CurrentTokenStart
const char * CurrentTokenStart(void) const
Definition: alexer.hpp:187

AbstractLexer::AddChar
void AddChar(void)
Definition: alexer.hpp:157

true
#define true
Definition: bool.h:35

END_NCBI_SCOPE
#define END_NCBI_SCOPE
End previously defined NCBI scope.
Definition: ncbistl.hpp:103

BEGIN_NCBI_SCOPE
#define BEGIN_NCBI_SCOPE
Define ncbi namespace.
Definition: ncbistl.hpp:100

CNcbiIstream
IO_PREFIX::istream CNcbiIstream
Portable alias for istream.
Definition: ncbistre.hpp:146

CHECK
#define CHECK(keyword, t, length)
Definition: lexer.cpp:353

IsAlNum
bool IsAlNum(char c)
Definition: lexer.cpp:39

IsDigit
bool IsDigit(char c)
Definition: lexer.cpp:44

lexer.hpp

ncbi_pch.hpp

isalnum
int isalnum(Uchar c)
Definition: ncbictype.hpp:62

isdigit
int isdigit(Uchar c)
Definition: ncbictype.hpp:64

in
std::istream & in(std::istream &in_, double &x_)

_ASSERT
#define _ASSERT
Definition: test_assert_impl.h:173

tokens.hpp

TToken
TToken
Definition: tokens.hpp:38

K_DEFINITIONS
@ K_DEFINITIONS
Definition: tokens.hpp:52

K_FALSE
@ K_FALSE
Definition: tokens.hpp:72

K_IMPLICIT
@ K_IMPLICIT
Definition: tokens.hpp:82

K_BIGINT
@ K_BIGINT
Definition: tokens.hpp:76

T_IDENTIFIER
@ T_IDENTIFIER
Definition: tokens.hpp:42

T_TAG
@ T_TAG
Definition: tokens.hpp:49

K_BOOLEAN
@ K_BOOLEAN
Definition: tokens.hpp:59

K_APPLICATION
@ K_APPLICATION
Definition: tokens.hpp:86

K_INTEGER
@ K_INTEGER
Definition: tokens.hpp:60

T_STRING
@ T_STRING
Definition: tokens.hpp:44

T_TAG_BEGIN
@ T_TAG_BEGIN
Definition: tokens.hpp:79

K_CHOICE
@ K_CHOICE
Definition: tokens.hpp:71

K_PRIVATE
@ K_PRIVATE
Definition: tokens.hpp:87

K_FROM
@ K_FROM
Definition: tokens.hpp:57

T_TYPE_REFERENCE
@ T_TYPE_REFERENCE
Definition: tokens.hpp:43

K_BIT
@ K_BIT
Definition: tokens.hpp:65

K_COMPONENTS
@ K_COMPONENTS
Definition: tokens.hpp:88

K_AUTOMATIC
@ K_AUTOMATIC
Definition: tokens.hpp:84

K_BEGIN
@ K_BEGIN
Definition: tokens.hpp:53

K_OPTIONAL
@ K_OPTIONAL
Definition: tokens.hpp:74

K_IMPORTS
@ K_IMPORTS
Definition: tokens.hpp:55

K_ENUMERATED
@ K_ENUMERATED
Definition: tokens.hpp:61

T_DEFINE
@ T_DEFINE
Definition: tokens.hpp:48

K_REAL
@ K_REAL
Definition: tokens.hpp:62

T_DOUBLE
@ T_DOUBLE
Definition: tokens.hpp:50

K_StringStore
@ K_StringStore
Definition: tokens.hpp:64

K_DEFAULT
@ K_DEFAULT
Definition: tokens.hpp:75

K_EXPLICIT
@ K_EXPLICIT
Definition: tokens.hpp:81

T_BINARY_STRING
@ T_BINARY_STRING
Definition: tokens.hpp:46

K_SEQUENCE
@ K_SEQUENCE
Definition: tokens.hpp:69

K_OF
@ K_OF
Definition: tokens.hpp:70

T_TAG_END
@ T_TAG_END
Definition: tokens.hpp:80

K_OCTET
@ K_OCTET
Definition: tokens.hpp:66

K_NULL
@ K_NULL
Definition: tokens.hpp:58

T_NUMBER
@ T_NUMBER
Definition: tokens.hpp:45

K_UNIVERSAL
@ K_UNIVERSAL
Definition: tokens.hpp:85

K_EXPORTS
@ K_EXPORTS
Definition: tokens.hpp:56

T_HEXADECIMAL_STRING
@ T_HEXADECIMAL_STRING
Definition: tokens.hpp:47

K_VisibleString
@ K_VisibleString
Definition: tokens.hpp:63

K_TRUE
@ K_TRUE
Definition: tokens.hpp:73

K_END
@ K_END
Definition: tokens.hpp:54

K_TAGS
@ K_TAGS
Definition: tokens.hpp:83

K_UTF8String
@ K_UTF8String
Definition: tokens.hpp:77

K_STRING
@ K_STRING
Definition: tokens.hpp:67

K_SET
@ K_SET
Definition: tokens.hpp:68

T_SYMBOL
@ T_SYMBOL
Definition: tokens.hpp:40