Создание лексического анализатора с помощью программы GPLex

Разработка лексических анализаторов с помощью программы GPLex

GPLex - программа для автоматической генерации сканеров (лексических анализаторов)

Комплект для практического занятия скачиваем отсюда. Состав:

LexProjects.sln - файл решения, содержащее проект Lex1.csproj
Lex1.csproj - файл демонстрационного проекта для GPLex
gplex.exe - исполняемый файл генератора сканеров
mymain.cs - основная программа, содержащая создание сканера и сканирование всех лексем в файле
ShiftReduceParserCode.cs - файл проекта, необходимый для работы лексического анализатора
SimpleLex.lex - файл, содержащий правила для генерации лексического анализатора
generateScanner.bat - командный файл. Содержит одну команду: gplex.exe /noparser SimpleLex.lex
SimpleLex.cs - файл проекта, автоматически создаваемый при запуске generateScanner.bat
a.txt - файл программы, подаваемой на вход сгенерированному лексеру

Компиляция проекта и выполнение программы

Выполняем команду gplex.exe /noparser SimpleLex.lex, запустив командный файл generateScanner.bat

При этом генерируется файл SimpleLex.cs, содержащий код лексера. Ключ /noparser означает, что генерируется лексер без парсера.

Открываем и компилируем .sln
Меняем содержимое a.txt, запускаем проект и анализируем результаты

Файл ScannerHelper.cs

Вспомогательный файл для сканера. Содержит глобальные определения. В данном случае ScannerHelper.cs содержит перечислимый тип Tok, содержащий виды лексем, возвращаемых нашим сканером.

Лексема EOF должна идти первой и быть связанной с константой 0.

Группы лексем

EOF
Литеральные константы: ID, INUM, RNUM
Разделители, знаки операций: COLON, SEMICOLON, ASSIGN
Ключевые слова: BEGIN, END, CYCLE

namespace ScannerHelper
{
    public enum Tok { EOF = 0, ID, INUM, RNUM, COLON, SEMICOLON, ASSIGN, BEGIN, END, CYCLE };
}

Lex-файл SimpleLang.lex

Формат .lex-файла

Определения
%%
Правила
%%
Пользовательский код

Пользовательский код содержит описания полей и методов, включаемых в генерируемый класс Scanner.

Пользовательский код может находиться в секции определений, для этого его надо заключить в

%{

%}

Код SimpleLang.lex

%using ScannerHelper;
%namespace SimpleScanner

Alpha 	[a-zA-Z_]
Digit   [0-9] 
AlphaDigit {Alpha}|{Digit}
INTNUM  {Digit}+
REALNUM {INTNUM}\.{INTNUM}
ID {Alpha}{AlphaDigit}* 

// Здесь можно делать описания типов, переменных и методов - они попадают в класс Scanner
%{
  public int LexValueInt;
  public double LexValueDouble;
%}

%%
{INTNUM} { 
  LexValueInt = int.Parse(yytext);
  return (int)Tok.INUM;
}

{REALNUM} { 
  LexValueDouble = double.Parse(yytext);
  return (int)Tok.RNUM;
}

begin { 
  return (int)Tok.BEGIN;
}

end { 
  return (int)Tok.END;
}

cycle { 
  return (int)Tok.CYCLE;
}

{ID}  { 
  return (int)Tok.ID;
}

":" { 
  return (int)Tok.COLON;
}

":=" { 
  return (int)Tok.ASSIGN;
}

";" { 
  return (int)Tok.SEMICOLON;
}

[^ \r\n] {
  LexError();
  return (int)Tok.EOF; // конец разбора
}

%%

// Здесь можно делать описания переменных и методов - они тоже попадают в класс Scanner
public void LexError()
{
  Console.WriteLine("({0},{1}): Неизвестный символ {2}", yyline, yycol, yytext);
}

public string TokToString(Tok tok)
{
  switch (tok)
  {
    case Tok.ID:
      return tok + " " + yytext;
    case Tok.INUM:
      return tok + " " + LexValueInt;
    case Tok.RNUM:
      return tok + " " + LexValueDouble;
    default:
      return tok + "";
  }
}

Комментарии к SimpleLex.lex

Секция описаний содержит строки

%using ScannerHelper;
%namespace SimpleScanner

которые после преобразования в SimpleLex.cs перейдут в строки

using ScannerHelper;

namespace SimpleScanner
{
  // остальной генерируемый код
}

Строки

Alpha 	[a-zA-Z_]
Digit   [0-9] 
AlphaDigit {Alpha}|{Digit}
INTNUM  {Digit}+
REALNUM {INTNUM}\.{INTNUM}
ID {Alpha}{AlphaDigit}*

в секции описаний определяют так называемые классы символов, которыми можно пользоваться при определении других классов символов и в секции правил.

В секции правил определяются все распознаваемые лексемы и семантические действия, которые нужно выполнять, когда встретилась та или иная лексема.

В семантических действиях в основном мы возвращаем целое значение для функции

int yylex()

и, возможно, выполняем другие действия. В качестве целого значения будем возвращать тип лексемы Tok, приведенный к целому типу. Дополнительные семантические действия проделаем в следующих случаях:

в случае лексемы целой константы в LexValueInt будем возвращать целое, соответствующее текущей лексеме,
в случае лексемы вещественной константы в LexValueDouble будем возвращать вещественное, соответствующее текущей лексеме

Переменная

yytext

используемая в коде, является стандартным полем класса Scanner и представляет собой текстовое представление текущей лексемы.

Метод

public string TokToString(Tok tok)

предназначен для преобразования текущей лексемы к строковому представлению. Для лексем, представляющих идентификаторы и числовые константы, помимо типа лексемы выводится дополнительная семантическая информация.

Отдельно рассмотрим правило:

[^ \r\n] {
  LexError();
  return (int)Tok.EOF;
}

Запись [^ \r\n] означает любые символы кроме пробела и символов перехода на новую строку. Если таковые встретятся и они не входят в другое правило (описанное выше), то это - лексическая ошибка "Неизвестный символ".

Регулярные выражения, используемые в секции определений

.	один символ кроме '\n'
*	ноль или более повторений
+	одно или более повторений
?	ноль или одно повторение
[]	класс символов, обозначающий любой символ внутри []
^	при использовании внутри [] обозначает отрицание. При использовании вне [] обозначает, что шаблон начинается с начала строки
\	начало esc-последовательности (например, \n)

Внутри [] можно использовать: - для задания диапазона, например [0-9] ^ в начале для задания отрицания, например [^"\n] (не кавычки и не символ перехода на новую строку)

Примеры регулярных выражений

`[0-9]`
`[0-9]+`
`[0-9]*\.[0-9]+`	\. здесь обозначает точку, т.к. просто . имеет другое значение
`[+-]?[0-9]+`
`#.*`	комментарий, начинающийся с #, после которого идет ноль или более символов до конца строки
`\"[^"\n]*["\n]`	кавычка, после которой идет любое количество не кавычек и не символов перехода на новую строку, после которых идет кавычка или переход на новую строку - так может задаваться литеральная строка. Здесь вне [] кавычка предваряется \, поскольку символ " имеет самостоятельный смысл; в [] кавычку можно писать без \, поскольку внутри [] кавычка не имеет самостоятельного смысла
`[^ \n\t]+`	любой символ, не являющийся пробелом, переходом на новую строчку, табулостопом, повторяющийся 1 или более раз
`^[ \t]*\n`	строка из whitespace - пробелы или знаки табуляции, начинающиеся с начала строки и повторенные ноль или более раз, после которых идет символ перехода на новую строку

Класс Scanner

Класс Scanner создается в файле SimpleLex.cs, который генерируется по SimpleLex.lex-файлу

Основной метод - int yylex() - возвращает код следующей лексемы (токена)
Свойства:

string yytext - текст лексемы
int yyline - номер строки лексемы
int yycol - номер столбца лексемы
int yyleng - длина лексемы

Основная программа

using System;
using System.IO;
using SimpleScanner;
using ScannerHelper;

namespace Main
{
    class mymain
    {
        static void Main(string[] args)
        {
            // Чтобы вещественные числа распознавались и отображались в формате 3.14 (а не 3,14 как в русской Culture)
            System.Threading.Thread.CurrentThread.CurrentCulture = new System.Globalization.CultureInfo("en-US");

            var fname = @"..\..\a.txt";
            Console.WriteLine(File.ReadAllText(fname));

            Scanner scanner = new Scanner(new FileStream(fname, FileMode.Open));

            int tok = 0;
            do {
                tok = scanner.yylex();
                if (tok == (int)Tok.EOF)
                    break;
                Console.WriteLine(scanner.TokToString((Tok)tok));
            } while (true);

            Console.ReadKey();
        }
    }
}

Комментарии к программе

Лексический анализатор (сканер) содержит главный метод - yylex() - который возвращает следующую лексему, точнее, ее тип, приведенный к целому типу.

В основной программе мы в цикле вызываем метод scanner.yylex() пока не будет достигнут конец потока и выводим на экран содержимое текущего токена (лексемы)

Обязательные задания (5 баллов)

Откомпилировать лексический анализатор и запустить его для правильной программы и нескольких неправильных программ
Подсчитать количество, среднюю, минимальную и максимальную длину всех идентификаторов
Найти сумму всех целых и сумму всех вещественных в файле

Дополнительные задания (5 баллов)

1. Реализовать однострочный комментарий // (1 балл)

Однострочный комментарий можно создать так:

DotChr [^\r\n]
OneLineCmnt  \/\/{DotChr}*

\/ означает символ /, он так пишется, поскольку значок /, написанный без \, имеет другой смысл

2. Реализовать лексему Строка в апострофах (1 балл)

\'[^']*\'

означает "строка, заключенная в одинарные апострофы"

[^']

означает "последовательность символов, не включающая '"

3. Реализовать многострочный комментарий { } (2 балла). Откомпилировав программу с комментарием, убедиться, что всё его содержимое пропускается.

Для реализации многострочного комментария необходимо использовать состояния лексического анализатора.

При работе лексер может переходить из состояния в состояние командой BEGIN(ИмяСостояния);

Для возврата в первоначальное состояние следует вызвать BEGIN(INITIAL);

В другом состоянии могут распознаваться другие лексемы.

Для реализации многострочного комментария:

В первой секции (до первого %%) следует задать новое состояние:

%x COMMENT

Вход, выход и действия в состоянии COMMENT обрабатываются следующим образом:

"{" { 
  // переход в состояние COMMENT
  BEGIN(COMMENT);
}

<COMMENT> "}" { 
  // переход в состояние INITIAL
  BEGIN(INITIAL);
}

4. Используя состояния лексического анализатора, накопить в списке и выдать все идентификаторы, встречающиеся внутри многострочного комментария (1 балл)

Подсказка: используйте

<COMMENT>{ID} {
  // обрабатывается ID внутри комментария
}