Занятие 3 по курсу МПК — различия между версиями

Версия 12:18, 5 апреля 2011

К основной странице курса

Комплект GPLex+GPPG для разработки парсеров и сканеров

GPLex - генератор сканеров (лексических анализаторов)
GPPG - генератор парсеров (синтаксических анализаторов)

Комплект для практического занятия скачиваем отсюда. Состав:

LexProjects.sln - файл решения, содержащее проект Lex1.csproj
Lex1.csproj - файл демонстрационного проекта для GPLex
gplex.exe - исполняемый файл генератора сканеров
gppg.exe - исполняемый файл генератора парсеров (он нам понадобится на следующем занятии)
ShiftReduceParser.dll - внешняя сборка, необходимая для работы сгенерированного компилятора
gplexx.frame - файл, включаемый в генерируемый файл лексического анализатора
mymain.cs - основная программа, содержащая создание сканера и сканирование всех лексем в файле
my.lex - файл, содержащий правила для генерации лексического анализатора
a.txt - файл программы, подаваемой на вход сгенерированному лексеру

Компиляция проекта

Выполняем команду gplex.exe /noparser my.lex

При этом генерируется файл my.cs, содержащий код лексера. Ключ /noparser означает, что генерируется лексер без парсера.

Открываем и компилируем .sln

Формат .lex-файла

Определения
%%
Правила
%%
Пользовательский код

Пользовательский код содержит описания полей и методов, включаемых в генерируемый класс Scanner.

Lex-файл my.lex

%namespace LexScanner

Alpha 	[a-zA-Z]
INTNUM  [0-9]+
REALNUM {INTNUM}\.{INTNUM}
ID {Alpha}+ 

%%

{INTNUM} { 
  Console.WriteLine("IntNum "+yytext);
}

{REALNUM} { 
  Console.WriteLine("RealNum   "+yytext);
}

begin { 
  Console.WriteLine("Key: begin"); 
}

end { 
  Console.WriteLine("Key: end");
}

{ID}  { 
  Console.WriteLine("ID "+yytext);
}

%%

// Здесь можно делать описания переменных и методов - они попадают в класс Scanner
public int Sum = 0;

Регулярные выражения, используемые в секции определений

.	один символ кроме '\n'
*	ноль или более повторений
+	одно или более повторений
?	ноль или одно повторение
[]	класс символов, обозначающий любой символ внутри []
^	при использовании внутри [] обозначает отрицание. При использовании вне [] обозначает, что шаблон начинается с начала строки
\	начало esc-последовательности (например, \n)

Внутри [] можно использовать: - для задания диапазона, например [0-9] ^ в начале для задания отрицания, например [^"\n] (не кавычки и не символ перехода на новую строку)

Примеры регулярных выражений

[0-9]
[0-9]+
[0-9]*\.[0-9]+	\. здесь обозначает точку, т.к. просто . имеет другое значение
downto	слово to или слово downto
[+-]?[0-9]+
`#.*`	комментарий, начинающийся с #, после которого идет ноль или более символов до конца строки
\"[^"\n]*["\n]	кавычка, после которой идет любое количество не кавычек и не символов перехода на новую строку, после которых идет кавычка или переход на новую строку - так может задаваться литеральная строка. Здесь вне [] кавычка предваряется \, поскольку символ " имеет самостоятельный смысл; в [] кавычку можно писать без \, поскольку внутри [] кавычка не имеет самостоятельного смысла

[0-9]

[0-9]+

[0-9]*\.[0-9]+ (\. здесь обозначает точку, т.к. просто . имеет другое значение)

to|downto (слово to или слово downto)

[+-]?[0-9]+

#.* (комментарий, начинающийся с #, после которого идет ноль или более символов до конца строки)

\"[^"\n]*["\n] (кавычка, после которой идет любое количество не кавычек и не символов перехода на новую строку, после которых идет кавычка или переход на новую строку - так может задаваться литеральная строка. Здесь вне [] кавычка предваряется \, поскольку символ " имеет самостоятельный смысл; в [] кавычку можно писать без \, поскольку внутри [] кавычка не имеет самостоятельного смысла)

[^ \n\t]+ (любой символ, не являющийся пробелом, переходом на новую строчку, табулостопом, повторяющийся 1 или более раз)

^[ \t]*\n (строка из whitespace - пробелы или знаки табуляции, начинающиеся с начала строки и повторенные ноль или более раз, после которых идет символ перехода на новую строку)

Класс Scanner

Основной метод - int yylex() - возвращает номер следующей лексемы (токена)
Свойства

string yytext - текст лексемы
int yyline - номер строки лексемы
int yycol - номер столбца лексемы
int yyleng - длина лексемы

Задание

Откомпилировать лексический анализатор и запустить его для файла a.txt
Сделать имя файла, обрабатываемого лексическим анализатором, параметром командной строки
Подсчитать количество, среднюю, минимальную и максимальную длину всех идентификаторов
Найти сумму всех целых и сумму всех вещественных в файле
Дана программа, в которой встречаются ключевые слова begin end. Определить, правильно ли они расставлены
По данному тексту слов составить таблицу

слово   список его вхождений в текст в формате (строка,столбец), (строка,столбец)

@@ Строка 98: / Строка 98: @@
 ==== Примеры регулярных выражений====
+{|-
+ | style="width:25px" | [0-9]
+ |
+ |-
+ | [0-9]+
+ |
+ |-
+ | [0-9]*\.[0-9]+
+ | \. здесь обозначает точку, т.к. просто . имеет другое значение
+ |-
+ | to|downto
+ | слово to или слово downto
+ |-
+ | [+-]?[0-9]+
+ |
+ |-
+ | <tt>#.*</tt>
+ | комментарий, начинающийся с #, после которого идет ноль или более символов до конца строки
+ |-
+ | \"[^"\n]*["\n]
+ | кавычка, после которой идет любое количество не кавычек и не символов перехода на новую строку, после которых идет кавычка или переход на новую строку - так может задаваться литеральная строка. Здесь вне [] кавычка предваряется \, поскольку символ " имеет самостоятельный смысл; в [] кавычку можно писать без \, поскольку внутри [] кавычка не имеет самостоятельного смысла
+ |-
+ |
+ |
+ |-
+ |
+ |
+ |}
 [0-9]

Занятие 3 по курсу МПК — различия между версиями

Версия 12:18, 5 апреля 2011

Комплект GPLex+GPPG для разработки парсеров и сканеров

Компиляция проекта

Формат .lex-файла

Lex-файл my.lex

Регулярные выражения, используемые в секции определений

Примеры регулярных выражений

Класс Scanner

Задание

Навигация

Просмотры

Персональные инструменты

Навигация

Поиск

Инструменты