Занятие 3 по курсу МПК — различия между версиями
Материал из Вики ИТ мехмата ЮФУ
Admin (обсуждение | вклад) (→Комплект GPLex+GPPG для разработки парсеров и сканеров) |
Admin (обсуждение | вклад) (→Комплект GPLex+GPPG для разработки парсеров и сканеров) |
||
Строка 2: | Строка 2: | ||
[[Страница_курса_"Методы_построения_компиляторов"| К основной странице курса]] | [[Страница_курса_"Методы_построения_компиляторов"| К основной странице курса]] | ||
− | === | + | ===Разработка лексических анализаторов с помощью программы GPLex=== |
*GPLex - генератор сканеров (лексических анализаторов) | *GPLex - генератор сканеров (лексических анализаторов) | ||
− | |||
Комплект для практического занятия [http://pascalabc.net/downloads/CompilerConstruction/GPPG_Pack.zip скачиваем отсюда]. Состав: | Комплект для практического занятия [http://pascalabc.net/downloads/CompilerConstruction/GPPG_Pack.zip скачиваем отсюда]. Состав: |
Версия 11:53, 15 августа 2014
Разработка лексических анализаторов с помощью программы GPLex
- GPLex - генератор сканеров (лексических анализаторов)
Комплект для практического занятия скачиваем отсюда. Состав:
- LexProjects.sln - файл решения, содержащее проект Lex1.csproj
- Lex1.csproj - файл демонстрационного проекта для GPLex
- gplex.exe - исполняемый файл генератора сканеров
- mymain.cs - основная программа, содержащая создание сканера и сканирование всех лексем в файле
- SimpleLex.lex - файл, содержащий правила для генерации лексического анализатора
- a.txt - файл программы, подаваемой на вход сгенерированному лексеру
Компиляция проекта
- Выполняем команду gplex.exe /noparser my.lex
- При этом генерируется файл my.cs, содержащий код лексера. Ключ /noparser означает, что генерируется лексер без парсера.
- Открываем и компилируем .sln
Формат .lex-файла
Определения %% Правила %% Пользовательский код
Пользовательский код содержит описания полей и методов, включаемых в генерируемый класс Scanner.
Lex-файл my.lex
%namespace LexScanner
Alpha [a-zA-Z]
INTNUM [0-9]+
REALNUM {INTNUM}\.{INTNUM}
ID {Alpha}+
%%
{INTNUM} {
Console.WriteLine("IntNum "+yytext);
}
{REALNUM} {
Console.WriteLine("RealNum "+yytext);
}
begin {
Console.WriteLine("Key: begin");
}
end {
Console.WriteLine("Key: end");
}
{ID} {
Console.WriteLine("ID "+yytext);
}
%%
// Здесь можно делать описания переменных и методов - они попадают в класс Scanner
public int Sum = 0;
Регулярные выражения, используемые в секции определений
. | один символ кроме '\n' |
* | ноль или более повторений |
+ | одно или более повторений |
? | ноль или одно повторение |
[] | класс символов, обозначающий любой символ внутри [] |
^ | при использовании внутри [] обозначает отрицание. При использовании вне [] обозначает, что шаблон начинается с начала строки |
\ | начало esc-последовательности (например, \n) |
Внутри [] можно использовать: - для задания диапазона, например [0-9] ^ в начале для задания отрицания, например [^"\n] (не кавычки и не символ перехода на новую строку)
Примеры регулярных выражений
[0-9] | |
[0-9]+ | |
[0-9]*\.[0-9]+ | \. здесь обозначает точку, т.к. просто . имеет другое значение |
[+-]?[0-9]+ | |
#.* | комментарий, начинающийся с #, после которого идет ноль или более символов до конца строки |
\"[^"\n]*["\n] | кавычка, после которой идет любое количество не кавычек и не символов перехода на новую строку, после которых идет кавычка или переход на новую строку - так может задаваться литеральная строка. Здесь вне [] кавычка предваряется \, поскольку символ " имеет самостоятельный смысл; в [] кавычку можно писать без \, поскольку внутри [] кавычка не имеет самостоятельного смысла |
[^ \n\t]+ | любой символ, не являющийся пробелом, переходом на новую строчку, табулостопом, повторяющийся 1 или более раз |
^[ \t]*\n | строка из whitespace - пробелы или знаки табуляции, начинающиеся с начала строки и повторенные ноль или более раз, после которых идет символ перехода на новую строку |
Класс Scanner
- Основной метод - int yylex() - возвращает номер следующей лексемы (токена)
- Свойства
string yytext - текст лексемы int yyline - номер строки лексемы int yycol - номер столбца лексемы int yyleng - длина лексемы
Задание
- Откомпилировать лексический анализатор и запустить его для файла a.txt
- Сделать имя файла, обрабатываемого лексическим анализатором, параметром командной строки
- Подсчитать количество, среднюю, минимальную и максимальную длину всех идентификаторов
- Найти сумму всех целых и сумму всех вещественных в файле
- Дана программа, в которой встречаются ключевые слова begin end. Определить, правильно ли они расставлены
- По данному тексту слов составить таблицу
слово список его вхождений в текст в формате (строка,столбец), (строка,столбец)