Расширенная нотация для регулярных выражений

Регулярные выражения как языки

 

Регулярное выражение над алфавитом Σ — это цепочка символов в расширенном алфавите

Σ È {|, *, (, ) }.

Множество всех таких цепочек-выражений образует язык.

Возникает естественный вопрос, к языкам какого типа по классификации Н. Хомского этот язык принадлежит.

К автоматным? Тогда, быть может, правила записи регулярных выражений можно задать регулярным выражением? Нет, нельзя.

Синтаксис регулярных выражений может быть определен только контекстно-свободной, но не автоматной грамматикой. Вот эта грамматика:

R®a | RR | R* | R" | "R | (R) | ε

В этой записи есть ряд условностей:

а обозначает любой символ алфавита Σ,

запись "|", представляет знак «|», используемый в регулярных выражениях и совпадающий с аналогичным знаком, применяемым при записи грамматик.

Приведенная грамматика не отражает принятый для регулярных выражений порядок операций. Грамматика, трактующая структуру регулярного выражения в соответствии с приоритетами операций, может быть записана так:

R® T | R" | "T

T® M | RM

М® a | М* | (R) | ε.

 

Регулярные выражения - это строки символов, и тем они интересны как средство задания автоматных языков.

Но использование надстрочных знаков «*» и «+» несколько затрудняет запись выражений и их считывание компьютерной программой. Получили распространение другие варианты обозначений.

Повторение ноль или более раз обозначают фигурными скобками:

R* = {R}.

Используются также квадратные скобки, обозначающие необязательность заключенного в них выражения:

[R] = (R|ε).

Знаки «*» и «+» в этом случае уже не используются.

Соглашения о способах записи символов, с помощью которых строятся сами выражения (скобки, знак «|»), в случае, если они также входят в терминальный алфавит, могут быть разными.

Можно заключать такие метасимволы в кавычки «"». При необходимости записать саму кавычку ее заключают в апострофы «'», а апостроф, если нужно, записывается в кавычках.

По этим правилам регулярные выражения, обозначающие множество целых со знаком и множество идентификаторов, будут выглядеть так:

[ +|- ] ц { ц }

б { б|ц }.

На этом мы заканчиваем рассмотрение автоматных грамматик, в ходе которого удалось построить простые и эффективные методы распознавания автоматных языков.

 

С помощью автоматных грамматик определяется синтаксис простейших элементов языков программирования: идентификаторов, чисел, других констант, знаков операций и разделителей.