Страница 7 из 7
Регулярные выражения в .Net Как уже упоминалось выше, регулярные выражения широко используются практически во всех языках программирования. Каждый из языков накладывает свой отпечаток на синтаксис регулярных выражений, хотя суть и не меняется. Так, например, то, что в JScript пишется /a.c/, в VBScript, естественно, будет "a.c". Microsoft всегда старается сделать все по-своему, поэтому синтаксис регулярных выражений .NET несколько расширен, и включает ряд новых возможностей – например, поиск справа налево. Пишущие по-арабски поймут, зачем это нужно. Символ | Значение | \w | Слово. То же, что и [a-zA-Z_0-9]. | \W | Все, кроме слов. То же, что и [^a-zA-Z_0-9]. | \s | Любое пустое место. То же, что и [ \f\n\r\t\v]. | \S | Любое непустое место. То же, что и [^ \f\n\r\t\v]. | \d | Десятичная цифра. То же, что и [0-9]. | \D | Не цифра. То же, что и [^0-9]. | Таблица 4. Метасимволы в .Net Кстати, регулярные выражения в .Net умеют понимать русский язык. Особенно интересно и слегка непривычно то, что они делают это корректно. В Help'е сказано, например, что при поиске границы слова с использованием \b работают символы [a-zA-Z_0-9], однако верить этому не следует. На практике это не так. Русские буквы ищутся и находятся не хуже латиницы. Впрочем, может быть, к release-версии все будет приведено к соответствию с Help'ом. Классы, определяющие регулярные выражения .NET – это часть библиотеки базовых классов Microsoft .NET Framework, что означает одинаковую реализацию регулярных выражений для всех языков и средств, работающих с CLR (Common Language Runtime) – естественно, за вычетом языковых особенностей, типа уже упоминавшихся escape-символов. В .Net появились условные сравнения (conditional evaluation). Позволяет варьировать используемые шаблоны в зависимости от результатов поиска предыдущего подвыражения. Это заставит, например, пропустить правую скобку, если левая уже была найдена подвыражением. К сожалению, информация об этом пока слишком обрывочна, чтобы говорить об этом подробнее. Положительный и отрицательный lookbehind. Последние версии Perl поддерживают такую возможность для строк фиксированной длины. У машины регулярных выражений .NET эта возможность не ограничена ничем, кроме здравого смысла. Кроме перечисленных, есть еще и масса других, менее значительных дополнений и расширений, но перечислять их все нет ни сил, ни желания. Особенно учитывая, что всё может измениться без предупреждения. Большая ложка дегтя Увы, Microsoft традиционно пребывает в состоянии творческого безумия, и правая рука у него не знает, что делает левая (подробнее об этом см. "Средства программирования). Поэтому в саму среду Microsoft .Net встроена ДРУГАЯ библиотека регулярных выражений. Если они это изменят до выхода финальной версии (все, что вы здесь читаете, написано на базе beta 1), честь им и хвала. Если же не изменят (например, по забывчивости), разработчикам, скорее всего, придется работать по принципу "одним пользуемся, другое продаем". Компиляция и повторное использование регулярных выражений По умолчанию Regex компилирует регулярные выражения в последовательность внутренних байт-кодов регулярных выражений (это высокоуровневый код, отличный от Microsoft intermediate language (MSIL)). При исполнении регулярных выражений байт-код интерпретируется. Если же конструировать объект Regex с опцией 'с', он компилирует регулярные выражения в MSIL-код вместо упомянутого байт-кода. Это позволяет JIT-компилятору Microsoft .NET Framework преобразовать выражение в родные машинные коды для повышения производительности. Но сгенерированный MSIL нельзя выгрузить. Единственный способ выгрузить код – это выгрузить из памяти приложение целиком. Это значит, что занимаемые скомпилированным регулярным выражением ресурсы нельзя освободить, даже если сам объект Regex уже освобожден и уничтожен сборщиком мусора. Из-за этого казуса приходится задумываться – стоит ли компилировать регулярные выражения с опцией 'с', и если да, то какие и сколько. Если приложение должно постоянно использовать множество регулярных выражений, придется обойтись интерпретацией. А вот если есть несколько постоянно используемых регулярных выражений, можно и скомпилировать их для ускорения работы. Для повышения производительности Regex кэширует в памяти все регулярные выражения. Поэтому повторного разбора при каждом очередном использовании не происходит. Такой подход несколько уменьшает разницу в производительности компилируемых и интерпретируемых регулярных выражений. Приложение RegExpTest В качестве примера использования регулярных выражений мы создали .Net-приложение, использующее регулярные выражения для поиска в тексте. Мода – великая вещь, поэтому писать приложение следует не на Java, не на VB, а на C#. Это модно, и доказывает, что автор не стоит на месте, а работает над собой. Отрывки кода этого примера приведены в Листинге 1. Листинг 1. Использование регулярных выражений в C# protected class MyItem { public MyItem(string Match, int Index, int Len) { this.Match = Match; this.Index = Index; this.Len = Len; } public override string ToString() { return Index.ToString() + ", " + Len.ToString() + ", " + Match; } public string Match; public int Index; public int Len; } ... protected void Parce() { int iCountMatchs = 0; try { listBox1.Items.Clear(); statusBar1.Text = "Parsing...";
Regex re = new Regex(tbPattern.Text, tbOptions.Text);
MatchCollection mc = re.Matches(tbTextForSearch.Text); iCountMatchs = mc.Count;
statusBar1.Text = "Load list (" + iCountMatchs.ToString() + ")...";
listBox1.BeginUpdate(); foreach(Match m in mc) { listBox1.Items.Add(new MyItem(m.ToString(), m.Index, m.Length)); } } catch(Exception e1) { MessageBox.Show(e1.ToString(), "Error"); } finally { listBox1.EndUpdate(); statusBar1.Text = "Done " + iCountMatchs.ToString(); } }
|