WebScript.Ru
C:\   главная  ::   о сайте  ::  каталог скриптов  ::  гнездо  ::  форум  ::   авторам  :: Новостройки ::   ХОСТИНГ  ::

|| разделы::
|| поиск по сайту::

|| реклама::
|| новости почтой::
Рассылки Subscribe.Ru ::



Новости сайта WebScript.Ru
Популярные статьи

Hot 5 Stories

|| рекомендуем::




Регулярные выражения


Прислал: NAS [ 01.10.2000 @ 14:50 ]
Раздел:: [ Статьи по PHP ]


Регулярные выражения.

До последнего времени для меня величайщей загадкой и китайской грамотой представлялись загадочные "регулярные выражения" (regular experssions). Что же это такое?

Регулярные выражения - самый мощный инструмент работы со строками, который смогли выдумать современные программисты. С их помощью можно проводить анализ строк, на содержание последовательностей символов, производить замену на основе этой выборки, разбивать строки на массивы и многое другое.

Проще всего разобраться с их устройством на примерах. Для этого можно использовать специальные функции PHP для работы с регулярными выражениями (RE):

ereg();
ereg_replace();
eregi();
ereg_replacei();
split();

Функции с суффиксом i представляют из себя аналоги функций без этого суффикса, не чувствтительные к регистру операндов. Рассмотрим, для начала, функцию split().

Выглядит она так: array split(string pattern, string string, int [limit]);. Основным ее параметром является pattern (шаблон). В нем содержится RE, для поиска в строке string. Эта функция строит массив на основе анализа строки, где разделителем является строка, заданная шаблоном.

Принцип работы этой функции на понятном языке выглядит не так уж и страшно: Разбить строку на компоненты (подстроки), соответствующий правилам, описаным в параметре pattern. Правило может выглядеть, например, так: Слова разделены запятой и любым количеством пробелов, причем пробелов может не быть. Это вполне "жизненное" правило. На его основе можно построить массив ключевых слов, содержащихся в строке и разделенных запятыми, а после запятой может идти любое количество пробелов (но не обязательно). Теперь рассмотрим как записать это правило в нотации RE.

, *. Каждый символ в шаблоне важен. Обратите внимание на пробел между запятой и звездочкой - это необходимый элемент шаблона. Первый символ означает обязательную запятую после слова, а комбинация " *" (помните, что пробел - элемент шаблона) - любое количество пробелов или их отсутствие. Звездочка является модификатором и говорит, что идущий перед ней символ может встречаться 0 или больше раз.

Рассмотрим, как все это реализовать на PHP с помощью RE:

$str = "test, one, to, sree";
$regs = split(", *",$str);
for ($i = 0; $i <= count($regs)-1; $i++) {
echo $i," : ",$regs[$i];
}

И результат работы данного кода:

0 : test
1 : one
2 : to
3 : sree

Причем, строка $str может выглядеть так: "test, one, to, sree", или так: "test,one,to,sree", или так: "test,one,   to, sree". Результат будет одинаковым.

Перейдем к более сложному примеру из жизни. Попытаемся определить версию браузера из строки $HTTP_USER-AGENT, для Internet Explorer. Типичная строка выглядит так:

Mozilla/4.0 (compatible; MSIE 4.01; Windows 98)

Сначала попытаемся определить правило выборки номера версии обычным языком. Перед номером версии обязательно идет комбинация символов "MSIE" и пробел, заканчивается номер версии точкой с запятой. Просто? Теперь запишем это в терминах RE. MSIE ([^;]+). Как видите, здесь используются скобки различной конфигурации. Что они означают? Круглые скобки определяют тот элемент, который мы ищем в строке (в нашем случае - шаблон номера версии версии). Квадратные - определяют набор символов, каждый из которых может составлять часть номера версии. ^ - представляет собой отрицание. Т.е. конструкция [^;], в переводе на русский означает "любой символ, кроме точки с запятой". + после квадратных скобок говорит, что таких символов (отличных от ;) должно быть минимум 1 (или больше). Круглые скобки обозначают границы искомой подстроки. Соответствующая шаблону в круглых скобках подстрока сохраняется в специальной переменной. Таким образом RE MSIE ([^;]+) переводится на русский язык, как "все символы, отличные от точки с запятой, следующие за набором символов MSIE и пробелом".

Но нам необходимо получить номер версии. Для этого существует функция ereg() (или ее регистронезависимый аналог eregi()). Выглядит она так: int ereg(string pattern, string string, array [regs]);. В параметре pattern передается шаблон, в string - строка для разбора, а в параметре regs передается массив найденых подстрок, соответствующих шаблону в круглых скобках. Первый (с индексом 0) элемент массива представляет собой подстроку, соответсвующую всему шаблону pattern. Если подстрока, соответствующая шаблону pattern не найдена, то возвращается значение false иначе, количество найденных подстрок.

В данном случае вызов этой функции будет выглядеть так:

ereg("MSIE ([^;]+)",$HTTP_USER_AGENT,$regs);
echo "<B>$HTTP_USER_AGENT : $HTTP_USER_AGENT</B><BR>";
echo "<B>VERSION : $regs[1]</B>";

Вот результат работы этого кода:

$HTTP_USER_AGENT : Mozilla/4.0 
(compatible; MSIE 5.0; Windows 98; DigExt)

VERSION : 5.0

Надеюсь, основные принципы построения RE понятны? Со всеми возможными модификаторами и дополнительными примерами можно ознакомиться на соответствующей странице.

© Андрей Головин //exper.ural.ru/


 :::::  Anonymous пишет 16.02.2001 @ 09:35 
А не проще ли писать

for ($i = 0; $i < count($regs); $i++) {
echo $i," : ",$regs[$i];
}

Т.е. мы меняем $i <= count($regs)-1 на $i < count($regs).
 :::::  Anonymous пишет 05.03.2001 @ 02:28 
А как слать почту не используя mail() но при условии что sendmail установлен и путь к нему известен?
 :::::  troy пишет 25.09.2003 @ 16:53 
nus ты просто ламер стоило переписывать с книги по программированию целую главу?
ты хочешь показать всем, что ты прохавал шаблоны?
 :::::  player_dos пишет 23.04.2004 @ 23:03 
Ничего страшного что показал. Зато на наглядных пример быстрее понимаешь реги.
 :::::  bib пишет 27.04.2004 @ 15:28 
Замучался. Нужно распарсить простую строку либо по словам, либо по выражениям в кавычках.
Имеем:
$str='слово1 слово2, слово3... "слово4 слово5" "слово6,слово7"'; // знаки препинания любые
Должен получиться массив:
0: слово1
1: слово2
2: слово3
3: слово4 слово5
4: слово6 слово7

Вроде бы просто, но что-то не получается. Помогите плиз. Хочется более менее грамотный поиск на сайтах делать.
 :::::  Андрей пишет 02.10.2004 @ 13:32 
ereg("MSIE ([^;]+)",$HTTP_USER_AGENT,$regs);
echo "<B>$HTTP_USER_AGENT : $HTTP_USER_AGENT</B><BR>";
echo "<B>VERSION : $regs[1]</B>";

На самом деле результатом этого будет:

Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt) : Mozilla/4.0 (compatible; MSIE 5.0; Windows 98; DigExt)
VERSION : 5.0

Имя:
Email:
URL

Введите сумму двух чисел девять и одинн (девять+одинн=?)
Запомнить мою информацию

* Html запрещен* Ваш E-mail опубликован не будет.

Copyright © 2000-2001 WebScript.Ru nas@webscript.ru
Design © 2001 by Parallax Design Studio (aka Spectator.ru)
Все торговые марки и авторские права на эту страницу принадлежат их соответствующим владельцам.
Сгенерировано за: 0.0147929