/** * Make regular expression for case insensitive match * Example (non ASCII): "123_слово_test" => "123_(с|С)(л|Л)(о|О)(в|В)(о|О)_[tT][eE][sS][tT]" * Example (only ASCII): "123_test" => "(?i:123_test)" * * @param string $s * @param string|null $delimiter If the optional delimiter is specified, it will also be escaped. * This is useful for escaping the delimiter that is required by the PCRE functions. * The / is the most commonly used delimiter. * @return string|bool|null Returns FALSE if error occurred */ public static function preg_quote_case_insensitive($s, $delimiter = null) { if (!ReflectionTypeHint::isValid()) { return false; } if (is_null($s)) { return $s; } if (self::is_ascii($s)) { return '(?i:' . preg_quote($s, $delimiter) . ')'; } #speed improve $s_re = ''; $s_lc = UTF8::lowercase($s); if ($s_lc === false) { return false; } $s_uc = UTF8::uppercase($s); if ($s_uc === false) { return false; } $chars_lc = UTF8::str_split($s_lc); if ($chars_lc === false) { return false; } $chars_uc = UTF8::str_split($s_uc); if ($chars_uc === false) { return false; } foreach ($chars_lc as $i => $char) { if ($chars_lc[$i] === $chars_uc[$i]) { $s_re .= preg_quote($chars_lc[$i], $delimiter); } elseif (self::is_ascii($chars_lc[$i])) { $s_re .= '[' . preg_quote($chars_lc[$i] . $chars_uc[$i], $delimiter) . ']'; } else { $s_re .= '(' . preg_quote($chars_lc[$i], $delimiter) . '|' . preg_quote($chars_uc[$i], $delimiter) . ')'; } } return $s_re; }
private static function _make_regexp_callback(array $m) { #$re_holes = '[\x00-\x20\-_\*\~\.\'"\^=`:]'; #$re_holes = '[\x00-\x2f\x3a-\x40\x5b-\x60\x7b-\x7f]'; $re_holes = '(?!/\\\\)[^\\p{L}\\d]'; #non letter, non digit, non '/\' if ($m[0] === 'а') { $re = '[@аА]++ (?>[:holes:]|[@аА]+)*+'; } elseif ($m[0] === 'з') { $re = '[3зЗ]++ (?>[:holes:]|[3зЗ]+)*+'; } elseif ($m[0] === 'б') { $re = '[6бБ]++ (?>[:holes:]|[6бБ]+)*+'; } elseif ($m[0] === 'л') { $re = '(?>[лЛ]+|/\\\\)++ (?>[:holes:]|[лЛ]+|/\\\\)*+'; } else { #в PCRE-7.2 флаг /i в комбинации с /u в регулярном выражении почему-то не работает (BUG?) #поэтому делаем класс символов с буквами в обоих регистрах $char = '[' . preg_quote($m[0] . UTF8::uppercase($m[0]), '~') . ']'; $re = str_replace('$0', $char, '$0++ (?>[:holes:]|$0+)*+'); } return str_replace('[:holes:]', $re_holes, $re . "\r\n"); }
/** * "Подсветка" найденных слов для результатов поисковых систем. * Ищет все вхождения цифр или целых слов в html коде и обрамляет их заданными тэгами. * Текст должен быть в кодировке UTF-8. * * @param string|null $s Текст, в котором искать * @param array|null $words Массив поисковых слов * @param bool $is_case_sensitive Искать с учётом от регистра? * @param string $tpl HTML шаблон для замены * @return string|bool|null returns FALSE if error occured */ public static function words_highlight($s, array $words = null, $is_case_sensitive = false, $tpl = '<span class="highlight">%s</span>') { if (!ReflectionTypeHint::isValid()) { return false; } if (is_null($s)) { return $s; } #оптимизация для пустых значений if (!strlen($s) || !$words) { return $s; } #оптимизация #{{{ $s2 = UTF8::lowercase($s); foreach ($words as $k => $word) { $word = UTF8::lowercase(trim($word, ".. *")); if ($word == '' || strpos($s2, $word) === false) { unset($words[$k]); } } if (!$words) { return $s; } #}}} #d($words); #кэширование построения рег. выражения для "подсвечивания" слов в функции при повторных вызовах static $func_cache = array(); $cache_id = md5(serialize(array($words, $is_case_sensitive, $tpl))); if (!array_key_exists($cache_id, $func_cache)) { $re_words = array(); foreach ($words as $word) { $is_mask = substr($word, -1) === '*'; if ($is_mask) { $word = rtrim($word, '*'); } $is_digit = ctype_digit($word); #рег. выражение для поиска слова с учётом регистра или цифр: $re_word = preg_quote($word, '~'); #рег. выражение для поиска слова НЕЗАВИСИМО от регистра: if (!$is_case_sensitive && !$is_digit) { if (UTF8::is_ascii($word)) { $re_word = '(?i:' . $re_word . ')'; } else { $lc = UTF8::str_split(UTF8::lowercase($re_word)); $uc = UTF8::str_split(UTF8::uppercase($re_word)); $re_word = array(); foreach ($lc as $i => $tmp) { $re_word[] = '[' . $lc[$i] . $uc[$i] . ']'; } $re_word = implode('', $re_word); } } #d($re_word); if ($is_digit) { $append = $is_mask ? '\\d*+' : '(?!\\d)'; } else { $append = $is_mask ? '\\p{L}*+' : '(?!\\p{L})'; } $re_words[$is_digit ? 'digits' : 'words'][] = $re_word . $append; } if (array_key_exists('words', $re_words) && $re_words['words']) { #поиск вхождения слова: $re_words['words'] = '(?<!\\p{L}) #просмотр назад (\\b не подходит и работает медленнее) (?:' . implode(PHP_EOL . '| ', $re_words['words']) . ') '; } if (array_key_exists('digits', $re_words) && $re_words['digits']) { #поиск вхождения цифры: $re_words['digits'] = '(?<!\\d) #просмотр назад (\\b не подходит и работает медленнее) (?:' . implode(PHP_EOL . '| ', $re_words['digits']) . ') '; } #d(implode(PHP_EOL . '| ', $re_words)); $func_cache[$cache_id] = '~(?> #встроенный PHP, Perl, ASP код <([\\?\\%]) .*? \\1> \\K #блоки CDATA | <\\!\\[CDATA\\[ .*? \\]\\]> \\K #MS Word тэги типа "<![if! vml]>...<![endif]>", #условное выполнение кода для IE типа "<!--[if lt IE 7]>...<![endif]-->": | <\\! (?>--)? \\[ (?> [^\\]"\']+ | "[^"]*" | \'[^\']*\' )* \\] (?>--)? > \\K #комментарии | <\\!-- .*? --> \\K #парные тэги вместе с содержимым | <((?i:noindex|script|style|comment|button|map|iframe|frameset|object|applet))' . self::$re_attrs . '(?<!/)> .*? </(?i:\\2)> \\K #парные и непарные тэги | <[/\\!]?+[a-zA-Z][a-zA-Z\\d]*+' . self::$re_attrs . '> \\K #html сущности (< > &) (+ корректно обрабатываем код типа &amp;nbsp;) | &(?> [a-zA-Z][a-zA-Z\\d]++ | \\#(?> \\d{1,4}+ | x[\\da-fA-F]{2,4}+ ) ); \\K | ' . implode(PHP_EOL . '| ', $re_words) . ' ) ~suxSX'; #d($func_cache[$cache_id]); } $s = preg_replace_callback($func_cache[$cache_id], function (array $m) use($tpl) { return $m[0] !== '' ? sprintf($tpl, $m[0]) : $m[0]; }, $s); return $s; }