PHP и UTF-8

31 марта 2008 года

Если на одной веб-странице требуется использование символов из нескольких языков, то для такой страницы проще всего взять кодировку UTF-8. В связи с этим многие ругают PHP за отсутствие встроенной поддержки этой кодировки. Конечно, PHP может ее поддерживать, но это сделано ~~через зад~~ через расширения вроде mbstring. Признать такой способ удачным и универсальным нельзя.

Проблема состоит в том, что обычные функции для обработки строк, вроде strlen, используют принцип «один байт — один символ». Поэтому, если им передать строку, в которой некоторые символы закодированы несколькими байтами, могут произойти всякие неприятности.

Однако, если посмотреть на способ кодирования символов в UTF-8 и подумать, то станет ясно, что почти во всех ситуациях неприятностей можно избежать. Нужно помнить только, что такие функции, как strlen и substr, принимают на вход и выдают не номера символов, а номера байт. Регулярные выражения, str_replace и другие функции будут работать правильно.

Одна из редких ситуаций, в которых стандартных функций будет недостаточно, возникает тогда, когда от какой-нибудь строки нужно отрезать, например, ровно 10 символов. Скольким байтам в UTF-строке соответствуют эти символы, неизвестно. В таких ситуациях неплохо будет работать следующий код:

if (!function_exists('mb_internal_encoding'))
{
   function mb_strlen($str)
   {
      for ($i = strlen($str), $j = 0; $i--; )
         if ((ord($str[$i]) & 0xc0) != 0x80)
            $j++;
         return $j;
   }

   function mb_substr($str, $from, $len = false)
   {
      if ($from >= 0)
      {
         for ($c_byte = 0; $from--; )
            if (ord($str[$c_byte]) <= 0x7F)
               $c_byte++;
            else
               while ((ord($str[++$c_byte]) & 0xc0) == 0x80);

         $byte_beg = $c_byte;

         if ($len === false)
            return substr($str, $byte_beg);
         elseif ($len < 0)
         {
            for ($c_byte = strlen($str) - 1; $len++; $c_byte--)
               if (ord($str[$c_byte]) > 0x7F)
                  while ((ord($str[--$c_byte]) & 0xc0) == 0x80);

            return substr($str, $byte_beg, -strlen($str) + 1 + $c_byte);
         }
         else
         {
            for ( ; $len--; )
               if (ord($str[$c_byte]) <= 0x7F)
                  $c_byte++;
               else
                  while ((ord($str[++$c_byte]) & 0xc0) == 0x80);

            return substr($str, $byte_beg, $c_byte - $byte_beg);
         }
      }
      else
      {
         $last_byte = strlen($str) - 1;
         for ($c_byte = $last_byte; $from++; $c_byte--)
            if (ord($str[$c_byte]) > 0x7F)
               while ((ord($str[--$c_byte]) & 0xc0) == 0x80);

         $byte_beg = $c_byte;

         if ($len === false)
            return substr($str, $byte_beg - $last_byte);
         elseif ($len < 0)
         {
            for ($c_byte = $last_byte; $len++; $c_byte--)
               if (ord($str[$c_byte]) > 0x7F)
                  while ((ord($str[--$c_byte]) & 0xc0) == 0x80);

            return substr($str, $byte_beg - $last_byte, $c_byte - $last_byte);
         }
         else
         {
            for ( ; $len--; )
               if (ord($str[$c_byte]) <= 0x7F)
                  $c_byte++;
               else
                  while ((ord($str[++$c_byte]) & 0xc0) == 0x80);

            return substr($str, $byte_beg - $last_byte, $c_byte - $byte_beg);
         }
      }
   }
}
else
   mb_internal_encoding('UTF-8');

Теперь, чтобы взять первые 10 символов строки, достаточно написать mb_substr($str, 0, 10);.

Вот, в принципе, и всё. В следующей версии SiteX'а основной кодировкой будет UTF-8.

Читайте также

Codeium — нейросетевой помощник программиста

2024

Как правильно запрограммировать условие «по такое-то число»

Наверно, не будет преувеличением сказать, что я ни разу не видел, чтобы кто-то из коллег правильно программировал верхнюю границу диапазона дат.

2025

UTF-8 bad chars

Вопрос о «плохих» данных в UTF-8. Иногда такое знание оказывается полезным.

2010

#.*#/u

У регулярных выражений PHP есть специальный модификатор u для работы со строками в кодировке UTF-8. Оказывается, вставлять этот модификатор во все подряд регулярные выражения не только бессмысленно, но и вредно.

2010

Распаковка сжатых URL на сервере

2025

По мотивам нового движка блога

2007

Нативное gzip-сжатие в JS

2025

browser.js

2010

Да, вы правы. И это решение работает быстрее, чем использование цикла.

На самом деле, мне сначала понадобилась функция utf8_substr. Вариант с регулярными выражениями для малых входных параметров (именно такие мне были нужны) работал медленнее, чем с циклом. Поэтому в utf8_strlen я оставил цикл.

Я исправлю заметку.

#3. 4 ноября 2008 года, 02:52. пишет:

Велосипед изобретаете

http://forum.dklab.ru/php/advises/Php-funk … Utf-8.html

#4. 4 ноября 2008 года, 20:33. пишет:

Возможно это и попытка изобрести велосипед.

Чтобы быть более конкретным, скажу, что речь шла об укорачивании слишком длинных ссылок:

http://punbb.informer.com/trac/browser/pun … r.php#L595

Сейчас там используется другой велосипед:

http://punbb.informer.com/trac/browser/pun … clude/utf8

У меня нет никакого желания выяснять, какой из велосипедов быстрее :)

PHP и UTF-8

Читайте также

Комментарии

Оставьте свой комментарий