subversion/libsvn_subr/utf8proc.c

289177Speter/*
289177Speter * utf8proc.c:  Wrappers for the utf8proc library
289177Speter *
289177Speter * ====================================================================
289177Speter *    Licensed to the Apache Software Foundation (ASF) under one
289177Speter *    or more contributor license agreements.  See the NOTICE file
289177Speter *    distributed with this work for additional information
289177Speter *    regarding copyright ownership.  The ASF licenses this file
289177Speter *    to you under the Apache License, Version 2.0 (the
289177Speter *    "License"); you may not use this file except in compliance
289177Speter *    with the License.  You may obtain a copy of the License at
289177Speter *
289177Speter *      http://www.apache.org/licenses/LICENSE-2.0
289177Speter *
289177Speter *    Unless required by applicable law or agreed to in writing,
289177Speter *    software distributed under the License is distributed on an
289177Speter *    "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
289177Speter *    KIND, either express or implied.  See the License for the
289177Speter *    specific language governing permissions and limitations
289177Speter *    under the License.
289177Speter * ====================================================================
289177Speter */
289177Speter
289177Speter
289177Speter
289177Speter#include <apr_fnmatch.h>
289177Speter
289177Speter#include "private/svn_string_private.h"
289177Speter#include "private/svn_utf_private.h"
289177Speter#include "svn_private_config.h"
289177Speter
289177Speter#define UTF8PROC_INLINE
289177Speter/* Somehow utf8proc thinks it is nice to use strlen as an argument name,
289177Speter   while this function is already defined via apr.h */
289177Speter#define strlen svn__strlen_var
289177Speter#include "utf8proc/utf8proc.c"
289177Speter#undef strlen
289177Speter
289177Speter
289177Speter
289177Speterconst char *
289177Spetersvn_utf__utf8proc_compiled_version(void)
289177Speter{
289177Speter  static const char utf8proc_version[] =
289177Speter                                  APR_STRINGIFY(UTF8PROC_VERSION_MAJOR) "."
289177Speter                                  APR_STRINGIFY(UTF8PROC_VERSION_MINOR) "."
289177Speter                                  APR_STRINGIFY(UTF8PROC_VERSION_PATCH);
289177Speter  return utf8proc_version;
289177Speter}
289177Speter
289177Speterconst char *
289177Spetersvn_utf__utf8proc_runtime_version(void)
289177Speter{
289177Speter  /* Unused static function warning removal hack. */
289177Speter  SVN_UNUSED(utf8proc_NFD);
289177Speter  SVN_UNUSED(utf8proc_NFC);
289177Speter  SVN_UNUSED(utf8proc_NFKD);
289177Speter  SVN_UNUSED(utf8proc_NFKC);
289177Speter
289177Speter  return utf8proc_version();
289177Speter}
289177Speter
289177Speter
289177Speter
289177Speter/* Fill the given BUFFER with decomposed UCS-4 representation of the
289177Speter * UTF-8 STRING. If LENGTH is SVN_UTF__UNKNOWN_LENGTH, assume STRING
289177Speter * is NUL-terminated; otherwise look only at the first LENGTH bytes in
289177Speter * STRING. Upon return, BUFFER->data points at an array of UCS-4
289177Speter * characters, and return the length of the array. TRANSFORM_FLAGS
289177Speter * define exactly how the decomposition is performed.
289177Speter *
289177Speter * A negative return value is an utf8proc error code and may indicate
289177Speter * that STRING contains invalid UTF-8 or was so long that an overflow
289177Speter * occurred.
289177Speter */
289177Speterstatic ssize_t
289177Speterunicode_decomposition(int transform_flags,
289177Speter                      const char *string, apr_size_t length,
289177Speter                      svn_membuf_t *buffer)
289177Speter{
289177Speter  const int nullterm = (length == SVN_UTF__UNKNOWN_LENGTH
289177Speter                        ? UTF8PROC_NULLTERM : 0);
289177Speter
289177Speter  for (;;)
289177Speter    {
289177Speter      apr_int32_t *const ucs4buf = buffer->data;
289177Speter      const ssize_t ucs4len = buffer->size / sizeof(*ucs4buf);
289177Speter      const ssize_t result =
289177Speter        utf8proc_decompose((const void*) string, length, ucs4buf, ucs4len,
289177Speter                           UTF8PROC_DECOMPOSE | UTF8PROC_STABLE
289177Speter                           | transform_flags | nullterm);
289177Speter
289177Speter      if (result < 0 || result <= ucs4len)
289177Speter        return result;
289177Speter
289177Speter      /* Increase the decomposition buffer size and retry */
289177Speter      svn_membuf__ensure(buffer, result * sizeof(*ucs4buf));
289177Speter    }
289177Speter}
289177Speter
289177Speter/* Fill the given BUFFER with an NFD UCS-4 representation of the UTF-8
289177Speter * STRING. If LENGTH is SVN_UTF__UNKNOWN_LENGTH, assume STRING is
289177Speter * NUL-terminated; otherwise look only at the first LENGTH bytes in
289177Speter * STRING. Upon return, BUFFER->data points at an array of UCS-4
289177Speter * characters and *RESULT_LENGTH contains the length of the array.
289177Speter *
289177Speter * A returned error may indicate that STRING contains invalid UTF-8 or
289177Speter * invalid Unicode codepoints. Any error message comes from utf8proc.
289177Speter */
289177Speterstatic svn_error_t *
289177Speterdecompose_normalized(apr_size_t *result_length,
289177Speter                     const char *string, apr_size_t length,
289177Speter                     svn_membuf_t *buffer)
289177Speter{
289177Speter  ssize_t result = unicode_decomposition(0, string, length, buffer);
289177Speter  if (result < 0)
289177Speter    return svn_error_create(SVN_ERR_UTF8PROC_ERROR, NULL,
289177Speter                            gettext(utf8proc_errmsg(result)));
289177Speter  *result_length = result;
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Speter/* Fill the given BUFFER with an NFC UTF-8 representation of the UTF-8
289177Speter * STRING. If LENGTH is SVN_UTF__UNKNOWN_LENGTH, assume STRING is
289177Speter * NUL-terminated; otherwise look only at the first LENGTH bytes in
289177Speter * STRING. Upon return, BUFFER->data points at a NUL-terminated string
289177Speter * of UTF-8 characters.
289177Speter *
289177Speter * A returned error may indicate that STRING contains invalid UTF-8 or
289177Speter * invalid Unicode codepoints. Any error message comes from utf8proc.
289177Speter */
289177Speterstatic svn_error_t *
289177Speternormalize_cstring(apr_size_t *result_length,
289177Speter                  const char *string, apr_size_t length,
289177Speter                  svn_membuf_t *buffer)
289177Speter{
289177Speter  ssize_t result = unicode_decomposition(0, string, length, buffer);
289177Speter  if (result >= 0)
289177Speter    {
289177Speter      svn_membuf__resize(buffer, result * sizeof(apr_int32_t) + 1);
289177Speter      result = utf8proc_reencode(buffer->data, result,
289177Speter                                 UTF8PROC_COMPOSE | UTF8PROC_STABLE);
289177Speter    }
289177Speter  if (result < 0)
289177Speter    return svn_error_create(SVN_ERR_UTF8PROC_ERROR, NULL,
289177Speter                            gettext(utf8proc_errmsg(result)));
289177Speter  *result_length = result;
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Speter/* Compare two arrays of UCS-4 codes, BUFA of length LENA and BUFB of
289177Speter * length LENB. Return 0 if they're equal, a negative value if BUFA is
289177Speter * less than BUFB, otherwise a positive value.
289177Speter *
289177Speter * Yes, this is strcmp for known-length UCS-4 strings.
289177Speter */
289177Speterstatic int
289177Speterucs4cmp(const apr_int32_t *bufa, apr_size_t lena,
289177Speter        const apr_int32_t *bufb, apr_size_t lenb)
289177Speter{
289177Speter  const apr_size_t len = (lena < lenb ? lena : lenb);
289177Speter  apr_size_t i;
289177Speter
289177Speter  for (i = 0; i < len; ++i)
289177Speter    {
289177Speter      const int diff = bufa[i] - bufb[i];
289177Speter      if (diff)
289177Speter        return diff;
289177Speter    }
289177Speter  return (lena == lenb ? 0 : (lena < lenb ? -1 : 1));
289177Speter}
289177Speter
289177Spetersvn_error_t *
289177Spetersvn_utf__normcmp(int *result,
289177Speter                 const char *str1, apr_size_t len1,
289177Speter                 const char *str2, apr_size_t len2,
289177Speter                 svn_membuf_t *buf1, svn_membuf_t *buf2)
289177Speter{
289177Speter  apr_size_t buflen1;
289177Speter  apr_size_t buflen2;
289177Speter
289177Speter  /* Shortcut-circuit the decision if at least one of the strings is empty. */
289177Speter  const svn_boolean_t empty1 =
289177Speter    (0 == len1 || (len1 == SVN_UTF__UNKNOWN_LENGTH && !*str1));
289177Speter  const svn_boolean_t empty2 =
289177Speter    (0 == len2 || (len2 == SVN_UTF__UNKNOWN_LENGTH && !*str2));
289177Speter  if (empty1 || empty2)
289177Speter    {
289177Speter      *result = (empty1 == empty2 ? 0 : (empty1 ? -1 : 1));
289177Speter      return SVN_NO_ERROR;
289177Speter    }
289177Speter
289177Speter  SVN_ERR(decompose_normalized(&buflen1, str1, len1, buf1));
289177Speter  SVN_ERR(decompose_normalized(&buflen2, str2, len2, buf2));
289177Speter  *result = ucs4cmp(buf1->data, buflen1, buf2->data, buflen2);
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Spetersvn_error_t*
289177Spetersvn_utf__normalize(const char **result,
289177Speter                   const char *str, apr_size_t len,
289177Speter                   svn_membuf_t *buf)
289177Speter{
289177Speter  apr_size_t result_length;
289177Speter  SVN_ERR(normalize_cstring(&result_length, str, len, buf));
289177Speter  *result = (const char*)(buf->data);
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Speter/* Decode a single UCS-4 code point to UTF-8, appending the result to BUFFER.
289177Speter * Assume BUFFER is already filled to *LENGTH and return the new size there.
289177Speter * This function does *not* nul-terminate the stringbuf!
289177Speter *
289177Speter * A returned error indicates that the codepoint is invalid.
289177Speter */
289177Speterstatic svn_error_t *
289177Speterencode_ucs4(svn_membuf_t *buffer, apr_int32_t ucs4chr, apr_size_t *length)
289177Speter{
289177Speter  apr_size_t utf8len;
289177Speter
289177Speter  if (buffer->size - *length < 4)
289177Speter    svn_membuf__resize(buffer, buffer->size + 4);
289177Speter
289177Speter  utf8len = utf8proc_encode_char(ucs4chr, ((uint8_t*)buffer->data + *length));
289177Speter  if (!utf8len)
289177Speter    return svn_error_createf(SVN_ERR_UTF8PROC_ERROR, NULL,
289177Speter                             _("Invalid Unicode character U+%04lX"),
289177Speter                             (long)ucs4chr);
289177Speter  *length += utf8len;
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Spetersvn_error_t *
289177Spetersvn_utf__encode_ucs4_string(svn_membuf_t *buffer,
289177Speter                            const apr_int32_t *ucs4str,
289177Speter                            apr_size_t length,
289177Speter                            apr_size_t *result_length)
289177Speter{
289177Speter  *result_length = 0;
289177Speter  while (length-- > 0)
289177Speter    SVN_ERR(encode_ucs4(buffer, *ucs4str++, result_length));
289177Speter  svn_membuf__resize(buffer, *result_length + 1);
289177Speter  ((char*)buffer->data)[*result_length] = '\0';
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Speter
289177Spetersvn_error_t *
289177Spetersvn_utf__glob(svn_boolean_t *match,
289177Speter              const char *pattern, apr_size_t pattern_len,
289177Speter              const char *string, apr_size_t string_len,
289177Speter              const char *escape, apr_size_t escape_len,
289177Speter              svn_boolean_t sql_like,
289177Speter              svn_membuf_t *pattern_buf,
289177Speter              svn_membuf_t *string_buf,
289177Speter              svn_membuf_t *temp_buf)
289177Speter{
289177Speter  apr_size_t patternbuf_len;
289177Speter  apr_size_t tempbuf_len;
289177Speter
289177Speter  /* If we're in GLOB mode, we don't do custom escape chars. */
289177Speter  if (escape && !sql_like)
289177Speter    return svn_error_create(SVN_ERR_UTF8_GLOB, NULL,
289177Speter                            _("Cannot use a custom escape token"
289177Speter                              " in glob matching mode"));
289177Speter
289177Speter  /* Convert the patern to NFD UTF-8. We can't use the UCS-4 result
289177Speter     because apr_fnmatch can't handle it.*/
289177Speter  SVN_ERR(decompose_normalized(&tempbuf_len, pattern, pattern_len, temp_buf));
289177Speter  if (!sql_like)
289177Speter    SVN_ERR(svn_utf__encode_ucs4_string(pattern_buf, temp_buf->data,
289177Speter                                        tempbuf_len, &patternbuf_len));
289177Speter  else
289177Speter    {
289177Speter      /* Convert a LIKE pattern to a GLOB pattern that apr_fnmatch can use. */
289177Speter      const apr_int32_t *like = temp_buf->data;
289177Speter      apr_int32_t ucs4esc;
289177Speter      svn_boolean_t escaped;
289177Speter      apr_size_t i;
289177Speter
289177Speter      if (!escape)
289177Speter        ucs4esc = -1;           /* Definitely an invalid UCS-4 character. */
289177Speter      else
289177Speter        {
289177Speter          const int nullterm = (escape_len == SVN_UTF__UNKNOWN_LENGTH
289177Speter                                ? UTF8PROC_NULLTERM : 0);
289177Speter          ssize_t result =
289177Speter            utf8proc_decompose((const void*) escape, escape_len, &ucs4esc, 1,
289177Speter                               UTF8PROC_DECOMPOSE | UTF8PROC_STABLE | nullterm);
289177Speter          if (result < 0)
289177Speter            return svn_error_create(SVN_ERR_UTF8PROC_ERROR, NULL,
289177Speter                                    gettext(utf8proc_errmsg(result)));
289177Speter          if (result == 0 || result > 1)
289177Speter            return svn_error_create(SVN_ERR_UTF8_GLOB, NULL,
289177Speter                                    _("Escape token must be one character"));
289177Speter          if ((ucs4esc & 0xFF) != ucs4esc)
289177Speter            return svn_error_createf(SVN_ERR_UTF8_GLOB, NULL,
289177Speter                                     _("Invalid escape character U+%04lX"),
289177Speter                                     (long)ucs4esc);
289177Speter        }
289177Speter
289177Speter      patternbuf_len = 0;
289177Speter      svn_membuf__ensure(pattern_buf, tempbuf_len + 1);
289177Speter      for (i = 0, escaped = FALSE; i < tempbuf_len; ++i, ++like)
289177Speter        {
289177Speter          if (*like == ucs4esc && !escaped)
289177Speter            {
289177Speter              svn_membuf__resize(pattern_buf, patternbuf_len + 1);
289177Speter              ((char*)pattern_buf->data)[patternbuf_len++] = '\\';
289177Speter              escaped = TRUE;
289177Speter            }
289177Speter          else if (escaped)
289177Speter            {
289177Speter              SVN_ERR(encode_ucs4(pattern_buf, *like, &patternbuf_len));
289177Speter              escaped = FALSE;
289177Speter            }
289177Speter          else
289177Speter            {
289177Speter              if ((*like == '[' || *like == '\\') && !escaped)
289177Speter                {
289177Speter                  /* Escape brackets and backslashes which are always
289177Speter                     literals in LIKE patterns. */
289177Speter                  svn_membuf__resize(pattern_buf, patternbuf_len + 1);
289177Speter                  ((char*)pattern_buf->data)[patternbuf_len++] = '\\';
289177Speter                  escaped = TRUE;
289177Speter                  --i; --like;
289177Speter                  continue;
289177Speter                }
289177Speter
289177Speter              /* Replace LIKE wildcards with their GLOB equivalents. */
289177Speter              if (*like == '%' || *like == '_')
289177Speter                {
289177Speter                  const char wildcard = (*like == '%' ? '*' : '?');
289177Speter                  svn_membuf__resize(pattern_buf, patternbuf_len + 1);
289177Speter                  ((char*)pattern_buf->data)[patternbuf_len++] = wildcard;
289177Speter                }
289177Speter              else
289177Speter                SVN_ERR(encode_ucs4(pattern_buf, *like, &patternbuf_len));
289177Speter            }
289177Speter        }
289177Speter      svn_membuf__resize(pattern_buf, patternbuf_len + 1);
289177Speter      ((char*)pattern_buf->data)[patternbuf_len] = '\0';
289177Speter    }
289177Speter
289177Speter  /* Now normalize the string */
289177Speter  SVN_ERR(decompose_normalized(&tempbuf_len, string, string_len, temp_buf));
289177Speter  SVN_ERR(svn_utf__encode_ucs4_string(string_buf, temp_buf->data,
289177Speter                                      tempbuf_len, &tempbuf_len));
289177Speter
289177Speter  *match = !apr_fnmatch(pattern_buf->data, string_buf->data, 0);
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Spetersvn_boolean_t
289177Spetersvn_utf__is_normalized(const char *string, apr_pool_t *scratch_pool)
289177Speter{
289177Speter  svn_error_t *err;
289177Speter  svn_membuf_t buffer;
289177Speter  apr_size_t result_length;
289177Speter  const apr_size_t length = strlen(string);
289177Speter  svn_membuf__create(&buffer, length * sizeof(apr_int32_t), scratch_pool);
289177Speter  err = normalize_cstring(&result_length, string, length, &buffer);
289177Speter  if (err)
289177Speter    {
289177Speter      svn_error_clear(err);
289177Speter      return FALSE;
289177Speter    }
289177Speter  return (length == result_length && 0 == strcmp(string, buffer.data));
289177Speter}
289177Speter
289177Speterconst char *
289177Spetersvn_utf__fuzzy_escape(const char *src, apr_size_t length, apr_pool_t *pool)
289177Speter{
289177Speter  /* Hexadecimal digits for code conversion. */
289177Speter  static const char digits[] = "0123456789ABCDEF";
289177Speter
289177Speter  /* Flags used for Unicode decomposition. */
289177Speter  static const int decomp_flags = (
289177Speter      UTF8PROC_COMPAT | UTF8PROC_STABLE | UTF8PROC_LUMP
289177Speter      | UTF8PROC_NLF2LF | UTF8PROC_STRIPCC | UTF8PROC_STRIPMARK);
289177Speter
289177Speter  svn_stringbuf_t *result;
289177Speter  svn_membuf_t buffer;
289177Speter  ssize_t decomp_length;
289177Speter  ssize_t len;
289177Speter
289177Speter  /* Decompose to a non-reversible compatibility format. */
289177Speter  svn_membuf__create(&buffer, length * sizeof(apr_int32_t), pool);
289177Speter  decomp_length = unicode_decomposition(decomp_flags, src, length, &buffer);
289177Speter  if (decomp_length < 0)
289177Speter    {
289177Speter      svn_membuf_t part;
289177Speter      apr_size_t done, prev;
289177Speter
289177Speter      /* The only other error we can receive here indicates an integer
289177Speter         overflow due to the length of the input string. Not very
289177Speter         likely, but we certainly shouldn't continue in that case. */
289177Speter      SVN_ERR_ASSERT_NO_RETURN(decomp_length == UTF8PROC_ERROR_INVALIDUTF8);
289177Speter
289177Speter      /* Break the decomposition into parts that are valid UTF-8, and
289177Speter         bytes that are not. Represent the invalid bytes in the target
289177Speter         erray by their negative value. This works because utf8proc
289177Speter         will not generate Unicode code points with values larger than
289177Speter         U+10FFFF. */
289177Speter      svn_membuf__create(&part, sizeof(apr_int32_t), pool);
289177Speter      decomp_length = 0;
289177Speter      done = prev = 0;
289177Speter      while (done < length)
289177Speter        {
289177Speter          apr_int32_t uc;
289177Speter
289177Speter          while (done < length)
289177Speter            {
289177Speter              len = utf8proc_iterate((uint8_t*)src + done, length - done, &uc);
289177Speter              if (len < 0)
289177Speter                break;
289177Speter              done += len;
289177Speter            }
289177Speter
289177Speter          /* Decompose the valid part */
289177Speter          if (done > prev)
289177Speter            {
289177Speter              len = unicode_decomposition(
289177Speter                  decomp_flags, src + prev, done - prev, &part);
289177Speter              SVN_ERR_ASSERT_NO_RETURN(len > 0);
289177Speter              svn_membuf__resize(
289177Speter                  &buffer, (decomp_length + len) * sizeof(apr_int32_t));
289177Speter              memcpy((apr_int32_t*)buffer.data + decomp_length,
289177Speter                     part.data, len * sizeof(apr_int32_t));
289177Speter              decomp_length += len;
289177Speter              prev = done;
289177Speter            }
289177Speter
289177Speter          /* What follows could be a valid UTF-8 sequence, but not
289177Speter             a valid Unicode character. */
289177Speter          if (done < length)
289177Speter            {
289177Speter              const char *last;
289177Speter
289177Speter              /* Determine the length of the UTF-8 sequence */
289177Speter              const char *const p = src + done;
289177Speter              len = utf8proc_utf8class[(uint8_t)*p];
289177Speter
289177Speter              /* Check if the multi-byte sequence is valid UTF-8. */
289177Speter              if (len > 1 && len <= (apr_ssize_t)(length - done))
289177Speter                last = svn_utf__last_valid(p, len);
289177Speter              else
289177Speter                last = NULL;
289177Speter
289177Speter              /* Might not be a valid UTF-8 sequence at all */
289177Speter              if (!last || (last && last - p < len))
289177Speter                {
289177Speter                  uc = -((apr_int32_t)(*p & 0xff));
289177Speter                  len = 1;
289177Speter                }
289177Speter              else
289177Speter                {
289177Speter                  switch (len)
289177Speter                    {
289177Speter                      /* Decode the UTF-8 sequence without validation. */
289177Speter                    case 2:
289177Speter                      uc = ((p[0] & 0x1f) <<  6) + (p[1] & 0x3f);
289177Speter                      break;
289177Speter                    case 3:
289177Speter                      uc = (((p[0] & 0x0f) << 12) + ((p[1] & 0x3f) <<  6)
289177Speter                            + (p[2] & 0x3f));
289177Speter                      break;
289177Speter                    case 4:
289177Speter                      uc = (((p[0] & 0x07) << 18) + ((p[1] & 0x3f) << 12)
289177Speter                            + ((p[2] & 0x3f) <<  6) + (p[3] & 0x3f));
289177Speter                      break;
289177Speter                    default:
289177Speter                      SVN_ERR_ASSERT_NO_RETURN(
289177Speter                          !"Unexpected invalid UTF-8 byte");
289177Speter                    }
289177Speter
289177Speter                }
289177Speter
289177Speter              svn_membuf__resize(
289177Speter                  &buffer, (decomp_length + 1) * sizeof(apr_int32_t));
289177Speter              ((apr_int32_t*)buffer.data)[decomp_length++] = uc;
289177Speter              done += len;
289177Speter              prev = done;
289177Speter            }
289177Speter        }
289177Speter    }
289177Speter
289177Speter  /* Scan the result and deleting any combining diacriticals and
289177Speter     inserting placeholders where any non-ascii characters remain.  */
289177Speter  result = svn_stringbuf_create_ensure(decomp_length, pool);
289177Speter  for (len = 0; len < decomp_length; ++len)
289177Speter    {
289177Speter      const apr_int32_t cp = ((apr_int32_t*)buffer.data)[len];
289177Speter      if (cp > 0 && cp < 127)
289177Speter        svn_stringbuf_appendbyte(result, (char)cp);
289177Speter      else if (cp == 0)
289177Speter        svn_stringbuf_appendcstr(result, "\\0");
289177Speter      else if (cp < 0)
289177Speter        {
289177Speter          const apr_int32_t rcp = ((-cp) & 0xff);
289177Speter          svn_stringbuf_appendcstr(result, "?\\");
289177Speter          svn_stringbuf_appendbyte(result, digits[(rcp & 0x00f0) >> 4]);
289177Speter          svn_stringbuf_appendbyte(result, digits[(rcp & 0x000f)]);
289177Speter        }
289177Speter      else
289177Speter        {
289177Speter          if (utf8proc_codepoint_valid(cp))
289177Speter            {
289177Speter              const utf8proc_property_t *prop = utf8proc_get_property(cp);
289177Speter              if (prop->combining_class != 0)
289177Speter                continue;           /* Combining mark; ignore */
289177Speter              svn_stringbuf_appendcstr(result, "{U+");
289177Speter            }
289177Speter          else
289177Speter            svn_stringbuf_appendcstr(result, "{U?");
289177Speter          if (cp > 0xffff)
289177Speter            {
289177Speter              svn_stringbuf_appendbyte(result, digits[(cp & 0xf00000) >> 20]);
289177Speter              svn_stringbuf_appendbyte(result, digits[(cp & 0x0f0000) >> 16]);
289177Speter            }
289177Speter          svn_stringbuf_appendbyte(result, digits[(cp & 0xf000) >> 12]);
289177Speter          svn_stringbuf_appendbyte(result, digits[(cp & 0x0f00) >> 8]);
289177Speter          svn_stringbuf_appendbyte(result, digits[(cp & 0x00f0) >> 4]);
289177Speter          svn_stringbuf_appendbyte(result, digits[(cp & 0x000f)]);
289177Speter          svn_stringbuf_appendbyte(result, '}');
289177Speter        }
289177Speter    }
289177Speter
289177Speter  return result->data;
289177Speter}