subversion/libsvn_subr/utf8proc.c

289177Speter/*
289177Speter * utf8proc.c:  Wrappers for the utf8proc library
289177Speter *
289177Speter * ====================================================================
289177Speter *    Licensed to the Apache Software Foundation (ASF) under one
289177Speter *    or more contributor license agreements.  See the NOTICE file
289177Speter *    distributed with this work for additional information
289177Speter *    regarding copyright ownership.  The ASF licenses this file
289177Speter *    to you under the Apache License, Version 2.0 (the
289177Speter *    "License"); you may not use this file except in compliance
289177Speter *    with the License.  You may obtain a copy of the License at
289177Speter *
289177Speter *      http://www.apache.org/licenses/LICENSE-2.0
289177Speter *
289177Speter *    Unless required by applicable law or agreed to in writing,
289177Speter *    software distributed under the License is distributed on an
289177Speter *    "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
289177Speter *    KIND, either express or implied.  See the License for the
289177Speter *    specific language governing permissions and limitations
289177Speter *    under the License.
289177Speter * ====================================================================
289177Speter */
289177Speter
289177Speter
289177Speter
289177Speter#include <apr_fnmatch.h>
289177Speter
289177Speter#include "private/svn_string_private.h"
289177Speter#include "private/svn_utf_private.h"
289177Speter#include "svn_private_config.h"
289177Speter
362181Sdim#if SVN_INTERNAL_UTF8PROC
289177Speter#define UTF8PROC_INLINE
289177Speter/* Somehow utf8proc thinks it is nice to use strlen as an argument name,
289177Speter   while this function is already defined via apr.h */
289177Speter#define strlen svn__strlen_var
289177Speter#include "utf8proc/utf8proc.c"
289177Speter#undef strlen
362181Sdim#else
362181Sdim#include <utf8proc.h>
362181Sdim#endif
289177Speter
289177Speter
289177Speter
289177Speterconst char *
289177Spetersvn_utf__utf8proc_compiled_version(void)
289177Speter{
289177Speter  static const char utf8proc_version[] =
289177Speter                                  APR_STRINGIFY(UTF8PROC_VERSION_MAJOR) "."
289177Speter                                  APR_STRINGIFY(UTF8PROC_VERSION_MINOR) "."
289177Speter                                  APR_STRINGIFY(UTF8PROC_VERSION_PATCH);
289177Speter  return utf8proc_version;
289177Speter}
289177Speter
289177Speterconst char *
289177Spetersvn_utf__utf8proc_runtime_version(void)
289177Speter{
289177Speter  /* Unused static function warning removal hack. */
362181Sdim  SVN_UNUSED(utf8proc_grapheme_break);
362181Sdim  SVN_UNUSED(utf8proc_tolower);
362181Sdim  SVN_UNUSED(utf8proc_toupper);
362181Sdim#if UTF8PROC_VERSION_MAJOR >= 2
362181Sdim  SVN_UNUSED(utf8proc_totitle);
362181Sdim#endif
362181Sdim  SVN_UNUSED(utf8proc_charwidth);
362181Sdim  SVN_UNUSED(utf8proc_category_string);
289177Speter  SVN_UNUSED(utf8proc_NFD);
289177Speter  SVN_UNUSED(utf8proc_NFC);
289177Speter  SVN_UNUSED(utf8proc_NFKD);
289177Speter  SVN_UNUSED(utf8proc_NFKC);
289177Speter
289177Speter  return utf8proc_version();
289177Speter}
289177Speter
289177Speter
289177Speter
289177Speter/* Fill the given BUFFER with decomposed UCS-4 representation of the
289177Speter * UTF-8 STRING. If LENGTH is SVN_UTF__UNKNOWN_LENGTH, assume STRING
289177Speter * is NUL-terminated; otherwise look only at the first LENGTH bytes in
289177Speter * STRING. Upon return, BUFFER->data points at an array of UCS-4
289177Speter * characters, and return the length of the array. TRANSFORM_FLAGS
289177Speter * define exactly how the decomposition is performed.
289177Speter *
289177Speter * A negative return value is an utf8proc error code and may indicate
289177Speter * that STRING contains invalid UTF-8 or was so long that an overflow
289177Speter * occurred.
289177Speter */
362181Sdimstatic apr_ssize_t
289177Speterunicode_decomposition(int transform_flags,
289177Speter                      const char *string, apr_size_t length,
289177Speter                      svn_membuf_t *buffer)
289177Speter{
289177Speter  const int nullterm = (length == SVN_UTF__UNKNOWN_LENGTH
289177Speter                        ? UTF8PROC_NULLTERM : 0);
289177Speter
289177Speter  for (;;)
289177Speter    {
289177Speter      apr_int32_t *const ucs4buf = buffer->data;
362181Sdim      const apr_ssize_t ucs4len = buffer->size / sizeof(*ucs4buf);
362181Sdim      const apr_ssize_t result =
289177Speter        utf8proc_decompose((const void*) string, length, ucs4buf, ucs4len,
289177Speter                           UTF8PROC_DECOMPOSE | UTF8PROC_STABLE
289177Speter                           | transform_flags | nullterm);
289177Speter
289177Speter      if (result < 0 || result <= ucs4len)
289177Speter        return result;
289177Speter
289177Speter      /* Increase the decomposition buffer size and retry */
289177Speter      svn_membuf__ensure(buffer, result * sizeof(*ucs4buf));
289177Speter    }
289177Speter}
289177Speter
289177Speter/* Fill the given BUFFER with an NFD UCS-4 representation of the UTF-8
289177Speter * STRING. If LENGTH is SVN_UTF__UNKNOWN_LENGTH, assume STRING is
289177Speter * NUL-terminated; otherwise look only at the first LENGTH bytes in
289177Speter * STRING. Upon return, BUFFER->data points at an array of UCS-4
289177Speter * characters and *RESULT_LENGTH contains the length of the array.
289177Speter *
289177Speter * A returned error may indicate that STRING contains invalid UTF-8 or
289177Speter * invalid Unicode codepoints. Any error message comes from utf8proc.
289177Speter */
289177Speterstatic svn_error_t *
289177Speterdecompose_normalized(apr_size_t *result_length,
289177Speter                     const char *string, apr_size_t length,
289177Speter                     svn_membuf_t *buffer)
289177Speter{
362181Sdim  apr_ssize_t result = unicode_decomposition(0, string, length, buffer);
289177Speter  if (result < 0)
289177Speter    return svn_error_create(SVN_ERR_UTF8PROC_ERROR, NULL,
289177Speter                            gettext(utf8proc_errmsg(result)));
289177Speter  *result_length = result;
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Speter/* Fill the given BUFFER with an NFC UTF-8 representation of the UTF-8
289177Speter * STRING. If LENGTH is SVN_UTF__UNKNOWN_LENGTH, assume STRING is
289177Speter * NUL-terminated; otherwise look only at the first LENGTH bytes in
289177Speter * STRING. Upon return, BUFFER->data points at a NUL-terminated string
289177Speter * of UTF-8 characters.
289177Speter *
362181Sdim * If CASEFOLD is non-zero, perform Unicode case folding, e.g., for
362181Sdim * case-insensitive string comparison. If STRIPMARK is non-zero, strip
362181Sdim * all diacritical marks (e.g., accents) from the string.
362181Sdim *
289177Speter * A returned error may indicate that STRING contains invalid UTF-8 or
289177Speter * invalid Unicode codepoints. Any error message comes from utf8proc.
289177Speter */
289177Speterstatic svn_error_t *
289177Speternormalize_cstring(apr_size_t *result_length,
289177Speter                  const char *string, apr_size_t length,
362181Sdim                  svn_boolean_t casefold,
362181Sdim                  svn_boolean_t stripmark,
289177Speter                  svn_membuf_t *buffer)
289177Speter{
362181Sdim  int flags = 0;
362181Sdim  apr_ssize_t result;
362181Sdim
362181Sdim  if (casefold)
362181Sdim    flags |= UTF8PROC_CASEFOLD;
362181Sdim
362181Sdim  if (stripmark)
362181Sdim    flags |= UTF8PROC_STRIPMARK;
362181Sdim
362181Sdim  result = unicode_decomposition(flags, string, length, buffer);
289177Speter  if (result >= 0)
289177Speter    {
289177Speter      svn_membuf__resize(buffer, result * sizeof(apr_int32_t) + 1);
289177Speter      result = utf8proc_reencode(buffer->data, result,
289177Speter                                 UTF8PROC_COMPOSE | UTF8PROC_STABLE);
289177Speter    }
289177Speter  if (result < 0)
289177Speter    return svn_error_create(SVN_ERR_UTF8PROC_ERROR, NULL,
289177Speter                            gettext(utf8proc_errmsg(result)));
289177Speter  *result_length = result;
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Speter/* Compare two arrays of UCS-4 codes, BUFA of length LENA and BUFB of
289177Speter * length LENB. Return 0 if they're equal, a negative value if BUFA is
289177Speter * less than BUFB, otherwise a positive value.
289177Speter *
289177Speter * Yes, this is strcmp for known-length UCS-4 strings.
289177Speter */
289177Speterstatic int
289177Speterucs4cmp(const apr_int32_t *bufa, apr_size_t lena,
289177Speter        const apr_int32_t *bufb, apr_size_t lenb)
289177Speter{
289177Speter  const apr_size_t len = (lena < lenb ? lena : lenb);
289177Speter  apr_size_t i;
289177Speter
289177Speter  for (i = 0; i < len; ++i)
289177Speter    {
289177Speter      const int diff = bufa[i] - bufb[i];
289177Speter      if (diff)
289177Speter        return diff;
289177Speter    }
289177Speter  return (lena == lenb ? 0 : (lena < lenb ? -1 : 1));
289177Speter}
289177Speter
289177Spetersvn_error_t *
289177Spetersvn_utf__normcmp(int *result,
289177Speter                 const char *str1, apr_size_t len1,
289177Speter                 const char *str2, apr_size_t len2,
289177Speter                 svn_membuf_t *buf1, svn_membuf_t *buf2)
289177Speter{
289177Speter  apr_size_t buflen1;
289177Speter  apr_size_t buflen2;
289177Speter
289177Speter  /* Shortcut-circuit the decision if at least one of the strings is empty. */
289177Speter  const svn_boolean_t empty1 =
289177Speter    (0 == len1 || (len1 == SVN_UTF__UNKNOWN_LENGTH && !*str1));
289177Speter  const svn_boolean_t empty2 =
289177Speter    (0 == len2 || (len2 == SVN_UTF__UNKNOWN_LENGTH && !*str2));
289177Speter  if (empty1 || empty2)
289177Speter    {
289177Speter      *result = (empty1 == empty2 ? 0 : (empty1 ? -1 : 1));
289177Speter      return SVN_NO_ERROR;
289177Speter    }
289177Speter
289177Speter  SVN_ERR(decompose_normalized(&buflen1, str1, len1, buf1));
289177Speter  SVN_ERR(decompose_normalized(&buflen2, str2, len2, buf2));
289177Speter  *result = ucs4cmp(buf1->data, buflen1, buf2->data, buflen2);
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Spetersvn_error_t*
289177Spetersvn_utf__normalize(const char **result,
289177Speter                   const char *str, apr_size_t len,
289177Speter                   svn_membuf_t *buf)
289177Speter{
289177Speter  apr_size_t result_length;
362181Sdim  SVN_ERR(normalize_cstring(&result_length, str, len, FALSE, FALSE, buf));
289177Speter  *result = (const char*)(buf->data);
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
362181Sdimsvn_error_t *
362181Sdimsvn_utf__xfrm(const char **result,
362181Sdim              const char *str, apr_size_t len,
362181Sdim              svn_boolean_t case_insensitive,
362181Sdim              svn_boolean_t accent_insensitive,
362181Sdim              svn_membuf_t *buf)
362181Sdim{
362181Sdim  apr_size_t result_length;
362181Sdim  SVN_ERR(normalize_cstring(&result_length, str, len,
362181Sdim                            case_insensitive, accent_insensitive, buf));
362181Sdim  *result = (const char*)(buf->data);
362181Sdim  return SVN_NO_ERROR;
362181Sdim}
362181Sdim
362181Sdimsvn_boolean_t
362181Sdimsvn_utf__fuzzy_glob_match(const char *str,
362181Sdim                          const apr_array_header_t *patterns,
362181Sdim                          svn_membuf_t *buf)
362181Sdim{
362181Sdim  const char *normalized;
362181Sdim  svn_error_t *err;
362181Sdim  int i;
362181Sdim
362181Sdim  /* Try to normalize case and accents in STR.
362181Sdim   *
362181Sdim   * If that should fail for some reason, consider STR a mismatch. */
362181Sdim  err = svn_utf__xfrm(&normalized, str, strlen(str), TRUE, TRUE, buf);
362181Sdim  if (err)
362181Sdim    {
362181Sdim      svn_error_clear(err);
362181Sdim      return FALSE;
362181Sdim    }
362181Sdim
362181Sdim  /* Now see whether it matches any/all of the patterns. */
362181Sdim  for (i = 0; i < patterns->nelts; ++i)
362181Sdim    {
362181Sdim      const char *pattern = APR_ARRAY_IDX(patterns, i, const char *);
362181Sdim      if (apr_fnmatch(pattern, normalized, 0) == APR_SUCCESS)
362181Sdim        return TRUE;
362181Sdim    }
362181Sdim
362181Sdim  return FALSE;
362181Sdim}
362181Sdim
289177Speter/* Decode a single UCS-4 code point to UTF-8, appending the result to BUFFER.
289177Speter * Assume BUFFER is already filled to *LENGTH and return the new size there.
289177Speter * This function does *not* nul-terminate the stringbuf!
289177Speter *
289177Speter * A returned error indicates that the codepoint is invalid.
289177Speter */
289177Speterstatic svn_error_t *
289177Speterencode_ucs4(svn_membuf_t *buffer, apr_int32_t ucs4chr, apr_size_t *length)
289177Speter{
289177Speter  apr_size_t utf8len;
289177Speter
289177Speter  if (buffer->size - *length < 4)
289177Speter    svn_membuf__resize(buffer, buffer->size + 4);
289177Speter
362181Sdim  utf8len = utf8proc_encode_char(ucs4chr, ((apr_byte_t*)buffer->data + *length));
289177Speter  if (!utf8len)
289177Speter    return svn_error_createf(SVN_ERR_UTF8PROC_ERROR, NULL,
289177Speter                             _("Invalid Unicode character U+%04lX"),
289177Speter                             (long)ucs4chr);
289177Speter  *length += utf8len;
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Spetersvn_error_t *
289177Spetersvn_utf__encode_ucs4_string(svn_membuf_t *buffer,
289177Speter                            const apr_int32_t *ucs4str,
289177Speter                            apr_size_t length,
289177Speter                            apr_size_t *result_length)
289177Speter{
289177Speter  *result_length = 0;
289177Speter  while (length-- > 0)
289177Speter    SVN_ERR(encode_ucs4(buffer, *ucs4str++, result_length));
289177Speter  svn_membuf__resize(buffer, *result_length + 1);
289177Speter  ((char*)buffer->data)[*result_length] = '\0';
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Speter
289177Spetersvn_error_t *
289177Spetersvn_utf__glob(svn_boolean_t *match,
289177Speter              const char *pattern, apr_size_t pattern_len,
289177Speter              const char *string, apr_size_t string_len,
289177Speter              const char *escape, apr_size_t escape_len,
289177Speter              svn_boolean_t sql_like,
289177Speter              svn_membuf_t *pattern_buf,
289177Speter              svn_membuf_t *string_buf,
289177Speter              svn_membuf_t *temp_buf)
289177Speter{
289177Speter  apr_size_t patternbuf_len;
289177Speter  apr_size_t tempbuf_len;
289177Speter
289177Speter  /* If we're in GLOB mode, we don't do custom escape chars. */
289177Speter  if (escape && !sql_like)
289177Speter    return svn_error_create(SVN_ERR_UTF8_GLOB, NULL,
289177Speter                            _("Cannot use a custom escape token"
289177Speter                              " in glob matching mode"));
289177Speter
289177Speter  /* Convert the patern to NFD UTF-8. We can't use the UCS-4 result
289177Speter     because apr_fnmatch can't handle it.*/
289177Speter  SVN_ERR(decompose_normalized(&tempbuf_len, pattern, pattern_len, temp_buf));
289177Speter  if (!sql_like)
289177Speter    SVN_ERR(svn_utf__encode_ucs4_string(pattern_buf, temp_buf->data,
289177Speter                                        tempbuf_len, &patternbuf_len));
289177Speter  else
289177Speter    {
289177Speter      /* Convert a LIKE pattern to a GLOB pattern that apr_fnmatch can use. */
289177Speter      const apr_int32_t *like = temp_buf->data;
289177Speter      apr_int32_t ucs4esc;
289177Speter      svn_boolean_t escaped;
289177Speter      apr_size_t i;
289177Speter
289177Speter      if (!escape)
289177Speter        ucs4esc = -1;           /* Definitely an invalid UCS-4 character. */
289177Speter      else
289177Speter        {
289177Speter          const int nullterm = (escape_len == SVN_UTF__UNKNOWN_LENGTH
289177Speter                                ? UTF8PROC_NULLTERM : 0);
362181Sdim          apr_ssize_t result =
289177Speter            utf8proc_decompose((const void*) escape, escape_len, &ucs4esc, 1,
289177Speter                               UTF8PROC_DECOMPOSE | UTF8PROC_STABLE | nullterm);
289177Speter          if (result < 0)
289177Speter            return svn_error_create(SVN_ERR_UTF8PROC_ERROR, NULL,
289177Speter                                    gettext(utf8proc_errmsg(result)));
289177Speter          if (result == 0 || result > 1)
289177Speter            return svn_error_create(SVN_ERR_UTF8_GLOB, NULL,
289177Speter                                    _("Escape token must be one character"));
289177Speter          if ((ucs4esc & 0xFF) != ucs4esc)
289177Speter            return svn_error_createf(SVN_ERR_UTF8_GLOB, NULL,
289177Speter                                     _("Invalid escape character U+%04lX"),
289177Speter                                     (long)ucs4esc);
289177Speter        }
289177Speter
289177Speter      patternbuf_len = 0;
289177Speter      svn_membuf__ensure(pattern_buf, tempbuf_len + 1);
289177Speter      for (i = 0, escaped = FALSE; i < tempbuf_len; ++i, ++like)
289177Speter        {
289177Speter          if (*like == ucs4esc && !escaped)
289177Speter            {
289177Speter              svn_membuf__resize(pattern_buf, patternbuf_len + 1);
289177Speter              ((char*)pattern_buf->data)[patternbuf_len++] = '\\';
289177Speter              escaped = TRUE;
289177Speter            }
289177Speter          else if (escaped)
289177Speter            {
289177Speter              SVN_ERR(encode_ucs4(pattern_buf, *like, &patternbuf_len));
289177Speter              escaped = FALSE;
289177Speter            }
289177Speter          else
289177Speter            {
289177Speter              if ((*like == '[' || *like == '\\') && !escaped)
289177Speter                {
289177Speter                  /* Escape brackets and backslashes which are always
289177Speter                     literals in LIKE patterns. */
289177Speter                  svn_membuf__resize(pattern_buf, patternbuf_len + 1);
289177Speter                  ((char*)pattern_buf->data)[patternbuf_len++] = '\\';
289177Speter                  escaped = TRUE;
289177Speter                  --i; --like;
289177Speter                  continue;
289177Speter                }
289177Speter
289177Speter              /* Replace LIKE wildcards with their GLOB equivalents. */
289177Speter              if (*like == '%' || *like == '_')
289177Speter                {
289177Speter                  const char wildcard = (*like == '%' ? '*' : '?');
289177Speter                  svn_membuf__resize(pattern_buf, patternbuf_len + 1);
289177Speter                  ((char*)pattern_buf->data)[patternbuf_len++] = wildcard;
289177Speter                }
289177Speter              else
289177Speter                SVN_ERR(encode_ucs4(pattern_buf, *like, &patternbuf_len));
289177Speter            }
289177Speter        }
289177Speter      svn_membuf__resize(pattern_buf, patternbuf_len + 1);
289177Speter      ((char*)pattern_buf->data)[patternbuf_len] = '\0';
289177Speter    }
289177Speter
289177Speter  /* Now normalize the string */
289177Speter  SVN_ERR(decompose_normalized(&tempbuf_len, string, string_len, temp_buf));
289177Speter  SVN_ERR(svn_utf__encode_ucs4_string(string_buf, temp_buf->data,
289177Speter                                      tempbuf_len, &tempbuf_len));
289177Speter
289177Speter  *match = !apr_fnmatch(pattern_buf->data, string_buf->data, 0);
289177Speter  return SVN_NO_ERROR;
289177Speter}
289177Speter
289177Spetersvn_boolean_t
289177Spetersvn_utf__is_normalized(const char *string, apr_pool_t *scratch_pool)
289177Speter{
289177Speter  svn_error_t *err;
289177Speter  svn_membuf_t buffer;
289177Speter  apr_size_t result_length;
289177Speter  const apr_size_t length = strlen(string);
289177Speter  svn_membuf__create(&buffer, length * sizeof(apr_int32_t), scratch_pool);
362181Sdim  err = normalize_cstring(&result_length, string, length,
362181Sdim                          FALSE, FALSE, &buffer);
289177Speter  if (err)
289177Speter    {
289177Speter      svn_error_clear(err);
289177Speter      return FALSE;
289177Speter    }
289177Speter  return (length == result_length && 0 == strcmp(string, buffer.data));
289177Speter}
289177Speter
289177Speterconst char *
289177Spetersvn_utf__fuzzy_escape(const char *src, apr_size_t length, apr_pool_t *pool)
289177Speter{
289177Speter  /* Hexadecimal digits for code conversion. */
289177Speter  static const char digits[] = "0123456789ABCDEF";
289177Speter
289177Speter  /* Flags used for Unicode decomposition. */
289177Speter  static const int decomp_flags = (
289177Speter      UTF8PROC_COMPAT | UTF8PROC_STABLE | UTF8PROC_LUMP
289177Speter      | UTF8PROC_NLF2LF | UTF8PROC_STRIPCC | UTF8PROC_STRIPMARK);
289177Speter
289177Speter  svn_stringbuf_t *result;
289177Speter  svn_membuf_t buffer;
362181Sdim  apr_ssize_t decomp_length;
362181Sdim  apr_ssize_t len;
289177Speter
289177Speter  /* Decompose to a non-reversible compatibility format. */
289177Speter  svn_membuf__create(&buffer, length * sizeof(apr_int32_t), pool);
289177Speter  decomp_length = unicode_decomposition(decomp_flags, src, length, &buffer);
289177Speter  if (decomp_length < 0)
289177Speter    {
289177Speter      svn_membuf_t part;
289177Speter      apr_size_t done, prev;
289177Speter
289177Speter      /* The only other error we can receive here indicates an integer
289177Speter         overflow due to the length of the input string. Not very
289177Speter         likely, but we certainly shouldn't continue in that case. */
289177Speter      SVN_ERR_ASSERT_NO_RETURN(decomp_length == UTF8PROC_ERROR_INVALIDUTF8);
289177Speter
289177Speter      /* Break the decomposition into parts that are valid UTF-8, and
289177Speter         bytes that are not. Represent the invalid bytes in the target
289177Speter         erray by their negative value. This works because utf8proc
289177Speter         will not generate Unicode code points with values larger than
289177Speter         U+10FFFF. */
289177Speter      svn_membuf__create(&part, sizeof(apr_int32_t), pool);
289177Speter      decomp_length = 0;
289177Speter      done = prev = 0;
289177Speter      while (done < length)
289177Speter        {
289177Speter          apr_int32_t uc;
289177Speter
289177Speter          while (done < length)
289177Speter            {
362181Sdim              len = utf8proc_iterate((apr_byte_t*)src + done, length - done, &uc);
289177Speter              if (len < 0)
289177Speter                break;
289177Speter              done += len;
289177Speter            }
289177Speter
289177Speter          /* Decompose the valid part */
289177Speter          if (done > prev)
289177Speter            {
289177Speter              len = unicode_decomposition(
289177Speter                  decomp_flags, src + prev, done - prev, &part);
289177Speter              SVN_ERR_ASSERT_NO_RETURN(len > 0);
289177Speter              svn_membuf__resize(
289177Speter                  &buffer, (decomp_length + len) * sizeof(apr_int32_t));
289177Speter              memcpy((apr_int32_t*)buffer.data + decomp_length,
289177Speter                     part.data, len * sizeof(apr_int32_t));
289177Speter              decomp_length += len;
289177Speter              prev = done;
289177Speter            }
289177Speter
289177Speter          /* What follows could be a valid UTF-8 sequence, but not
289177Speter             a valid Unicode character. */
289177Speter          if (done < length)
289177Speter            {
289177Speter              const char *last;
289177Speter
289177Speter              /* Determine the length of the UTF-8 sequence */
289177Speter              const char *const p = src + done;
362181Sdim              len = utf8proc_utf8class[(apr_byte_t)*p];
289177Speter
289177Speter              /* Check if the multi-byte sequence is valid UTF-8. */
289177Speter              if (len > 1 && len <= (apr_ssize_t)(length - done))
289177Speter                last = svn_utf__last_valid(p, len);
289177Speter              else
289177Speter                last = NULL;
289177Speter
289177Speter              /* Might not be a valid UTF-8 sequence at all */
289177Speter              if (!last || (last && last - p < len))
289177Speter                {
289177Speter                  uc = -((apr_int32_t)(*p & 0xff));
289177Speter                  len = 1;
289177Speter                }
289177Speter              else
289177Speter                {
289177Speter                  switch (len)
289177Speter                    {
289177Speter                      /* Decode the UTF-8 sequence without validation. */
289177Speter                    case 2:
289177Speter                      uc = ((p[0] & 0x1f) <<  6) + (p[1] & 0x3f);
289177Speter                      break;
289177Speter                    case 3:
289177Speter                      uc = (((p[0] & 0x0f) << 12) + ((p[1] & 0x3f) <<  6)
289177Speter                            + (p[2] & 0x3f));
289177Speter                      break;
289177Speter                    case 4:
289177Speter                      uc = (((p[0] & 0x07) << 18) + ((p[1] & 0x3f) << 12)
289177Speter                            + ((p[2] & 0x3f) <<  6) + (p[3] & 0x3f));
289177Speter                      break;
289177Speter                    default:
289177Speter                      SVN_ERR_ASSERT_NO_RETURN(
289177Speter                          !"Unexpected invalid UTF-8 byte");
289177Speter                    }
289177Speter
289177Speter                }
289177Speter
289177Speter              svn_membuf__resize(
289177Speter                  &buffer, (decomp_length + 1) * sizeof(apr_int32_t));
289177Speter              ((apr_int32_t*)buffer.data)[decomp_length++] = uc;
289177Speter              done += len;
289177Speter              prev = done;
289177Speter            }
289177Speter        }
289177Speter    }
289177Speter
289177Speter  /* Scan the result and deleting any combining diacriticals and
289177Speter     inserting placeholders where any non-ascii characters remain.  */
289177Speter  result = svn_stringbuf_create_ensure(decomp_length, pool);
289177Speter  for (len = 0; len < decomp_length; ++len)
289177Speter    {
289177Speter      const apr_int32_t cp = ((apr_int32_t*)buffer.data)[len];
289177Speter      if (cp > 0 && cp < 127)
289177Speter        svn_stringbuf_appendbyte(result, (char)cp);
289177Speter      else if (cp == 0)
289177Speter        svn_stringbuf_appendcstr(result, "\\0");
289177Speter      else if (cp < 0)
289177Speter        {
289177Speter          const apr_int32_t rcp = ((-cp) & 0xff);
289177Speter          svn_stringbuf_appendcstr(result, "?\\");
289177Speter          svn_stringbuf_appendbyte(result, digits[(rcp & 0x00f0) >> 4]);
289177Speter          svn_stringbuf_appendbyte(result, digits[(rcp & 0x000f)]);
289177Speter        }
289177Speter      else
289177Speter        {
289177Speter          if (utf8proc_codepoint_valid(cp))
289177Speter            {
289177Speter              const utf8proc_property_t *prop = utf8proc_get_property(cp);
289177Speter              if (prop->combining_class != 0)
289177Speter                continue;           /* Combining mark; ignore */
289177Speter              svn_stringbuf_appendcstr(result, "{U+");
289177Speter            }
289177Speter          else
289177Speter            svn_stringbuf_appendcstr(result, "{U?");
289177Speter          if (cp > 0xffff)
289177Speter            {
289177Speter              svn_stringbuf_appendbyte(result, digits[(cp & 0xf00000) >> 20]);
289177Speter              svn_stringbuf_appendbyte(result, digits[(cp & 0x0f0000) >> 16]);
289177Speter            }
289177Speter          svn_stringbuf_appendbyte(result, digits[(cp & 0xf000) >> 12]);
289177Speter          svn_stringbuf_appendbyte(result, digits[(cp & 0x0f00) >> 8]);
289177Speter          svn_stringbuf_appendbyte(result, digits[(cp & 0x00f0) >> 4]);
289177Speter          svn_stringbuf_appendbyte(result, digits[(cp & 0x000f)]);
289177Speter          svn_stringbuf_appendbyte(result, '}');
289177Speter        }
289177Speter    }
289177Speter
289177Speter  return result->data;
289177Speter}