config/i386/xmmintrin.h

90075Sobrien/* Copyright (C) 2002 Free Software Foundation, Inc.
90075Sobrien
90075Sobrien   This file is part of GNU CC.
90075Sobrien
90075Sobrien   GNU CC is free software; you can redistribute it and/or modify
90075Sobrien   it under the terms of the GNU General Public License as published by
90075Sobrien   the Free Software Foundation; either version 2, or (at your option)
90075Sobrien   any later version.
90075Sobrien
90075Sobrien   GNU CC is distributed in the hope that it will be useful,
90075Sobrien   but WITHOUT ANY WARRANTY; without even the implied warranty of
90075Sobrien   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
90075Sobrien   GNU General Public License for more details.
90075Sobrien
90075Sobrien   You should have received a copy of the GNU General Public License
90075Sobrien   along with GNU CC; see the file COPYING.  If not, write to
90075Sobrien   the Free Software Foundation, 59 Temple Place - Suite 330,
90075Sobrien   Boston, MA 02111-1307, USA.  */
90075Sobrien
90075Sobrien/* As a special exception, if you include this header file into source
90075Sobrien   files compiled by GCC, this header file does not by itself cause
90075Sobrien   the resulting executable to be covered by the GNU General Public
90075Sobrien   License.  This exception does not however invalidate any other
90075Sobrien   reasons why the executable file might be covered by the GNU General
90075Sobrien   Public License.  */
90075Sobrien
90075Sobrien/* Implemented from the specification included in the Intel C++ Compiler
90075Sobrien   User Guide and Reference, version 5.0.  */
90075Sobrien
90075Sobrien#ifndef _XMMINTRIN_H_INCLUDED
90075Sobrien#define _XMMINTRIN_H_INCLUDED
90075Sobrien
90075Sobrien/* We need type definitions from the MMX header file.  */
90075Sobrien#include <mmintrin.h>
90075Sobrien
90075Sobrien/* The data type indended for user use.  */
90075Sobrientypedef int __m128 __attribute__ ((__mode__(__V4SF__)));
90075Sobrien
90075Sobrien/* Internal data types for implementing the instrinsics.  */
90075Sobrientypedef int __v4sf __attribute__ ((__mode__(__V4SF__)));
90075Sobrientypedef int __v4si __attribute__ ((__mode__(__V4SI__)));
90075Sobrien
90075Sobrien/* Create a selector for use with the SHUFPS instruction.  */
90075Sobrien#define _MM_SHUFFLE(fp3,fp2,fp1,fp0) \
90075Sobrien (((fp3) << 6) | ((fp2) << 4) | ((fp1) << 2) | (fp0))
90075Sobrien
90075Sobrien/* Constants for use with _mm_prefetch.  */
90075Sobrienenum _mm_hint
90075Sobrien{
90075Sobrien  _MM_HINT_T0 = 3,
90075Sobrien  _MM_HINT_T1 = 2,
90075Sobrien  _MM_HINT_T2 = 1,
90075Sobrien  _MM_HINT_NTA = 0
90075Sobrien};
90075Sobrien
90075Sobrien/* Bits in the MXCSR.  */
90075Sobrien#define _MM_EXCEPT_MASK       0x003f
90075Sobrien#define _MM_EXCEPT_INVALID    0x0001
90075Sobrien#define _MM_EXCEPT_DENORM     0x0002
90075Sobrien#define _MM_EXCEPT_DIV_ZERO   0x0004
90075Sobrien#define _MM_EXCEPT_OVERFLOW   0x0008
90075Sobrien#define _MM_EXCEPT_UNDERFLOW  0x0010
90075Sobrien#define _MM_EXCEPT_INEXACT    0x0020
90075Sobrien
90075Sobrien#define _MM_MASK_MASK         0x1f80
90075Sobrien#define _MM_MASK_INVALID      0x0080
90075Sobrien#define _MM_MASK_DENORM       0x0100
90075Sobrien#define _MM_MASK_DIV_ZERO     0x0200
90075Sobrien#define _MM_MASK_OVERFLOW     0x0400
90075Sobrien#define _MM_MASK_UNDERFLOW    0x0800
90075Sobrien#define _MM_MASK_INEXACT      0x1000
90075Sobrien
90075Sobrien#define _MM_ROUND_MASK        0x6000
90075Sobrien#define _MM_ROUND_NEAREST     0x0000
90075Sobrien#define _MM_ROUND_DOWN        0x2000
90075Sobrien#define _MM_ROUND_UP          0x4000
90075Sobrien#define _MM_ROUND_TOWARD_ZERO 0x6000
90075Sobrien
90075Sobrien#define _MM_FLUSH_ZERO_MASK   0x8000
90075Sobrien#define _MM_FLUSH_ZERO_ON     0x8000
90075Sobrien#define _MM_FLUSH_ZERO_OFF    0x0000
90075Sobrien
90075Sobrien/* Perform the respective operation on the lower SPFP (single-precision
90075Sobrien   floating-point) values of A and B; the upper three SPFP values are
90075Sobrien   passed through from A.  */
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_add_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_addss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_sub_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_subss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_mul_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_mulss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_div_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_divss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_sqrt_ss (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_sqrtss ((__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_rcp_ss (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_rcpss ((__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_rsqrt_ss (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_rsqrtss ((__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_min_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_minss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_max_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_maxss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Perform the respective operation on the four SPFP values in A and B.  */
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_add_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_addps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_sub_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_subps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_mul_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_mulps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_div_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_divps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_sqrt_ps (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_sqrtps ((__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_rcp_ps (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_rcpps ((__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_rsqrt_ps (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_rsqrtps ((__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_min_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_minps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_max_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_maxps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Perform logical bit-wise operations on 128-bit values.  */
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_and_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_andps (__A, __B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_andnot_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_andnps (__A, __B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_or_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_orps (__A, __B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_xor_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_xorps (__A, __B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Perform a comparison on the lower SPFP values of A and B.  If the
90075Sobrien   comparison is true, place a mask of all ones in the result, otherwise a
90075Sobrien   mask of zeros.  The upper three SPFP values are passed through from A.  */
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpeq_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpeqss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmplt_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpltss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmple_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpless ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpgt_ss (__m128 __A, __m128 __B)
90075Sobrien{
107590Sobrien  return (__m128) __builtin_ia32_movss ((__v4sf) __A,
107590Sobrien					(__v4sf)
107590Sobrien					__builtin_ia32_cmpltss ((__v4sf) __B,
107590Sobrien								(__v4sf)
107590Sobrien								__A));
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpge_ss (__m128 __A, __m128 __B)
90075Sobrien{
107590Sobrien  return (__m128) __builtin_ia32_movss ((__v4sf) __A,
107590Sobrien					(__v4sf)
107590Sobrien					__builtin_ia32_cmpless ((__v4sf) __B,
107590Sobrien								(__v4sf)
107590Sobrien								__A));
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpneq_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpneqss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpnlt_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpnltss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpnle_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpnless ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpngt_ss (__m128 __A, __m128 __B)
90075Sobrien{
107590Sobrien  return (__m128) __builtin_ia32_movss ((__v4sf) __A,
107590Sobrien					(__v4sf)
107590Sobrien					__builtin_ia32_cmpnltss ((__v4sf) __B,
107590Sobrien								 (__v4sf)
107590Sobrien								 __A));
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpnge_ss (__m128 __A, __m128 __B)
90075Sobrien{
107590Sobrien  return (__m128) __builtin_ia32_movss ((__v4sf) __A,
107590Sobrien					(__v4sf)
107590Sobrien					__builtin_ia32_cmpnless ((__v4sf) __B,
107590Sobrien								 (__v4sf)
107590Sobrien								 __A));
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpord_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpordss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpunord_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpunordss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Perform a comparison on the four SPFP values of A and B.  For each
90075Sobrien   element, if the comparison is true, place a mask of all ones in the
90075Sobrien   result, otherwise a mask of zeros.  */
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpeq_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpeqps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmplt_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpltps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmple_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpleps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpgt_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpgtps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpge_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpgeps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpneq_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpneqps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpnlt_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpnltps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpnle_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpnleps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpngt_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpngtps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpnge_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpngeps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpord_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpordps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cmpunord_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpunordps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Compare the lower SPFP values of A and B and return 1 if true
90075Sobrien   and 0 if false.  */
90075Sobrien
90075Sobrienstatic __inline int
90075Sobrien_mm_comieq_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_comieq ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline int
90075Sobrien_mm_comilt_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_comilt ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline int
90075Sobrien_mm_comile_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_comile ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline int
90075Sobrien_mm_comigt_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_comigt ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline int
90075Sobrien_mm_comige_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_comige ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline int
90075Sobrien_mm_comineq_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_comineq ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline int
90075Sobrien_mm_ucomieq_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_ucomieq ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline int
90075Sobrien_mm_ucomilt_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_ucomilt ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline int
90075Sobrien_mm_ucomile_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_ucomile ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline int
90075Sobrien_mm_ucomigt_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_ucomigt ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline int
90075Sobrien_mm_ucomige_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_ucomige ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline int
90075Sobrien_mm_ucomineq_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_ucomineq ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the lower SPFP value to a 32-bit integer according to the current
90075Sobrien   rounding mode.  */
90075Sobrienstatic __inline int
90075Sobrien_mm_cvtss_si32 (__m128 __A)
90075Sobrien{
90075Sobrien  return __builtin_ia32_cvtss2si ((__v4sf) __A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the two lower SPFP values to 32-bit integers according to the
90075Sobrien   current rounding mode.  Return the integers in packed form.  */
90075Sobrienstatic __inline __m64
90075Sobrien_mm_cvtps_pi32 (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_cvtps2pi ((__v4sf) __A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Truncate the lower SPFP value to a 32-bit integer.  */
90075Sobrienstatic __inline int
90075Sobrien_mm_cvttss_si32 (__m128 __A)
90075Sobrien{
90075Sobrien  return __builtin_ia32_cvttss2si ((__v4sf) __A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Truncate the two lower SPFP values to 32-bit integers.  Return the
90075Sobrien   integers in packed form.  */
90075Sobrienstatic __inline __m64
90075Sobrien_mm_cvttps_pi32 (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_cvttps2pi ((__v4sf) __A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert B to a SPFP value and insert it as element zero in A.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cvtsi32_ss (__m128 __A, int __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cvtsi2ss ((__v4sf) __A, __B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the two 32-bit values in B to SPFP form and insert them
90075Sobrien   as the two lower elements in A.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cvtpi32_ps (__m128 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cvtpi2ps ((__v4sf) __A, (__v2si)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the four signed 16-bit values in A to SPFP form.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cvtpi16_ps (__m64 __A)
90075Sobrien{
90075Sobrien  __v4hi __sign;
90075Sobrien  __v2si __hisi, __losi;
90075Sobrien  __v4sf __r;
90075Sobrien
90075Sobrien  /* This comparison against zero gives us a mask that can be used to
90075Sobrien     fill in the missing sign bits in the unpack operations below, so
90075Sobrien     that we get signed values after unpacking.  */
90075Sobrien  __sign = (__v4hi) __builtin_ia32_mmx_zero ();
90075Sobrien  __sign = __builtin_ia32_pcmpgtw (__sign, (__v4hi)__A);
90075Sobrien
90075Sobrien  /* Convert the four words to doublewords.  */
90075Sobrien  __hisi = (__v2si) __builtin_ia32_punpckhwd ((__v4hi)__A, __sign);
90075Sobrien  __losi = (__v2si) __builtin_ia32_punpcklwd ((__v4hi)__A, __sign);
90075Sobrien
90075Sobrien  /* Convert the doublewords to floating point two at a time.  */
90075Sobrien  __r = (__v4sf) __builtin_ia32_setzerops ();
90075Sobrien  __r = __builtin_ia32_cvtpi2ps (__r, __hisi);
90075Sobrien  __r = __builtin_ia32_movlhps (__r, __r);
90075Sobrien  __r = __builtin_ia32_cvtpi2ps (__r, __losi);
90075Sobrien
90075Sobrien  return (__m128) __r;
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the four unsigned 16-bit values in A to SPFP form.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cvtpu16_ps (__m64 __A)
90075Sobrien{
90075Sobrien  __v4hi __zero = (__v4hi) __builtin_ia32_mmx_zero ();
90075Sobrien  __v2si __hisi, __losi;
90075Sobrien  __v4sf __r;
90075Sobrien
90075Sobrien  /* Convert the four words to doublewords.  */
90075Sobrien  __hisi = (__v2si) __builtin_ia32_punpckhwd ((__v4hi)__A, __zero);
90075Sobrien  __losi = (__v2si) __builtin_ia32_punpcklwd ((__v4hi)__A, __zero);
90075Sobrien
90075Sobrien  /* Convert the doublewords to floating point two at a time.  */
90075Sobrien  __r = (__v4sf) __builtin_ia32_setzerops ();
90075Sobrien  __r = __builtin_ia32_cvtpi2ps (__r, __hisi);
90075Sobrien  __r = __builtin_ia32_movlhps (__r, __r);
90075Sobrien  __r = __builtin_ia32_cvtpi2ps (__r, __losi);
90075Sobrien
90075Sobrien  return (__m128) __r;
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the low four signed 8-bit values in A to SPFP form.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cvtpi8_ps (__m64 __A)
90075Sobrien{
90075Sobrien  __v8qi __sign;
90075Sobrien
90075Sobrien  /* This comparison against zero gives us a mask that can be used to
90075Sobrien     fill in the missing sign bits in the unpack operations below, so
90075Sobrien     that we get signed values after unpacking.  */
90075Sobrien  __sign = (__v8qi) __builtin_ia32_mmx_zero ();
90075Sobrien  __sign = __builtin_ia32_pcmpgtb (__sign, (__v8qi)__A);
90075Sobrien
90075Sobrien  /* Convert the four low bytes to words.  */
90075Sobrien  __A = (__m64) __builtin_ia32_punpcklbw ((__v8qi)__A, __sign);
90075Sobrien
90075Sobrien  return _mm_cvtpi16_ps(__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the low four unsigned 8-bit values in A to SPFP form.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cvtpu8_ps(__m64 __A)
90075Sobrien{
90075Sobrien  __v8qi __zero = (__v8qi) __builtin_ia32_mmx_zero ();
90075Sobrien  __A = (__m64) __builtin_ia32_punpcklbw ((__v8qi)__A, __zero);
90075Sobrien  return _mm_cvtpu16_ps(__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the four signed 32-bit values in A and B to SPFP form.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_cvtpi32x2_ps(__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  __v4sf __zero = (__v4sf) __builtin_ia32_setzerops ();
90075Sobrien  __v4sf __sfa = __builtin_ia32_cvtpi2ps (__zero, (__v2si)__A);
90075Sobrien  __v4sf __sfb = __builtin_ia32_cvtpi2ps (__zero, (__v2si)__B);
90075Sobrien  return (__m128) __builtin_ia32_movlhps (__sfa, __sfb);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the four SPFP values in A to four signed 16-bit integers.  */
90075Sobrienstatic __inline __m64
90075Sobrien_mm_cvtps_pi16(__m128 __A)
90075Sobrien{
90075Sobrien  __v4sf __hisf = (__v4sf)__A;
90075Sobrien  __v4sf __losf = __builtin_ia32_movhlps (__hisf, __hisf);
90075Sobrien  __v2si __hisi = __builtin_ia32_cvtps2pi (__hisf);
90075Sobrien  __v2si __losi = __builtin_ia32_cvtps2pi (__losf);
90075Sobrien  return (__m64) __builtin_ia32_packssdw (__losi, __hisi);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the four SPFP values in A to four signed 8-bit integers.  */
90075Sobrienstatic __inline __m64
90075Sobrien_mm_cvtps_pi8(__m128 __A)
90075Sobrien{
90075Sobrien  __v4hi __tmp = (__v4hi) _mm_cvtps_pi16 (__A);
90075Sobrien  __v4hi __zero = (__v4hi) __builtin_ia32_mmx_zero ();
90075Sobrien  return (__m64) __builtin_ia32_packsswb (__tmp, __zero);
90075Sobrien}
90075Sobrien
90075Sobrien/* Selects four specific SPFP values from A and B based on MASK.  */
90075Sobrien#if 0
90075Sobrienstatic __inline __m128
90075Sobrien_mm_shuffle_ps (__m128 __A, __m128 __B, int __mask)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_shufps ((__v4sf)__A, (__v4sf)__B, __mask);
90075Sobrien}
90075Sobrien#else
90075Sobrien#define _mm_shuffle_ps(A, B, MASK) \
90075Sobrien ((__m128) __builtin_ia32_shufps ((__v4sf)(A), (__v4sf)(B), (MASK)))
90075Sobrien#endif
90075Sobrien
90075Sobrien
90075Sobrien/* Selects and interleaves the upper two SPFP values from A and B.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_unpackhi_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_unpckhps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Selects and interleaves the lower two SPFP values from A and B.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_unpacklo_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_unpcklps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Sets the upper two SPFP values with 64-bits of data loaded from P;
90075Sobrien   the lower two values are passed through from A.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_loadh_pi (__m128 __A, __m64 *__P)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_loadhps ((__v4sf)__A, (__v2si *)__P);
90075Sobrien}
90075Sobrien
90075Sobrien/* Stores the upper two SPFP values of A into P.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_storeh_pi (__m64 *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __builtin_ia32_storehps ((__v2si *)__P, (__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Moves the upper two values of B into the lower two values of A.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_movehl_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_movhlps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Moves the lower two values of B into the upper two values of A.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_movelh_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_movlhps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Sets the lower two SPFP values with 64-bits of data loaded from P;
90075Sobrien   the upper two values are passed through from A.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_loadl_pi (__m128 __A, __m64 *__P)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_loadlps ((__v4sf)__A, (__v2si *)__P);
90075Sobrien}
90075Sobrien
90075Sobrien/* Stores the lower two SPFP values of A into P.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_storel_pi (__m64 *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __builtin_ia32_storelps ((__v2si *)__P, (__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Creates a 4-bit mask from the most significant bits of the SPFP values.  */
90075Sobrienstatic __inline int
90075Sobrien_mm_movemask_ps (__m128 __A)
90075Sobrien{
90075Sobrien  return __builtin_ia32_movmskps ((__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Return the contents of the control register.  */
90075Sobrienstatic __inline unsigned int
90075Sobrien_mm_getcsr (void)
90075Sobrien{
90075Sobrien  return __builtin_ia32_stmxcsr ();
90075Sobrien}
90075Sobrien
90075Sobrien/* Read exception bits from the control register.  */
90075Sobrienstatic __inline unsigned int
90075Sobrien_MM_GET_EXCEPTION_STATE (void)
90075Sobrien{
90075Sobrien  return _mm_getcsr() & _MM_EXCEPT_MASK;
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline unsigned int
90075Sobrien_MM_GET_EXCEPTION_MASK (void)
90075Sobrien{
90075Sobrien  return _mm_getcsr() & _MM_MASK_MASK;
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline unsigned int
90075Sobrien_MM_GET_ROUNDING_MODE (void)
90075Sobrien{
90075Sobrien  return _mm_getcsr() & _MM_ROUND_MASK;
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline unsigned int
90075Sobrien_MM_GET_FLUSH_ZERO_MODE (void)
90075Sobrien{
90075Sobrien  return _mm_getcsr() & _MM_FLUSH_ZERO_MASK;
90075Sobrien}
90075Sobrien
90075Sobrien/* Set the control register to I.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_setcsr (unsigned int __I)
90075Sobrien{
90075Sobrien  __builtin_ia32_ldmxcsr (__I);
90075Sobrien}
90075Sobrien
90075Sobrien/* Set exception bits in the control register.  */
90075Sobrienstatic __inline void
90075Sobrien_MM_SET_EXCEPTION_STATE(unsigned int __mask)
90075Sobrien{
90075Sobrien  _mm_setcsr((_mm_getcsr() & ~_MM_EXCEPT_MASK) | __mask);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline void
90075Sobrien_MM_SET_EXCEPTION_MASK (unsigned int __mask)
90075Sobrien{
90075Sobrien  _mm_setcsr((_mm_getcsr() & ~_MM_MASK_MASK) | __mask);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline void
90075Sobrien_MM_SET_ROUNDING_MODE (unsigned int __mode)
90075Sobrien{
90075Sobrien  _mm_setcsr((_mm_getcsr() & ~_MM_ROUND_MASK) | __mode);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline void
90075Sobrien_MM_SET_FLUSH_ZERO_MODE (unsigned int __mode)
90075Sobrien{
90075Sobrien  _mm_setcsr((_mm_getcsr() & ~_MM_FLUSH_ZERO_MASK) | __mode);
90075Sobrien}
90075Sobrien
90075Sobrien/* Create a vector with element 0 as *P and the rest zero.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_load_ss (float *__P)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_loadss (__P);
90075Sobrien}
90075Sobrien
90075Sobrien/* Create a vector with all four elements equal to *P.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_load1_ps (float *__P)
90075Sobrien{
90075Sobrien  __v4sf __tmp = __builtin_ia32_loadss (__P);
90075Sobrien  return (__m128) __builtin_ia32_shufps (__tmp, __tmp, _MM_SHUFFLE (0,0,0,0));
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_load_ps1 (float *__P)
90075Sobrien{
90075Sobrien  return _mm_load1_ps (__P);
90075Sobrien}
90075Sobrien
90075Sobrien/* Load four SPFP values from P.  The address must be 16-byte aligned.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_load_ps (float *__P)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_loadaps (__P);
90075Sobrien}
90075Sobrien
90075Sobrien/* Load four SPFP values from P.  The address need not be 16-byte aligned.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_loadu_ps (float *__P)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_loadups (__P);
90075Sobrien}
90075Sobrien
90075Sobrien/* Load four SPFP values in reverse order.  The address must be aligned.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_loadr_ps (float *__P)
90075Sobrien{
90075Sobrien  __v4sf __tmp = __builtin_ia32_loadaps (__P);
90075Sobrien  return (__m128) __builtin_ia32_shufps (__tmp, __tmp, _MM_SHUFFLE (0,1,2,3));
90075Sobrien}
90075Sobrien
90075Sobrien/* Create a vector with element 0 as F and the rest zero.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_set_ss (float __F)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_loadss (&__F);
90075Sobrien}
90075Sobrien
90075Sobrien/* Create a vector with all four elements equal to F.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_set1_ps (float __F)
90075Sobrien{
90075Sobrien  __v4sf __tmp = __builtin_ia32_loadss (&__F);
90075Sobrien  return (__m128) __builtin_ia32_shufps (__tmp, __tmp, _MM_SHUFFLE (0,0,0,0));
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline __m128
90075Sobrien_mm_set_ps1 (float __F)
90075Sobrien{
90075Sobrien  return _mm_set1_ps (__F);
90075Sobrien}
90075Sobrien
90075Sobrien/* Create the vector [Z Y X W].  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_set_ps (float __Z, float __Y, float __X, float __W)
90075Sobrien{
90075Sobrien  union {
90075Sobrien    float __a[4];
90075Sobrien    __m128 __v;
90075Sobrien  } __u;
90075Sobrien
90075Sobrien  __u.__a[0] = __W;
90075Sobrien  __u.__a[1] = __X;
90075Sobrien  __u.__a[2] = __Y;
90075Sobrien  __u.__a[3] = __Z;
90075Sobrien
90075Sobrien  return __u.__v;
90075Sobrien}
90075Sobrien
90075Sobrien/* Create the vector [W X Y Z].  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_setr_ps (float __Z, float __Y, float __X, float __W)
90075Sobrien{
90075Sobrien  return _mm_set_ps (__W, __X, __Y, __Z);
90075Sobrien}
90075Sobrien
90075Sobrien/* Create a vector of zeros.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_setzero_ps (void)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_setzerops ();
90075Sobrien}
90075Sobrien
90075Sobrien/* Stores the lower SPFP value.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_store_ss (float *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __builtin_ia32_storess (__P, (__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Store the lower SPFP value across four words.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_store1_ps (float *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __v4sf __va = (__v4sf)__A;
90075Sobrien  __v4sf __tmp = __builtin_ia32_shufps (__va, __va, _MM_SHUFFLE (0,0,0,0));
90075Sobrien  __builtin_ia32_storeaps (__P, __tmp);
90075Sobrien}
90075Sobrien
90075Sobrienstatic __inline void
90075Sobrien_mm_store_ps1 (float *__P, __m128 __A)
90075Sobrien{
90075Sobrien  _mm_store1_ps (__P, __A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Store four SPFP values.  The address must be 16-byte aligned.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_store_ps (float *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __builtin_ia32_storeaps (__P, (__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Store four SPFP values.  The address need not be 16-byte aligned.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_storeu_ps (float *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __builtin_ia32_storeups (__P, (__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Store four SPFP values in reverse order.  The addres must be aligned.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_storer_ps (float *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __v4sf __va = (__v4sf)__A;
90075Sobrien  __v4sf __tmp = __builtin_ia32_shufps (__va, __va, _MM_SHUFFLE (0,1,2,3));
90075Sobrien  __builtin_ia32_storeaps (__P, __tmp);
90075Sobrien}
90075Sobrien
90075Sobrien/* Sets the low SPFP value of A from the low value of B.  */
90075Sobrienstatic __inline __m128
90075Sobrien_mm_move_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_movss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Extracts one of the four words of A.  The selector N must be immediate.  */
90075Sobrien#if 0
90075Sobrienstatic __inline int
90075Sobrien_mm_extract_pi16 (__m64 __A, int __N)
90075Sobrien{
90075Sobrien  return __builtin_ia32_pextrw ((__v4hi)__A, __N);
90075Sobrien}
90075Sobrien#else
90075Sobrien#define _mm_extract_pi16(A, N) \
90075Sobrien  __builtin_ia32_pextrw ((__v4hi)(A), (N))
90075Sobrien#endif
90075Sobrien
90075Sobrien/* Inserts word D into one of four words of A.  The selector N must be
90075Sobrien   immediate.  */
90075Sobrien#if 0
90075Sobrienstatic __inline __m64
90075Sobrien_mm_insert_pi16 (__m64 __A, int __D, int __N)
90075Sobrien{
90075Sobrien  return (__m64)__builtin_ia32_pinsrw ((__v4hi)__A, __D, __N);
90075Sobrien}
90075Sobrien#else
90075Sobrien#define _mm_insert_pi16(A, D, N) \
90075Sobrien  ((__m64) __builtin_ia32_pinsrw ((__v4hi)(A), (D), (N)))
90075Sobrien#endif
90075Sobrien
90075Sobrien/* Compute the element-wise maximum of signed 16-bit values.  */
90075Sobrienstatic __inline __m64
90075Sobrien_mm_max_pi16 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pmaxsw ((__v4hi)__A, (__v4hi)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Compute the element-wise maximum of unsigned 8-bit values.  */
90075Sobrienstatic __inline __m64
90075Sobrien_mm_max_pu8 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pmaxub ((__v8qi)__A, (__v8qi)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Compute the element-wise minimum of signed 16-bit values.  */
90075Sobrienstatic __inline __m64
90075Sobrien_mm_min_pi16 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pminsw ((__v4hi)__A, (__v4hi)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Compute the element-wise minimum of unsigned 8-bit values.  */
90075Sobrienstatic __inline __m64
90075Sobrien_mm_min_pu8 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pminub ((__v8qi)__A, (__v8qi)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Create an 8-bit mask of the signs of 8-bit values.  */
90075Sobrienstatic __inline int
90075Sobrien_mm_movemask_pi8 (__m64 __A)
90075Sobrien{
90075Sobrien  return __builtin_ia32_pmovmskb ((__v8qi)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Multiply four unsigned 16-bit values in A by four unsigned 16-bit values
90075Sobrien   in B and produce the high 16 bits of the 32-bit results.  */
90075Sobrienstatic __inline __m64
90075Sobrien_mm_mulhi_pu16 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pmulhuw ((__v4hi)__A, (__v4hi)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Return a combination of the four 16-bit values in A.  The selector
90075Sobrien   must be an immediate.  */
90075Sobrien#if 0
90075Sobrienstatic __inline __m64
90075Sobrien_mm_shuffle_pi16 (__m64 __A, int __N)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pshufw ((__v4hi)__A, __N);
90075Sobrien}
90075Sobrien#else
90075Sobrien#define _mm_shuffle_pi16(A, N) \
90075Sobrien  ((__m64) __builtin_ia32_pshufw ((__v4hi)(A), (N)))
90075Sobrien#endif
90075Sobrien
90075Sobrien/* Conditionally store byte elements of A into P.  The high bit of each
90075Sobrien   byte in the selector N determines whether the corresponding byte from
90075Sobrien   A is stored.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_maskmove_si64 (__m64 __A, __m64 __N, char *__P)
90075Sobrien{
90075Sobrien  __builtin_ia32_maskmovq ((__v8qi)__A, (__v8qi)__N, __P);
90075Sobrien}
90075Sobrien
90075Sobrien/* Compute the rounded averages of the unsigned 8-bit values in A and B.  */
90075Sobrienstatic __inline __m64
90075Sobrien_mm_avg_pu8 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pavgb ((__v8qi)__A, (__v8qi)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Compute the rounded averages of the unsigned 16-bit values in A and B.  */
90075Sobrienstatic __inline __m64
90075Sobrien_mm_avg_pu16 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pavgw ((__v4hi)__A, (__v4hi)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Compute the sum of the absolute differences of the unsigned 8-bit
90075Sobrien   values in A and B.  Return the value in the lower 16-bit word; the
90075Sobrien   upper words are cleared.  */
90075Sobrienstatic __inline __m64
90075Sobrien_mm_sad_pu8 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_psadbw ((__v8qi)__A, (__v8qi)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Loads one cache line from address P to a location "closer" to the
90075Sobrien   processor.  The selector I specifies the type of prefetch operation.  */
90075Sobrien#if 0
90075Sobrienstatic __inline void
90075Sobrien_mm_prefetch (void *__P, enum _mm_hint __I)
90075Sobrien{
90075Sobrien  __builtin_prefetch (__P, 0, __I);
90075Sobrien}
90075Sobrien#else
90075Sobrien#define _mm_prefetch(P, I) \
90075Sobrien  __builtin_prefetch ((P), 0, (I))
90075Sobrien#endif
90075Sobrien
90075Sobrien/* Stores the data in A to the address P without polluting the caches.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_stream_pi (__m64 *__P, __m64 __A)
90075Sobrien{
107590Sobrien  __builtin_ia32_movntq (__P, (long long)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Likewise.  The address must be 16-byte aligned.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_stream_ps (float *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __builtin_ia32_movntps (__P, (__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Guarantees that every preceeding store is globally visible before
90075Sobrien   any subsequent store.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_sfence (void)
90075Sobrien{
90075Sobrien  __builtin_ia32_sfence ();
90075Sobrien}
90075Sobrien
90075Sobrien/* The execution of the next instruction is delayed by an implementation
90075Sobrien   specific amount of time.  The instruction does not modify the
90075Sobrien   architectural state.  */
90075Sobrienstatic __inline void
90075Sobrien_mm_pause (void)
90075Sobrien{
90075Sobrien  __asm__ __volatile__ ("rep; nop" : : );
90075Sobrien}
90075Sobrien
90075Sobrien/* Transpose the 4x4 matrix composed of row[0-3].  */
90075Sobrien#define _MM_TRANSPOSE4_PS(row0, row1, row2, row3)			\
90075Sobriendo {									\
90075Sobrien  __v4sf __r0 = (row0), __r1 = (row1), __r2 = (row2), __r3 = (row3);	\
90075Sobrien  __v4sf __t0 = __builtin_ia32_shufps (__r0, __r1, 0x44);		\
107590Sobrien  __v4sf __t2 = __builtin_ia32_shufps (__r0, __r1, 0xEE);		\
107590Sobrien  __v4sf __t1 = __builtin_ia32_shufps (__r2, __r3, 0x44);		\
90075Sobrien  __v4sf __t3 = __builtin_ia32_shufps (__r2, __r3, 0xEE);		\
90075Sobrien  (row0) = __builtin_ia32_shufps (__t0, __t1, 0x88);			\
90075Sobrien  (row1) = __builtin_ia32_shufps (__t0, __t1, 0xDD);			\
90075Sobrien  (row2) = __builtin_ia32_shufps (__t2, __t3, 0x88);			\
90075Sobrien  (row3) = __builtin_ia32_shufps (__t2, __t3, 0xDD);			\
90075Sobrien} while (0)
90075Sobrien
90075Sobrien#endif /* _XMMINTRIN_H_INCLUDED */