config/i386/xmmintrin.h

169689Skan/* Copyright (C) 2002, 2003, 2004, 2005, 2006, 2007
169689Skan   Free Software Foundation, Inc.
90075Sobrien
132718Skan   This file is part of GCC.
90075Sobrien
132718Skan   GCC is free software; you can redistribute it and/or modify
90075Sobrien   it under the terms of the GNU General Public License as published by
90075Sobrien   the Free Software Foundation; either version 2, or (at your option)
90075Sobrien   any later version.
90075Sobrien
132718Skan   GCC is distributed in the hope that it will be useful,
90075Sobrien   but WITHOUT ANY WARRANTY; without even the implied warranty of
90075Sobrien   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
90075Sobrien   GNU General Public License for more details.
90075Sobrien
90075Sobrien   You should have received a copy of the GNU General Public License
132718Skan   along with GCC; see the file COPYING.  If not, write to
169689Skan   the Free Software Foundation, 51 Franklin Street, Fifth Floor,
169689Skan   Boston, MA 02110-1301, USA.  */
90075Sobrien
90075Sobrien/* As a special exception, if you include this header file into source
90075Sobrien   files compiled by GCC, this header file does not by itself cause
90075Sobrien   the resulting executable to be covered by the GNU General Public
90075Sobrien   License.  This exception does not however invalidate any other
90075Sobrien   reasons why the executable file might be covered by the GNU General
90075Sobrien   Public License.  */
90075Sobrien
90075Sobrien/* Implemented from the specification included in the Intel C++ Compiler
169689Skan   User Guide and Reference, version 9.0.  */
90075Sobrien
90075Sobrien#ifndef _XMMINTRIN_H_INCLUDED
90075Sobrien#define _XMMINTRIN_H_INCLUDED
90075Sobrien
117395Skan#ifndef __SSE__
117395Skan# error "SSE instruction set not enabled"
117395Skan#else
117395Skan
90075Sobrien/* We need type definitions from the MMX header file.  */
90075Sobrien#include <mmintrin.h>
90075Sobrien
169689Skan/* Get _mm_malloc () and _mm_free ().  */
169689Skan#include <mm_malloc.h>
90075Sobrien
169689Skan/* The Intel API is flexible enough that we must allow aliasing with other
169689Skan   vector types, and their scalar components.  */
169689Skantypedef float __m128 __attribute__ ((__vector_size__ (16), __may_alias__));
169689Skan
132718Skan/* Internal data types for implementing the intrinsics.  */
169689Skantypedef float __v4sf __attribute__ ((__vector_size__ (16)));
90075Sobrien
90075Sobrien/* Create a selector for use with the SHUFPS instruction.  */
90075Sobrien#define _MM_SHUFFLE(fp3,fp2,fp1,fp0) \
90075Sobrien (((fp3) << 6) | ((fp2) << 4) | ((fp1) << 2) | (fp0))
90075Sobrien
90075Sobrien/* Constants for use with _mm_prefetch.  */
90075Sobrienenum _mm_hint
90075Sobrien{
90075Sobrien  _MM_HINT_T0 = 3,
90075Sobrien  _MM_HINT_T1 = 2,
90075Sobrien  _MM_HINT_T2 = 1,
90075Sobrien  _MM_HINT_NTA = 0
90075Sobrien};
90075Sobrien
90075Sobrien/* Bits in the MXCSR.  */
90075Sobrien#define _MM_EXCEPT_MASK       0x003f
90075Sobrien#define _MM_EXCEPT_INVALID    0x0001
90075Sobrien#define _MM_EXCEPT_DENORM     0x0002
90075Sobrien#define _MM_EXCEPT_DIV_ZERO   0x0004
90075Sobrien#define _MM_EXCEPT_OVERFLOW   0x0008
90075Sobrien#define _MM_EXCEPT_UNDERFLOW  0x0010
90075Sobrien#define _MM_EXCEPT_INEXACT    0x0020
90075Sobrien
90075Sobrien#define _MM_MASK_MASK         0x1f80
90075Sobrien#define _MM_MASK_INVALID      0x0080
90075Sobrien#define _MM_MASK_DENORM       0x0100
90075Sobrien#define _MM_MASK_DIV_ZERO     0x0200
90075Sobrien#define _MM_MASK_OVERFLOW     0x0400
90075Sobrien#define _MM_MASK_UNDERFLOW    0x0800
90075Sobrien#define _MM_MASK_INEXACT      0x1000
90075Sobrien
90075Sobrien#define _MM_ROUND_MASK        0x6000
90075Sobrien#define _MM_ROUND_NEAREST     0x0000
90075Sobrien#define _MM_ROUND_DOWN        0x2000
90075Sobrien#define _MM_ROUND_UP          0x4000
90075Sobrien#define _MM_ROUND_TOWARD_ZERO 0x6000
90075Sobrien
90075Sobrien#define _MM_FLUSH_ZERO_MASK   0x8000
90075Sobrien#define _MM_FLUSH_ZERO_ON     0x8000
90075Sobrien#define _MM_FLUSH_ZERO_OFF    0x0000
90075Sobrien
169689Skan/* Create a vector of zeros.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
169689Skan_mm_setzero_ps (void)
169689Skan{
169689Skan  return __extension__ (__m128){ 0.0f, 0.0f, 0.0f, 0.0f };
169689Skan}
169689Skan
90075Sobrien/* Perform the respective operation on the lower SPFP (single-precision
90075Sobrien   floating-point) values of A and B; the upper three SPFP values are
90075Sobrien   passed through from A.  */
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_add_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_addss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_sub_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_subss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_mul_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_mulss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_div_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_divss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_sqrt_ss (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_sqrtss ((__v4sf)__A);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_rcp_ss (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_rcpss ((__v4sf)__A);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_rsqrt_ss (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_rsqrtss ((__v4sf)__A);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_min_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_minss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_max_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_maxss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Perform the respective operation on the four SPFP values in A and B.  */
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_add_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_addps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_sub_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_subps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_mul_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_mulps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_div_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_divps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_sqrt_ps (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_sqrtps ((__v4sf)__A);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_rcp_ps (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_rcpps ((__v4sf)__A);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_rsqrt_ps (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_rsqrtps ((__v4sf)__A);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_min_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_minps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_max_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_maxps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Perform logical bit-wise operations on 128-bit values.  */
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_and_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_andps (__A, __B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_andnot_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_andnps (__A, __B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_or_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_orps (__A, __B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_xor_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_xorps (__A, __B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Perform a comparison on the lower SPFP values of A and B.  If the
90075Sobrien   comparison is true, place a mask of all ones in the result, otherwise a
90075Sobrien   mask of zeros.  The upper three SPFP values are passed through from A.  */
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpeq_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpeqss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmplt_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpltss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmple_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpless ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpgt_ss (__m128 __A, __m128 __B)
90075Sobrien{
107590Sobrien  return (__m128) __builtin_ia32_movss ((__v4sf) __A,
107590Sobrien					(__v4sf)
107590Sobrien					__builtin_ia32_cmpltss ((__v4sf) __B,
107590Sobrien								(__v4sf)
107590Sobrien								__A));
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpge_ss (__m128 __A, __m128 __B)
90075Sobrien{
107590Sobrien  return (__m128) __builtin_ia32_movss ((__v4sf) __A,
107590Sobrien					(__v4sf)
107590Sobrien					__builtin_ia32_cmpless ((__v4sf) __B,
107590Sobrien								(__v4sf)
107590Sobrien								__A));
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpneq_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpneqss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpnlt_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpnltss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpnle_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpnless ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpngt_ss (__m128 __A, __m128 __B)
90075Sobrien{
107590Sobrien  return (__m128) __builtin_ia32_movss ((__v4sf) __A,
107590Sobrien					(__v4sf)
107590Sobrien					__builtin_ia32_cmpnltss ((__v4sf) __B,
107590Sobrien								 (__v4sf)
107590Sobrien								 __A));
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpnge_ss (__m128 __A, __m128 __B)
90075Sobrien{
107590Sobrien  return (__m128) __builtin_ia32_movss ((__v4sf) __A,
107590Sobrien					(__v4sf)
107590Sobrien					__builtin_ia32_cmpnless ((__v4sf) __B,
107590Sobrien								 (__v4sf)
107590Sobrien								 __A));
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpord_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpordss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpunord_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpunordss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Perform a comparison on the four SPFP values of A and B.  For each
90075Sobrien   element, if the comparison is true, place a mask of all ones in the
90075Sobrien   result, otherwise a mask of zeros.  */
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpeq_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpeqps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmplt_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpltps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmple_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpleps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpgt_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpgtps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpge_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpgeps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpneq_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpneqps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpnlt_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpnltps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpnle_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpnleps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpngt_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpngtps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpnge_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpngeps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpord_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpordps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cmpunord_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cmpunordps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Compare the lower SPFP values of A and B and return 1 if true
90075Sobrien   and 0 if false.  */
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_comieq_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_comieq ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_comilt_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_comilt ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_comile_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_comile ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_comigt_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_comigt ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_comige_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_comige ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_comineq_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_comineq ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_ucomieq_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_ucomieq ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_ucomilt_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_ucomilt ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_ucomile_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_ucomile ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_ucomigt_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_ucomigt ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_ucomige_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_ucomige ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_ucomineq_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return __builtin_ia32_ucomineq ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the lower SPFP value to a 32-bit integer according to the current
90075Sobrien   rounding mode.  */
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_cvtss_si32 (__m128 __A)
90075Sobrien{
90075Sobrien  return __builtin_ia32_cvtss2si ((__v4sf) __A);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
122180Skan_mm_cvt_ss2si (__m128 __A)
122180Skan{
122180Skan  return _mm_cvtss_si32 (__A);
122180Skan}
122180Skan
117395Skan#ifdef __x86_64__
169689Skan/* Convert the lower SPFP value to a 32-bit integer according to the
169689Skan   current rounding mode.  */
169689Skan
169689Skan/* Intel intrinsic.  */
169689Skanstatic __inline long long __attribute__((__always_inline__))
169689Skan_mm_cvtss_si64 (__m128 __A)
169689Skan{
169689Skan  return __builtin_ia32_cvtss2si64 ((__v4sf) __A);
169689Skan}
169689Skan
169689Skan/* Microsoft intrinsic.  */
169689Skanstatic __inline long long __attribute__((__always_inline__))
117395Skan_mm_cvtss_si64x (__m128 __A)
117395Skan{
117395Skan  return __builtin_ia32_cvtss2si64 ((__v4sf) __A);
117395Skan}
117395Skan#endif
117395Skan
90075Sobrien/* Convert the two lower SPFP values to 32-bit integers according to the
90075Sobrien   current rounding mode.  Return the integers in packed form.  */
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_cvtps_pi32 (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_cvtps2pi ((__v4sf) __A);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
122180Skan_mm_cvt_ps2pi (__m128 __A)
122180Skan{
122180Skan  return _mm_cvtps_pi32 (__A);
122180Skan}
122180Skan
90075Sobrien/* Truncate the lower SPFP value to a 32-bit integer.  */
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_cvttss_si32 (__m128 __A)
90075Sobrien{
90075Sobrien  return __builtin_ia32_cvttss2si ((__v4sf) __A);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
122180Skan_mm_cvtt_ss2si (__m128 __A)
122180Skan{
122180Skan  return _mm_cvttss_si32 (__A);
122180Skan}
122180Skan
117395Skan#ifdef __x86_64__
117395Skan/* Truncate the lower SPFP value to a 32-bit integer.  */
169689Skan
169689Skan/* Intel intrinsic.  */
169689Skanstatic __inline long long __attribute__((__always_inline__))
169689Skan_mm_cvttss_si64 (__m128 __A)
169689Skan{
169689Skan  return __builtin_ia32_cvttss2si64 ((__v4sf) __A);
169689Skan}
169689Skan
169689Skan/* Microsoft intrinsic.  */
169689Skanstatic __inline long long __attribute__((__always_inline__))
117395Skan_mm_cvttss_si64x (__m128 __A)
117395Skan{
117395Skan  return __builtin_ia32_cvttss2si64 ((__v4sf) __A);
117395Skan}
117395Skan#endif
117395Skan
90075Sobrien/* Truncate the two lower SPFP values to 32-bit integers.  Return the
90075Sobrien   integers in packed form.  */
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_cvttps_pi32 (__m128 __A)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_cvttps2pi ((__v4sf) __A);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
122180Skan_mm_cvtt_ps2pi (__m128 __A)
122180Skan{
122180Skan  return _mm_cvttps_pi32 (__A);
122180Skan}
122180Skan
90075Sobrien/* Convert B to a SPFP value and insert it as element zero in A.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cvtsi32_ss (__m128 __A, int __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cvtsi2ss ((__v4sf) __A, __B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
122180Skan_mm_cvt_si2ss (__m128 __A, int __B)
122180Skan{
122180Skan  return _mm_cvtsi32_ss (__A, __B);
122180Skan}
122180Skan
117395Skan#ifdef __x86_64__
117395Skan/* Convert B to a SPFP value and insert it as element zero in A.  */
169689Skan
169689Skan/* Intel intrinsic.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
169689Skan_mm_cvtsi64_ss (__m128 __A, long long __B)
169689Skan{
169689Skan  return (__m128) __builtin_ia32_cvtsi642ss ((__v4sf) __A, __B);
169689Skan}
169689Skan
169689Skan/* Microsoft intrinsic.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
117395Skan_mm_cvtsi64x_ss (__m128 __A, long long __B)
117395Skan{
117395Skan  return (__m128) __builtin_ia32_cvtsi642ss ((__v4sf) __A, __B);
117395Skan}
117395Skan#endif
117395Skan
90075Sobrien/* Convert the two 32-bit values in B to SPFP form and insert them
90075Sobrien   as the two lower elements in A.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cvtpi32_ps (__m128 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_cvtpi2ps ((__v4sf) __A, (__v2si)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
122180Skan_mm_cvt_pi2ps (__m128 __A, __m64 __B)
122180Skan{
122180Skan  return _mm_cvtpi32_ps (__A, __B);
122180Skan}
122180Skan
90075Sobrien/* Convert the four signed 16-bit values in A to SPFP form.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cvtpi16_ps (__m64 __A)
90075Sobrien{
90075Sobrien  __v4hi __sign;
90075Sobrien  __v2si __hisi, __losi;
90075Sobrien  __v4sf __r;
90075Sobrien
90075Sobrien  /* This comparison against zero gives us a mask that can be used to
90075Sobrien     fill in the missing sign bits in the unpack operations below, so
90075Sobrien     that we get signed values after unpacking.  */
169689Skan  __sign = __builtin_ia32_pcmpgtw ((__v4hi)0LL, (__v4hi)__A);
90075Sobrien
90075Sobrien  /* Convert the four words to doublewords.  */
90075Sobrien  __hisi = (__v2si) __builtin_ia32_punpckhwd ((__v4hi)__A, __sign);
90075Sobrien  __losi = (__v2si) __builtin_ia32_punpcklwd ((__v4hi)__A, __sign);
90075Sobrien
90075Sobrien  /* Convert the doublewords to floating point two at a time.  */
169689Skan  __r = (__v4sf) _mm_setzero_ps ();
90075Sobrien  __r = __builtin_ia32_cvtpi2ps (__r, __hisi);
90075Sobrien  __r = __builtin_ia32_movlhps (__r, __r);
90075Sobrien  __r = __builtin_ia32_cvtpi2ps (__r, __losi);
90075Sobrien
90075Sobrien  return (__m128) __r;
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the four unsigned 16-bit values in A to SPFP form.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cvtpu16_ps (__m64 __A)
90075Sobrien{
90075Sobrien  __v2si __hisi, __losi;
90075Sobrien  __v4sf __r;
90075Sobrien
90075Sobrien  /* Convert the four words to doublewords.  */
169689Skan  __hisi = (__v2si) __builtin_ia32_punpckhwd ((__v4hi)__A, (__v4hi)0LL);
169689Skan  __losi = (__v2si) __builtin_ia32_punpcklwd ((__v4hi)__A, (__v4hi)0LL);
90075Sobrien
90075Sobrien  /* Convert the doublewords to floating point two at a time.  */
169689Skan  __r = (__v4sf) _mm_setzero_ps ();
90075Sobrien  __r = __builtin_ia32_cvtpi2ps (__r, __hisi);
90075Sobrien  __r = __builtin_ia32_movlhps (__r, __r);
90075Sobrien  __r = __builtin_ia32_cvtpi2ps (__r, __losi);
90075Sobrien
90075Sobrien  return (__m128) __r;
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the low four signed 8-bit values in A to SPFP form.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cvtpi8_ps (__m64 __A)
90075Sobrien{
90075Sobrien  __v8qi __sign;
90075Sobrien
90075Sobrien  /* This comparison against zero gives us a mask that can be used to
90075Sobrien     fill in the missing sign bits in the unpack operations below, so
90075Sobrien     that we get signed values after unpacking.  */
169689Skan  __sign = __builtin_ia32_pcmpgtb ((__v8qi)0LL, (__v8qi)__A);
90075Sobrien
90075Sobrien  /* Convert the four low bytes to words.  */
90075Sobrien  __A = (__m64) __builtin_ia32_punpcklbw ((__v8qi)__A, __sign);
90075Sobrien
90075Sobrien  return _mm_cvtpi16_ps(__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the low four unsigned 8-bit values in A to SPFP form.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cvtpu8_ps(__m64 __A)
90075Sobrien{
169689Skan  __A = (__m64) __builtin_ia32_punpcklbw ((__v8qi)__A, (__v8qi)0LL);
90075Sobrien  return _mm_cvtpu16_ps(__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the four signed 32-bit values in A and B to SPFP form.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_cvtpi32x2_ps(__m64 __A, __m64 __B)
90075Sobrien{
169689Skan  __v4sf __zero = (__v4sf) _mm_setzero_ps ();
90075Sobrien  __v4sf __sfa = __builtin_ia32_cvtpi2ps (__zero, (__v2si)__A);
90075Sobrien  __v4sf __sfb = __builtin_ia32_cvtpi2ps (__zero, (__v2si)__B);
90075Sobrien  return (__m128) __builtin_ia32_movlhps (__sfa, __sfb);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the four SPFP values in A to four signed 16-bit integers.  */
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_cvtps_pi16(__m128 __A)
90075Sobrien{
90075Sobrien  __v4sf __hisf = (__v4sf)__A;
90075Sobrien  __v4sf __losf = __builtin_ia32_movhlps (__hisf, __hisf);
90075Sobrien  __v2si __hisi = __builtin_ia32_cvtps2pi (__hisf);
90075Sobrien  __v2si __losi = __builtin_ia32_cvtps2pi (__losf);
117395Skan  return (__m64) __builtin_ia32_packssdw (__hisi, __losi);
90075Sobrien}
90075Sobrien
90075Sobrien/* Convert the four SPFP values in A to four signed 8-bit integers.  */
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_cvtps_pi8(__m128 __A)
90075Sobrien{
90075Sobrien  __v4hi __tmp = (__v4hi) _mm_cvtps_pi16 (__A);
169689Skan  return (__m64) __builtin_ia32_packsswb (__tmp, (__v4hi)0LL);
90075Sobrien}
90075Sobrien
90075Sobrien/* Selects four specific SPFP values from A and B based on MASK.  */
90075Sobrien#if 0
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_shuffle_ps (__m128 __A, __m128 __B, int __mask)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_shufps ((__v4sf)__A, (__v4sf)__B, __mask);
90075Sobrien}
90075Sobrien#else
90075Sobrien#define _mm_shuffle_ps(A, B, MASK) \
90075Sobrien ((__m128) __builtin_ia32_shufps ((__v4sf)(A), (__v4sf)(B), (MASK)))
90075Sobrien#endif
90075Sobrien
90075Sobrien
90075Sobrien/* Selects and interleaves the upper two SPFP values from A and B.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_unpackhi_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_unpckhps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Selects and interleaves the lower two SPFP values from A and B.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_unpacklo_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_unpcklps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Sets the upper two SPFP values with 64-bits of data loaded from P;
90075Sobrien   the lower two values are passed through from A.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
117395Skan_mm_loadh_pi (__m128 __A, __m64 const *__P)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_loadhps ((__v4sf)__A, (__v2si *)__P);
90075Sobrien}
90075Sobrien
90075Sobrien/* Stores the upper two SPFP values of A into P.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_mm_storeh_pi (__m64 *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __builtin_ia32_storehps ((__v2si *)__P, (__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Moves the upper two values of B into the lower two values of A.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_movehl_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_movhlps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Moves the lower two values of B into the upper two values of A.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_movelh_ps (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_movlhps ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Sets the lower two SPFP values with 64-bits of data loaded from P;
90075Sobrien   the upper two values are passed through from A.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
117395Skan_mm_loadl_pi (__m128 __A, __m64 const *__P)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_loadlps ((__v4sf)__A, (__v2si *)__P);
90075Sobrien}
90075Sobrien
90075Sobrien/* Stores the lower two SPFP values of A into P.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_mm_storel_pi (__m64 *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __builtin_ia32_storelps ((__v2si *)__P, (__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Creates a 4-bit mask from the most significant bits of the SPFP values.  */
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_movemask_ps (__m128 __A)
90075Sobrien{
90075Sobrien  return __builtin_ia32_movmskps ((__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Return the contents of the control register.  */
169689Skanstatic __inline unsigned int __attribute__((__always_inline__))
90075Sobrien_mm_getcsr (void)
90075Sobrien{
90075Sobrien  return __builtin_ia32_stmxcsr ();
90075Sobrien}
90075Sobrien
90075Sobrien/* Read exception bits from the control register.  */
169689Skanstatic __inline unsigned int __attribute__((__always_inline__))
90075Sobrien_MM_GET_EXCEPTION_STATE (void)
90075Sobrien{
90075Sobrien  return _mm_getcsr() & _MM_EXCEPT_MASK;
90075Sobrien}
90075Sobrien
169689Skanstatic __inline unsigned int __attribute__((__always_inline__))
90075Sobrien_MM_GET_EXCEPTION_MASK (void)
90075Sobrien{
90075Sobrien  return _mm_getcsr() & _MM_MASK_MASK;
90075Sobrien}
90075Sobrien
169689Skanstatic __inline unsigned int __attribute__((__always_inline__))
90075Sobrien_MM_GET_ROUNDING_MODE (void)
90075Sobrien{
90075Sobrien  return _mm_getcsr() & _MM_ROUND_MASK;
90075Sobrien}
90075Sobrien
169689Skanstatic __inline unsigned int __attribute__((__always_inline__))
90075Sobrien_MM_GET_FLUSH_ZERO_MODE (void)
90075Sobrien{
90075Sobrien  return _mm_getcsr() & _MM_FLUSH_ZERO_MASK;
90075Sobrien}
90075Sobrien
90075Sobrien/* Set the control register to I.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_mm_setcsr (unsigned int __I)
90075Sobrien{
90075Sobrien  __builtin_ia32_ldmxcsr (__I);
90075Sobrien}
90075Sobrien
90075Sobrien/* Set exception bits in the control register.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_MM_SET_EXCEPTION_STATE(unsigned int __mask)
90075Sobrien{
90075Sobrien  _mm_setcsr((_mm_getcsr() & ~_MM_EXCEPT_MASK) | __mask);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_MM_SET_EXCEPTION_MASK (unsigned int __mask)
90075Sobrien{
90075Sobrien  _mm_setcsr((_mm_getcsr() & ~_MM_MASK_MASK) | __mask);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_MM_SET_ROUNDING_MODE (unsigned int __mode)
90075Sobrien{
90075Sobrien  _mm_setcsr((_mm_getcsr() & ~_MM_ROUND_MASK) | __mode);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_MM_SET_FLUSH_ZERO_MODE (unsigned int __mode)
90075Sobrien{
90075Sobrien  _mm_setcsr((_mm_getcsr() & ~_MM_FLUSH_ZERO_MASK) | __mode);
90075Sobrien}
90075Sobrien
169689Skan/* Create a vector with element 0 as F and the rest zero.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
169689Skan_mm_set_ss (float __F)
169689Skan{
169689Skan  return __extension__ (__m128)(__v4sf){ __F, 0, 0, 0 };
169689Skan}
169689Skan
169689Skan/* Create a vector with all four elements equal to F.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
169689Skan_mm_set1_ps (float __F)
169689Skan{
169689Skan  return __extension__ (__m128)(__v4sf){ __F, __F, __F, __F };
169689Skan}
169689Skan
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
169689Skan_mm_set_ps1 (float __F)
169689Skan{
169689Skan  return _mm_set1_ps (__F);
169689Skan}
169689Skan
90075Sobrien/* Create a vector with element 0 as *P and the rest zero.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
117395Skan_mm_load_ss (float const *__P)
90075Sobrien{
169689Skan  return _mm_set_ss (*__P);
90075Sobrien}
90075Sobrien
90075Sobrien/* Create a vector with all four elements equal to *P.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
117395Skan_mm_load1_ps (float const *__P)
90075Sobrien{
169689Skan  return _mm_set1_ps (*__P);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
117395Skan_mm_load_ps1 (float const *__P)
90075Sobrien{
90075Sobrien  return _mm_load1_ps (__P);
90075Sobrien}
90075Sobrien
90075Sobrien/* Load four SPFP values from P.  The address must be 16-byte aligned.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
117395Skan_mm_load_ps (float const *__P)
90075Sobrien{
169689Skan  return (__m128) *(__v4sf *)__P;
90075Sobrien}
90075Sobrien
90075Sobrien/* Load four SPFP values from P.  The address need not be 16-byte aligned.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
117395Skan_mm_loadu_ps (float const *__P)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_loadups (__P);
90075Sobrien}
90075Sobrien
90075Sobrien/* Load four SPFP values in reverse order.  The address must be aligned.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
117395Skan_mm_loadr_ps (float const *__P)
90075Sobrien{
169689Skan  __v4sf __tmp = *(__v4sf *)__P;
90075Sobrien  return (__m128) __builtin_ia32_shufps (__tmp, __tmp, _MM_SHUFFLE (0,1,2,3));
90075Sobrien}
90075Sobrien
169689Skan/* Create the vector [Z Y X W].  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
169689Skan_mm_set_ps (const float __Z, const float __Y, const float __X, const float __W)
90075Sobrien{
169689Skan  return __extension__ (__m128)(__v4sf){ __W, __X, __Y, __Z };
90075Sobrien}
90075Sobrien
169689Skan/* Create the vector [W X Y Z].  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
169689Skan_mm_setr_ps (float __Z, float __Y, float __X, float __W)
90075Sobrien{
169689Skan  return __extension__ (__m128)(__v4sf){ __Z, __Y, __X, __W };
90075Sobrien}
90075Sobrien
169689Skan/* Stores the lower SPFP value.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
169689Skan_mm_store_ss (float *__P, __m128 __A)
90075Sobrien{
169689Skan  *__P = __builtin_ia32_vec_ext_v4sf ((__v4sf)__A, 0);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline float __attribute__((__always_inline__))
169689Skan_mm_cvtss_f32 (__m128 __A)
90075Sobrien{
169689Skan  return __builtin_ia32_vec_ext_v4sf ((__v4sf)__A, 0);
90075Sobrien}
90075Sobrien
169689Skan/* Store four SPFP values.  The address must be 16-byte aligned.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
169689Skan_mm_store_ps (float *__P, __m128 __A)
90075Sobrien{
169689Skan  *(__v4sf *)__P = (__v4sf)__A;
90075Sobrien}
90075Sobrien
169689Skan/* Store four SPFP values.  The address need not be 16-byte aligned.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
169689Skan_mm_storeu_ps (float *__P, __m128 __A)
90075Sobrien{
169689Skan  __builtin_ia32_storeups (__P, (__v4sf)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Store the lower SPFP value across four words.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_mm_store1_ps (float *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __v4sf __va = (__v4sf)__A;
90075Sobrien  __v4sf __tmp = __builtin_ia32_shufps (__va, __va, _MM_SHUFFLE (0,0,0,0));
169689Skan  _mm_storeu_ps (__P, __tmp);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_mm_store_ps1 (float *__P, __m128 __A)
90075Sobrien{
90075Sobrien  _mm_store1_ps (__P, __A);
90075Sobrien}
90075Sobrien
117395Skan/* Store four SPFP values in reverse order.  The address must be aligned.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_mm_storer_ps (float *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __v4sf __va = (__v4sf)__A;
90075Sobrien  __v4sf __tmp = __builtin_ia32_shufps (__va, __va, _MM_SHUFFLE (0,1,2,3));
169689Skan  _mm_store_ps (__P, __tmp);
90075Sobrien}
90075Sobrien
90075Sobrien/* Sets the low SPFP value of A from the low value of B.  */
169689Skanstatic __inline __m128 __attribute__((__always_inline__))
90075Sobrien_mm_move_ss (__m128 __A, __m128 __B)
90075Sobrien{
90075Sobrien  return (__m128) __builtin_ia32_movss ((__v4sf)__A, (__v4sf)__B);
90075Sobrien}
90075Sobrien
90075Sobrien/* Extracts one of the four words of A.  The selector N must be immediate.  */
90075Sobrien#if 0
169689Skanstatic __inline int __attribute__((__always_inline__))
169689Skan_mm_extract_pi16 (__m64 const __A, int const __N)
90075Sobrien{
169689Skan  return __builtin_ia32_vec_ext_v4hi ((__v4hi)__A, __N);
90075Sobrien}
122180Skan
169689Skanstatic __inline int __attribute__((__always_inline__))
169689Skan_m_pextrw (__m64 const __A, int const __N)
122180Skan{
122180Skan  return _mm_extract_pi16 (__A, __N);
122180Skan}
90075Sobrien#else
169689Skan#define _mm_extract_pi16(A, N)	__builtin_ia32_vec_ext_v4hi ((__v4hi)(A), (N))
122180Skan#define _m_pextrw(A, N)		_mm_extract_pi16((A), (N))
90075Sobrien#endif
90075Sobrien
90075Sobrien/* Inserts word D into one of four words of A.  The selector N must be
90075Sobrien   immediate.  */
90075Sobrien#if 0
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
169689Skan_mm_insert_pi16 (__m64 const __A, int const __D, int const __N)
90075Sobrien{
169689Skan  return (__m64) __builtin_ia32_vec_set_v4hi ((__v4hi)__A, __D, __N);
90075Sobrien}
122180Skan
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
169689Skan_m_pinsrw (__m64 const __A, int const __D, int const __N)
122180Skan{
122180Skan  return _mm_insert_pi16 (__A, __D, __N);
122180Skan}
90075Sobrien#else
90075Sobrien#define _mm_insert_pi16(A, D, N) \
169689Skan  ((__m64) __builtin_ia32_vec_set_v4hi ((__v4hi)(A), (D), (N)))
122180Skan#define _m_pinsrw(A, D, N)	 _mm_insert_pi16((A), (D), (N))
90075Sobrien#endif
90075Sobrien
90075Sobrien/* Compute the element-wise maximum of signed 16-bit values.  */
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_max_pi16 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pmaxsw ((__v4hi)__A, (__v4hi)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
122180Skan_m_pmaxsw (__m64 __A, __m64 __B)
122180Skan{
122180Skan  return _mm_max_pi16 (__A, __B);
122180Skan}
122180Skan
90075Sobrien/* Compute the element-wise maximum of unsigned 8-bit values.  */
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_max_pu8 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pmaxub ((__v8qi)__A, (__v8qi)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
122180Skan_m_pmaxub (__m64 __A, __m64 __B)
122180Skan{
122180Skan  return _mm_max_pu8 (__A, __B);
122180Skan}
122180Skan
90075Sobrien/* Compute the element-wise minimum of signed 16-bit values.  */
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_min_pi16 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pminsw ((__v4hi)__A, (__v4hi)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
122180Skan_m_pminsw (__m64 __A, __m64 __B)
122180Skan{
122180Skan  return _mm_min_pi16 (__A, __B);
122180Skan}
122180Skan
90075Sobrien/* Compute the element-wise minimum of unsigned 8-bit values.  */
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_min_pu8 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pminub ((__v8qi)__A, (__v8qi)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
122180Skan_m_pminub (__m64 __A, __m64 __B)
122180Skan{
122180Skan  return _mm_min_pu8 (__A, __B);
122180Skan}
122180Skan
90075Sobrien/* Create an 8-bit mask of the signs of 8-bit values.  */
169689Skanstatic __inline int __attribute__((__always_inline__))
90075Sobrien_mm_movemask_pi8 (__m64 __A)
90075Sobrien{
90075Sobrien  return __builtin_ia32_pmovmskb ((__v8qi)__A);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline int __attribute__((__always_inline__))
122180Skan_m_pmovmskb (__m64 __A)
122180Skan{
122180Skan  return _mm_movemask_pi8 (__A);
122180Skan}
122180Skan
90075Sobrien/* Multiply four unsigned 16-bit values in A by four unsigned 16-bit values
90075Sobrien   in B and produce the high 16 bits of the 32-bit results.  */
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_mulhi_pu16 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pmulhuw ((__v4hi)__A, (__v4hi)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
122180Skan_m_pmulhuw (__m64 __A, __m64 __B)
122180Skan{
122180Skan  return _mm_mulhi_pu16 (__A, __B);
122180Skan}
122180Skan
90075Sobrien/* Return a combination of the four 16-bit values in A.  The selector
90075Sobrien   must be an immediate.  */
90075Sobrien#if 0
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_shuffle_pi16 (__m64 __A, int __N)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pshufw ((__v4hi)__A, __N);
90075Sobrien}
122180Skan
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
122180Skan_m_pshufw (__m64 __A, int __N)
122180Skan{
122180Skan  return _mm_shuffle_pi16 (__A, __N);
122180Skan}
90075Sobrien#else
90075Sobrien#define _mm_shuffle_pi16(A, N) \
90075Sobrien  ((__m64) __builtin_ia32_pshufw ((__v4hi)(A), (N)))
122180Skan#define _m_pshufw(A, N)		_mm_shuffle_pi16 ((A), (N))
90075Sobrien#endif
90075Sobrien
90075Sobrien/* Conditionally store byte elements of A into P.  The high bit of each
90075Sobrien   byte in the selector N determines whether the corresponding byte from
90075Sobrien   A is stored.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_mm_maskmove_si64 (__m64 __A, __m64 __N, char *__P)
90075Sobrien{
90075Sobrien  __builtin_ia32_maskmovq ((__v8qi)__A, (__v8qi)__N, __P);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline void __attribute__((__always_inline__))
122180Skan_m_maskmovq (__m64 __A, __m64 __N, char *__P)
122180Skan{
122180Skan  _mm_maskmove_si64 (__A, __N, __P);
122180Skan}
122180Skan
90075Sobrien/* Compute the rounded averages of the unsigned 8-bit values in A and B.  */
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_avg_pu8 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pavgb ((__v8qi)__A, (__v8qi)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
122180Skan_m_pavgb (__m64 __A, __m64 __B)
122180Skan{
122180Skan  return _mm_avg_pu8 (__A, __B);
122180Skan}
122180Skan
90075Sobrien/* Compute the rounded averages of the unsigned 16-bit values in A and B.  */
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_avg_pu16 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_pavgw ((__v4hi)__A, (__v4hi)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
122180Skan_m_pavgw (__m64 __A, __m64 __B)
122180Skan{
122180Skan  return _mm_avg_pu16 (__A, __B);
122180Skan}
122180Skan
90075Sobrien/* Compute the sum of the absolute differences of the unsigned 8-bit
90075Sobrien   values in A and B.  Return the value in the lower 16-bit word; the
90075Sobrien   upper words are cleared.  */
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
90075Sobrien_mm_sad_pu8 (__m64 __A, __m64 __B)
90075Sobrien{
90075Sobrien  return (__m64) __builtin_ia32_psadbw ((__v8qi)__A, (__v8qi)__B);
90075Sobrien}
90075Sobrien
169689Skanstatic __inline __m64 __attribute__((__always_inline__))
122180Skan_m_psadbw (__m64 __A, __m64 __B)
122180Skan{
122180Skan  return _mm_sad_pu8 (__A, __B);
122180Skan}
122180Skan
90075Sobrien/* Loads one cache line from address P to a location "closer" to the
90075Sobrien   processor.  The selector I specifies the type of prefetch operation.  */
90075Sobrien#if 0
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_mm_prefetch (void *__P, enum _mm_hint __I)
90075Sobrien{
90075Sobrien  __builtin_prefetch (__P, 0, __I);
90075Sobrien}
90075Sobrien#else
90075Sobrien#define _mm_prefetch(P, I) \
90075Sobrien  __builtin_prefetch ((P), 0, (I))
90075Sobrien#endif
90075Sobrien
90075Sobrien/* Stores the data in A to the address P without polluting the caches.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_mm_stream_pi (__m64 *__P, __m64 __A)
90075Sobrien{
117395Skan  __builtin_ia32_movntq ((unsigned long long *)__P, (unsigned long long)__A);
90075Sobrien}
90075Sobrien
90075Sobrien/* Likewise.  The address must be 16-byte aligned.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_mm_stream_ps (float *__P, __m128 __A)
90075Sobrien{
90075Sobrien  __builtin_ia32_movntps (__P, (__v4sf)__A);
90075Sobrien}
90075Sobrien
132718Skan/* Guarantees that every preceding store is globally visible before
90075Sobrien   any subsequent store.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_mm_sfence (void)
90075Sobrien{
90075Sobrien  __builtin_ia32_sfence ();
90075Sobrien}
90075Sobrien
90075Sobrien/* The execution of the next instruction is delayed by an implementation
90075Sobrien   specific amount of time.  The instruction does not modify the
90075Sobrien   architectural state.  */
169689Skanstatic __inline void __attribute__((__always_inline__))
90075Sobrien_mm_pause (void)
90075Sobrien{
90075Sobrien  __asm__ __volatile__ ("rep; nop" : : );
90075Sobrien}
90075Sobrien
90075Sobrien/* Transpose the 4x4 matrix composed of row[0-3].  */
90075Sobrien#define _MM_TRANSPOSE4_PS(row0, row1, row2, row3)			\
90075Sobriendo {									\
90075Sobrien  __v4sf __r0 = (row0), __r1 = (row1), __r2 = (row2), __r3 = (row3);	\
169689Skan  __v4sf __t0 = __builtin_ia32_unpcklps (__r0, __r1);			\
169689Skan  __v4sf __t1 = __builtin_ia32_unpcklps (__r2, __r3);			\
169689Skan  __v4sf __t2 = __builtin_ia32_unpckhps (__r0, __r1);			\
169689Skan  __v4sf __t3 = __builtin_ia32_unpckhps (__r2, __r3);			\
169689Skan  (row0) = __builtin_ia32_movlhps (__t0, __t1);				\
169689Skan  (row1) = __builtin_ia32_movhlps (__t1, __t0);				\
169689Skan  (row2) = __builtin_ia32_movlhps (__t2, __t3);				\
169689Skan  (row3) = __builtin_ia32_movhlps (__t3, __t2);				\
90075Sobrien} while (0)
90075Sobrien
122180Skan/* For backward source compatibility.  */
122180Skan#include <emmintrin.h>
117395Skan
117395Skan#endif /* __SSE__ */
90075Sobrien#endif /* _XMMINTRIN_H_INCLUDED */