sha/asm/sha256-armv4.pl

238384Sjkim#!/usr/bin/env perl
238384Sjkim
238384Sjkim# ====================================================================
290207Sjkim# Written by Andy Polyakov <appro@openssl.org> for the OpenSSL
238384Sjkim# project. The module is, however, dual licensed under OpenSSL and
238384Sjkim# CRYPTOGAMS licenses depending on where you obtain it. For further
238384Sjkim# details see http://www.openssl.org/~appro/cryptogams/.
290207Sjkim#
290207Sjkim# Permission to use under GPL terms is granted.
238384Sjkim# ====================================================================
238384Sjkim
238384Sjkim# SHA256 block procedure for ARMv4. May 2007.
238384Sjkim
238384Sjkim# Performance is ~2x better than gcc 3.4 generated code and in "abso-
238384Sjkim# lute" terms is ~2250 cycles per 64-byte block or ~35 cycles per
238384Sjkim# byte [on single-issue Xscale PXA250 core].
238384Sjkim
238384Sjkim# July 2010.
238384Sjkim#
238384Sjkim# Rescheduling for dual-issue pipeline resulted in 22% improvement on
238384Sjkim# Cortex A8 core and ~20 cycles per processed byte.
238384Sjkim
238384Sjkim# February 2011.
238384Sjkim#
238384Sjkim# Profiler-assisted and platform-specific optimization resulted in 16%
290207Sjkim# improvement on Cortex A8 core and ~15.4 cycles per processed byte.
238384Sjkim
290207Sjkim# September 2013.
290207Sjkim#
290207Sjkim# Add NEON implementation. On Cortex A8 it was measured to process one
290207Sjkim# byte in 12.5 cycles or 23% faster than integer-only code. Snapdragon
290207Sjkim# S4 does it in 12.5 cycles too, but it's 50% faster than integer-only
290207Sjkim# code (meaning that latter performs sub-optimally, nothing was done
290207Sjkim# about it).
290207Sjkim
290207Sjkim# May 2014.
290207Sjkim#
290207Sjkim# Add ARMv8 code path performing at 2.0 cpb on Apple A7.
290207Sjkim
238384Sjkimwhile (($output=shift) && ($output!~/^\w[\w\-]*\.\w+$/)) {}
238384Sjkimopen STDOUT,">$output";
238384Sjkim
238384Sjkim$ctx="r0";	$t0="r0";
290207Sjkim$inp="r1";	$t4="r1";
238384Sjkim$len="r2";	$t1="r2";
290207Sjkim$T1="r3";	$t3="r3";
238384Sjkim$A="r4";
238384Sjkim$B="r5";
238384Sjkim$C="r6";
238384Sjkim$D="r7";
238384Sjkim$E="r8";
238384Sjkim$F="r9";
238384Sjkim$G="r10";
238384Sjkim$H="r11";
238384Sjkim@V=($A,$B,$C,$D,$E,$F,$G,$H);
238384Sjkim$t2="r12";
238384Sjkim$Ktbl="r14";
238384Sjkim
238384Sjkim@Sigma0=( 2,13,22);
238384Sjkim@Sigma1=( 6,11,25);
238384Sjkim@sigma0=( 7,18, 3);
238384Sjkim@sigma1=(17,19,10);
238384Sjkim
238384Sjkimsub BODY_00_15 {
238384Sjkimmy ($i,$a,$b,$c,$d,$e,$f,$g,$h) = @_;
238384Sjkim
238384Sjkim$code.=<<___ if ($i<16);
238384Sjkim#if __ARM_ARCH__>=7
290207Sjkim	@ ldr	$t1,[$inp],#4			@ $i
290207Sjkim# if $i==15
290207Sjkim	str	$inp,[sp,#17*4]			@ make room for $t4
290207Sjkim# endif
290207Sjkim	eor	$t0,$e,$e,ror#`$Sigma1[1]-$Sigma1[0]`
290207Sjkim	add	$a,$a,$t2			@ h+=Maj(a,b,c) from the past
290207Sjkim	eor	$t0,$t0,$e,ror#`$Sigma1[2]-$Sigma1[0]`	@ Sigma1(e)
290207Sjkim	rev	$t1,$t1
238384Sjkim#else
290207Sjkim	@ ldrb	$t1,[$inp,#3]			@ $i
290207Sjkim	add	$a,$a,$t2			@ h+=Maj(a,b,c) from the past
238384Sjkim	ldrb	$t2,[$inp,#2]
290207Sjkim	ldrb	$t0,[$inp,#1]
290207Sjkim	orr	$t1,$t1,$t2,lsl#8
290207Sjkim	ldrb	$t2,[$inp],#4
290207Sjkim	orr	$t1,$t1,$t0,lsl#16
290207Sjkim# if $i==15
290207Sjkim	str	$inp,[sp,#17*4]			@ make room for $t4
290207Sjkim# endif
290207Sjkim	eor	$t0,$e,$e,ror#`$Sigma1[1]-$Sigma1[0]`
290207Sjkim	orr	$t1,$t1,$t2,lsl#24
290207Sjkim	eor	$t0,$t0,$e,ror#`$Sigma1[2]-$Sigma1[0]`	@ Sigma1(e)
238384Sjkim#endif
238384Sjkim___
238384Sjkim$code.=<<___;
238384Sjkim	ldr	$t2,[$Ktbl],#4			@ *K256++
290207Sjkim	add	$h,$h,$t1			@ h+=X[i]
290207Sjkim	str	$t1,[sp,#`$i%16`*4]
238384Sjkim	eor	$t1,$f,$g
290207Sjkim	add	$h,$h,$t0,ror#$Sigma1[0]	@ h+=Sigma1(e)
238384Sjkim	and	$t1,$t1,$e
290207Sjkim	add	$h,$h,$t2			@ h+=K256[i]
238384Sjkim	eor	$t1,$t1,$g			@ Ch(e,f,g)
290207Sjkim	eor	$t0,$a,$a,ror#`$Sigma0[1]-$Sigma0[0]`
290207Sjkim	add	$h,$h,$t1			@ h+=Ch(e,f,g)
290207Sjkim#if $i==31
290207Sjkim	and	$t2,$t2,#0xff
290207Sjkim	cmp	$t2,#0xf2			@ done?
238384Sjkim#endif
290207Sjkim#if $i<15
290207Sjkim# if __ARM_ARCH__>=7
290207Sjkim	ldr	$t1,[$inp],#4			@ prefetch
290207Sjkim# else
290207Sjkim	ldrb	$t1,[$inp,#3]
290207Sjkim# endif
290207Sjkim	eor	$t2,$a,$b			@ a^b, b^c in next round
290207Sjkim#else
290207Sjkim	ldr	$t1,[sp,#`($i+2)%16`*4]		@ from future BODY_16_xx
290207Sjkim	eor	$t2,$a,$b			@ a^b, b^c in next round
290207Sjkim	ldr	$t4,[sp,#`($i+15)%16`*4]	@ from future BODY_16_xx
290207Sjkim#endif
290207Sjkim	eor	$t0,$t0,$a,ror#`$Sigma0[2]-$Sigma0[0]`	@ Sigma0(a)
290207Sjkim	and	$t3,$t3,$t2			@ (b^c)&=(a^b)
290207Sjkim	add	$d,$d,$h			@ d+=h
290207Sjkim	eor	$t3,$t3,$b			@ Maj(a,b,c)
290207Sjkim	add	$h,$h,$t0,ror#$Sigma0[0]	@ h+=Sigma0(a)
290207Sjkim	@ add	$h,$h,$t3			@ h+=Maj(a,b,c)
238384Sjkim___
290207Sjkim	($t2,$t3)=($t3,$t2);
238384Sjkim}
238384Sjkim
238384Sjkimsub BODY_16_XX {
238384Sjkimmy ($i,$a,$b,$c,$d,$e,$f,$g,$h) = @_;
238384Sjkim
238384Sjkim$code.=<<___;
290207Sjkim	@ ldr	$t1,[sp,#`($i+1)%16`*4]		@ $i
290207Sjkim	@ ldr	$t4,[sp,#`($i+14)%16`*4]
290207Sjkim	mov	$t0,$t1,ror#$sigma0[0]
290207Sjkim	add	$a,$a,$t2			@ h+=Maj(a,b,c) from the past
290207Sjkim	mov	$t2,$t4,ror#$sigma1[0]
290207Sjkim	eor	$t0,$t0,$t1,ror#$sigma0[1]
290207Sjkim	eor	$t2,$t2,$t4,ror#$sigma1[1]
290207Sjkim	eor	$t0,$t0,$t1,lsr#$sigma0[2]	@ sigma0(X[i+1])
290207Sjkim	ldr	$t1,[sp,#`($i+0)%16`*4]
290207Sjkim	eor	$t2,$t2,$t4,lsr#$sigma1[2]	@ sigma1(X[i+14])
290207Sjkim	ldr	$t4,[sp,#`($i+9)%16`*4]
290207Sjkim
290207Sjkim	add	$t2,$t2,$t0
290207Sjkim	eor	$t0,$e,$e,ror#`$Sigma1[1]-$Sigma1[0]`	@ from BODY_00_15
290207Sjkim	add	$t1,$t1,$t2
290207Sjkim	eor	$t0,$t0,$e,ror#`$Sigma1[2]-$Sigma1[0]`	@ Sigma1(e)
290207Sjkim	add	$t1,$t1,$t4			@ X[i]
238384Sjkim___
238384Sjkim	&BODY_00_15(@_);
238384Sjkim}
238384Sjkim
238384Sjkim$code=<<___;
290207Sjkim#ifndef __KERNEL__
290207Sjkim# include "arm_arch.h"
290207Sjkim#else
290207Sjkim# define __ARM_ARCH__ __LINUX_ARM_ARCH__
290207Sjkim# define __ARM_MAX_ARCH__ 7
290207Sjkim#endif
238384Sjkim
238384Sjkim.text
290207Sjkim#if __ARM_ARCH__<7
238384Sjkim.code	32
290207Sjkim#else
290207Sjkim.syntax unified
290207Sjkim# ifdef __thumb2__
290207Sjkim.thumb
290207Sjkim# else
290207Sjkim.code   32
290207Sjkim# endif
290207Sjkim#endif
238384Sjkim
238384Sjkim.type	K256,%object
238384Sjkim.align	5
238384SjkimK256:
238384Sjkim.word	0x428a2f98,0x71374491,0xb5c0fbcf,0xe9b5dba5
238384Sjkim.word	0x3956c25b,0x59f111f1,0x923f82a4,0xab1c5ed5
238384Sjkim.word	0xd807aa98,0x12835b01,0x243185be,0x550c7dc3
238384Sjkim.word	0x72be5d74,0x80deb1fe,0x9bdc06a7,0xc19bf174
238384Sjkim.word	0xe49b69c1,0xefbe4786,0x0fc19dc6,0x240ca1cc
238384Sjkim.word	0x2de92c6f,0x4a7484aa,0x5cb0a9dc,0x76f988da
238384Sjkim.word	0x983e5152,0xa831c66d,0xb00327c8,0xbf597fc7
238384Sjkim.word	0xc6e00bf3,0xd5a79147,0x06ca6351,0x14292967
238384Sjkim.word	0x27b70a85,0x2e1b2138,0x4d2c6dfc,0x53380d13
238384Sjkim.word	0x650a7354,0x766a0abb,0x81c2c92e,0x92722c85
238384Sjkim.word	0xa2bfe8a1,0xa81a664b,0xc24b8b70,0xc76c51a3
238384Sjkim.word	0xd192e819,0xd6990624,0xf40e3585,0x106aa070
238384Sjkim.word	0x19a4c116,0x1e376c08,0x2748774c,0x34b0bcb5
238384Sjkim.word	0x391c0cb3,0x4ed8aa4a,0x5b9cca4f,0x682e6ff3
238384Sjkim.word	0x748f82ee,0x78a5636f,0x84c87814,0x8cc70208
238384Sjkim.word	0x90befffa,0xa4506ceb,0xbef9a3f7,0xc67178f2
238384Sjkim.size	K256,.-K256
290207Sjkim.word	0				@ terminator
290207Sjkim#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
290207Sjkim.LOPENSSL_armcap:
290207Sjkim.word	OPENSSL_armcap_P-sha256_block_data_order
290207Sjkim#endif
290207Sjkim.align	5
238384Sjkim
238384Sjkim.global	sha256_block_data_order
238384Sjkim.type	sha256_block_data_order,%function
238384Sjkimsha256_block_data_order:
290207Sjkim#if __ARM_ARCH__<7
238384Sjkim	sub	r3,pc,#8		@ sha256_block_data_order
290207Sjkim#else
326663Sjkim	adr	r3,.
290207Sjkim#endif
290207Sjkim#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
290207Sjkim	ldr	r12,.LOPENSSL_armcap
290207Sjkim	ldr	r12,[r3,r12]		@ OPENSSL_armcap_P
290207Sjkim	tst	r12,#ARMV8_SHA256
290207Sjkim	bne	.LARMv8
290207Sjkim	tst	r12,#ARMV7_NEON
290207Sjkim	bne	.LNEON
290207Sjkim#endif
238384Sjkim	add	$len,$inp,$len,lsl#6	@ len to point at the end of inp
238384Sjkim	stmdb	sp!,{$ctx,$inp,$len,r4-r11,lr}
238384Sjkim	ldmia	$ctx,{$A,$B,$C,$D,$E,$F,$G,$H}
290207Sjkim	sub	$Ktbl,r3,#256+32	@ K256
238384Sjkim	sub	sp,sp,#16*4		@ alloca(X[16])
238384Sjkim.Loop:
290207Sjkim# if __ARM_ARCH__>=7
290207Sjkim	ldr	$t1,[$inp],#4
290207Sjkim# else
290207Sjkim	ldrb	$t1,[$inp,#3]
290207Sjkim# endif
290207Sjkim	eor	$t3,$B,$C		@ magic
290207Sjkim	eor	$t2,$t2,$t2
238384Sjkim___
238384Sjkimfor($i=0;$i<16;$i++)	{ &BODY_00_15($i,@V); unshift(@V,pop(@V)); }
238384Sjkim$code.=".Lrounds_16_xx:\n";
238384Sjkimfor (;$i<32;$i++)	{ &BODY_16_XX($i,@V); unshift(@V,pop(@V)); }
238384Sjkim$code.=<<___;
290207Sjkim#if __ARM_ARCH__>=7
290207Sjkim	ite	eq			@ Thumb2 thing, sanity check in ARM
290207Sjkim#endif
290207Sjkim	ldreq	$t3,[sp,#16*4]		@ pull ctx
238384Sjkim	bne	.Lrounds_16_xx
238384Sjkim
290207Sjkim	add	$A,$A,$t2		@ h+=Maj(a,b,c) from the past
290207Sjkim	ldr	$t0,[$t3,#0]
290207Sjkim	ldr	$t1,[$t3,#4]
290207Sjkim	ldr	$t2,[$t3,#8]
238384Sjkim	add	$A,$A,$t0
290207Sjkim	ldr	$t0,[$t3,#12]
238384Sjkim	add	$B,$B,$t1
290207Sjkim	ldr	$t1,[$t3,#16]
238384Sjkim	add	$C,$C,$t2
290207Sjkim	ldr	$t2,[$t3,#20]
238384Sjkim	add	$D,$D,$t0
290207Sjkim	ldr	$t0,[$t3,#24]
238384Sjkim	add	$E,$E,$t1
290207Sjkim	ldr	$t1,[$t3,#28]
238384Sjkim	add	$F,$F,$t2
238384Sjkim	ldr	$inp,[sp,#17*4]		@ pull inp
238384Sjkim	ldr	$t2,[sp,#18*4]		@ pull inp+len
238384Sjkim	add	$G,$G,$t0
238384Sjkim	add	$H,$H,$t1
290207Sjkim	stmia	$t3,{$A,$B,$C,$D,$E,$F,$G,$H}
238384Sjkim	cmp	$inp,$t2
238384Sjkim	sub	$Ktbl,$Ktbl,#256	@ rewind Ktbl
238384Sjkim	bne	.Loop
238384Sjkim
238384Sjkim	add	sp,sp,#`16+3`*4	@ destroy frame
238384Sjkim#if __ARM_ARCH__>=5
238384Sjkim	ldmia	sp!,{r4-r11,pc}
238384Sjkim#else
238384Sjkim	ldmia	sp!,{r4-r11,lr}
238384Sjkim	tst	lr,#1
238384Sjkim	moveq	pc,lr			@ be binary compatible with V4, yet
238384Sjkim	bx	lr			@ interoperable with Thumb ISA:-)
238384Sjkim#endif
290207Sjkim.size	sha256_block_data_order,.-sha256_block_data_order
290207Sjkim___
290207Sjkim######################################################################
290207Sjkim# NEON stuff
290207Sjkim#
290207Sjkim{{{
290207Sjkimmy @X=map("q$_",(0..3));
290207Sjkimmy ($T0,$T1,$T2,$T3,$T4,$T5)=("q8","q9","q10","q11","d24","d25");
290207Sjkimmy $Xfer=$t4;
290207Sjkimmy $j=0;
290207Sjkim
290207Sjkimsub Dlo()   { shift=~m|q([1]?[0-9])|?"d".($1*2):"";     }
290207Sjkimsub Dhi()   { shift=~m|q([1]?[0-9])|?"d".($1*2+1):"";   }
290207Sjkim
290207Sjkimsub AUTOLOAD()          # thunk [simplified] x86-style perlasm
290207Sjkim{ my $opcode = $AUTOLOAD; $opcode =~ s/.*:://; $opcode =~ s/_/\./;
290207Sjkim  my $arg = pop;
290207Sjkim    $arg = "#$arg" if ($arg*1 eq $arg);
290207Sjkim    $code .= "\t$opcode\t".join(',',@_,$arg)."\n";
290207Sjkim}
290207Sjkim
290207Sjkimsub Xupdate()
290207Sjkim{ use integer;
290207Sjkim  my $body = shift;
290207Sjkim  my @insns = (&$body,&$body,&$body,&$body);
290207Sjkim  my ($a,$b,$c,$d,$e,$f,$g,$h);
290207Sjkim
290207Sjkim	&vext_8		($T0,@X[0],@X[1],4);	# X[1..4]
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vext_8		($T1,@X[2],@X[3],4);	# X[9..12]
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vshr_u32	($T2,$T0,$sigma0[0]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vadd_i32	(@X[0],@X[0],$T1);	# X[0..3] += X[9..12]
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vshr_u32	($T1,$T0,$sigma0[2]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vsli_32	($T2,$T0,32-$sigma0[0]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vshr_u32	($T3,$T0,$sigma0[1]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&veor		($T1,$T1,$T2);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vsli_32	($T3,$T0,32-$sigma0[1]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &vshr_u32	($T4,&Dhi(@X[3]),$sigma1[0]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&veor		($T1,$T1,$T3);		# sigma0(X[1..4])
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &vsli_32	($T4,&Dhi(@X[3]),32-$sigma1[0]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &vshr_u32	($T5,&Dhi(@X[3]),$sigma1[2]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vadd_i32	(@X[0],@X[0],$T1);	# X[0..3] += sigma0(X[1..4])
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &veor		($T5,$T5,$T4);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &vshr_u32	($T4,&Dhi(@X[3]),$sigma1[1]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &vsli_32	($T4,&Dhi(@X[3]),32-$sigma1[1]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &veor		($T5,$T5,$T4);		# sigma1(X[14..15])
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vadd_i32	(&Dlo(@X[0]),&Dlo(@X[0]),$T5);# X[0..1] += sigma1(X[14..15])
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &vshr_u32	($T4,&Dlo(@X[0]),$sigma1[0]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &vsli_32	($T4,&Dlo(@X[0]),32-$sigma1[0]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &vshr_u32	($T5,&Dlo(@X[0]),$sigma1[2]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &veor		($T5,$T5,$T4);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &vshr_u32	($T4,&Dlo(@X[0]),$sigma1[1]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vld1_32	("{$T0}","[$Ktbl,:128]!");
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &vsli_32	($T4,&Dlo(@X[0]),32-$sigma1[1]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	  &veor		($T5,$T5,$T4);		# sigma1(X[16..17])
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vadd_i32	(&Dhi(@X[0]),&Dhi(@X[0]),$T5);# X[2..3] += sigma1(X[16..17])
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vadd_i32	($T0,$T0,@X[0]);
290207Sjkim	 while($#insns>=2) { eval(shift(@insns)); }
290207Sjkim	&vst1_32	("{$T0}","[$Xfer,:128]!");
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim
290207Sjkim	push(@X,shift(@X));		# "rotate" X[]
290207Sjkim}
290207Sjkim
290207Sjkimsub Xpreload()
290207Sjkim{ use integer;
290207Sjkim  my $body = shift;
290207Sjkim  my @insns = (&$body,&$body,&$body,&$body);
290207Sjkim  my ($a,$b,$c,$d,$e,$f,$g,$h);
290207Sjkim
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vld1_32	("{$T0}","[$Ktbl,:128]!");
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vrev32_8	(@X[0],@X[0]);
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	 eval(shift(@insns));
290207Sjkim	&vadd_i32	($T0,$T0,@X[0]);
290207Sjkim	 foreach (@insns) { eval; }	# remaining instructions
290207Sjkim	&vst1_32	("{$T0}","[$Xfer,:128]!");
290207Sjkim
290207Sjkim	push(@X,shift(@X));		# "rotate" X[]
290207Sjkim}
290207Sjkim
290207Sjkimsub body_00_15 () {
290207Sjkim	(
290207Sjkim	'($a,$b,$c,$d,$e,$f,$g,$h)=@V;'.
290207Sjkim	'&add	($h,$h,$t1)',			# h+=X[i]+K[i]
290207Sjkim	'&eor	($t1,$f,$g)',
290207Sjkim	'&eor	($t0,$e,$e,"ror#".($Sigma1[1]-$Sigma1[0]))',
290207Sjkim	'&add	($a,$a,$t2)',			# h+=Maj(a,b,c) from the past
290207Sjkim	'&and	($t1,$t1,$e)',
290207Sjkim	'&eor	($t2,$t0,$e,"ror#".($Sigma1[2]-$Sigma1[0]))',	# Sigma1(e)
290207Sjkim	'&eor	($t0,$a,$a,"ror#".($Sigma0[1]-$Sigma0[0]))',
290207Sjkim	'&eor	($t1,$t1,$g)',			# Ch(e,f,g)
290207Sjkim	'&add	($h,$h,$t2,"ror#$Sigma1[0]")',	# h+=Sigma1(e)
290207Sjkim	'&eor	($t2,$a,$b)',			# a^b, b^c in next round
290207Sjkim	'&eor	($t0,$t0,$a,"ror#".($Sigma0[2]-$Sigma0[0]))',	# Sigma0(a)
290207Sjkim	'&add	($h,$h,$t1)',			# h+=Ch(e,f,g)
290207Sjkim	'&ldr	($t1,sprintf "[sp,#%d]",4*(($j+1)&15))	if (($j&15)!=15);'.
290207Sjkim	'&ldr	($t1,"[$Ktbl]")				if ($j==15);'.
290207Sjkim	'&ldr	($t1,"[sp,#64]")			if ($j==31)',
290207Sjkim	'&and	($t3,$t3,$t2)',			# (b^c)&=(a^b)
290207Sjkim	'&add	($d,$d,$h)',			# d+=h
290207Sjkim	'&add	($h,$h,$t0,"ror#$Sigma0[0]");'.	# h+=Sigma0(a)
290207Sjkim	'&eor	($t3,$t3,$b)',			# Maj(a,b,c)
290207Sjkim	'$j++;	unshift(@V,pop(@V)); ($t2,$t3)=($t3,$t2);'
290207Sjkim	)
290207Sjkim}
290207Sjkim
290207Sjkim$code.=<<___;
290207Sjkim#if __ARM_MAX_ARCH__>=7
290207Sjkim.arch	armv7-a
290207Sjkim.fpu	neon
290207Sjkim
290207Sjkim.global	sha256_block_data_order_neon
290207Sjkim.type	sha256_block_data_order_neon,%function
290207Sjkim.align	4
290207Sjkimsha256_block_data_order_neon:
290207Sjkim.LNEON:
290207Sjkim	stmdb	sp!,{r4-r12,lr}
290207Sjkim
290207Sjkim	sub	$H,sp,#16*4+16
290207Sjkim	adr	$Ktbl,K256
290207Sjkim	bic	$H,$H,#15		@ align for 128-bit stores
290207Sjkim	mov	$t2,sp
290207Sjkim	mov	sp,$H			@ alloca
290207Sjkim	add	$len,$inp,$len,lsl#6	@ len to point at the end of inp
290207Sjkim
290207Sjkim	vld1.8		{@X[0]},[$inp]!
290207Sjkim	vld1.8		{@X[1]},[$inp]!
290207Sjkim	vld1.8		{@X[2]},[$inp]!
290207Sjkim	vld1.8		{@X[3]},[$inp]!
290207Sjkim	vld1.32		{$T0},[$Ktbl,:128]!
290207Sjkim	vld1.32		{$T1},[$Ktbl,:128]!
290207Sjkim	vld1.32		{$T2},[$Ktbl,:128]!
290207Sjkim	vld1.32		{$T3},[$Ktbl,:128]!
290207Sjkim	vrev32.8	@X[0],@X[0]		@ yes, even on
290207Sjkim	str		$ctx,[sp,#64]
290207Sjkim	vrev32.8	@X[1],@X[1]		@ big-endian
290207Sjkim	str		$inp,[sp,#68]
290207Sjkim	mov		$Xfer,sp
290207Sjkim	vrev32.8	@X[2],@X[2]
290207Sjkim	str		$len,[sp,#72]
290207Sjkim	vrev32.8	@X[3],@X[3]
290207Sjkim	str		$t2,[sp,#76]		@ save original sp
290207Sjkim	vadd.i32	$T0,$T0,@X[0]
290207Sjkim	vadd.i32	$T1,$T1,@X[1]
290207Sjkim	vst1.32		{$T0},[$Xfer,:128]!
290207Sjkim	vadd.i32	$T2,$T2,@X[2]
290207Sjkim	vst1.32		{$T1},[$Xfer,:128]!
290207Sjkim	vadd.i32	$T3,$T3,@X[3]
290207Sjkim	vst1.32		{$T2},[$Xfer,:128]!
290207Sjkim	vst1.32		{$T3},[$Xfer,:128]!
290207Sjkim
290207Sjkim	ldmia		$ctx,{$A-$H}
290207Sjkim	sub		$Xfer,$Xfer,#64
290207Sjkim	ldr		$t1,[sp,#0]
290207Sjkim	eor		$t2,$t2,$t2
290207Sjkim	eor		$t3,$B,$C
290207Sjkim	b		.L_00_48
290207Sjkim
290207Sjkim.align	4
290207Sjkim.L_00_48:
290207Sjkim___
290207Sjkim	&Xupdate(\&body_00_15);
290207Sjkim	&Xupdate(\&body_00_15);
290207Sjkim	&Xupdate(\&body_00_15);
290207Sjkim	&Xupdate(\&body_00_15);
290207Sjkim$code.=<<___;
290207Sjkim	teq	$t1,#0				@ check for K256 terminator
290207Sjkim	ldr	$t1,[sp,#0]
290207Sjkim	sub	$Xfer,$Xfer,#64
290207Sjkim	bne	.L_00_48
290207Sjkim
290207Sjkim	ldr		$inp,[sp,#68]
290207Sjkim	ldr		$t0,[sp,#72]
290207Sjkim	sub		$Ktbl,$Ktbl,#256	@ rewind $Ktbl
290207Sjkim	teq		$inp,$t0
290207Sjkim	it		eq
290207Sjkim	subeq		$inp,$inp,#64		@ avoid SEGV
290207Sjkim	vld1.8		{@X[0]},[$inp]!		@ load next input block
290207Sjkim	vld1.8		{@X[1]},[$inp]!
290207Sjkim	vld1.8		{@X[2]},[$inp]!
290207Sjkim	vld1.8		{@X[3]},[$inp]!
290207Sjkim	it		ne
290207Sjkim	strne		$inp,[sp,#68]
290207Sjkim	mov		$Xfer,sp
290207Sjkim___
290207Sjkim	&Xpreload(\&body_00_15);
290207Sjkim	&Xpreload(\&body_00_15);
290207Sjkim	&Xpreload(\&body_00_15);
290207Sjkim	&Xpreload(\&body_00_15);
290207Sjkim$code.=<<___;
290207Sjkim	ldr	$t0,[$t1,#0]
290207Sjkim	add	$A,$A,$t2			@ h+=Maj(a,b,c) from the past
290207Sjkim	ldr	$t2,[$t1,#4]
290207Sjkim	ldr	$t3,[$t1,#8]
290207Sjkim	ldr	$t4,[$t1,#12]
290207Sjkim	add	$A,$A,$t0			@ accumulate
290207Sjkim	ldr	$t0,[$t1,#16]
290207Sjkim	add	$B,$B,$t2
290207Sjkim	ldr	$t2,[$t1,#20]
290207Sjkim	add	$C,$C,$t3
290207Sjkim	ldr	$t3,[$t1,#24]
290207Sjkim	add	$D,$D,$t4
290207Sjkim	ldr	$t4,[$t1,#28]
290207Sjkim	add	$E,$E,$t0
290207Sjkim	str	$A,[$t1],#4
290207Sjkim	add	$F,$F,$t2
290207Sjkim	str	$B,[$t1],#4
290207Sjkim	add	$G,$G,$t3
290207Sjkim	str	$C,[$t1],#4
290207Sjkim	add	$H,$H,$t4
290207Sjkim	str	$D,[$t1],#4
290207Sjkim	stmia	$t1,{$E-$H}
290207Sjkim
290207Sjkim	ittte	ne
290207Sjkim	movne	$Xfer,sp
290207Sjkim	ldrne	$t1,[sp,#0]
290207Sjkim	eorne	$t2,$t2,$t2
290207Sjkim	ldreq	sp,[sp,#76]			@ restore original sp
290207Sjkim	itt	ne
290207Sjkim	eorne	$t3,$B,$C
290207Sjkim	bne	.L_00_48
290207Sjkim
290207Sjkim	ldmia	sp!,{r4-r12,pc}
290207Sjkim.size	sha256_block_data_order_neon,.-sha256_block_data_order_neon
290207Sjkim#endif
290207Sjkim___
290207Sjkim}}}
290207Sjkim######################################################################
290207Sjkim# ARMv8 stuff
290207Sjkim#
290207Sjkim{{{
290207Sjkimmy ($ABCD,$EFGH,$abcd)=map("q$_",(0..2));
290207Sjkimmy @MSG=map("q$_",(8..11));
290207Sjkimmy ($W0,$W1,$ABCD_SAVE,$EFGH_SAVE)=map("q$_",(12..15));
290207Sjkimmy $Ktbl="r3";
290207Sjkim
290207Sjkim$code.=<<___;
290207Sjkim#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
290207Sjkim
290207Sjkim# ifdef __thumb2__
290207Sjkim#  define INST(a,b,c,d)	.byte	c,d|0xc,a,b
290207Sjkim# else
290207Sjkim#  define INST(a,b,c,d)	.byte	a,b,c,d
290207Sjkim# endif
290207Sjkim
290207Sjkim.type	sha256_block_data_order_armv8,%function
290207Sjkim.align	5
290207Sjkimsha256_block_data_order_armv8:
290207Sjkim.LARMv8:
290207Sjkim	vld1.32	{$ABCD,$EFGH},[$ctx]
290207Sjkim# ifdef __thumb2__
290207Sjkim	adr	$Ktbl,.LARMv8
290207Sjkim	sub	$Ktbl,$Ktbl,#.LARMv8-K256
290207Sjkim# else
305152Sjkim	sub	$Ktbl,$Ktbl,#256+32
290207Sjkim# endif
290207Sjkim	add	$len,$inp,$len,lsl#6	@ len to point at the end of inp
290207Sjkim
290207Sjkim.Loop_v8:
290207Sjkim	vld1.8		{@MSG[0]-@MSG[1]},[$inp]!
290207Sjkim	vld1.8		{@MSG[2]-@MSG[3]},[$inp]!
290207Sjkim	vld1.32		{$W0},[$Ktbl]!
290207Sjkim	vrev32.8	@MSG[0],@MSG[0]
290207Sjkim	vrev32.8	@MSG[1],@MSG[1]
290207Sjkim	vrev32.8	@MSG[2],@MSG[2]
290207Sjkim	vrev32.8	@MSG[3],@MSG[3]
290207Sjkim	vmov		$ABCD_SAVE,$ABCD	@ offload
290207Sjkim	vmov		$EFGH_SAVE,$EFGH
290207Sjkim	teq		$inp,$len
290207Sjkim___
290207Sjkimfor($i=0;$i<12;$i++) {
290207Sjkim$code.=<<___;
290207Sjkim	vld1.32		{$W1},[$Ktbl]!
290207Sjkim	vadd.i32	$W0,$W0,@MSG[0]
290207Sjkim	sha256su0	@MSG[0],@MSG[1]
290207Sjkim	vmov		$abcd,$ABCD
290207Sjkim	sha256h		$ABCD,$EFGH,$W0
290207Sjkim	sha256h2	$EFGH,$abcd,$W0
290207Sjkim	sha256su1	@MSG[0],@MSG[2],@MSG[3]
290207Sjkim___
290207Sjkim	($W0,$W1)=($W1,$W0);	push(@MSG,shift(@MSG));
290207Sjkim}
290207Sjkim$code.=<<___;
290207Sjkim	vld1.32		{$W1},[$Ktbl]!
290207Sjkim	vadd.i32	$W0,$W0,@MSG[0]
290207Sjkim	vmov		$abcd,$ABCD
290207Sjkim	sha256h		$ABCD,$EFGH,$W0
290207Sjkim	sha256h2	$EFGH,$abcd,$W0
290207Sjkim
290207Sjkim	vld1.32		{$W0},[$Ktbl]!
290207Sjkim	vadd.i32	$W1,$W1,@MSG[1]
290207Sjkim	vmov		$abcd,$ABCD
290207Sjkim	sha256h		$ABCD,$EFGH,$W1
290207Sjkim	sha256h2	$EFGH,$abcd,$W1
290207Sjkim
290207Sjkim	vld1.32		{$W1},[$Ktbl]
290207Sjkim	vadd.i32	$W0,$W0,@MSG[2]
290207Sjkim	sub		$Ktbl,$Ktbl,#256-16	@ rewind
290207Sjkim	vmov		$abcd,$ABCD
290207Sjkim	sha256h		$ABCD,$EFGH,$W0
290207Sjkim	sha256h2	$EFGH,$abcd,$W0
290207Sjkim
290207Sjkim	vadd.i32	$W1,$W1,@MSG[3]
290207Sjkim	vmov		$abcd,$ABCD
290207Sjkim	sha256h		$ABCD,$EFGH,$W1
290207Sjkim	sha256h2	$EFGH,$abcd,$W1
290207Sjkim
290207Sjkim	vadd.i32	$ABCD,$ABCD,$ABCD_SAVE
290207Sjkim	vadd.i32	$EFGH,$EFGH,$EFGH_SAVE
290207Sjkim	it		ne
290207Sjkim	bne		.Loop_v8
290207Sjkim
290207Sjkim	vst1.32		{$ABCD,$EFGH},[$ctx]
290207Sjkim
290207Sjkim	ret		@ bx lr
290207Sjkim.size	sha256_block_data_order_armv8,.-sha256_block_data_order_armv8
290207Sjkim#endif
290207Sjkim___
290207Sjkim}}}
290207Sjkim$code.=<<___;
290207Sjkim.asciz  "SHA256 block transform for ARMv4/NEON/ARMv8, CRYPTOGAMS by <appro\@openssl.org>"
238384Sjkim.align	2
290207Sjkim#if __ARM_MAX_ARCH__>=7 && !defined(__KERNEL__)
290207Sjkim.comm   OPENSSL_armcap_P,4,4
290207Sjkim#endif
238384Sjkim___
238384Sjkim
290207Sjkimopen SELF,$0;
290207Sjkimwhile(<SELF>) {
290207Sjkim	next if (/^#!/);
290207Sjkim	last if (!s/^#/@/ and !/^$/);
290207Sjkim	print;
290207Sjkim}
290207Sjkimclose SELF;
290207Sjkim
290207Sjkim{   my  %opcode = (
290207Sjkim	"sha256h"	=> 0xf3000c40,	"sha256h2"	=> 0xf3100c40,
290207Sjkim	"sha256su0"	=> 0xf3ba03c0,	"sha256su1"	=> 0xf3200c40	);
290207Sjkim
290207Sjkim    sub unsha256 {
290207Sjkim	my ($mnemonic,$arg)=@_;
290207Sjkim
290207Sjkim	if ($arg =~ m/q([0-9]+)(?:,\s*q([0-9]+))?,\s*q([0-9]+)/o) {
290207Sjkim	    my $word = $opcode{$mnemonic}|(($1&7)<<13)|(($1&8)<<19)
290207Sjkim					 |(($2&7)<<17)|(($2&8)<<4)
290207Sjkim					 |(($3&7)<<1) |(($3&8)<<2);
290207Sjkim	    # since ARMv7 instructions are always encoded little-endian.
290207Sjkim	    # correct solution is to use .inst directive, but older
290207Sjkim	    # assemblers don't implement it:-(
290207Sjkim	    sprintf "INST(0x%02x,0x%02x,0x%02x,0x%02x)\t@ %s %s",
290207Sjkim			$word&0xff,($word>>8)&0xff,
290207Sjkim			($word>>16)&0xff,($word>>24)&0xff,
290207Sjkim			$mnemonic,$arg;
290207Sjkim	}
290207Sjkim    }
290207Sjkim}
290207Sjkim
290207Sjkimforeach (split($/,$code)) {
290207Sjkim
290207Sjkim	s/\`([^\`]*)\`/eval $1/geo;
290207Sjkim
290207Sjkim	s/\b(sha256\w+)\s+(q.*)/unsha256($1,$2)/geo;
290207Sjkim
290207Sjkim	s/\bret\b/bx	lr/go		or
290207Sjkim	s/\bbx\s+lr\b/.word\t0xe12fff1e/go;	# make it possible to compile with -march=armv4
290207Sjkim
290207Sjkim	print $_,"\n";
290207Sjkim}
290207Sjkim
238384Sjkimclose STDOUT; # enforce flush