Target/AMDGPU/SIFixSGPRCopies.cpp

284677Sdim//===-- SIFixSGPRCopies.cpp - Remove potential VGPR => SGPR copies --------===//
284677Sdim//
284677Sdim//                     The LLVM Compiler Infrastructure
284677Sdim//
284677Sdim// This file is distributed under the University of Illinois Open Source
284677Sdim// License. See LICENSE.TXT for details.
284677Sdim//
284677Sdim//===----------------------------------------------------------------------===//
284677Sdim//
284677Sdim/// \file
284677Sdim/// Copies from VGPR to SGPR registers are illegal and the register coalescer
284677Sdim/// will sometimes generate these illegal copies in situations like this:
284677Sdim///
284677Sdim///  Register Class <vsrc> is the union of <vgpr> and <sgpr>
284677Sdim///
284677Sdim/// BB0:
284677Sdim///   %vreg0 <sgpr> = SCALAR_INST
284677Sdim///   %vreg1 <vsrc> = COPY %vreg0 <sgpr>
284677Sdim///    ...
284677Sdim///    BRANCH %cond BB1, BB2
284677Sdim///  BB1:
284677Sdim///    %vreg2 <vgpr> = VECTOR_INST
284677Sdim///    %vreg3 <vsrc> = COPY %vreg2 <vgpr>
284677Sdim///  BB2:
284677Sdim///    %vreg4 <vsrc> = PHI %vreg1 <vsrc>, <BB#0>, %vreg3 <vrsc>, <BB#1>
284677Sdim///    %vreg5 <vgpr> = VECTOR_INST %vreg4 <vsrc>
284677Sdim///
284677Sdim///
284677Sdim/// The coalescer will begin at BB0 and eliminate its copy, then the resulting
284677Sdim/// code will look like this:
284677Sdim///
284677Sdim/// BB0:
284677Sdim///   %vreg0 <sgpr> = SCALAR_INST
284677Sdim///    ...
284677Sdim///    BRANCH %cond BB1, BB2
284677Sdim/// BB1:
284677Sdim///   %vreg2 <vgpr> = VECTOR_INST
284677Sdim///   %vreg3 <vsrc> = COPY %vreg2 <vgpr>
284677Sdim/// BB2:
284677Sdim///   %vreg4 <sgpr> = PHI %vreg0 <sgpr>, <BB#0>, %vreg3 <vsrc>, <BB#1>
284677Sdim///   %vreg5 <vgpr> = VECTOR_INST %vreg4 <sgpr>
284677Sdim///
284677Sdim/// Now that the result of the PHI instruction is an SGPR, the register
284677Sdim/// allocator is now forced to constrain the register class of %vreg3 to
284677Sdim/// <sgpr> so we end up with final code like this:
284677Sdim///
284677Sdim/// BB0:
284677Sdim///   %vreg0 <sgpr> = SCALAR_INST
284677Sdim///    ...
284677Sdim///    BRANCH %cond BB1, BB2
284677Sdim/// BB1:
284677Sdim///   %vreg2 <vgpr> = VECTOR_INST
284677Sdim///   %vreg3 <sgpr> = COPY %vreg2 <vgpr>
284677Sdim/// BB2:
284677Sdim///   %vreg4 <sgpr> = PHI %vreg0 <sgpr>, <BB#0>, %vreg3 <sgpr>, <BB#1>
284677Sdim///   %vreg5 <vgpr> = VECTOR_INST %vreg4 <sgpr>
284677Sdim///
284677Sdim/// Now this code contains an illegal copy from a VGPR to an SGPR.
284677Sdim///
284677Sdim/// In order to avoid this problem, this pass searches for PHI instructions
284677Sdim/// which define a <vsrc> register and constrains its definition class to
284677Sdim/// <vgpr> if the user of the PHI's definition register is a vector instruction.
284677Sdim/// If the PHI's definition class is constrained to <vgpr> then the coalescer
284677Sdim/// will be unable to perform the COPY removal from the above example  which
284677Sdim/// ultimately led to the creation of an illegal COPY.
284677Sdim//===----------------------------------------------------------------------===//
284677Sdim
284677Sdim#include "AMDGPU.h"
284677Sdim#include "AMDGPUSubtarget.h"
284677Sdim#include "SIInstrInfo.h"
284677Sdim#include "llvm/CodeGen/MachineFunctionPass.h"
284677Sdim#include "llvm/CodeGen/MachineInstrBuilder.h"
284677Sdim#include "llvm/CodeGen/MachineRegisterInfo.h"
284677Sdim#include "llvm/Support/Debug.h"
284677Sdim#include "llvm/Support/raw_ostream.h"
284677Sdim#include "llvm/Target/TargetMachine.h"
284677Sdim
284677Sdimusing namespace llvm;
284677Sdim
284677Sdim#define DEBUG_TYPE "sgpr-copies"
284677Sdim
284677Sdimnamespace {
284677Sdim
284677Sdimclass SIFixSGPRCopies : public MachineFunctionPass {
296417Sdimpublic:
284677Sdim  static char ID;
284677Sdim
296417Sdim  SIFixSGPRCopies() : MachineFunctionPass(ID) { }
284677Sdim
284677Sdim  bool runOnMachineFunction(MachineFunction &MF) override;
284677Sdim
284677Sdim  const char *getPassName() const override {
284677Sdim    return "SI Fix SGPR copies";
284677Sdim  }
284677Sdim
296417Sdim  void getAnalysisUsage(AnalysisUsage &AU) const override {
296417Sdim    AU.setPreservesCFG();
296417Sdim    MachineFunctionPass::getAnalysisUsage(AU);
296417Sdim  }
284677Sdim};
284677Sdim
284677Sdim} // End anonymous namespace
284677Sdim
296417SdimINITIALIZE_PASS(SIFixSGPRCopies, DEBUG_TYPE,
296417Sdim                "SI Fix SGPR copies", false, false)
296417Sdim
284677Sdimchar SIFixSGPRCopies::ID = 0;
284677Sdim
296417Sdimchar &llvm::SIFixSGPRCopiesID = SIFixSGPRCopies::ID;
296417Sdim
296417SdimFunctionPass *llvm::createSIFixSGPRCopiesPass() {
296417Sdim  return new SIFixSGPRCopies();
284677Sdim}
284677Sdim
284677Sdimstatic bool hasVGPROperands(const MachineInstr &MI, const SIRegisterInfo *TRI) {
284677Sdim  const MachineRegisterInfo &MRI = MI.getParent()->getParent()->getRegInfo();
284677Sdim  for (unsigned i = 0, e = MI.getNumOperands(); i != e; ++i) {
284677Sdim    if (!MI.getOperand(i).isReg() ||
284677Sdim        !TargetRegisterInfo::isVirtualRegister(MI.getOperand(i).getReg()))
284677Sdim      continue;
284677Sdim
284677Sdim    if (TRI->hasVGPRs(MRI.getRegClass(MI.getOperand(i).getReg())))
284677Sdim      return true;
284677Sdim  }
284677Sdim  return false;
284677Sdim}
284677Sdim
296417Sdimstatic std::pair<const TargetRegisterClass *, const TargetRegisterClass *>
296417SdimgetCopyRegClasses(const MachineInstr &Copy,
296417Sdim                  const SIRegisterInfo &TRI,
296417Sdim                  const MachineRegisterInfo &MRI) {
296417Sdim  unsigned DstReg = Copy.getOperand(0).getReg();
296417Sdim  unsigned SrcReg = Copy.getOperand(1).getReg();
284677Sdim
296417Sdim  const TargetRegisterClass *SrcRC =
296417Sdim    TargetRegisterInfo::isVirtualRegister(SrcReg) ?
296417Sdim    MRI.getRegClass(SrcReg) :
296417Sdim    TRI.getPhysRegClass(SrcReg);
284677Sdim
296417Sdim  // We don't really care about the subregister here.
296417Sdim  // SrcRC = TRI.getSubRegClass(SrcRC, Copy.getOperand(1).getSubReg());
284677Sdim
296417Sdim  const TargetRegisterClass *DstRC =
296417Sdim    TargetRegisterInfo::isVirtualRegister(DstReg) ?
296417Sdim    MRI.getRegClass(DstReg) :
296417Sdim    TRI.getPhysRegClass(DstReg);
296417Sdim
296417Sdim  return std::make_pair(SrcRC, DstRC);
284677Sdim}
284677Sdim
296417Sdimstatic bool isVGPRToSGPRCopy(const TargetRegisterClass *SrcRC,
296417Sdim                             const TargetRegisterClass *DstRC,
296417Sdim                             const SIRegisterInfo &TRI) {
296417Sdim  return TRI.isSGPRClass(DstRC) && TRI.hasVGPRs(SrcRC);
296417Sdim}
284677Sdim
296417Sdimstatic bool isSGPRToVGPRCopy(const TargetRegisterClass *SrcRC,
296417Sdim                             const TargetRegisterClass *DstRC,
296417Sdim                             const SIRegisterInfo &TRI) {
296417Sdim  return TRI.isSGPRClass(SrcRC) && TRI.hasVGPRs(DstRC);
284677Sdim}
284677Sdim
296417Sdim// Distribute an SGPR->VGPR copy of a REG_SEQUENCE into a VGPR REG_SEQUENCE.
296417Sdim//
296417Sdim// SGPRx = ...
296417Sdim// SGPRy = REG_SEQUENCE SGPRx, sub0 ...
296417Sdim// VGPRz = COPY SGPRy
296417Sdim//
296417Sdim// ==>
296417Sdim//
296417Sdim// VGPRx = COPY SGPRx
296417Sdim// VGPRz = REG_SEQUENCE VGPRx, sub0
296417Sdim//
296417Sdim// This exposes immediate folding opportunities when materializing 64-bit
296417Sdim// immediates.
296417Sdimstatic bool foldVGPRCopyIntoRegSequence(MachineInstr &MI,
296417Sdim                                        const SIRegisterInfo *TRI,
296417Sdim                                        const SIInstrInfo *TII,
296417Sdim                                        MachineRegisterInfo &MRI) {
296417Sdim  assert(MI.isRegSequence());
284677Sdim
296417Sdim  unsigned DstReg = MI.getOperand(0).getReg();
296417Sdim  if (!TRI->isSGPRClass(MRI.getRegClass(DstReg)))
296417Sdim    return false;
284677Sdim
296417Sdim  if (!MRI.hasOneUse(DstReg))
284677Sdim    return false;
284677Sdim
296417Sdim  MachineInstr &CopyUse = *MRI.use_instr_begin(DstReg);
296417Sdim  if (!CopyUse.isCopy())
296417Sdim    return false;
284677Sdim
296417Sdim  const TargetRegisterClass *SrcRC, *DstRC;
296417Sdim  std::tie(SrcRC, DstRC) = getCopyRegClasses(CopyUse, *TRI, MRI);
284677Sdim
296417Sdim  if (!isSGPRToVGPRCopy(SrcRC, DstRC, *TRI))
284677Sdim    return false;
284677Sdim
296417Sdim  // TODO: Could have multiple extracts?
296417Sdim  unsigned SubReg = CopyUse.getOperand(1).getSubReg();
296417Sdim  if (SubReg != AMDGPU::NoSubRegister)
296417Sdim    return false;
296417Sdim
296417Sdim  MRI.setRegClass(DstReg, DstRC);
296417Sdim
296417Sdim  // SGPRx = ...
296417Sdim  // SGPRy = REG_SEQUENCE SGPRx, sub0 ...
296417Sdim  // VGPRz = COPY SGPRy
296417Sdim
296417Sdim  // =>
296417Sdim  // VGPRx = COPY SGPRx
296417Sdim  // VGPRz = REG_SEQUENCE VGPRx, sub0
296417Sdim
296417Sdim  MI.getOperand(0).setReg(CopyUse.getOperand(0).getReg());
296417Sdim
296417Sdim  for (unsigned I = 1, N = MI.getNumOperands(); I != N; I += 2) {
296417Sdim    unsigned SrcReg = MI.getOperand(I).getReg();
296417Sdim    unsigned SrcSubReg = MI.getOperand(I).getSubReg();
296417Sdim
296417Sdim    const TargetRegisterClass *SrcRC = MRI.getRegClass(SrcReg);
296417Sdim    assert(TRI->isSGPRClass(SrcRC) &&
296417Sdim           "Expected SGPR REG_SEQUENCE to only have SGPR inputs");
296417Sdim
296417Sdim    SrcRC = TRI->getSubRegClass(SrcRC, SrcSubReg);
296417Sdim    const TargetRegisterClass *NewSrcRC = TRI->getEquivalentVGPRClass(SrcRC);
296417Sdim
296417Sdim    unsigned TmpReg = MRI.createVirtualRegister(NewSrcRC);
296417Sdim
296417Sdim    BuildMI(*MI.getParent(), &MI, MI.getDebugLoc(), TII->get(AMDGPU::COPY), TmpReg)
296417Sdim      .addOperand(MI.getOperand(I));
296417Sdim
296417Sdim    MI.getOperand(I).setReg(TmpReg);
296417Sdim  }
296417Sdim
296417Sdim  CopyUse.eraseFromParent();
296417Sdim  return true;
284677Sdim}
284677Sdim
284677Sdimbool SIFixSGPRCopies::runOnMachineFunction(MachineFunction &MF) {
284677Sdim  MachineRegisterInfo &MRI = MF.getRegInfo();
284677Sdim  const SIRegisterInfo *TRI =
284677Sdim      static_cast<const SIRegisterInfo *>(MF.getSubtarget().getRegisterInfo());
284677Sdim  const SIInstrInfo *TII =
284677Sdim      static_cast<const SIInstrInfo *>(MF.getSubtarget().getInstrInfo());
296417Sdim
296417Sdim  SmallVector<MachineInstr *, 16> Worklist;
296417Sdim
284677Sdim  for (MachineFunction::iterator BI = MF.begin(), BE = MF.end();
284677Sdim                                                  BI != BE; ++BI) {
284677Sdim
284677Sdim    MachineBasicBlock &MBB = *BI;
284677Sdim    for (MachineBasicBlock::iterator I = MBB.begin(), E = MBB.end();
296417Sdim         I != E; ++I) {
284677Sdim      MachineInstr &MI = *I;
284677Sdim
296417Sdim      switch (MI.getOpcode()) {
296417Sdim      default:
296417Sdim        continue;
296417Sdim      case AMDGPU::COPY: {
296417Sdim        // If the destination register is a physical register there isn't really
296417Sdim        // much we can do to fix this.
296417Sdim        if (!TargetRegisterInfo::isVirtualRegister(MI.getOperand(0).getReg()))
296417Sdim          continue;
296417Sdim
296417Sdim        const TargetRegisterClass *SrcRC, *DstRC;
296417Sdim        std::tie(SrcRC, DstRC) = getCopyRegClasses(MI, *TRI, MRI);
296417Sdim        if (isVGPRToSGPRCopy(SrcRC, DstRC, *TRI)) {
296417Sdim          DEBUG(dbgs() << "Fixing VGPR -> SGPR copy: " << MI);
296417Sdim          TII->moveToVALU(MI);
296417Sdim        }
296417Sdim
296417Sdim        break;
284677Sdim      }
284677Sdim      case AMDGPU::PHI: {
284677Sdim        DEBUG(dbgs() << "Fixing PHI: " << MI);
284677Sdim        unsigned Reg = MI.getOperand(0).getReg();
284677Sdim        if (!TRI->isSGPRClass(MRI.getRegClass(Reg)))
284677Sdim          break;
284677Sdim
284677Sdim        // If a PHI node defines an SGPR and any of its operands are VGPRs,
284677Sdim        // then we need to move it to the VALU.
284677Sdim        //
284677Sdim        // Also, if a PHI node defines an SGPR and has all SGPR operands
284677Sdim        // we must move it to the VALU, because the SGPR operands will
284677Sdim        // all end up being assigned the same register, which means
284677Sdim        // there is a potential for a conflict if different threads take
284677Sdim        // different control flow paths.
284677Sdim        //
284677Sdim        // For Example:
284677Sdim        //
284677Sdim        // sgpr0 = def;
284677Sdim        // ...
284677Sdim        // sgpr1 = def;
284677Sdim        // ...
284677Sdim        // sgpr2 = PHI sgpr0, sgpr1
284677Sdim        // use sgpr2;
284677Sdim        //
284677Sdim        // Will Become:
284677Sdim        //
284677Sdim        // sgpr2 = def;
284677Sdim        // ...
284677Sdim        // sgpr2 = def;
284677Sdim        // ...
284677Sdim        // use sgpr2
284677Sdim        //
284677Sdim        // FIXME: This is OK if the branching decision is made based on an
284677Sdim        // SGPR value.
284677Sdim        bool SGPRBranch = false;
284677Sdim
284677Sdim        // The one exception to this rule is when one of the operands
284677Sdim        // is defined by a SI_BREAK, SI_IF_BREAK, or SI_ELSE_BREAK
284677Sdim        // instruction.  In this case, there we know the program will
284677Sdim        // never enter the second block (the loop) without entering
284677Sdim        // the first block (where the condition is computed), so there
284677Sdim        // is no chance for values to be over-written.
284677Sdim
284677Sdim        bool HasBreakDef = false;
284677Sdim        for (unsigned i = 1; i < MI.getNumOperands(); i+=2) {
284677Sdim          unsigned Reg = MI.getOperand(i).getReg();
284677Sdim          if (TRI->hasVGPRs(MRI.getRegClass(Reg))) {
284677Sdim            TII->moveToVALU(MI);
284677Sdim            break;
284677Sdim          }
284677Sdim          MachineInstr *DefInstr = MRI.getUniqueVRegDef(Reg);
284677Sdim          assert(DefInstr);
284677Sdim          switch(DefInstr->getOpcode()) {
284677Sdim
284677Sdim          case AMDGPU::SI_BREAK:
284677Sdim          case AMDGPU::SI_IF_BREAK:
284677Sdim          case AMDGPU::SI_ELSE_BREAK:
284677Sdim          // If we see a PHI instruction that defines an SGPR, then that PHI
284677Sdim          // instruction has already been considered and should have
284677Sdim          // a *_BREAK as an operand.
284677Sdim          case AMDGPU::PHI:
284677Sdim            HasBreakDef = true;
284677Sdim            break;
284677Sdim          }
284677Sdim        }
284677Sdim
284677Sdim        if (!SGPRBranch && !HasBreakDef)
284677Sdim          TII->moveToVALU(MI);
284677Sdim        break;
284677Sdim      }
284677Sdim      case AMDGPU::REG_SEQUENCE: {
284677Sdim        if (TRI->hasVGPRs(TII->getOpRegClass(MI, 0)) ||
296417Sdim            !hasVGPROperands(MI, TRI)) {
296417Sdim          foldVGPRCopyIntoRegSequence(MI, TRI, TII, MRI);
284677Sdim          continue;
296417Sdim        }
284677Sdim
284677Sdim        DEBUG(dbgs() << "Fixing REG_SEQUENCE: " << MI);
284677Sdim
284677Sdim        TII->moveToVALU(MI);
284677Sdim        break;
284677Sdim      }
284677Sdim      case AMDGPU::INSERT_SUBREG: {
284677Sdim        const TargetRegisterClass *DstRC, *Src0RC, *Src1RC;
284677Sdim        DstRC = MRI.getRegClass(MI.getOperand(0).getReg());
284677Sdim        Src0RC = MRI.getRegClass(MI.getOperand(1).getReg());
284677Sdim        Src1RC = MRI.getRegClass(MI.getOperand(2).getReg());
284677Sdim        if (TRI->isSGPRClass(DstRC) &&
284677Sdim            (TRI->hasVGPRs(Src0RC) || TRI->hasVGPRs(Src1RC))) {
284677Sdim          DEBUG(dbgs() << " Fixing INSERT_SUBREG: " << MI);
284677Sdim          TII->moveToVALU(MI);
284677Sdim        }
284677Sdim        break;
284677Sdim      }
284677Sdim      }
284677Sdim    }
284677Sdim  }
284677Sdim
284677Sdim  return true;
284677Sdim}