Target/AMDGPU/SIMachineScheduler.cpp

314564Sdim//===-- SIMachineScheduler.cpp - SI Scheduler Interface -------------------===//
293838Sdim//
353358Sdim// Part of the LLVM Project, under the Apache License v2.0 with LLVM Exceptions.
353358Sdim// See https://llvm.org/LICENSE.txt for license information.
353358Sdim// SPDX-License-Identifier: Apache-2.0 WITH LLVM-exception
293838Sdim//
293838Sdim//===----------------------------------------------------------------------===//
293838Sdim//
293838Sdim/// \file
341825Sdim/// SI Machine Scheduler interface
293838Sdim//
293838Sdim//===----------------------------------------------------------------------===//
293838Sdim
321369Sdim#include "SIMachineScheduler.h"
309124Sdim#include "AMDGPU.h"
314564Sdim#include "SIInstrInfo.h"
314564Sdim#include "SIRegisterInfo.h"
341825Sdim#include "MCTargetDesc/AMDGPUMCTargetDesc.h"
314564Sdim#include "llvm/ADT/STLExtras.h"
314564Sdim#include "llvm/ADT/SmallVector.h"
293838Sdim#include "llvm/CodeGen/LiveInterval.h"
327952Sdim#include "llvm/CodeGen/LiveIntervals.h"
314564Sdim#include "llvm/CodeGen/MachineInstr.h"
293838Sdim#include "llvm/CodeGen/MachineRegisterInfo.h"
293838Sdim#include "llvm/CodeGen/MachineScheduler.h"
293838Sdim#include "llvm/CodeGen/RegisterPressure.h"
314564Sdim#include "llvm/CodeGen/SlotIndexes.h"
327952Sdim#include "llvm/CodeGen/TargetRegisterInfo.h"
314564Sdim#include "llvm/Support/Debug.h"
314564Sdim#include "llvm/Support/ErrorHandling.h"
314564Sdim#include "llvm/Support/raw_ostream.h"
314564Sdim#include <algorithm>
314564Sdim#include <cassert>
314564Sdim#include <map>
314564Sdim#include <set>
314564Sdim#include <utility>
314564Sdim#include <vector>
293838Sdim
293838Sdimusing namespace llvm;
293838Sdim
321369Sdim#define DEBUG_TYPE "machine-scheduler"
293838Sdim
293838Sdim// This scheduler implements a different scheduling algorithm than
293838Sdim// GenericScheduler.
293838Sdim//
293838Sdim// There are several specific architecture behaviours that can't be modelled
293838Sdim// for GenericScheduler:
293838Sdim// . When accessing the result of an SGPR load instruction, you have to wait
293838Sdim// for all the SGPR load instructions before your current instruction to
293838Sdim// have finished.
293838Sdim// . When accessing the result of an VGPR load instruction, you have to wait
293838Sdim// for all the VGPR load instructions previous to the VGPR load instruction
293838Sdim// you are interested in to finish.
293838Sdim// . The less the register pressure, the best load latencies are hidden
293838Sdim//
293838Sdim// Moreover some specifities (like the fact a lot of instructions in the shader
293838Sdim// have few dependencies) makes the generic scheduler have some unpredictable
293838Sdim// behaviours. For example when register pressure becomes high, it can either
293838Sdim// manage to prevent register pressure from going too high, or it can
293838Sdim// increase register pressure even more than if it hadn't taken register
293838Sdim// pressure into account.
293838Sdim//
293838Sdim// Also some other bad behaviours are generated, like loading at the beginning
293838Sdim// of the shader a constant in VGPR you won't need until the end of the shader.
293838Sdim//
293838Sdim// The scheduling problem for SI can distinguish three main parts:
293838Sdim// . Hiding high latencies (texture sampling, etc)
293838Sdim// . Hiding low latencies (SGPR constant loading, etc)
293838Sdim// . Keeping register usage low for better latency hiding and general
293838Sdim//   performance
293838Sdim//
293838Sdim// Some other things can also affect performance, but are hard to predict
293838Sdim// (cache usage, the fact the HW can issue several instructions from different
293838Sdim// wavefronts if different types, etc)
293838Sdim//
293838Sdim// This scheduler tries to solve the scheduling problem by dividing it into
293838Sdim// simpler sub-problems. It divides the instructions into blocks, schedules
293838Sdim// locally inside the blocks where it takes care of low latencies, and then
293838Sdim// chooses the order of the blocks by taking care of high latencies.
293838Sdim// Dividing the instructions into blocks helps control keeping register
293838Sdim// usage low.
293838Sdim//
293838Sdim// First the instructions are put into blocks.
293838Sdim//   We want the blocks help control register usage and hide high latencies
293838Sdim//   later. To help control register usage, we typically want all local
293838Sdim//   computations, when for example you create a result that can be comsummed
293838Sdim//   right away, to be contained in a block. Block inputs and outputs would
293838Sdim//   typically be important results that are needed in several locations of
293838Sdim//   the shader. Since we do want blocks to help hide high latencies, we want
293838Sdim//   the instructions inside the block to have a minimal set of dependencies
293838Sdim//   on high latencies. It will make it easy to pick blocks to hide specific
293838Sdim//   high latencies.
293838Sdim//   The block creation algorithm is divided into several steps, and several
293838Sdim//   variants can be tried during the scheduling process.
293838Sdim//
314564Sdim// Second the order of the instructions inside the blocks is chosen.
293838Sdim//   At that step we do take into account only register usage and hiding
293838Sdim//   low latency instructions
293838Sdim//
314564Sdim// Third the block order is chosen, there we try to hide high latencies
293838Sdim// and keep register usage low.
293838Sdim//
293838Sdim// After the third step, a pass is done to improve the hiding of low
293838Sdim// latencies.
293838Sdim//
293838Sdim// Actually when talking about 'low latency' or 'high latency' it includes
293838Sdim// both the latency to get the cache (or global mem) data go to the register,
314564Sdim// and the bandwidth limitations.
293838Sdim// Increasing the number of active wavefronts helps hide the former, but it
293838Sdim// doesn't solve the latter, thus why even if wavefront count is high, we have
293838Sdim// to try have as many instructions hiding high latencies as possible.
293838Sdim// The OpenCL doc says for example latency of 400 cycles for a global mem access,
293838Sdim// which is hidden by 10 instructions if the wavefront count is 10.
293838Sdim
293838Sdim// Some figures taken from AMD docs:
293838Sdim// Both texture and constant L1 caches are 4-way associative with 64 bytes
293838Sdim// lines.
293838Sdim// Constant cache is shared with 4 CUs.
293838Sdim// For texture sampling, the address generation unit receives 4 texture
293838Sdim// addresses per cycle, thus we could expect texture sampling latency to be
293838Sdim// equivalent to 4 instructions in the very best case (a VGPR is 64 work items,
293838Sdim// instructions in a wavefront group are executed every 4 cycles),
293838Sdim// or 16 instructions if the other wavefronts associated to the 3 other VALUs
293838Sdim// of the CU do texture sampling too. (Don't take these figures too seriously,
293838Sdim// as I'm not 100% sure of the computation)
293838Sdim// Data exports should get similar latency.
293838Sdim// For constant loading, the cache is shader with 4 CUs.
293838Sdim// The doc says "a throughput of 16B/cycle for each of the 4 Compute Unit"
293838Sdim// I guess if the other CU don't read the cache, it can go up to 64B/cycle.
293838Sdim// It means a simple s_buffer_load should take one instruction to hide, as
293838Sdim// well as a s_buffer_loadx2 and potentially a s_buffer_loadx8 if on the same
293838Sdim// cache line.
293838Sdim//
293838Sdim// As of today the driver doesn't preload the constants in cache, thus the
293838Sdim// first loads get extra latency. The doc says global memory access can be
293838Sdim// 300-600 cycles. We do not specially take that into account when scheduling
293838Sdim// As we expect the driver to be able to preload the constants soon.
293838Sdim
293838Sdim// common code //
293838Sdim
293838Sdim#ifndef NDEBUG
293838Sdim
293838Sdimstatic const char *getReasonStr(SIScheduleCandReason Reason) {
293838Sdim  switch (Reason) {
293838Sdim  case NoCand:         return "NOCAND";
293838Sdim  case RegUsage:       return "REGUSAGE";
293838Sdim  case Latency:        return "LATENCY";
293838Sdim  case Successor:      return "SUCCESSOR";
293838Sdim  case Depth:          return "DEPTH";
293838Sdim  case NodeOrder:      return "ORDER";
293838Sdim  }
293838Sdim  llvm_unreachable("Unknown reason!");
293838Sdim}
293838Sdim
293838Sdim#endif
293838Sdim
341825Sdimnamespace llvm {
341825Sdimnamespace SISched {
293838Sdimstatic bool tryLess(int TryVal, int CandVal,
293838Sdim                    SISchedulerCandidate &TryCand,
293838Sdim                    SISchedulerCandidate &Cand,
293838Sdim                    SIScheduleCandReason Reason) {
293838Sdim  if (TryVal < CandVal) {
293838Sdim    TryCand.Reason = Reason;
293838Sdim    return true;
293838Sdim  }
293838Sdim  if (TryVal > CandVal) {
293838Sdim    if (Cand.Reason > Reason)
293838Sdim      Cand.Reason = Reason;
293838Sdim    return true;
293838Sdim  }
293838Sdim  Cand.setRepeat(Reason);
293838Sdim  return false;
293838Sdim}
293838Sdim
293838Sdimstatic bool tryGreater(int TryVal, int CandVal,
293838Sdim                       SISchedulerCandidate &TryCand,
293838Sdim                       SISchedulerCandidate &Cand,
293838Sdim                       SIScheduleCandReason Reason) {
293838Sdim  if (TryVal > CandVal) {
293838Sdim    TryCand.Reason = Reason;
293838Sdim    return true;
293838Sdim  }
293838Sdim  if (TryVal < CandVal) {
293838Sdim    if (Cand.Reason > Reason)
293838Sdim      Cand.Reason = Reason;
293838Sdim    return true;
293838Sdim  }
293838Sdim  Cand.setRepeat(Reason);
293838Sdim  return false;
293838Sdim}
341825Sdim} // end namespace SISched
341825Sdim} // end namespace llvm
293838Sdim
293838Sdim// SIScheduleBlock //
293838Sdim
293838Sdimvoid SIScheduleBlock::addUnit(SUnit *SU) {
293838Sdim  NodeNum2Index[SU->NodeNum] = SUnits.size();
293838Sdim  SUnits.push_back(SU);
293838Sdim}
293838Sdim
293838Sdim#ifndef NDEBUG
293838Sdimvoid SIScheduleBlock::traceCandidate(const SISchedCandidate &Cand) {
293838Sdim
293838Sdim  dbgs() << "  SU(" << Cand.SU->NodeNum << ") " << getReasonStr(Cand.Reason);
293838Sdim  dbgs() << '\n';
293838Sdim}
293838Sdim#endif
293838Sdim
293838Sdimvoid SIScheduleBlock::tryCandidateTopDown(SISchedCandidate &Cand,
293838Sdim                                          SISchedCandidate &TryCand) {
293838Sdim  // Initialize the candidate if needed.
293838Sdim  if (!Cand.isValid()) {
293838Sdim    TryCand.Reason = NodeOrder;
293838Sdim    return;
293838Sdim  }
293838Sdim
293838Sdim  if (Cand.SGPRUsage > 60 &&
341825Sdim      SISched::tryLess(TryCand.SGPRUsage, Cand.SGPRUsage,
341825Sdim                       TryCand, Cand, RegUsage))
293838Sdim    return;
293838Sdim
293838Sdim  // Schedule low latency instructions as top as possible.
293838Sdim  // Order of priority is:
293838Sdim  // . Low latency instructions which do not depend on other low latency
293838Sdim  //   instructions we haven't waited for
293838Sdim  // . Other instructions which do not depend on low latency instructions
293838Sdim  //   we haven't waited for
293838Sdim  // . Low latencies
293838Sdim  // . All other instructions
314564Sdim  // Goal is to get: low latency instructions - independent instructions
293838Sdim  //     - (eventually some more low latency instructions)
293838Sdim  //     - instructions that depend on the first low latency instructions.
293838Sdim  // If in the block there is a lot of constant loads, the SGPR usage
293838Sdim  // could go quite high, thus above the arbitrary limit of 60 will encourage
293838Sdim  // use the already loaded constants (in order to release some SGPRs) before
293838Sdim  // loading more.
341825Sdim  if (SISched::tryLess(TryCand.HasLowLatencyNonWaitedParent,
341825Sdim                       Cand.HasLowLatencyNonWaitedParent,
341825Sdim                       TryCand, Cand, SIScheduleCandReason::Depth))
293838Sdim    return;
293838Sdim
341825Sdim  if (SISched::tryGreater(TryCand.IsLowLatency, Cand.IsLowLatency,
341825Sdim                          TryCand, Cand, SIScheduleCandReason::Depth))
293838Sdim    return;
293838Sdim
293838Sdim  if (TryCand.IsLowLatency &&
341825Sdim      SISched::tryLess(TryCand.LowLatencyOffset, Cand.LowLatencyOffset,
341825Sdim                       TryCand, Cand, SIScheduleCandReason::Depth))
293838Sdim    return;
293838Sdim
341825Sdim  if (SISched::tryLess(TryCand.VGPRUsage, Cand.VGPRUsage,
341825Sdim                       TryCand, Cand, RegUsage))
293838Sdim    return;
293838Sdim
293838Sdim  // Fall through to original instruction order.
293838Sdim  if (TryCand.SU->NodeNum < Cand.SU->NodeNum) {
293838Sdim    TryCand.Reason = NodeOrder;
293838Sdim  }
293838Sdim}
293838Sdim
293838SdimSUnit* SIScheduleBlock::pickNode() {
293838Sdim  SISchedCandidate TopCand;
293838Sdim
293838Sdim  for (SUnit* SU : TopReadySUs) {
293838Sdim    SISchedCandidate TryCand;
293838Sdim    std::vector<unsigned> pressure;
293838Sdim    std::vector<unsigned> MaxPressure;
293838Sdim    // Predict register usage after this instruction.
293838Sdim    TryCand.SU = SU;
293838Sdim    TopRPTracker.getDownwardPressure(SU->getInstr(), pressure, MaxPressure);
293838Sdim    TryCand.SGPRUsage = pressure[DAG->getSGPRSetID()];
293838Sdim    TryCand.VGPRUsage = pressure[DAG->getVGPRSetID()];
293838Sdim    TryCand.IsLowLatency = DAG->IsLowLatencySU[SU->NodeNum];
293838Sdim    TryCand.LowLatencyOffset = DAG->LowLatencyOffset[SU->NodeNum];
293838Sdim    TryCand.HasLowLatencyNonWaitedParent =
293838Sdim      HasLowLatencyNonWaitedParent[NodeNum2Index[SU->NodeNum]];
293838Sdim    tryCandidateTopDown(TopCand, TryCand);
293838Sdim    if (TryCand.Reason != NoCand)
293838Sdim      TopCand.setBest(TryCand);
293838Sdim  }
293838Sdim
293838Sdim  return TopCand.SU;
293838Sdim}
293838Sdim
293838Sdim
293838Sdim// Schedule something valid.
293838Sdimvoid SIScheduleBlock::fastSchedule() {
293838Sdim  TopReadySUs.clear();
293838Sdim  if (Scheduled)
293838Sdim    undoSchedule();
293838Sdim
293838Sdim  for (SUnit* SU : SUnits) {
293838Sdim    if (!SU->NumPredsLeft)
293838Sdim      TopReadySUs.push_back(SU);
293838Sdim  }
293838Sdim
293838Sdim  while (!TopReadySUs.empty()) {
293838Sdim    SUnit *SU = TopReadySUs[0];
293838Sdim    ScheduledSUnits.push_back(SU);
293838Sdim    nodeScheduled(SU);
293838Sdim  }
293838Sdim
293838Sdim  Scheduled = true;
293838Sdim}
293838Sdim
293838Sdim// Returns if the register was set between first and last.
293838Sdimstatic bool isDefBetween(unsigned Reg,
293838Sdim                           SlotIndex First, SlotIndex Last,
293838Sdim                           const MachineRegisterInfo *MRI,
293838Sdim                           const LiveIntervals *LIS) {
293838Sdim  for (MachineRegisterInfo::def_instr_iterator
293838Sdim       UI = MRI->def_instr_begin(Reg),
293838Sdim       UE = MRI->def_instr_end(); UI != UE; ++UI) {
293838Sdim    const MachineInstr* MI = &*UI;
293838Sdim    if (MI->isDebugValue())
293838Sdim      continue;
309124Sdim    SlotIndex InstSlot = LIS->getInstructionIndex(*MI).getRegSlot();
293838Sdim    if (InstSlot >= First && InstSlot <= Last)
293838Sdim      return true;
293838Sdim  }
293838Sdim  return false;
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlock::initRegPressure(MachineBasicBlock::iterator BeginBlock,
293838Sdim                                      MachineBasicBlock::iterator EndBlock) {
293838Sdim  IntervalPressure Pressure, BotPressure;
293838Sdim  RegPressureTracker RPTracker(Pressure), BotRPTracker(BotPressure);
293838Sdim  LiveIntervals *LIS = DAG->getLIS();
293838Sdim  MachineRegisterInfo *MRI = DAG->getMRI();
293838Sdim  DAG->initRPTracker(TopRPTracker);
293838Sdim  DAG->initRPTracker(BotRPTracker);
293838Sdim  DAG->initRPTracker(RPTracker);
293838Sdim
293838Sdim  // Goes though all SU. RPTracker captures what had to be alive for the SUs
293838Sdim  // to execute, and what is still alive at the end.
293838Sdim  for (SUnit* SU : ScheduledSUnits) {
293838Sdim    RPTracker.setPos(SU->getInstr());
293838Sdim    RPTracker.advance();
293838Sdim  }
293838Sdim
293838Sdim  // Close the RPTracker to finalize live ins/outs.
293838Sdim  RPTracker.closeRegion();
293838Sdim
293838Sdim  // Initialize the live ins and live outs.
293838Sdim  TopRPTracker.addLiveRegs(RPTracker.getPressure().LiveInRegs);
293838Sdim  BotRPTracker.addLiveRegs(RPTracker.getPressure().LiveOutRegs);
293838Sdim
293838Sdim  // Do not Track Physical Registers, because it messes up.
309124Sdim  for (const auto &RegMaskPair : RPTracker.getPressure().LiveInRegs) {
360784Sdim    if (Register::isVirtualRegister(RegMaskPair.RegUnit))
309124Sdim      LiveInRegs.insert(RegMaskPair.RegUnit);
293838Sdim  }
293838Sdim  LiveOutRegs.clear();
293838Sdim  // There is several possibilities to distinguish:
293838Sdim  // 1) Reg is not input to any instruction in the block, but is output of one
293838Sdim  // 2) 1) + read in the block and not needed after it
293838Sdim  // 3) 1) + read in the block but needed in another block
293838Sdim  // 4) Reg is input of an instruction but another block will read it too
293838Sdim  // 5) Reg is input of an instruction and then rewritten in the block.
293838Sdim  //    result is not read in the block (implies used in another block)
293838Sdim  // 6) Reg is input of an instruction and then rewritten in the block.
293838Sdim  //    result is read in the block and not needed in another block
293838Sdim  // 7) Reg is input of an instruction and then rewritten in the block.
293838Sdim  //    result is read in the block but also needed in another block
293838Sdim  // LiveInRegs will contains all the regs in situation 4, 5, 6, 7
293838Sdim  // We want LiveOutRegs to contain only Regs whose content will be read after
293838Sdim  // in another block, and whose content was written in the current block,
293838Sdim  // that is we want it to get 1, 3, 5, 7
293838Sdim  // Since we made the MIs of a block to be packed all together before
293838Sdim  // scheduling, then the LiveIntervals were correct, and the RPTracker was
293838Sdim  // able to correctly handle 5 vs 6, 2 vs 3.
293838Sdim  // (Note: This is not sufficient for RPTracker to not do mistakes for case 4)
293838Sdim  // The RPTracker's LiveOutRegs has 1, 3, (some correct or incorrect)4, 5, 7
293838Sdim  // Comparing to LiveInRegs is not sufficient to differenciate 4 vs 5, 7
293838Sdim  // The use of findDefBetween removes the case 4.
309124Sdim  for (const auto &RegMaskPair : RPTracker.getPressure().LiveOutRegs) {
309124Sdim    unsigned Reg = RegMaskPair.RegUnit;
360784Sdim    if (Register::isVirtualRegister(Reg) &&
309124Sdim        isDefBetween(Reg, LIS->getInstructionIndex(*BeginBlock).getRegSlot(),
309124Sdim                     LIS->getInstructionIndex(*EndBlock).getRegSlot(), MRI,
309124Sdim                     LIS)) {
293838Sdim      LiveOutRegs.insert(Reg);
293838Sdim    }
293838Sdim  }
293838Sdim
293838Sdim  // Pressure = sum_alive_registers register size
293838Sdim  // Internally llvm will represent some registers as big 128 bits registers
293838Sdim  // for example, but they actually correspond to 4 actual 32 bits registers.
293838Sdim  // Thus Pressure is not equal to num_alive_registers * constant.
293838Sdim  LiveInPressure = TopPressure.MaxSetPressure;
293838Sdim  LiveOutPressure = BotPressure.MaxSetPressure;
293838Sdim
293838Sdim  // Prepares TopRPTracker for top down scheduling.
293838Sdim  TopRPTracker.closeTop();
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlock::schedule(MachineBasicBlock::iterator BeginBlock,
293838Sdim                               MachineBasicBlock::iterator EndBlock) {
293838Sdim  if (!Scheduled)
293838Sdim    fastSchedule();
293838Sdim
293838Sdim  // PreScheduling phase to set LiveIn and LiveOut.
293838Sdim  initRegPressure(BeginBlock, EndBlock);
293838Sdim  undoSchedule();
293838Sdim
293838Sdim  // Schedule for real now.
293838Sdim
293838Sdim  TopReadySUs.clear();
293838Sdim
293838Sdim  for (SUnit* SU : SUnits) {
293838Sdim    if (!SU->NumPredsLeft)
293838Sdim      TopReadySUs.push_back(SU);
293838Sdim  }
293838Sdim
293838Sdim  while (!TopReadySUs.empty()) {
293838Sdim    SUnit *SU = pickNode();
293838Sdim    ScheduledSUnits.push_back(SU);
293838Sdim    TopRPTracker.setPos(SU->getInstr());
293838Sdim    TopRPTracker.advance();
293838Sdim    nodeScheduled(SU);
293838Sdim  }
293838Sdim
293838Sdim  // TODO: compute InternalAdditionnalPressure.
293838Sdim  InternalAdditionnalPressure.resize(TopPressure.MaxSetPressure.size());
293838Sdim
293838Sdim  // Check everything is right.
293838Sdim#ifndef NDEBUG
293838Sdim  assert(SUnits.size() == ScheduledSUnits.size() &&
293838Sdim            TopReadySUs.empty());
293838Sdim  for (SUnit* SU : SUnits) {
293838Sdim    assert(SU->isScheduled &&
293838Sdim              SU->NumPredsLeft == 0);
293838Sdim  }
293838Sdim#endif
293838Sdim
293838Sdim  Scheduled = true;
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlock::undoSchedule() {
293838Sdim  for (SUnit* SU : SUnits) {
293838Sdim    SU->isScheduled = false;
293838Sdim    for (SDep& Succ : SU->Succs) {
293838Sdim      if (BC->isSUInBlock(Succ.getSUnit(), ID))
293838Sdim        undoReleaseSucc(SU, &Succ);
293838Sdim    }
293838Sdim  }
293838Sdim  HasLowLatencyNonWaitedParent.assign(SUnits.size(), 0);
293838Sdim  ScheduledSUnits.clear();
293838Sdim  Scheduled = false;
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlock::undoReleaseSucc(SUnit *SU, SDep *SuccEdge) {
293838Sdim  SUnit *SuccSU = SuccEdge->getSUnit();
293838Sdim
293838Sdim  if (SuccEdge->isWeak()) {
293838Sdim    ++SuccSU->WeakPredsLeft;
293838Sdim    return;
293838Sdim  }
293838Sdim  ++SuccSU->NumPredsLeft;
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlock::releaseSucc(SUnit *SU, SDep *SuccEdge) {
293838Sdim  SUnit *SuccSU = SuccEdge->getSUnit();
293838Sdim
293838Sdim  if (SuccEdge->isWeak()) {
293838Sdim    --SuccSU->WeakPredsLeft;
293838Sdim    return;
293838Sdim  }
293838Sdim#ifndef NDEBUG
293838Sdim  if (SuccSU->NumPredsLeft == 0) {
293838Sdim    dbgs() << "*** Scheduling failed! ***\n";
344779Sdim    DAG->dumpNode(*SuccSU);
293838Sdim    dbgs() << " has been released too many times!\n";
293838Sdim    llvm_unreachable(nullptr);
293838Sdim  }
293838Sdim#endif
293838Sdim
293838Sdim  --SuccSU->NumPredsLeft;
293838Sdim}
293838Sdim
293838Sdim/// Release Successors of the SU that are in the block or not.
293838Sdimvoid SIScheduleBlock::releaseSuccessors(SUnit *SU, bool InOrOutBlock) {
293838Sdim  for (SDep& Succ : SU->Succs) {
293838Sdim    SUnit *SuccSU = Succ.getSUnit();
293838Sdim
309124Sdim    if (SuccSU->NodeNum >= DAG->SUnits.size())
309124Sdim        continue;
309124Sdim
293838Sdim    if (BC->isSUInBlock(SuccSU, ID) != InOrOutBlock)
293838Sdim      continue;
293838Sdim
293838Sdim    releaseSucc(SU, &Succ);
293838Sdim    if (SuccSU->NumPredsLeft == 0 && InOrOutBlock)
293838Sdim      TopReadySUs.push_back(SuccSU);
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlock::nodeScheduled(SUnit *SU) {
293838Sdim  // Is in TopReadySUs
293838Sdim  assert (!SU->NumPredsLeft);
314564Sdim  std::vector<SUnit *>::iterator I = llvm::find(TopReadySUs, SU);
293838Sdim  if (I == TopReadySUs.end()) {
293838Sdim    dbgs() << "Data Structure Bug in SI Scheduler\n";
293838Sdim    llvm_unreachable(nullptr);
293838Sdim  }
293838Sdim  TopReadySUs.erase(I);
293838Sdim
293838Sdim  releaseSuccessors(SU, true);
293838Sdim  // Scheduling this node will trigger a wait,
293838Sdim  // thus propagate to other instructions that they do not need to wait either.
293838Sdim  if (HasLowLatencyNonWaitedParent[NodeNum2Index[SU->NodeNum]])
293838Sdim    HasLowLatencyNonWaitedParent.assign(SUnits.size(), 0);
293838Sdim
293838Sdim  if (DAG->IsLowLatencySU[SU->NodeNum]) {
293838Sdim     for (SDep& Succ : SU->Succs) {
293838Sdim      std::map<unsigned, unsigned>::iterator I =
293838Sdim        NodeNum2Index.find(Succ.getSUnit()->NodeNum);
293838Sdim      if (I != NodeNum2Index.end())
293838Sdim        HasLowLatencyNonWaitedParent[I->second] = 1;
293838Sdim    }
293838Sdim  }
293838Sdim  SU->isScheduled = true;
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlock::finalizeUnits() {
293838Sdim  // We remove links from outside blocks to enable scheduling inside the block.
293838Sdim  for (SUnit* SU : SUnits) {
293838Sdim    releaseSuccessors(SU, false);
293838Sdim    if (DAG->IsHighLatencySU[SU->NodeNum])
293838Sdim      HighLatencyBlock = true;
293838Sdim  }
293838Sdim  HasLowLatencyNonWaitedParent.resize(SUnits.size(), 0);
293838Sdim}
293838Sdim
293838Sdim// we maintain ascending order of IDs
293838Sdimvoid SIScheduleBlock::addPred(SIScheduleBlock *Pred) {
293838Sdim  unsigned PredID = Pred->getID();
293838Sdim
293838Sdim  // Check if not already predecessor.
293838Sdim  for (SIScheduleBlock* P : Preds) {
293838Sdim    if (PredID == P->getID())
293838Sdim      return;
293838Sdim  }
293838Sdim  Preds.push_back(Pred);
293838Sdim
309124Sdim  assert(none_of(Succs,
321369Sdim                 [=](std::pair<SIScheduleBlock*,
321369Sdim                     SIScheduleBlockLinkKind> S) {
321369Sdim                   return PredID == S.first->getID();
321369Sdim                    }) &&
309124Sdim         "Loop in the Block Graph!");
293838Sdim}
293838Sdim
321369Sdimvoid SIScheduleBlock::addSucc(SIScheduleBlock *Succ,
321369Sdim                              SIScheduleBlockLinkKind Kind) {
293838Sdim  unsigned SuccID = Succ->getID();
293838Sdim
293838Sdim  // Check if not already predecessor.
321369Sdim  for (std::pair<SIScheduleBlock*, SIScheduleBlockLinkKind> &S : Succs) {
321369Sdim    if (SuccID == S.first->getID()) {
321369Sdim      if (S.second == SIScheduleBlockLinkKind::NoData &&
321369Sdim          Kind == SIScheduleBlockLinkKind::Data)
321369Sdim        S.second = Kind;
293838Sdim      return;
321369Sdim    }
293838Sdim  }
293838Sdim  if (Succ->isHighLatencyBlock())
293838Sdim    ++NumHighLatencySuccessors;
321369Sdim  Succs.push_back(std::make_pair(Succ, Kind));
321369Sdim
309124Sdim  assert(none_of(Preds,
309124Sdim                 [=](SIScheduleBlock *P) { return SuccID == P->getID(); }) &&
309124Sdim         "Loop in the Block Graph!");
293838Sdim}
293838Sdim
293838Sdim#ifndef NDEBUG
293838Sdimvoid SIScheduleBlock::printDebug(bool full) {
293838Sdim  dbgs() << "Block (" << ID << ")\n";
293838Sdim  if (!full)
293838Sdim    return;
293838Sdim
293838Sdim  dbgs() << "\nContains High Latency Instruction: "
293838Sdim         << HighLatencyBlock << '\n';
293838Sdim  dbgs() << "\nDepends On:\n";
293838Sdim  for (SIScheduleBlock* P : Preds) {
293838Sdim    P->printDebug(false);
293838Sdim  }
293838Sdim
293838Sdim  dbgs() << "\nSuccessors:\n";
321369Sdim  for (std::pair<SIScheduleBlock*, SIScheduleBlockLinkKind> S : Succs) {
321369Sdim    if (S.second == SIScheduleBlockLinkKind::Data)
321369Sdim      dbgs() << "(Data Dep) ";
321369Sdim    S.first->printDebug(false);
293838Sdim  }
293838Sdim
293838Sdim  if (Scheduled) {
293838Sdim    dbgs() << "LiveInPressure " << LiveInPressure[DAG->getSGPRSetID()] << ' '
293838Sdim           << LiveInPressure[DAG->getVGPRSetID()] << '\n';
293838Sdim    dbgs() << "LiveOutPressure " << LiveOutPressure[DAG->getSGPRSetID()] << ' '
293838Sdim           << LiveOutPressure[DAG->getVGPRSetID()] << "\n\n";
293838Sdim    dbgs() << "LiveIns:\n";
293838Sdim    for (unsigned Reg : LiveInRegs)
327952Sdim      dbgs() << printVRegOrUnit(Reg, DAG->getTRI()) << ' ';
293838Sdim
293838Sdim    dbgs() << "\nLiveOuts:\n";
293838Sdim    for (unsigned Reg : LiveOutRegs)
327952Sdim      dbgs() << printVRegOrUnit(Reg, DAG->getTRI()) << ' ';
293838Sdim  }
293838Sdim
293838Sdim  dbgs() << "\nInstructions:\n";
360784Sdim  for (const SUnit* SU : SUnits)
344779Sdim      DAG->dumpNode(*SU);
293838Sdim
314564Sdim  dbgs() << "///////////////////////\n";
293838Sdim}
293838Sdim#endif
293838Sdim
293838Sdim// SIScheduleBlockCreator //
293838Sdim
360784SdimSIScheduleBlockCreator::SIScheduleBlockCreator(SIScheduleDAGMI *DAG)
360784Sdim    : DAG(DAG) {}
293838Sdim
293838SdimSIScheduleBlocks
293838SdimSIScheduleBlockCreator::getBlocks(SISchedulerBlockCreatorVariant BlockVariant) {
293838Sdim  std::map<SISchedulerBlockCreatorVariant, SIScheduleBlocks>::iterator B =
293838Sdim    Blocks.find(BlockVariant);
293838Sdim  if (B == Blocks.end()) {
293838Sdim    SIScheduleBlocks Res;
293838Sdim    createBlocksForVariant(BlockVariant);
293838Sdim    topologicalSort();
293838Sdim    scheduleInsideBlocks();
293838Sdim    fillStats();
293838Sdim    Res.Blocks = CurrentBlocks;
293838Sdim    Res.TopDownIndex2Block = TopDownIndex2Block;
293838Sdim    Res.TopDownBlock2Index = TopDownBlock2Index;
293838Sdim    Blocks[BlockVariant] = Res;
293838Sdim    return Res;
293838Sdim  } else {
293838Sdim    return B->second;
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimbool SIScheduleBlockCreator::isSUInBlock(SUnit *SU, unsigned ID) {
293838Sdim  if (SU->NodeNum >= DAG->SUnits.size())
293838Sdim    return false;
293838Sdim  return CurrentBlocks[Node2CurrentBlock[SU->NodeNum]]->getID() == ID;
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::colorHighLatenciesAlone() {
293838Sdim  unsigned DAGSize = DAG->SUnits.size();
293838Sdim
293838Sdim  for (unsigned i = 0, e = DAGSize; i != e; ++i) {
293838Sdim    SUnit *SU = &DAG->SUnits[i];
293838Sdim    if (DAG->IsHighLatencySU[SU->NodeNum]) {
293838Sdim      CurrentColoring[SU->NodeNum] = NextReservedID++;
293838Sdim    }
293838Sdim  }
293838Sdim}
293838Sdim
321369Sdimstatic bool
321369SdimhasDataDependencyPred(const SUnit &SU, const SUnit &FromSU) {
321369Sdim  for (const auto &PredDep : SU.Preds) {
321369Sdim    if (PredDep.getSUnit() == &FromSU &&
321369Sdim        PredDep.getKind() == llvm::SDep::Data)
321369Sdim      return true;
321369Sdim  }
321369Sdim  return false;
321369Sdim}
321369Sdim
293838Sdimvoid SIScheduleBlockCreator::colorHighLatenciesGroups() {
293838Sdim  unsigned DAGSize = DAG->SUnits.size();
293838Sdim  unsigned NumHighLatencies = 0;
293838Sdim  unsigned GroupSize;
321369Sdim  int Color = NextReservedID;
293838Sdim  unsigned Count = 0;
293838Sdim  std::set<unsigned> FormingGroup;
293838Sdim
293838Sdim  for (unsigned i = 0, e = DAGSize; i != e; ++i) {
293838Sdim    SUnit *SU = &DAG->SUnits[i];
293838Sdim    if (DAG->IsHighLatencySU[SU->NodeNum])
293838Sdim      ++NumHighLatencies;
293838Sdim  }
293838Sdim
293838Sdim  if (NumHighLatencies == 0)
293838Sdim    return;
293838Sdim
293838Sdim  if (NumHighLatencies <= 6)
293838Sdim    GroupSize = 2;
293838Sdim  else if (NumHighLatencies <= 12)
293838Sdim    GroupSize = 3;
293838Sdim  else
293838Sdim    GroupSize = 4;
293838Sdim
321369Sdim  for (unsigned SUNum : DAG->TopDownIndex2SU) {
321369Sdim    const SUnit &SU = DAG->SUnits[SUNum];
321369Sdim    if (DAG->IsHighLatencySU[SU.NodeNum]) {
293838Sdim      unsigned CompatibleGroup = true;
321369Sdim      int ProposedColor = Color;
321369Sdim      std::vector<int> AdditionalElements;
321369Sdim
321369Sdim      // We don't want to put in the same block
321369Sdim      // two high latency instructions that depend
321369Sdim      // on each other.
321369Sdim      // One way would be to check canAddEdge
321369Sdim      // in both directions, but that currently is not
321369Sdim      // enough because there the high latency order is
321369Sdim      // enforced (via links).
321369Sdim      // Instead, look at the dependencies between the
321369Sdim      // high latency instructions and deduce if it is
321369Sdim      // a data dependency or not.
293838Sdim      for (unsigned j : FormingGroup) {
321369Sdim        bool HasSubGraph;
321369Sdim        std::vector<int> SubGraph;
321369Sdim        // By construction (topological order), if SU and
321369Sdim        // DAG->SUnits[j] are linked, DAG->SUnits[j] is neccessary
321369Sdim        // in the parent graph of SU.
321369Sdim#ifndef NDEBUG
321369Sdim        SubGraph = DAG->GetTopo()->GetSubGraph(SU, DAG->SUnits[j],
321369Sdim                                               HasSubGraph);
321369Sdim        assert(!HasSubGraph);
321369Sdim#endif
321369Sdim        SubGraph = DAG->GetTopo()->GetSubGraph(DAG->SUnits[j], SU,
321369Sdim                                               HasSubGraph);
321369Sdim        if (!HasSubGraph)
321369Sdim          continue; // No dependencies between each other
321369Sdim        else if (SubGraph.size() > 5) {
321369Sdim          // Too many elements would be required to be added to the block.
293838Sdim          CompatibleGroup = false;
321369Sdim          break;
321369Sdim        }
321369Sdim        else {
321369Sdim          // Check the type of dependency
321369Sdim          for (unsigned k : SubGraph) {
321369Sdim            // If in the path to join the two instructions,
321369Sdim            // there is another high latency instruction,
321369Sdim            // or instructions colored for another block
321369Sdim            // abort the merge.
321369Sdim            if (DAG->IsHighLatencySU[k] ||
321369Sdim                (CurrentColoring[k] != ProposedColor &&
321369Sdim                 CurrentColoring[k] != 0)) {
321369Sdim              CompatibleGroup = false;
321369Sdim              break;
321369Sdim            }
321369Sdim            // If one of the SU in the subgraph depends on the result of SU j,
321369Sdim            // there'll be a data dependency.
321369Sdim            if (hasDataDependencyPred(DAG->SUnits[k], DAG->SUnits[j])) {
321369Sdim              CompatibleGroup = false;
321369Sdim              break;
321369Sdim            }
321369Sdim          }
321369Sdim          if (!CompatibleGroup)
321369Sdim            break;
321369Sdim          // Same check for the SU
321369Sdim          if (hasDataDependencyPred(SU, DAG->SUnits[j])) {
321369Sdim            CompatibleGroup = false;
321369Sdim            break;
321369Sdim          }
321369Sdim          // Add all the required instructions to the block
321369Sdim          // These cannot live in another block (because they
321369Sdim          // depend (order dependency) on one of the
321369Sdim          // instruction in the block, and are required for the
321369Sdim          // high latency instruction we add.
321369Sdim          AdditionalElements.insert(AdditionalElements.end(),
321369Sdim                                    SubGraph.begin(), SubGraph.end());
321369Sdim        }
293838Sdim      }
321369Sdim      if (CompatibleGroup) {
321369Sdim        FormingGroup.insert(SU.NodeNum);
321369Sdim        for (unsigned j : AdditionalElements)
321369Sdim          CurrentColoring[j] = ProposedColor;
321369Sdim        CurrentColoring[SU.NodeNum] = ProposedColor;
321369Sdim        ++Count;
321369Sdim      }
321369Sdim      // Found one incompatible instruction,
321369Sdim      // or has filled a big enough group.
321369Sdim      // -> start a new one.
321369Sdim      if (!CompatibleGroup) {
293838Sdim        FormingGroup.clear();
293838Sdim        Color = ++NextReservedID;
321369Sdim        ProposedColor = Color;
321369Sdim        FormingGroup.insert(SU.NodeNum);
321369Sdim        CurrentColoring[SU.NodeNum] = ProposedColor;
293838Sdim        Count = 0;
321369Sdim      } else if (Count == GroupSize) {
321369Sdim        FormingGroup.clear();
321369Sdim        Color = ++NextReservedID;
321369Sdim        ProposedColor = Color;
321369Sdim        Count = 0;
293838Sdim      }
293838Sdim    }
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::colorComputeReservedDependencies() {
293838Sdim  unsigned DAGSize = DAG->SUnits.size();
293838Sdim  std::map<std::set<unsigned>, unsigned> ColorCombinations;
293838Sdim
293838Sdim  CurrentTopDownReservedDependencyColoring.clear();
293838Sdim  CurrentBottomUpReservedDependencyColoring.clear();
293838Sdim
293838Sdim  CurrentTopDownReservedDependencyColoring.resize(DAGSize, 0);
293838Sdim  CurrentBottomUpReservedDependencyColoring.resize(DAGSize, 0);
293838Sdim
293838Sdim  // Traverse TopDown, and give different colors to SUs depending
293838Sdim  // on which combination of High Latencies they depend on.
293838Sdim
309124Sdim  for (unsigned SUNum : DAG->TopDownIndex2SU) {
309124Sdim    SUnit *SU = &DAG->SUnits[SUNum];
293838Sdim    std::set<unsigned> SUColors;
293838Sdim
293838Sdim    // Already given.
293838Sdim    if (CurrentColoring[SU->NodeNum]) {
293838Sdim      CurrentTopDownReservedDependencyColoring[SU->NodeNum] =
293838Sdim        CurrentColoring[SU->NodeNum];
293838Sdim      continue;
293838Sdim    }
293838Sdim
293838Sdim   for (SDep& PredDep : SU->Preds) {
293838Sdim      SUnit *Pred = PredDep.getSUnit();
293838Sdim      if (PredDep.isWeak() || Pred->NodeNum >= DAGSize)
293838Sdim        continue;
293838Sdim      if (CurrentTopDownReservedDependencyColoring[Pred->NodeNum] > 0)
293838Sdim        SUColors.insert(CurrentTopDownReservedDependencyColoring[Pred->NodeNum]);
293838Sdim    }
293838Sdim    // Color 0 by default.
293838Sdim    if (SUColors.empty())
293838Sdim      continue;
293838Sdim    // Same color than parents.
293838Sdim    if (SUColors.size() == 1 && *SUColors.begin() > DAGSize)
293838Sdim      CurrentTopDownReservedDependencyColoring[SU->NodeNum] =
293838Sdim        *SUColors.begin();
293838Sdim    else {
293838Sdim      std::map<std::set<unsigned>, unsigned>::iterator Pos =
293838Sdim        ColorCombinations.find(SUColors);
293838Sdim      if (Pos != ColorCombinations.end()) {
293838Sdim          CurrentTopDownReservedDependencyColoring[SU->NodeNum] = Pos->second;
293838Sdim      } else {
293838Sdim        CurrentTopDownReservedDependencyColoring[SU->NodeNum] =
293838Sdim          NextNonReservedID;
293838Sdim        ColorCombinations[SUColors] = NextNonReservedID++;
293838Sdim      }
293838Sdim    }
293838Sdim  }
293838Sdim
293838Sdim  ColorCombinations.clear();
293838Sdim
293838Sdim  // Same as before, but BottomUp.
293838Sdim
309124Sdim  for (unsigned SUNum : DAG->BottomUpIndex2SU) {
309124Sdim    SUnit *SU = &DAG->SUnits[SUNum];
293838Sdim    std::set<unsigned> SUColors;
293838Sdim
293838Sdim    // Already given.
293838Sdim    if (CurrentColoring[SU->NodeNum]) {
293838Sdim      CurrentBottomUpReservedDependencyColoring[SU->NodeNum] =
293838Sdim        CurrentColoring[SU->NodeNum];
293838Sdim      continue;
293838Sdim    }
293838Sdim
293838Sdim    for (SDep& SuccDep : SU->Succs) {
293838Sdim      SUnit *Succ = SuccDep.getSUnit();
293838Sdim      if (SuccDep.isWeak() || Succ->NodeNum >= DAGSize)
293838Sdim        continue;
293838Sdim      if (CurrentBottomUpReservedDependencyColoring[Succ->NodeNum] > 0)
293838Sdim        SUColors.insert(CurrentBottomUpReservedDependencyColoring[Succ->NodeNum]);
293838Sdim    }
293838Sdim    // Keep color 0.
293838Sdim    if (SUColors.empty())
293838Sdim      continue;
293838Sdim    // Same color than parents.
293838Sdim    if (SUColors.size() == 1 && *SUColors.begin() > DAGSize)
293838Sdim      CurrentBottomUpReservedDependencyColoring[SU->NodeNum] =
293838Sdim        *SUColors.begin();
293838Sdim    else {
293838Sdim      std::map<std::set<unsigned>, unsigned>::iterator Pos =
293838Sdim        ColorCombinations.find(SUColors);
293838Sdim      if (Pos != ColorCombinations.end()) {
293838Sdim        CurrentBottomUpReservedDependencyColoring[SU->NodeNum] = Pos->second;
293838Sdim      } else {
293838Sdim        CurrentBottomUpReservedDependencyColoring[SU->NodeNum] =
293838Sdim          NextNonReservedID;
293838Sdim        ColorCombinations[SUColors] = NextNonReservedID++;
293838Sdim      }
293838Sdim    }
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::colorAccordingToReservedDependencies() {
293838Sdim  unsigned DAGSize = DAG->SUnits.size();
293838Sdim  std::map<std::pair<unsigned, unsigned>, unsigned> ColorCombinations;
293838Sdim
293838Sdim  // Every combination of colors given by the top down
293838Sdim  // and bottom up Reserved node dependency
293838Sdim
293838Sdim  for (unsigned i = 0, e = DAGSize; i != e; ++i) {
293838Sdim    SUnit *SU = &DAG->SUnits[i];
293838Sdim    std::pair<unsigned, unsigned> SUColors;
293838Sdim
293838Sdim    // High latency instructions: already given.
293838Sdim    if (CurrentColoring[SU->NodeNum])
293838Sdim      continue;
293838Sdim
293838Sdim    SUColors.first = CurrentTopDownReservedDependencyColoring[SU->NodeNum];
293838Sdim    SUColors.second = CurrentBottomUpReservedDependencyColoring[SU->NodeNum];
293838Sdim
293838Sdim    std::map<std::pair<unsigned, unsigned>, unsigned>::iterator Pos =
293838Sdim      ColorCombinations.find(SUColors);
293838Sdim    if (Pos != ColorCombinations.end()) {
293838Sdim      CurrentColoring[SU->NodeNum] = Pos->second;
293838Sdim    } else {
293838Sdim      CurrentColoring[SU->NodeNum] = NextNonReservedID;
293838Sdim      ColorCombinations[SUColors] = NextNonReservedID++;
293838Sdim    }
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::colorEndsAccordingToDependencies() {
293838Sdim  unsigned DAGSize = DAG->SUnits.size();
293838Sdim  std::vector<int> PendingColoring = CurrentColoring;
293838Sdim
321369Sdim  assert(DAGSize >= 1 &&
321369Sdim         CurrentBottomUpReservedDependencyColoring.size() == DAGSize &&
321369Sdim         CurrentTopDownReservedDependencyColoring.size() == DAGSize);
321369Sdim  // If there is no reserved block at all, do nothing. We don't want
321369Sdim  // everything in one block.
321369Sdim  if (*std::max_element(CurrentBottomUpReservedDependencyColoring.begin(),
321369Sdim                        CurrentBottomUpReservedDependencyColoring.end()) == 0 &&
321369Sdim      *std::max_element(CurrentTopDownReservedDependencyColoring.begin(),
321369Sdim                        CurrentTopDownReservedDependencyColoring.end()) == 0)
321369Sdim    return;
321369Sdim
309124Sdim  for (unsigned SUNum : DAG->BottomUpIndex2SU) {
309124Sdim    SUnit *SU = &DAG->SUnits[SUNum];
293838Sdim    std::set<unsigned> SUColors;
293838Sdim    std::set<unsigned> SUColorsPending;
293838Sdim
293838Sdim    if (CurrentColoring[SU->NodeNum] <= (int)DAGSize)
293838Sdim      continue;
293838Sdim
293838Sdim    if (CurrentBottomUpReservedDependencyColoring[SU->NodeNum] > 0 ||
293838Sdim        CurrentTopDownReservedDependencyColoring[SU->NodeNum] > 0)
293838Sdim      continue;
293838Sdim
293838Sdim    for (SDep& SuccDep : SU->Succs) {
293838Sdim      SUnit *Succ = SuccDep.getSUnit();
293838Sdim      if (SuccDep.isWeak() || Succ->NodeNum >= DAGSize)
293838Sdim        continue;
293838Sdim      if (CurrentBottomUpReservedDependencyColoring[Succ->NodeNum] > 0 ||
293838Sdim          CurrentTopDownReservedDependencyColoring[Succ->NodeNum] > 0)
293838Sdim        SUColors.insert(CurrentColoring[Succ->NodeNum]);
293838Sdim      SUColorsPending.insert(PendingColoring[Succ->NodeNum]);
293838Sdim    }
321369Sdim    // If there is only one child/parent block, and that block
321369Sdim    // is not among the ones we are removing in this path, then
321369Sdim    // merge the instruction to that block
293838Sdim    if (SUColors.size() == 1 && SUColorsPending.size() == 1)
293838Sdim      PendingColoring[SU->NodeNum] = *SUColors.begin();
293838Sdim    else // TODO: Attribute new colors depending on color
293838Sdim         // combination of children.
293838Sdim      PendingColoring[SU->NodeNum] = NextNonReservedID++;
293838Sdim  }
293838Sdim  CurrentColoring = PendingColoring;
293838Sdim}
293838Sdim
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::colorForceConsecutiveOrderInGroup() {
293838Sdim  unsigned DAGSize = DAG->SUnits.size();
293838Sdim  unsigned PreviousColor;
293838Sdim  std::set<unsigned> SeenColors;
293838Sdim
293838Sdim  if (DAGSize <= 1)
293838Sdim    return;
293838Sdim
293838Sdim  PreviousColor = CurrentColoring[0];
293838Sdim
293838Sdim  for (unsigned i = 1, e = DAGSize; i != e; ++i) {
293838Sdim    SUnit *SU = &DAG->SUnits[i];
293838Sdim    unsigned CurrentColor = CurrentColoring[i];
293838Sdim    unsigned PreviousColorSave = PreviousColor;
293838Sdim    assert(i == SU->NodeNum);
293838Sdim
293838Sdim    if (CurrentColor != PreviousColor)
293838Sdim      SeenColors.insert(PreviousColor);
293838Sdim    PreviousColor = CurrentColor;
293838Sdim
293838Sdim    if (CurrentColoring[SU->NodeNum] <= (int)DAGSize)
293838Sdim      continue;
293838Sdim
293838Sdim    if (SeenColors.find(CurrentColor) == SeenColors.end())
293838Sdim      continue;
293838Sdim
293838Sdim    if (PreviousColorSave != CurrentColor)
293838Sdim      CurrentColoring[i] = NextNonReservedID++;
293838Sdim    else
293838Sdim      CurrentColoring[i] = CurrentColoring[i-1];
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::colorMergeConstantLoadsNextGroup() {
293838Sdim  unsigned DAGSize = DAG->SUnits.size();
293838Sdim
309124Sdim  for (unsigned SUNum : DAG->BottomUpIndex2SU) {
309124Sdim    SUnit *SU = &DAG->SUnits[SUNum];
293838Sdim    std::set<unsigned> SUColors;
293838Sdim
293838Sdim    if (CurrentColoring[SU->NodeNum] <= (int)DAGSize)
293838Sdim      continue;
293838Sdim
293838Sdim    // No predecessor: Vgpr constant loading.
293838Sdim    // Low latency instructions usually have a predecessor (the address)
293838Sdim    if (SU->Preds.size() > 0 && !DAG->IsLowLatencySU[SU->NodeNum])
293838Sdim      continue;
293838Sdim
293838Sdim    for (SDep& SuccDep : SU->Succs) {
293838Sdim      SUnit *Succ = SuccDep.getSUnit();
293838Sdim      if (SuccDep.isWeak() || Succ->NodeNum >= DAGSize)
293838Sdim        continue;
293838Sdim      SUColors.insert(CurrentColoring[Succ->NodeNum]);
293838Sdim    }
293838Sdim    if (SUColors.size() == 1)
293838Sdim      CurrentColoring[SU->NodeNum] = *SUColors.begin();
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::colorMergeIfPossibleNextGroup() {
293838Sdim  unsigned DAGSize = DAG->SUnits.size();
293838Sdim
309124Sdim  for (unsigned SUNum : DAG->BottomUpIndex2SU) {
309124Sdim    SUnit *SU = &DAG->SUnits[SUNum];
293838Sdim    std::set<unsigned> SUColors;
293838Sdim
293838Sdim    if (CurrentColoring[SU->NodeNum] <= (int)DAGSize)
293838Sdim      continue;
293838Sdim
293838Sdim    for (SDep& SuccDep : SU->Succs) {
293838Sdim       SUnit *Succ = SuccDep.getSUnit();
293838Sdim      if (SuccDep.isWeak() || Succ->NodeNum >= DAGSize)
293838Sdim        continue;
293838Sdim      SUColors.insert(CurrentColoring[Succ->NodeNum]);
293838Sdim    }
293838Sdim    if (SUColors.size() == 1)
293838Sdim      CurrentColoring[SU->NodeNum] = *SUColors.begin();
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::colorMergeIfPossibleNextGroupOnlyForReserved() {
293838Sdim  unsigned DAGSize = DAG->SUnits.size();
293838Sdim
309124Sdim  for (unsigned SUNum : DAG->BottomUpIndex2SU) {
309124Sdim    SUnit *SU = &DAG->SUnits[SUNum];
293838Sdim    std::set<unsigned> SUColors;
293838Sdim
293838Sdim    if (CurrentColoring[SU->NodeNum] <= (int)DAGSize)
293838Sdim      continue;
293838Sdim
293838Sdim    for (SDep& SuccDep : SU->Succs) {
293838Sdim       SUnit *Succ = SuccDep.getSUnit();
293838Sdim      if (SuccDep.isWeak() || Succ->NodeNum >= DAGSize)
293838Sdim        continue;
293838Sdim      SUColors.insert(CurrentColoring[Succ->NodeNum]);
293838Sdim    }
293838Sdim    if (SUColors.size() == 1 && *SUColors.begin() <= DAGSize)
293838Sdim      CurrentColoring[SU->NodeNum] = *SUColors.begin();
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::colorMergeIfPossibleSmallGroupsToNextGroup() {
293838Sdim  unsigned DAGSize = DAG->SUnits.size();
293838Sdim  std::map<unsigned, unsigned> ColorCount;
293838Sdim
309124Sdim  for (unsigned SUNum : DAG->BottomUpIndex2SU) {
309124Sdim    SUnit *SU = &DAG->SUnits[SUNum];
293838Sdim    unsigned color = CurrentColoring[SU->NodeNum];
321369Sdim     ++ColorCount[color];
293838Sdim  }
293838Sdim
309124Sdim  for (unsigned SUNum : DAG->BottomUpIndex2SU) {
309124Sdim    SUnit *SU = &DAG->SUnits[SUNum];
293838Sdim    unsigned color = CurrentColoring[SU->NodeNum];
293838Sdim    std::set<unsigned> SUColors;
293838Sdim
293838Sdim    if (CurrentColoring[SU->NodeNum] <= (int)DAGSize)
293838Sdim      continue;
293838Sdim
293838Sdim    if (ColorCount[color] > 1)
293838Sdim      continue;
293838Sdim
293838Sdim    for (SDep& SuccDep : SU->Succs) {
293838Sdim       SUnit *Succ = SuccDep.getSUnit();
293838Sdim      if (SuccDep.isWeak() || Succ->NodeNum >= DAGSize)
293838Sdim        continue;
293838Sdim      SUColors.insert(CurrentColoring[Succ->NodeNum]);
293838Sdim    }
293838Sdim    if (SUColors.size() == 1 && *SUColors.begin() != color) {
293838Sdim      --ColorCount[color];
293838Sdim      CurrentColoring[SU->NodeNum] = *SUColors.begin();
293838Sdim      ++ColorCount[*SUColors.begin()];
293838Sdim    }
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::cutHugeBlocks() {
293838Sdim  // TODO
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::regroupNoUserInstructions() {
293838Sdim  unsigned DAGSize = DAG->SUnits.size();
293838Sdim  int GroupID = NextNonReservedID++;
293838Sdim
309124Sdim  for (unsigned SUNum : DAG->BottomUpIndex2SU) {
309124Sdim    SUnit *SU = &DAG->SUnits[SUNum];
293838Sdim    bool hasSuccessor = false;
293838Sdim
293838Sdim    if (CurrentColoring[SU->NodeNum] <= (int)DAGSize)
293838Sdim      continue;
293838Sdim
293838Sdim    for (SDep& SuccDep : SU->Succs) {
293838Sdim       SUnit *Succ = SuccDep.getSUnit();
293838Sdim      if (SuccDep.isWeak() || Succ->NodeNum >= DAGSize)
293838Sdim        continue;
293838Sdim      hasSuccessor = true;
293838Sdim    }
293838Sdim    if (!hasSuccessor)
293838Sdim      CurrentColoring[SU->NodeNum] = GroupID;
293838Sdim  }
293838Sdim}
293838Sdim
327952Sdimvoid SIScheduleBlockCreator::colorExports() {
327952Sdim  unsigned ExportColor = NextNonReservedID++;
327952Sdim  SmallVector<unsigned, 8> ExpGroup;
327952Sdim
327952Sdim  // Put all exports together in a block.
327952Sdim  // The block will naturally end up being scheduled last,
327952Sdim  // thus putting exports at the end of the schedule, which
327952Sdim  // is better for performance.
327952Sdim  // However we must ensure, for safety, the exports can be put
327952Sdim  // together in the same block without any other instruction.
327952Sdim  // This could happen, for example, when scheduling after regalloc
327952Sdim  // if reloading a spilled register from memory using the same
327952Sdim  // register than used in a previous export.
327952Sdim  // If that happens, do not regroup the exports.
327952Sdim  for (unsigned SUNum : DAG->TopDownIndex2SU) {
327952Sdim    const SUnit &SU = DAG->SUnits[SUNum];
327952Sdim    if (SIInstrInfo::isEXP(*SU.getInstr())) {
327952Sdim      // Check the EXP can be added to the group safely,
327952Sdim      // ie without needing any other instruction.
327952Sdim      // The EXP is allowed to depend on other EXP
327952Sdim      // (they will be in the same group).
327952Sdim      for (unsigned j : ExpGroup) {
327952Sdim        bool HasSubGraph;
327952Sdim        std::vector<int> SubGraph;
327952Sdim        // By construction (topological order), if SU and
327952Sdim        // DAG->SUnits[j] are linked, DAG->SUnits[j] is neccessary
327952Sdim        // in the parent graph of SU.
327952Sdim#ifndef NDEBUG
327952Sdim        SubGraph = DAG->GetTopo()->GetSubGraph(SU, DAG->SUnits[j],
327952Sdim                                               HasSubGraph);
327952Sdim        assert(!HasSubGraph);
327952Sdim#endif
327952Sdim        SubGraph = DAG->GetTopo()->GetSubGraph(DAG->SUnits[j], SU,
327952Sdim                                               HasSubGraph);
327952Sdim        if (!HasSubGraph)
327952Sdim          continue; // No dependencies between each other
327952Sdim
327952Sdim        // SubGraph contains all the instructions required
327952Sdim        // between EXP SUnits[j] and EXP SU.
327952Sdim        for (unsigned k : SubGraph) {
327952Sdim          if (!SIInstrInfo::isEXP(*DAG->SUnits[k].getInstr()))
327952Sdim            // Other instructions than EXP would be required in the group.
327952Sdim            // Abort the groupping.
327952Sdim            return;
327952Sdim        }
327952Sdim      }
327952Sdim
327952Sdim      ExpGroup.push_back(SUNum);
327952Sdim    }
327952Sdim  }
327952Sdim
327952Sdim  // The group can be formed. Give the color.
327952Sdim  for (unsigned j : ExpGroup)
327952Sdim    CurrentColoring[j] = ExportColor;
327952Sdim}
327952Sdim
293838Sdimvoid SIScheduleBlockCreator::createBlocksForVariant(SISchedulerBlockCreatorVariant BlockVariant) {
293838Sdim  unsigned DAGSize = DAG->SUnits.size();
293838Sdim  std::map<unsigned,unsigned> RealID;
293838Sdim
293838Sdim  CurrentBlocks.clear();
293838Sdim  CurrentColoring.clear();
293838Sdim  CurrentColoring.resize(DAGSize, 0);
293838Sdim  Node2CurrentBlock.clear();
293838Sdim
293838Sdim  // Restore links previous scheduling variant has overridden.
293838Sdim  DAG->restoreSULinksLeft();
293838Sdim
293838Sdim  NextReservedID = 1;
293838Sdim  NextNonReservedID = DAGSize + 1;
293838Sdim
341825Sdim  LLVM_DEBUG(dbgs() << "Coloring the graph\n");
293838Sdim
293838Sdim  if (BlockVariant == SISchedulerBlockCreatorVariant::LatenciesGrouped)
293838Sdim    colorHighLatenciesGroups();
293838Sdim  else
293838Sdim    colorHighLatenciesAlone();
293838Sdim  colorComputeReservedDependencies();
293838Sdim  colorAccordingToReservedDependencies();
293838Sdim  colorEndsAccordingToDependencies();
293838Sdim  if (BlockVariant == SISchedulerBlockCreatorVariant::LatenciesAlonePlusConsecutive)
293838Sdim    colorForceConsecutiveOrderInGroup();
293838Sdim  regroupNoUserInstructions();
293838Sdim  colorMergeConstantLoadsNextGroup();
293838Sdim  colorMergeIfPossibleNextGroupOnlyForReserved();
327952Sdim  colorExports();
293838Sdim
293838Sdim  // Put SUs of same color into same block
293838Sdim  Node2CurrentBlock.resize(DAGSize, -1);
293838Sdim  for (unsigned i = 0, e = DAGSize; i != e; ++i) {
293838Sdim    SUnit *SU = &DAG->SUnits[i];
293838Sdim    unsigned Color = CurrentColoring[SU->NodeNum];
293838Sdim    if (RealID.find(Color) == RealID.end()) {
293838Sdim      int ID = CurrentBlocks.size();
360784Sdim      BlockPtrs.push_back(std::make_unique<SIScheduleBlock>(DAG, this, ID));
293838Sdim      CurrentBlocks.push_back(BlockPtrs.rbegin()->get());
293838Sdim      RealID[Color] = ID;
293838Sdim    }
293838Sdim    CurrentBlocks[RealID[Color]]->addUnit(SU);
293838Sdim    Node2CurrentBlock[SU->NodeNum] = RealID[Color];
293838Sdim  }
293838Sdim
293838Sdim  // Build dependencies between blocks.
293838Sdim  for (unsigned i = 0, e = DAGSize; i != e; ++i) {
293838Sdim    SUnit *SU = &DAG->SUnits[i];
293838Sdim    int SUID = Node2CurrentBlock[i];
293838Sdim     for (SDep& SuccDep : SU->Succs) {
293838Sdim       SUnit *Succ = SuccDep.getSUnit();
293838Sdim      if (SuccDep.isWeak() || Succ->NodeNum >= DAGSize)
293838Sdim        continue;
293838Sdim      if (Node2CurrentBlock[Succ->NodeNum] != SUID)
321369Sdim        CurrentBlocks[SUID]->addSucc(CurrentBlocks[Node2CurrentBlock[Succ->NodeNum]],
321369Sdim                                     SuccDep.isCtrl() ? NoData : Data);
293838Sdim    }
293838Sdim    for (SDep& PredDep : SU->Preds) {
293838Sdim      SUnit *Pred = PredDep.getSUnit();
293838Sdim      if (PredDep.isWeak() || Pred->NodeNum >= DAGSize)
293838Sdim        continue;
293838Sdim      if (Node2CurrentBlock[Pred->NodeNum] != SUID)
293838Sdim        CurrentBlocks[SUID]->addPred(CurrentBlocks[Node2CurrentBlock[Pred->NodeNum]]);
293838Sdim    }
293838Sdim  }
293838Sdim
293838Sdim  // Free root and leafs of all blocks to enable scheduling inside them.
293838Sdim  for (unsigned i = 0, e = CurrentBlocks.size(); i != e; ++i) {
293838Sdim    SIScheduleBlock *Block = CurrentBlocks[i];
293838Sdim    Block->finalizeUnits();
293838Sdim  }
341825Sdim  LLVM_DEBUG(dbgs() << "Blocks created:\n\n";
341825Sdim             for (unsigned i = 0, e = CurrentBlocks.size(); i != e; ++i) {
341825Sdim               SIScheduleBlock *Block = CurrentBlocks[i];
341825Sdim               Block->printDebug(true);
341825Sdim             });
293838Sdim}
293838Sdim
293838Sdim// Two functions taken from Codegen/MachineScheduler.cpp
293838Sdim
314564Sdim/// Non-const version.
314564Sdimstatic MachineBasicBlock::iterator
314564SdimnextIfDebug(MachineBasicBlock::iterator I,
293838Sdim            MachineBasicBlock::const_iterator End) {
314564Sdim  for (; I != End; ++I) {
341825Sdim    if (!I->isDebugInstr())
293838Sdim      break;
293838Sdim  }
293838Sdim  return I;
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::topologicalSort() {
293838Sdim  unsigned DAGSize = CurrentBlocks.size();
293838Sdim  std::vector<int> WorkList;
293838Sdim
341825Sdim  LLVM_DEBUG(dbgs() << "Topological Sort\n");
293838Sdim
293838Sdim  WorkList.reserve(DAGSize);
293838Sdim  TopDownIndex2Block.resize(DAGSize);
293838Sdim  TopDownBlock2Index.resize(DAGSize);
293838Sdim  BottomUpIndex2Block.resize(DAGSize);
293838Sdim
293838Sdim  for (unsigned i = 0, e = DAGSize; i != e; ++i) {
293838Sdim    SIScheduleBlock *Block = CurrentBlocks[i];
293838Sdim    unsigned Degree = Block->getSuccs().size();
293838Sdim    TopDownBlock2Index[i] = Degree;
293838Sdim    if (Degree == 0) {
293838Sdim      WorkList.push_back(i);
293838Sdim    }
293838Sdim  }
293838Sdim
293838Sdim  int Id = DAGSize;
293838Sdim  while (!WorkList.empty()) {
293838Sdim    int i = WorkList.back();
293838Sdim    SIScheduleBlock *Block = CurrentBlocks[i];
293838Sdim    WorkList.pop_back();
293838Sdim    TopDownBlock2Index[i] = --Id;
293838Sdim    TopDownIndex2Block[Id] = i;
293838Sdim    for (SIScheduleBlock* Pred : Block->getPreds()) {
293838Sdim      if (!--TopDownBlock2Index[Pred->getID()])
293838Sdim        WorkList.push_back(Pred->getID());
293838Sdim    }
293838Sdim  }
293838Sdim
293838Sdim#ifndef NDEBUG
293838Sdim  // Check correctness of the ordering.
293838Sdim  for (unsigned i = 0, e = DAGSize; i != e; ++i) {
293838Sdim    SIScheduleBlock *Block = CurrentBlocks[i];
293838Sdim    for (SIScheduleBlock* Pred : Block->getPreds()) {
293838Sdim      assert(TopDownBlock2Index[i] > TopDownBlock2Index[Pred->getID()] &&
293838Sdim      "Wrong Top Down topological sorting");
293838Sdim    }
293838Sdim  }
293838Sdim#endif
293838Sdim
293838Sdim  BottomUpIndex2Block = std::vector<int>(TopDownIndex2Block.rbegin(),
293838Sdim                                         TopDownIndex2Block.rend());
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::scheduleInsideBlocks() {
293838Sdim  unsigned DAGSize = CurrentBlocks.size();
293838Sdim
341825Sdim  LLVM_DEBUG(dbgs() << "\nScheduling Blocks\n\n");
293838Sdim
293838Sdim  // We do schedule a valid scheduling such that a Block corresponds
293838Sdim  // to a range of instructions.
341825Sdim  LLVM_DEBUG(dbgs() << "First phase: Fast scheduling for Reg Liveness\n");
293838Sdim  for (unsigned i = 0, e = DAGSize; i != e; ++i) {
293838Sdim    SIScheduleBlock *Block = CurrentBlocks[i];
293838Sdim    Block->fastSchedule();
293838Sdim  }
293838Sdim
293838Sdim  // Note: the following code, and the part restoring previous position
293838Sdim  // is by far the most expensive operation of the Scheduler.
293838Sdim
293838Sdim  // Do not update CurrentTop.
293838Sdim  MachineBasicBlock::iterator CurrentTopFastSched = DAG->getCurrentTop();
293838Sdim  std::vector<MachineBasicBlock::iterator> PosOld;
293838Sdim  std::vector<MachineBasicBlock::iterator> PosNew;
293838Sdim  PosOld.reserve(DAG->SUnits.size());
293838Sdim  PosNew.reserve(DAG->SUnits.size());
293838Sdim
293838Sdim  for (unsigned i = 0, e = DAGSize; i != e; ++i) {
293838Sdim    int BlockIndice = TopDownIndex2Block[i];
293838Sdim    SIScheduleBlock *Block = CurrentBlocks[BlockIndice];
293838Sdim    std::vector<SUnit*> SUs = Block->getScheduledUnits();
293838Sdim
293838Sdim    for (SUnit* SU : SUs) {
293838Sdim      MachineInstr *MI = SU->getInstr();
293838Sdim      MachineBasicBlock::iterator Pos = MI;
293838Sdim      PosOld.push_back(Pos);
293838Sdim      if (&*CurrentTopFastSched == MI) {
293838Sdim        PosNew.push_back(Pos);
293838Sdim        CurrentTopFastSched = nextIfDebug(++CurrentTopFastSched,
293838Sdim                                          DAG->getCurrentBottom());
293838Sdim      } else {
293838Sdim        // Update the instruction stream.
293838Sdim        DAG->getBB()->splice(CurrentTopFastSched, DAG->getBB(), MI);
293838Sdim
293838Sdim        // Update LiveIntervals.
314564Sdim        // Note: Moving all instructions and calling handleMove every time
293838Sdim        // is the most cpu intensive operation of the scheduler.
293838Sdim        // It would gain a lot if there was a way to recompute the
293838Sdim        // LiveIntervals for the entire scheduling region.
309124Sdim        DAG->getLIS()->handleMove(*MI, /*UpdateFlags=*/true);
293838Sdim        PosNew.push_back(CurrentTopFastSched);
293838Sdim      }
293838Sdim    }
293838Sdim  }
293838Sdim
293838Sdim  // Now we have Block of SUs == Block of MI.
293838Sdim  // We do the final schedule for the instructions inside the block.
293838Sdim  // The property that all the SUs of the Block are grouped together as MI
293838Sdim  // is used for correct reg usage tracking.
293838Sdim  for (unsigned i = 0, e = DAGSize; i != e; ++i) {
293838Sdim    SIScheduleBlock *Block = CurrentBlocks[i];
293838Sdim    std::vector<SUnit*> SUs = Block->getScheduledUnits();
293838Sdim    Block->schedule((*SUs.begin())->getInstr(), (*SUs.rbegin())->getInstr());
293838Sdim  }
293838Sdim
341825Sdim  LLVM_DEBUG(dbgs() << "Restoring MI Pos\n");
293838Sdim  // Restore old ordering (which prevents a LIS->handleMove bug).
293838Sdim  for (unsigned i = PosOld.size(), e = 0; i != e; --i) {
293838Sdim    MachineBasicBlock::iterator POld = PosOld[i-1];
293838Sdim    MachineBasicBlock::iterator PNew = PosNew[i-1];
293838Sdim    if (PNew != POld) {
293838Sdim      // Update the instruction stream.
293838Sdim      DAG->getBB()->splice(POld, DAG->getBB(), PNew);
293838Sdim
293838Sdim      // Update LiveIntervals.
309124Sdim      DAG->getLIS()->handleMove(*POld, /*UpdateFlags=*/true);
293838Sdim    }
293838Sdim  }
293838Sdim
341825Sdim  LLVM_DEBUG(for (unsigned i = 0, e = CurrentBlocks.size(); i != e; ++i) {
341825Sdim    SIScheduleBlock *Block = CurrentBlocks[i];
341825Sdim    Block->printDebug(true);
341825Sdim  });
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockCreator::fillStats() {
293838Sdim  unsigned DAGSize = CurrentBlocks.size();
293838Sdim
293838Sdim  for (unsigned i = 0, e = DAGSize; i != e; ++i) {
293838Sdim    int BlockIndice = TopDownIndex2Block[i];
293838Sdim    SIScheduleBlock *Block = CurrentBlocks[BlockIndice];
314564Sdim    if (Block->getPreds().empty())
293838Sdim      Block->Depth = 0;
293838Sdim    else {
293838Sdim      unsigned Depth = 0;
293838Sdim      for (SIScheduleBlock *Pred : Block->getPreds()) {
327952Sdim        if (Depth < Pred->Depth + Pred->getCost())
327952Sdim          Depth = Pred->Depth + Pred->getCost();
293838Sdim      }
293838Sdim      Block->Depth = Depth;
293838Sdim    }
293838Sdim  }
293838Sdim
293838Sdim  for (unsigned i = 0, e = DAGSize; i != e; ++i) {
293838Sdim    int BlockIndice = BottomUpIndex2Block[i];
293838Sdim    SIScheduleBlock *Block = CurrentBlocks[BlockIndice];
314564Sdim    if (Block->getSuccs().empty())
293838Sdim      Block->Height = 0;
293838Sdim    else {
293838Sdim      unsigned Height = 0;
321369Sdim      for (const auto &Succ : Block->getSuccs())
327952Sdim        Height = std::max(Height, Succ.first->Height + Succ.first->getCost());
293838Sdim      Block->Height = Height;
293838Sdim    }
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdim// SIScheduleBlockScheduler //
293838Sdim
293838SdimSIScheduleBlockScheduler::SIScheduleBlockScheduler(SIScheduleDAGMI *DAG,
293838Sdim                                                   SISchedulerBlockSchedulerVariant Variant,
293838Sdim                                                   SIScheduleBlocks  BlocksStruct) :
293838Sdim  DAG(DAG), Variant(Variant), Blocks(BlocksStruct.Blocks),
293838Sdim  LastPosWaitedHighLatency(0), NumBlockScheduled(0), VregCurrentUsage(0),
293838Sdim  SregCurrentUsage(0), maxVregUsage(0), maxSregUsage(0) {
293838Sdim
293838Sdim  // Fill the usage of every output
293838Sdim  // Warning: while by construction we always have a link between two blocks
293838Sdim  // when one needs a result from the other, the number of users of an output
293838Sdim  // is not the sum of child blocks having as input the same virtual register.
293838Sdim  // Here is an example. A produces x and y. B eats x and produces x'.
293838Sdim  // C eats x' and y. The register coalescer may have attributed the same
293838Sdim  // virtual register to x and x'.
293838Sdim  // To count accurately, we do a topological sort. In case the register is
293838Sdim  // found for several parents, we increment the usage of the one with the
293838Sdim  // highest topological index.
293838Sdim  LiveOutRegsNumUsages.resize(Blocks.size());
293838Sdim  for (unsigned i = 0, e = Blocks.size(); i != e; ++i) {
293838Sdim    SIScheduleBlock *Block = Blocks[i];
293838Sdim    for (unsigned Reg : Block->getInRegs()) {
293838Sdim      bool Found = false;
293838Sdim      int topoInd = -1;
293838Sdim      for (SIScheduleBlock* Pred: Block->getPreds()) {
293838Sdim        std::set<unsigned> PredOutRegs = Pred->getOutRegs();
293838Sdim        std::set<unsigned>::iterator RegPos = PredOutRegs.find(Reg);
293838Sdim
293838Sdim        if (RegPos != PredOutRegs.end()) {
293838Sdim          Found = true;
293838Sdim          if (topoInd < BlocksStruct.TopDownBlock2Index[Pred->getID()]) {
293838Sdim            topoInd = BlocksStruct.TopDownBlock2Index[Pred->getID()];
293838Sdim          }
293838Sdim        }
293838Sdim      }
293838Sdim
293838Sdim      if (!Found)
293838Sdim        continue;
293838Sdim
293838Sdim      int PredID = BlocksStruct.TopDownIndex2Block[topoInd];
321369Sdim      ++LiveOutRegsNumUsages[PredID][Reg];
293838Sdim    }
293838Sdim  }
293838Sdim
293838Sdim  LastPosHighLatencyParentScheduled.resize(Blocks.size(), 0);
293838Sdim  BlockNumPredsLeft.resize(Blocks.size());
293838Sdim  BlockNumSuccsLeft.resize(Blocks.size());
293838Sdim
293838Sdim  for (unsigned i = 0, e = Blocks.size(); i != e; ++i) {
293838Sdim    SIScheduleBlock *Block = Blocks[i];
293838Sdim    BlockNumPredsLeft[i] = Block->getPreds().size();
293838Sdim    BlockNumSuccsLeft[i] = Block->getSuccs().size();
293838Sdim  }
293838Sdim
293838Sdim#ifndef NDEBUG
293838Sdim  for (unsigned i = 0, e = Blocks.size(); i != e; ++i) {
293838Sdim    SIScheduleBlock *Block = Blocks[i];
293838Sdim    assert(Block->getID() == i);
293838Sdim  }
293838Sdim#endif
293838Sdim
293838Sdim  std::set<unsigned> InRegs = DAG->getInRegs();
293838Sdim  addLiveRegs(InRegs);
293838Sdim
321369Sdim  // Increase LiveOutRegsNumUsages for blocks
321369Sdim  // producing registers consumed in another
321369Sdim  // scheduling region.
321369Sdim  for (unsigned Reg : DAG->getOutRegs()) {
321369Sdim    for (unsigned i = 0, e = Blocks.size(); i != e; ++i) {
321369Sdim      // Do reverse traversal
321369Sdim      int ID = BlocksStruct.TopDownIndex2Block[Blocks.size()-1-i];
321369Sdim      SIScheduleBlock *Block = Blocks[ID];
321369Sdim      const std::set<unsigned> &OutRegs = Block->getOutRegs();
321369Sdim
321369Sdim      if (OutRegs.find(Reg) == OutRegs.end())
321369Sdim        continue;
321369Sdim
321369Sdim      ++LiveOutRegsNumUsages[ID][Reg];
321369Sdim      break;
321369Sdim    }
321369Sdim  }
321369Sdim
293838Sdim  // Fill LiveRegsConsumers for regs that were already
293838Sdim  // defined before scheduling.
293838Sdim  for (unsigned i = 0, e = Blocks.size(); i != e; ++i) {
293838Sdim    SIScheduleBlock *Block = Blocks[i];
293838Sdim    for (unsigned Reg : Block->getInRegs()) {
293838Sdim      bool Found = false;
293838Sdim      for (SIScheduleBlock* Pred: Block->getPreds()) {
293838Sdim        std::set<unsigned> PredOutRegs = Pred->getOutRegs();
293838Sdim        std::set<unsigned>::iterator RegPos = PredOutRegs.find(Reg);
293838Sdim
293838Sdim        if (RegPos != PredOutRegs.end()) {
293838Sdim          Found = true;
293838Sdim          break;
293838Sdim        }
293838Sdim      }
293838Sdim
321369Sdim      if (!Found)
321369Sdim        ++LiveRegsConsumers[Reg];
293838Sdim    }
293838Sdim  }
293838Sdim
293838Sdim  for (unsigned i = 0, e = Blocks.size(); i != e; ++i) {
293838Sdim    SIScheduleBlock *Block = Blocks[i];
293838Sdim    if (BlockNumPredsLeft[i] == 0) {
293838Sdim      ReadyBlocks.push_back(Block);
293838Sdim    }
293838Sdim  }
293838Sdim
293838Sdim  while (SIScheduleBlock *Block = pickBlock()) {
293838Sdim    BlocksScheduled.push_back(Block);
293838Sdim    blockScheduled(Block);
293838Sdim  }
293838Sdim
341825Sdim  LLVM_DEBUG(dbgs() << "Block Order:"; for (SIScheduleBlock *Block
341825Sdim                                            : BlocksScheduled) {
341825Sdim    dbgs() << ' ' << Block->getID();
341825Sdim  } dbgs() << '\n';);
293838Sdim}
293838Sdim
293838Sdimbool SIScheduleBlockScheduler::tryCandidateLatency(SIBlockSchedCandidate &Cand,
293838Sdim                                                   SIBlockSchedCandidate &TryCand) {
293838Sdim  if (!Cand.isValid()) {
293838Sdim    TryCand.Reason = NodeOrder;
293838Sdim    return true;
293838Sdim  }
293838Sdim
293838Sdim  // Try to hide high latencies.
341825Sdim  if (SISched::tryLess(TryCand.LastPosHighLatParentScheduled,
341825Sdim                 Cand.LastPosHighLatParentScheduled, TryCand, Cand, Latency))
293838Sdim    return true;
293838Sdim  // Schedule high latencies early so you can hide them better.
341825Sdim  if (SISched::tryGreater(TryCand.IsHighLatency, Cand.IsHighLatency,
341825Sdim                          TryCand, Cand, Latency))
293838Sdim    return true;
341825Sdim  if (TryCand.IsHighLatency && SISched::tryGreater(TryCand.Height, Cand.Height,
341825Sdim                                                   TryCand, Cand, Depth))
293838Sdim    return true;
341825Sdim  if (SISched::tryGreater(TryCand.NumHighLatencySuccessors,
341825Sdim                          Cand.NumHighLatencySuccessors,
341825Sdim                          TryCand, Cand, Successor))
293838Sdim    return true;
293838Sdim  return false;
293838Sdim}
293838Sdim
293838Sdimbool SIScheduleBlockScheduler::tryCandidateRegUsage(SIBlockSchedCandidate &Cand,
293838Sdim                                                    SIBlockSchedCandidate &TryCand) {
293838Sdim  if (!Cand.isValid()) {
293838Sdim    TryCand.Reason = NodeOrder;
293838Sdim    return true;
293838Sdim  }
293838Sdim
341825Sdim  if (SISched::tryLess(TryCand.VGPRUsageDiff > 0, Cand.VGPRUsageDiff > 0,
341825Sdim                       TryCand, Cand, RegUsage))
293838Sdim    return true;
341825Sdim  if (SISched::tryGreater(TryCand.NumSuccessors > 0,
341825Sdim                          Cand.NumSuccessors > 0,
341825Sdim                          TryCand, Cand, Successor))
293838Sdim    return true;
341825Sdim  if (SISched::tryGreater(TryCand.Height, Cand.Height, TryCand, Cand, Depth))
293838Sdim    return true;
341825Sdim  if (SISched::tryLess(TryCand.VGPRUsageDiff, Cand.VGPRUsageDiff,
341825Sdim                       TryCand, Cand, RegUsage))
293838Sdim    return true;
293838Sdim  return false;
293838Sdim}
293838Sdim
293838SdimSIScheduleBlock *SIScheduleBlockScheduler::pickBlock() {
293838Sdim  SIBlockSchedCandidate Cand;
293838Sdim  std::vector<SIScheduleBlock*>::iterator Best;
293838Sdim  SIScheduleBlock *Block;
293838Sdim  if (ReadyBlocks.empty())
293838Sdim    return nullptr;
293838Sdim
293838Sdim  DAG->fillVgprSgprCost(LiveRegs.begin(), LiveRegs.end(),
293838Sdim                        VregCurrentUsage, SregCurrentUsage);
293838Sdim  if (VregCurrentUsage > maxVregUsage)
293838Sdim    maxVregUsage = VregCurrentUsage;
321369Sdim  if (SregCurrentUsage > maxSregUsage)
321369Sdim    maxSregUsage = SregCurrentUsage;
341825Sdim  LLVM_DEBUG(dbgs() << "Picking New Blocks\n"; dbgs() << "Available: ";
341825Sdim             for (SIScheduleBlock *Block
341825Sdim                  : ReadyBlocks) dbgs()
341825Sdim             << Block->getID() << ' ';
341825Sdim             dbgs() << "\nCurrent Live:\n";
341825Sdim             for (unsigned Reg
341825Sdim                  : LiveRegs) dbgs()
341825Sdim             << printVRegOrUnit(Reg, DAG->getTRI()) << ' ';
341825Sdim             dbgs() << '\n';
341825Sdim             dbgs() << "Current VGPRs: " << VregCurrentUsage << '\n';
341825Sdim             dbgs() << "Current SGPRs: " << SregCurrentUsage << '\n';);
293838Sdim
293838Sdim  Cand.Block = nullptr;
293838Sdim  for (std::vector<SIScheduleBlock*>::iterator I = ReadyBlocks.begin(),
293838Sdim       E = ReadyBlocks.end(); I != E; ++I) {
293838Sdim    SIBlockSchedCandidate TryCand;
293838Sdim    TryCand.Block = *I;
293838Sdim    TryCand.IsHighLatency = TryCand.Block->isHighLatencyBlock();
293838Sdim    TryCand.VGPRUsageDiff =
293838Sdim      checkRegUsageImpact(TryCand.Block->getInRegs(),
293838Sdim                          TryCand.Block->getOutRegs())[DAG->getVGPRSetID()];
293838Sdim    TryCand.NumSuccessors = TryCand.Block->getSuccs().size();
293838Sdim    TryCand.NumHighLatencySuccessors =
293838Sdim      TryCand.Block->getNumHighLatencySuccessors();
293838Sdim    TryCand.LastPosHighLatParentScheduled =
293838Sdim      (unsigned int) std::max<int> (0,
293838Sdim         LastPosHighLatencyParentScheduled[TryCand.Block->getID()] -
293838Sdim           LastPosWaitedHighLatency);
293838Sdim    TryCand.Height = TryCand.Block->Height;
293838Sdim    // Try not to increase VGPR usage too much, else we may spill.
293838Sdim    if (VregCurrentUsage > 120 ||
293838Sdim        Variant != SISchedulerBlockSchedulerVariant::BlockLatencyRegUsage) {
293838Sdim      if (!tryCandidateRegUsage(Cand, TryCand) &&
293838Sdim          Variant != SISchedulerBlockSchedulerVariant::BlockRegUsage)
293838Sdim        tryCandidateLatency(Cand, TryCand);
293838Sdim    } else {
293838Sdim      if (!tryCandidateLatency(Cand, TryCand))
293838Sdim        tryCandidateRegUsage(Cand, TryCand);
293838Sdim    }
293838Sdim    if (TryCand.Reason != NoCand) {
293838Sdim      Cand.setBest(TryCand);
293838Sdim      Best = I;
341825Sdim      LLVM_DEBUG(dbgs() << "Best Current Choice: " << Cand.Block->getID() << ' '
341825Sdim                        << getReasonStr(Cand.Reason) << '\n');
293838Sdim    }
293838Sdim  }
293838Sdim
341825Sdim  LLVM_DEBUG(dbgs() << "Picking: " << Cand.Block->getID() << '\n';
341825Sdim             dbgs() << "Is a block with high latency instruction: "
341825Sdim                    << (Cand.IsHighLatency ? "yes\n" : "no\n");
341825Sdim             dbgs() << "Position of last high latency dependency: "
341825Sdim                    << Cand.LastPosHighLatParentScheduled << '\n';
341825Sdim             dbgs() << "VGPRUsageDiff: " << Cand.VGPRUsageDiff << '\n';
341825Sdim             dbgs() << '\n';);
293838Sdim
293838Sdim  Block = Cand.Block;
293838Sdim  ReadyBlocks.erase(Best);
293838Sdim  return Block;
293838Sdim}
293838Sdim
293838Sdim// Tracking of currently alive registers to determine VGPR Usage.
293838Sdim
293838Sdimvoid SIScheduleBlockScheduler::addLiveRegs(std::set<unsigned> &Regs) {
293838Sdim  for (unsigned Reg : Regs) {
293838Sdim    // For now only track virtual registers.
360784Sdim    if (!Register::isVirtualRegister(Reg))
293838Sdim      continue;
293838Sdim    // If not already in the live set, then add it.
293838Sdim    (void) LiveRegs.insert(Reg);
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockScheduler::decreaseLiveRegs(SIScheduleBlock *Block,
293838Sdim                                       std::set<unsigned> &Regs) {
293838Sdim  for (unsigned Reg : Regs) {
293838Sdim    // For now only track virtual registers.
293838Sdim    std::set<unsigned>::iterator Pos = LiveRegs.find(Reg);
293838Sdim    assert (Pos != LiveRegs.end() && // Reg must be live.
293838Sdim               LiveRegsConsumers.find(Reg) != LiveRegsConsumers.end() &&
293838Sdim               LiveRegsConsumers[Reg] >= 1);
293838Sdim    --LiveRegsConsumers[Reg];
293838Sdim    if (LiveRegsConsumers[Reg] == 0)
293838Sdim      LiveRegs.erase(Pos);
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockScheduler::releaseBlockSuccs(SIScheduleBlock *Parent) {
321369Sdim  for (const auto &Block : Parent->getSuccs()) {
321369Sdim    if (--BlockNumPredsLeft[Block.first->getID()] == 0)
321369Sdim      ReadyBlocks.push_back(Block.first);
321369Sdim
321369Sdim    if (Parent->isHighLatencyBlock() &&
321369Sdim        Block.second == SIScheduleBlockLinkKind::Data)
321369Sdim      LastPosHighLatencyParentScheduled[Block.first->getID()] = NumBlockScheduled;
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleBlockScheduler::blockScheduled(SIScheduleBlock *Block) {
293838Sdim  decreaseLiveRegs(Block, Block->getInRegs());
293838Sdim  addLiveRegs(Block->getOutRegs());
293838Sdim  releaseBlockSuccs(Block);
293838Sdim  for (std::map<unsigned, unsigned>::iterator RegI =
293838Sdim       LiveOutRegsNumUsages[Block->getID()].begin(),
293838Sdim       E = LiveOutRegsNumUsages[Block->getID()].end(); RegI != E; ++RegI) {
293838Sdim    std::pair<unsigned, unsigned> RegP = *RegI;
321369Sdim    // We produce this register, thus it must not be previously alive.
321369Sdim    assert(LiveRegsConsumers.find(RegP.first) == LiveRegsConsumers.end() ||
321369Sdim           LiveRegsConsumers[RegP.first] == 0);
321369Sdim    LiveRegsConsumers[RegP.first] += RegP.second;
293838Sdim  }
293838Sdim  if (LastPosHighLatencyParentScheduled[Block->getID()] >
293838Sdim        (unsigned)LastPosWaitedHighLatency)
293838Sdim    LastPosWaitedHighLatency =
293838Sdim      LastPosHighLatencyParentScheduled[Block->getID()];
293838Sdim  ++NumBlockScheduled;
293838Sdim}
293838Sdim
293838Sdimstd::vector<int>
293838SdimSIScheduleBlockScheduler::checkRegUsageImpact(std::set<unsigned> &InRegs,
293838Sdim                                     std::set<unsigned> &OutRegs) {
293838Sdim  std::vector<int> DiffSetPressure;
293838Sdim  DiffSetPressure.assign(DAG->getTRI()->getNumRegPressureSets(), 0);
293838Sdim
293838Sdim  for (unsigned Reg : InRegs) {
293838Sdim    // For now only track virtual registers.
360784Sdim    if (!Register::isVirtualRegister(Reg))
293838Sdim      continue;
293838Sdim    if (LiveRegsConsumers[Reg] > 1)
293838Sdim      continue;
293838Sdim    PSetIterator PSetI = DAG->getMRI()->getPressureSets(Reg);
293838Sdim    for (; PSetI.isValid(); ++PSetI) {
293838Sdim      DiffSetPressure[*PSetI] -= PSetI.getWeight();
293838Sdim    }
293838Sdim  }
293838Sdim
293838Sdim  for (unsigned Reg : OutRegs) {
293838Sdim    // For now only track virtual registers.
360784Sdim    if (!Register::isVirtualRegister(Reg))
293838Sdim      continue;
293838Sdim    PSetIterator PSetI = DAG->getMRI()->getPressureSets(Reg);
293838Sdim    for (; PSetI.isValid(); ++PSetI) {
293838Sdim      DiffSetPressure[*PSetI] += PSetI.getWeight();
293838Sdim    }
293838Sdim  }
293838Sdim
293838Sdim  return DiffSetPressure;
293838Sdim}
293838Sdim
293838Sdim// SIScheduler //
293838Sdim
293838Sdimstruct SIScheduleBlockResult
293838SdimSIScheduler::scheduleVariant(SISchedulerBlockCreatorVariant BlockVariant,
293838Sdim                             SISchedulerBlockSchedulerVariant ScheduleVariant) {
293838Sdim  SIScheduleBlocks Blocks = BlockCreator.getBlocks(BlockVariant);
293838Sdim  SIScheduleBlockScheduler Scheduler(DAG, ScheduleVariant, Blocks);
293838Sdim  std::vector<SIScheduleBlock*> ScheduledBlocks;
293838Sdim  struct SIScheduleBlockResult Res;
293838Sdim
293838Sdim  ScheduledBlocks = Scheduler.getBlocks();
293838Sdim
293838Sdim  for (unsigned b = 0; b < ScheduledBlocks.size(); ++b) {
293838Sdim    SIScheduleBlock *Block = ScheduledBlocks[b];
293838Sdim    std::vector<SUnit*> SUs = Block->getScheduledUnits();
293838Sdim
293838Sdim    for (SUnit* SU : SUs)
293838Sdim      Res.SUs.push_back(SU->NodeNum);
293838Sdim  }
293838Sdim
293838Sdim  Res.MaxSGPRUsage = Scheduler.getSGPRUsage();
293838Sdim  Res.MaxVGPRUsage = Scheduler.getVGPRUsage();
293838Sdim  return Res;
293838Sdim}
293838Sdim
293838Sdim// SIScheduleDAGMI //
293838Sdim
293838SdimSIScheduleDAGMI::SIScheduleDAGMI(MachineSchedContext *C) :
360784Sdim  ScheduleDAGMILive(C, std::make_unique<GenericScheduler>(C)) {
293838Sdim  SITII = static_cast<const SIInstrInfo*>(TII);
293838Sdim  SITRI = static_cast<const SIRegisterInfo*>(TRI);
293838Sdim
314564Sdim  VGPRSetID = SITRI->getVGPRPressureSet();
314564Sdim  SGPRSetID = SITRI->getSGPRPressureSet();
293838Sdim}
293838Sdim
314564SdimSIScheduleDAGMI::~SIScheduleDAGMI() = default;
293838Sdim
293838Sdim// Code adapted from scheduleDAG.cpp
293838Sdim// Does a topological sort over the SUs.
293838Sdim// Both TopDown and BottomUp
293838Sdimvoid SIScheduleDAGMI::topologicalSort() {
309124Sdim  Topo.InitDAGTopologicalSorting();
293838Sdim
309124Sdim  TopDownIndex2SU = std::vector<int>(Topo.begin(), Topo.end());
309124Sdim  BottomUpIndex2SU = std::vector<int>(Topo.rbegin(), Topo.rend());
293838Sdim}
293838Sdim
293838Sdim// Move low latencies further from their user without
293838Sdim// increasing SGPR usage (in general)
293838Sdim// This is to be replaced by a better pass that would
293838Sdim// take into account SGPR usage (based on VGPR Usage
293838Sdim// and the corresponding wavefront count), that would
293838Sdim// try to merge groups of loads if it make sense, etc
293838Sdimvoid SIScheduleDAGMI::moveLowLatencies() {
293838Sdim   unsigned DAGSize = SUnits.size();
293838Sdim   int LastLowLatencyUser = -1;
293838Sdim   int LastLowLatencyPos = -1;
293838Sdim
293838Sdim   for (unsigned i = 0, e = ScheduledSUnits.size(); i != e; ++i) {
293838Sdim    SUnit *SU = &SUnits[ScheduledSUnits[i]];
293838Sdim    bool IsLowLatencyUser = false;
293838Sdim    unsigned MinPos = 0;
293838Sdim
293838Sdim    for (SDep& PredDep : SU->Preds) {
293838Sdim      SUnit *Pred = PredDep.getSUnit();
309124Sdim      if (SITII->isLowLatencyInstruction(*Pred->getInstr())) {
293838Sdim        IsLowLatencyUser = true;
293838Sdim      }
293838Sdim      if (Pred->NodeNum >= DAGSize)
293838Sdim        continue;
293838Sdim      unsigned PredPos = ScheduledSUnitsInv[Pred->NodeNum];
293838Sdim      if (PredPos >= MinPos)
293838Sdim        MinPos = PredPos + 1;
293838Sdim    }
293838Sdim
309124Sdim    if (SITII->isLowLatencyInstruction(*SU->getInstr())) {
293838Sdim      unsigned BestPos = LastLowLatencyUser + 1;
293838Sdim      if ((int)BestPos <= LastLowLatencyPos)
293838Sdim        BestPos = LastLowLatencyPos + 1;
293838Sdim      if (BestPos < MinPos)
293838Sdim        BestPos = MinPos;
293838Sdim      if (BestPos < i) {
293838Sdim        for (unsigned u = i; u > BestPos; --u) {
293838Sdim          ++ScheduledSUnitsInv[ScheduledSUnits[u-1]];
293838Sdim          ScheduledSUnits[u] = ScheduledSUnits[u-1];
293838Sdim        }
293838Sdim        ScheduledSUnits[BestPos] = SU->NodeNum;
293838Sdim        ScheduledSUnitsInv[SU->NodeNum] = BestPos;
293838Sdim      }
293838Sdim      LastLowLatencyPos = BestPos;
293838Sdim      if (IsLowLatencyUser)
293838Sdim        LastLowLatencyUser = BestPos;
293838Sdim    } else if (IsLowLatencyUser) {
293838Sdim      LastLowLatencyUser = i;
293838Sdim    // Moves COPY instructions on which depends
293838Sdim    // the low latency instructions too.
293838Sdim    } else if (SU->getInstr()->getOpcode() == AMDGPU::COPY) {
293838Sdim      bool CopyForLowLat = false;
293838Sdim      for (SDep& SuccDep : SU->Succs) {
293838Sdim        SUnit *Succ = SuccDep.getSUnit();
353358Sdim        if (SuccDep.isWeak() || Succ->NodeNum >= DAGSize)
353358Sdim          continue;
309124Sdim        if (SITII->isLowLatencyInstruction(*Succ->getInstr())) {
293838Sdim          CopyForLowLat = true;
293838Sdim        }
293838Sdim      }
293838Sdim      if (!CopyForLowLat)
293838Sdim        continue;
293838Sdim      if (MinPos < i) {
293838Sdim        for (unsigned u = i; u > MinPos; --u) {
293838Sdim          ++ScheduledSUnitsInv[ScheduledSUnits[u-1]];
293838Sdim          ScheduledSUnits[u] = ScheduledSUnits[u-1];
293838Sdim        }
293838Sdim        ScheduledSUnits[MinPos] = SU->NodeNum;
293838Sdim        ScheduledSUnitsInv[SU->NodeNum] = MinPos;
293838Sdim      }
293838Sdim    }
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleDAGMI::restoreSULinksLeft() {
293838Sdim  for (unsigned i = 0, e = SUnits.size(); i != e; ++i) {
293838Sdim    SUnits[i].isScheduled = false;
293838Sdim    SUnits[i].WeakPredsLeft = SUnitsLinksBackup[i].WeakPredsLeft;
293838Sdim    SUnits[i].NumPredsLeft = SUnitsLinksBackup[i].NumPredsLeft;
293838Sdim    SUnits[i].WeakSuccsLeft = SUnitsLinksBackup[i].WeakSuccsLeft;
293838Sdim    SUnits[i].NumSuccsLeft = SUnitsLinksBackup[i].NumSuccsLeft;
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdim// Return the Vgpr and Sgpr usage corresponding to some virtual registers.
293838Sdimtemplate<typename _Iterator> void
293838SdimSIScheduleDAGMI::fillVgprSgprCost(_Iterator First, _Iterator End,
293838Sdim                                  unsigned &VgprUsage, unsigned &SgprUsage) {
293838Sdim  VgprUsage = 0;
293838Sdim  SgprUsage = 0;
293838Sdim  for (_Iterator RegI = First; RegI != End; ++RegI) {
293838Sdim    unsigned Reg = *RegI;
293838Sdim    // For now only track virtual registers
360784Sdim    if (!Register::isVirtualRegister(Reg))
293838Sdim      continue;
293838Sdim    PSetIterator PSetI = MRI.getPressureSets(Reg);
293838Sdim    for (; PSetI.isValid(); ++PSetI) {
293838Sdim      if (*PSetI == VGPRSetID)
293838Sdim        VgprUsage += PSetI.getWeight();
293838Sdim      else if (*PSetI == SGPRSetID)
293838Sdim        SgprUsage += PSetI.getWeight();
293838Sdim    }
293838Sdim  }
293838Sdim}
293838Sdim
293838Sdimvoid SIScheduleDAGMI::schedule()
293838Sdim{
293838Sdim  SmallVector<SUnit*, 8> TopRoots, BotRoots;
293838Sdim  SIScheduleBlockResult Best, Temp;
341825Sdim  LLVM_DEBUG(dbgs() << "Preparing Scheduling\n");
293838Sdim
293838Sdim  buildDAGWithRegPressure();
344779Sdim  LLVM_DEBUG(dump());
293838Sdim
293838Sdim  topologicalSort();
293838Sdim  findRootsAndBiasEdges(TopRoots, BotRoots);
293838Sdim  // We reuse several ScheduleDAGMI and ScheduleDAGMILive
293838Sdim  // functions, but to make them happy we must initialize
293838Sdim  // the default Scheduler implementation (even if we do not
293838Sdim  // run it)
293838Sdim  SchedImpl->initialize(this);
293838Sdim  initQueues(TopRoots, BotRoots);
293838Sdim
293838Sdim  // Fill some stats to help scheduling.
293838Sdim
293838Sdim  SUnitsLinksBackup = SUnits;
293838Sdim  IsLowLatencySU.clear();
293838Sdim  LowLatencyOffset.clear();
293838Sdim  IsHighLatencySU.clear();
293838Sdim
293838Sdim  IsLowLatencySU.resize(SUnits.size(), 0);
293838Sdim  LowLatencyOffset.resize(SUnits.size(), 0);
293838Sdim  IsHighLatencySU.resize(SUnits.size(), 0);
293838Sdim
293838Sdim  for (unsigned i = 0, e = (unsigned)SUnits.size(); i != e; ++i) {
293838Sdim    SUnit *SU = &SUnits[i];
353358Sdim    const MachineOperand *BaseLatOp;
309124Sdim    int64_t OffLatReg;
309124Sdim    if (SITII->isLowLatencyInstruction(*SU->getInstr())) {
293838Sdim      IsLowLatencySU[i] = 1;
344779Sdim      if (SITII->getMemOperandWithOffset(*SU->getInstr(), BaseLatOp, OffLatReg,
344779Sdim                                         TRI))
293838Sdim        LowLatencyOffset[i] = OffLatReg;
309124Sdim    } else if (SITII->isHighLatencyInstruction(*SU->getInstr()))
293838Sdim      IsHighLatencySU[i] = 1;
293838Sdim  }
293838Sdim
293838Sdim  SIScheduler Scheduler(this);
293838Sdim  Best = Scheduler.scheduleVariant(SISchedulerBlockCreatorVariant::LatenciesAlone,
293838Sdim                                   SISchedulerBlockSchedulerVariant::BlockLatencyRegUsage);
309124Sdim
293838Sdim  // if VGPR usage is extremely high, try other good performing variants
293838Sdim  // which could lead to lower VGPR usage
293838Sdim  if (Best.MaxVGPRUsage > 180) {
321369Sdim    static const std::pair<SISchedulerBlockCreatorVariant,
321369Sdim                           SISchedulerBlockSchedulerVariant>
321369Sdim        Variants[] = {
293838Sdim      { LatenciesAlone, BlockRegUsageLatency },
293838Sdim//      { LatenciesAlone, BlockRegUsage },
293838Sdim      { LatenciesGrouped, BlockLatencyRegUsage },
293838Sdim//      { LatenciesGrouped, BlockRegUsageLatency },
293838Sdim//      { LatenciesGrouped, BlockRegUsage },
293838Sdim      { LatenciesAlonePlusConsecutive, BlockLatencyRegUsage },
293838Sdim//      { LatenciesAlonePlusConsecutive, BlockRegUsageLatency },
293838Sdim//      { LatenciesAlonePlusConsecutive, BlockRegUsage }
293838Sdim    };
293838Sdim    for (std::pair<SISchedulerBlockCreatorVariant, SISchedulerBlockSchedulerVariant> v : Variants) {
293838Sdim      Temp = Scheduler.scheduleVariant(v.first, v.second);
293838Sdim      if (Temp.MaxVGPRUsage < Best.MaxVGPRUsage)
293838Sdim        Best = Temp;
293838Sdim    }
293838Sdim  }
293838Sdim  // if VGPR usage is still extremely high, we may spill. Try other variants
293838Sdim  // which are less performing, but that could lead to lower VGPR usage.
293838Sdim  if (Best.MaxVGPRUsage > 200) {
321369Sdim    static const std::pair<SISchedulerBlockCreatorVariant,
321369Sdim                           SISchedulerBlockSchedulerVariant>
321369Sdim        Variants[] = {
293838Sdim//      { LatenciesAlone, BlockRegUsageLatency },
293838Sdim      { LatenciesAlone, BlockRegUsage },
293838Sdim//      { LatenciesGrouped, BlockLatencyRegUsage },
293838Sdim      { LatenciesGrouped, BlockRegUsageLatency },
293838Sdim      { LatenciesGrouped, BlockRegUsage },
293838Sdim//      { LatenciesAlonePlusConsecutive, BlockLatencyRegUsage },
293838Sdim      { LatenciesAlonePlusConsecutive, BlockRegUsageLatency },
293838Sdim      { LatenciesAlonePlusConsecutive, BlockRegUsage }
293838Sdim    };
293838Sdim    for (std::pair<SISchedulerBlockCreatorVariant, SISchedulerBlockSchedulerVariant> v : Variants) {
293838Sdim      Temp = Scheduler.scheduleVariant(v.first, v.second);
293838Sdim      if (Temp.MaxVGPRUsage < Best.MaxVGPRUsage)
293838Sdim        Best = Temp;
293838Sdim    }
293838Sdim  }
309124Sdim
293838Sdim  ScheduledSUnits = Best.SUs;
293838Sdim  ScheduledSUnitsInv.resize(SUnits.size());
293838Sdim
293838Sdim  for (unsigned i = 0, e = (unsigned)SUnits.size(); i != e; ++i) {
293838Sdim    ScheduledSUnitsInv[ScheduledSUnits[i]] = i;
293838Sdim  }
293838Sdim
293838Sdim  moveLowLatencies();
293838Sdim
293838Sdim  // Tell the outside world about the result of the scheduling.
293838Sdim
293838Sdim  assert(TopRPTracker.getPos() == RegionBegin && "bad initial Top tracker");
293838Sdim  TopRPTracker.setPos(CurrentTop);
293838Sdim
293838Sdim  for (std::vector<unsigned>::iterator I = ScheduledSUnits.begin(),
293838Sdim       E = ScheduledSUnits.end(); I != E; ++I) {
293838Sdim    SUnit *SU = &SUnits[*I];
293838Sdim
293838Sdim    scheduleMI(SU, true);
293838Sdim
341825Sdim    LLVM_DEBUG(dbgs() << "Scheduling SU(" << SU->NodeNum << ") "
341825Sdim                      << *SU->getInstr());
293838Sdim  }
293838Sdim
293838Sdim  assert(CurrentTop == CurrentBottom && "Nonempty unscheduled zone.");
293838Sdim
293838Sdim  placeDebugValues();
293838Sdim
341825Sdim  LLVM_DEBUG({
327952Sdim    dbgs() << "*** Final schedule for "
327952Sdim           << printMBBReference(*begin()->getParent()) << " ***\n";
327952Sdim    dumpSchedule();
327952Sdim    dbgs() << '\n';
327952Sdim  });
293838Sdim}