mlx4/mlx4_ib/mlx4_ib_mr.c

219820Sjeff/*
219820Sjeff * Copyright (c) 2007 Cisco Systems, Inc. All rights reserved.
219820Sjeff * Copyright (c) 2007, 2008 Mellanox Technologies. All rights reserved.
219820Sjeff *
219820Sjeff * This software is available to you under a choice of one of two
219820Sjeff * licenses.  You may choose to be licensed under the terms of the GNU
219820Sjeff * General Public License (GPL) Version 2, available from the file
219820Sjeff * COPYING in the main directory of this source tree, or the
219820Sjeff * OpenIB.org BSD license below:
219820Sjeff *
219820Sjeff *     Redistribution and use in source and binary forms, with or
219820Sjeff *     without modification, are permitted provided that the following
219820Sjeff *     conditions are met:
219820Sjeff *
219820Sjeff *      - Redistributions of source code must retain the above
219820Sjeff *        copyright notice, this list of conditions and the following
219820Sjeff *        disclaimer.
219820Sjeff *
219820Sjeff *      - Redistributions in binary form must reproduce the above
219820Sjeff *        copyright notice, this list of conditions and the following
219820Sjeff *        disclaimer in the documentation and/or other materials
219820Sjeff *        provided with the distribution.
219820Sjeff *
219820Sjeff * THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
219820Sjeff * EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
219820Sjeff * MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
219820Sjeff * NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS
219820Sjeff * BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN
219820Sjeff * ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN
219820Sjeff * CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
219820Sjeff * SOFTWARE.
219820Sjeff */
219820Sjeff
255932Salfred#include <linux/slab.h>
255932Salfred#include <linux/module.h>
255932Salfred#include <linux/sched.h>
255932Salfred
219820Sjeff#include "mlx4_ib.h"
219820Sjeff
219820Sjeffstatic u32 convert_access(int acc)
219820Sjeff{
219820Sjeff	return (acc & IB_ACCESS_REMOTE_ATOMIC ? MLX4_PERM_ATOMIC       : 0) |
219820Sjeff	       (acc & IB_ACCESS_REMOTE_WRITE  ? MLX4_PERM_REMOTE_WRITE : 0) |
219820Sjeff	       (acc & IB_ACCESS_REMOTE_READ   ? MLX4_PERM_REMOTE_READ  : 0) |
219820Sjeff	       (acc & IB_ACCESS_LOCAL_WRITE   ? MLX4_PERM_LOCAL_WRITE  : 0) |
278886Shselasky	       (acc & IB_ACCESS_MW_BIND       ? MLX4_PERM_BIND_MW      : 0) |
219820Sjeff	       MLX4_PERM_LOCAL_READ;
219820Sjeff}
278886Shselasky/* No suuport for Shared MR feature */
278886Shselasky#if 0
255932Salfredstatic ssize_t shared_mr_proc_read(struct file *file,
255932Salfred			  char __user *buffer,
255932Salfred			  size_t len,
255932Salfred			  loff_t *offset)
255932Salfred{
219820Sjeff
255932Salfred	return -ENOSYS;
255932Salfred
255932Salfred}
255932Salfred
255932Salfredstatic ssize_t shared_mr_proc_write(struct file *file,
255932Salfred			   const char __user *buffer,
255932Salfred			   size_t len,
255932Salfred			   loff_t *offset)
255932Salfred{
255932Salfred
255932Salfred	return -ENOSYS;
255932Salfred}
255932Salfred
255932Salfredstatic int shared_mr_mmap(struct file *filep, struct vm_area_struct *vma)
255932Salfred{
255932Salfred
255932Salfred	struct proc_dir_entry *pde = PDE(filep->f_path.dentry->d_inode);
255932Salfred	struct mlx4_shared_mr_info *smr_info =
255932Salfred		(struct mlx4_shared_mr_info *)pde->data;
255932Salfred
255932Salfred	/* Prevent any mapping not on start of area */
255932Salfred	if (vma->vm_pgoff != 0)
255932Salfred		return -EINVAL;
255932Salfred
255932Salfred	return ib_umem_map_to_vma(smr_info->umem,
255932Salfred					vma);
255932Salfred
255932Salfred}
255932Salfred
255932Salfredstatic const struct file_operations shared_mr_proc_ops = {
255932Salfred	.owner	= THIS_MODULE,
255932Salfred	.read	= shared_mr_proc_read,
255932Salfred	.write	= shared_mr_proc_write,
255932Salfred	.mmap	= shared_mr_mmap
255932Salfred};
255932Salfred
255932Salfredstatic mode_t convert_shared_access(int acc)
255932Salfred{
255932Salfred
255932Salfred	return (acc & IB_ACCESS_SHARED_MR_USER_READ ? S_IRUSR       : 0) |
255932Salfred	       (acc & IB_ACCESS_SHARED_MR_USER_WRITE  ? S_IWUSR : 0) |
255932Salfred	       (acc & IB_ACCESS_SHARED_MR_GROUP_READ   ? S_IRGRP  : 0) |
255932Salfred	       (acc & IB_ACCESS_SHARED_MR_GROUP_WRITE   ? S_IWGRP  : 0) |
255932Salfred	       (acc & IB_ACCESS_SHARED_MR_OTHER_READ   ? S_IROTH  : 0) |
255932Salfred	       (acc & IB_ACCESS_SHARED_MR_OTHER_WRITE   ? S_IWOTH  : 0);
255932Salfred
255932Salfred}
255932Salfred#endif
219820Sjeffstruct ib_mr *mlx4_ib_get_dma_mr(struct ib_pd *pd, int acc)
219820Sjeff{
219820Sjeff	struct mlx4_ib_mr *mr;
219820Sjeff	int err;
219820Sjeff
255932Salfred	mr = kzalloc(sizeof *mr, GFP_KERNEL);
219820Sjeff	if (!mr)
219820Sjeff		return ERR_PTR(-ENOMEM);
219820Sjeff
219820Sjeff	err = mlx4_mr_alloc(to_mdev(pd->device)->dev, to_mpd(pd)->pdn, 0,
219820Sjeff			    ~0ull, convert_access(acc), 0, 0, &mr->mmr);
219820Sjeff	if (err)
219820Sjeff		goto err_free;
219820Sjeff
219820Sjeff	err = mlx4_mr_enable(to_mdev(pd->device)->dev, &mr->mmr);
219820Sjeff	if (err)
219820Sjeff		goto err_mr;
219820Sjeff
219820Sjeff	mr->ibmr.rkey = mr->ibmr.lkey = mr->mmr.key;
219820Sjeff	mr->umem = NULL;
219820Sjeff
219820Sjeff	return &mr->ibmr;
219820Sjeff
219820Sjefferr_mr:
278886Shselasky	(void) mlx4_mr_free(to_mdev(pd->device)->dev, &mr->mmr);
219820Sjeff
219820Sjefferr_free:
219820Sjeff	kfree(mr);
219820Sjeff
219820Sjeff	return ERR_PTR(err);
219820Sjeff}
219820Sjeff
255932Salfredstatic int mlx4_ib_umem_write_mtt_block(struct mlx4_ib_dev *dev,
255932Salfred						struct mlx4_mtt *mtt,
255932Salfred						u64 mtt_size,
255932Salfred						u64 mtt_shift,
255932Salfred						u64 len,
255932Salfred						u64 cur_start_addr,
255932Salfred						u64 *pages,
255932Salfred						int *start_index,
255932Salfred						int *npages)
255932Salfred{
255932Salfred	int k;
255932Salfred	int err = 0;
255932Salfred	u64 mtt_entries;
255932Salfred	u64 cur_end_addr = cur_start_addr + len;
255932Salfred	u64 cur_end_addr_aligned = 0;
255932Salfred
255932Salfred	len += (cur_start_addr & (mtt_size-1ULL));
255932Salfred	cur_end_addr_aligned = round_up(cur_end_addr, mtt_size);
255932Salfred	len += (cur_end_addr_aligned - cur_end_addr);
255932Salfred	if (len & (mtt_size-1ULL)) {
255932Salfred		WARN(1 ,
255932Salfred		"write_block: len %llx is not aligned to mtt_size %llx\n",
278886Shselasky			(unsigned long long)len, (unsigned long long)mtt_size);
255932Salfred		return -EINVAL;
255932Salfred	}
255932Salfred
255932Salfred
255932Salfred	mtt_entries = (len >> mtt_shift);
255932Salfred
255932Salfred	/* Align the MTT start address to
255932Salfred		the mtt_size.
255932Salfred		Required to handle cases when the MR
255932Salfred		starts in the middle of an MTT record.
255932Salfred		Was not required in old code since
255932Salfred		the physical addresses provided by
255932Salfred		the dma subsystem were page aligned,
255932Salfred		which was also the MTT size.
255932Salfred	*/
255932Salfred	cur_start_addr = round_down(cur_start_addr, mtt_size);
255932Salfred	/* A new block is started ...*/
255932Salfred	for (k = 0; k < mtt_entries; ++k) {
255932Salfred		pages[*npages] = cur_start_addr + (mtt_size * k);
255932Salfred		(*npages)++;
255932Salfred		/*
255932Salfred		 * Be friendly to mlx4_write_mtt() and
255932Salfred		 * pass it chunks of appropriate size.
255932Salfred		 */
255932Salfred		if (*npages == PAGE_SIZE / sizeof(u64)) {
255932Salfred			err = mlx4_write_mtt(dev->dev,
255932Salfred					mtt, *start_index,
255932Salfred					*npages, pages);
255932Salfred			if (err)
255932Salfred				return err;
255932Salfred
255932Salfred			(*start_index) += *npages;
255932Salfred			*npages = 0;
255932Salfred		}
255932Salfred	}
255932Salfred
255932Salfred	return 0;
255932Salfred}
255932Salfred
219820Sjeffint mlx4_ib_umem_write_mtt(struct mlx4_ib_dev *dev, struct mlx4_mtt *mtt,
219820Sjeff			   struct ib_umem *umem)
219820Sjeff{
219820Sjeff	u64 *pages;
255932Salfred	u64 len = 0;
219820Sjeff	int err = 0;
255932Salfred	u64 mtt_size;
255932Salfred	u64 cur_start_addr = 0;
255932Salfred	u64 mtt_shift;
255932Salfred	int start_index = 0;
255932Salfred	int npages = 0;
278886Shselasky	struct scatterlist *sg;
278886Shselasky	int i;
219820Sjeff
219820Sjeff	pages = (u64 *) __get_free_page(GFP_KERNEL);
219820Sjeff	if (!pages)
219820Sjeff		return -ENOMEM;
219820Sjeff
255932Salfred	mtt_shift = mtt->page_shift;
255932Salfred	mtt_size = 1ULL << mtt_shift;
219820Sjeff
278886Shselasky	for_each_sg(umem->sg_head.sgl, sg, umem->nmap, i) {
255932Salfred			if (cur_start_addr + len ==
278886Shselasky			    sg_dma_address(sg)) {
255932Salfred				/* still the same block */
278886Shselasky				len += sg_dma_len(sg);
255932Salfred				continue;
219820Sjeff			}
255932Salfred			/* A new block is started ...*/
255932Salfred			/* If len is malaligned, write an extra mtt entry to
255932Salfred			    cover the misaligned area (round up the division)
255932Salfred			*/
255932Salfred			err = mlx4_ib_umem_write_mtt_block(dev,
255932Salfred						mtt, mtt_size, mtt_shift,
255932Salfred						len, cur_start_addr,
255932Salfred						pages,
255932Salfred						&start_index,
255932Salfred						&npages);
255932Salfred			if (err)
255932Salfred				goto out;
255932Salfred
255932Salfred			cur_start_addr =
278886Shselasky				sg_dma_address(sg);
278886Shselasky			len = sg_dma_len(sg);
296382Shselasky	}
219820Sjeff
255932Salfred	/* Handle the last block */
255932Salfred	if (len > 0) {
255932Salfred		/*  If len is malaligned, write an extra mtt entry to cover
255932Salfred		     the misaligned area (round up the division)
255932Salfred		*/
255932Salfred		err = mlx4_ib_umem_write_mtt_block(dev,
255932Salfred						mtt, mtt_size, mtt_shift,
255932Salfred						len, cur_start_addr,
255932Salfred						pages,
255932Salfred						&start_index,
255932Salfred						&npages);
255932Salfred			if (err)
255932Salfred				goto out;
255932Salfred	}
219820Sjeff
255932Salfred
255932Salfred	if (npages)
255932Salfred		err = mlx4_write_mtt(dev->dev, mtt, start_index, npages, pages);
255932Salfred
219820Sjeffout:
219820Sjeff	free_page((unsigned long) pages);
219820Sjeff	return err;
219820Sjeff}
219820Sjeff
255932Salfredstatic inline u64 alignment_of(u64 ptr)
219820Sjeff{
255932Salfred	return ilog2(ptr & (~(ptr-1)));
255932Salfred}
255932Salfred
255932Salfredstatic int mlx4_ib_umem_calc_block_mtt(u64 next_block_start,
255932Salfred						u64 current_block_end,
255932Salfred						u64 block_shift)
255932Salfred{
255932Salfred	/* Check whether the alignment of the new block
255932Salfred	     is aligned as well as the previous block.
255932Salfred	     Block address must start with zeros till size of entity_size.
255932Salfred	*/
255932Salfred	if ((next_block_start & ((1ULL << block_shift) - 1ULL)) != 0)
255932Salfred		/* It is not as well aligned as the
255932Salfred		previous block-reduce the mtt size
255932Salfred		accordingly.
255932Salfred		Here we take the last right bit
255932Salfred		which is 1.
255932Salfred		*/
255932Salfred		block_shift = alignment_of(next_block_start);
255932Salfred
255932Salfred	/*  Check whether the alignment of the
255932Salfred	     end of previous block - is it aligned
255932Salfred	     as well as the start of the block
255932Salfred	*/
255932Salfred	if (((current_block_end) & ((1ULL << block_shift) - 1ULL)) != 0)
255932Salfred		/* It is not as well aligned as
255932Salfred		the start of the block - reduce the
255932Salfred		mtt size accordingly.
255932Salfred		*/
255932Salfred		block_shift = alignment_of(current_block_end);
255932Salfred
255932Salfred	return block_shift;
255932Salfred}
255932Salfred
255932Salfred/* Calculate optimal mtt size based on contiguous pages.
255932Salfred* Function will return also the number of pages that are not aligned to the
255932Salfred   calculated mtt_size to be added to total number
255932Salfred    of pages. For that we should check the first chunk length & last chunk
255932Salfred    length and if not aligned to mtt_size we should increment
255932Salfred    the non_aligned_pages number.
255932Salfred    All chunks in the middle already handled as part of mtt shift calculation
255932Salfred    for both their start & end addresses.
255932Salfred*/
255932Salfredint mlx4_ib_umem_calc_optimal_mtt_size(struct ib_umem *umem,
255932Salfred						u64 start_va,
255932Salfred						int *num_of_mtts)
255932Salfred{
255932Salfred	u64 block_shift = MLX4_MAX_MTT_SHIFT;
255932Salfred	u64 current_block_len = 0;
255932Salfred	u64 current_block_start = 0;
255932Salfred	u64 misalignment_bits;
255932Salfred	u64 first_block_start = 0;
255932Salfred	u64 last_block_end = 0;
255932Salfred	u64 total_len = 0;
255932Salfred	u64 last_block_aligned_end = 0;
255932Salfred	u64 min_shift = ilog2(umem->page_size);
278886Shselasky	struct scatterlist *sg;
278886Shselasky	int i;
278886Shselasky	u64 next_block_start;
278886Shselasky	u64 current_block_end;
219820Sjeff
278886Shselasky	for_each_sg(umem->sg_head.sgl, sg, umem->nmap, i) {
255932Salfred		/* Initialization - save the first chunk start as
255932Salfred		    the current_block_start - block means contiguous pages.
255932Salfred		*/
255932Salfred		if (current_block_len == 0 && current_block_start == 0) {
255932Salfred			first_block_start = current_block_start =
278886Shselasky				sg_dma_address(sg);
255932Salfred			/* Find the bits that are different between
255932Salfred			    the physical address and the virtual
255932Salfred			    address for the start of the MR.
255932Salfred			*/
255932Salfred			/* umem_get aligned the start_va to a page
255932Salfred			   boundry. Therefore, we need to align the
255932Salfred			   start va to the same boundry */
255932Salfred			/* misalignment_bits is needed to handle the
255932Salfred			   case of a single memory region. In this
255932Salfred			   case, the rest of the logic will not reduce
255932Salfred			   the block size.  If we use a block size
255932Salfred			   which is bigger than the alignment of the
255932Salfred			   misalignment bits, we might use the virtual
255932Salfred			   page number instead of the physical page
255932Salfred			   number, resulting in access to the wrong
255932Salfred			   data. */
255932Salfred			misalignment_bits =
255932Salfred			(start_va & (~(((u64)(umem->page_size))-1ULL)))
255932Salfred						^ current_block_start;
255932Salfred			block_shift = min(alignment_of(misalignment_bits)
255932Salfred				, block_shift);
255932Salfred		}
219820Sjeff
278886Shselasky		/* Go over the scatter entries and check
255932Salfred		     if they continue the previous scatter entry.
255932Salfred		*/
278886Shselasky		next_block_start =
278886Shselasky			sg_dma_address(sg);
278886Shselasky		current_block_end = current_block_start
296382Shselasky			+ current_block_len;
296382Shselasky		/* If we have a split (non-contig.) between two block*/
296382Shselasky		if (current_block_end != next_block_start) {
296382Shselasky			block_shift = mlx4_ib_umem_calc_block_mtt(
296382Shselasky					next_block_start,
296382Shselasky					current_block_end,
296382Shselasky					block_shift);
219820Sjeff
296382Shselasky			/* If we reached the minimum shift for 4k
296382Shselasky			     page we stop the loop.
296382Shselasky			*/
296382Shselasky			if (block_shift <= min_shift)
296382Shselasky				goto end;
255932Salfred
296382Shselasky			/* If not saved yet we are in first block -
296382Shselasky			     we save the length of first block to
296382Shselasky			     calculate the non_aligned_pages number at
296382Shselasky			*    the end.
296382Shselasky			*/
296382Shselasky			total_len += current_block_len;
255932Salfred
296382Shselasky			/* Start a new block */
296382Shselasky			current_block_start = next_block_start;
296382Shselasky			current_block_len =
278886Shselasky				sg_dma_len(sg);
296382Shselasky			continue;
296382Shselasky		}
296382Shselasky		/* The scatter entry is another part of
296382Shselasky		     the current block, increase the block size
296382Shselasky		* An entry in the scatter can be larger than
296382Shselasky		4k (page) as of dma mapping
296382Shselasky		which merge some blocks together.
296382Shselasky		*/
296382Shselasky		current_block_len +=
278886Shselasky			sg_dma_len(sg);
255932Salfred	}
219820Sjeff
255932Salfred	/* Account for the last block in the total len */
255932Salfred	total_len += current_block_len;
255932Salfred	/* Add to the first block the misalignment that it suffers from.*/
255932Salfred	total_len += (first_block_start & ((1ULL<<block_shift)-1ULL));
255932Salfred	last_block_end = current_block_start+current_block_len;
255932Salfred	last_block_aligned_end = round_up(last_block_end, 1<<block_shift);
255932Salfred	total_len += (last_block_aligned_end - last_block_end);
255932Salfred
255932Salfred	WARN((total_len & ((1ULL<<block_shift)-1ULL)),
255932Salfred		" misaligned total length detected (%llu, %llu)!",
278886Shselasky		(unsigned long long)total_len, (unsigned long long)block_shift);
255932Salfred
255932Salfred	*num_of_mtts = total_len >> block_shift;
255932Salfredend:
255932Salfred	if (block_shift < min_shift) {
255932Salfred		/* If shift is less than the min we set a WARN and
255932Salfred		     return the min shift.
255932Salfred		*/
255932Salfred		WARN(1,
255932Salfred		"mlx4_ib_umem_calc_optimal_mtt_size - unexpected shift %lld\n",
278886Shselasky		(unsigned long long)block_shift);
255932Salfred
255932Salfred		block_shift = min_shift;
219820Sjeff	}
255932Salfred	return block_shift;
278886Shselasky
255932Salfred}
219820Sjeff
278886Shselasky/* No suuport for Shared MR */
278886Shselasky#if 0
255932Salfredstatic int prepare_shared_mr(struct mlx4_ib_mr *mr, int access_flags, int mr_id)
255932Salfred{
278886Shselasky
255932Salfred	struct proc_dir_entry *mr_proc_entry;
255932Salfred	mode_t mode = S_IFREG;
255932Salfred	char name_buff[16];
219820Sjeff
255932Salfred	mode |= convert_shared_access(access_flags);
255932Salfred	sprintf(name_buff, "%X", mr_id);
255932Salfred	mr->smr_info = kmalloc(sizeof(struct mlx4_shared_mr_info), GFP_KERNEL);
255932Salfred	mr->smr_info->mr_id = mr_id;
255932Salfred	mr->smr_info->umem = mr->umem;
219820Sjeff
255932Salfred	mr_proc_entry = proc_create_data(name_buff, mode,
255932Salfred				mlx4_mrs_dir_entry,
255932Salfred				&shared_mr_proc_ops,
255932Salfred				mr->smr_info);
255932Salfred
255932Salfred	if (!mr_proc_entry) {
255932Salfred		pr_err("prepare_shared_mr failed via proc\n");
255932Salfred		kfree(mr->smr_info);
255932Salfred		return -ENODEV;
255932Salfred	}
255932Salfred
255932Salfred	current_uid_gid(&(mr_proc_entry->uid), &(mr_proc_entry->gid));
255932Salfred	mr_proc_entry->size = mr->umem->length;
255932Salfred	return 0;
255932Salfred
219820Sjeff}
255932Salfredstatic int is_shared_mr(int access_flags)
255932Salfred{
255932Salfred	/* We should check whether IB_ACCESS_SHARED_MR_USER_READ or
255932Salfred	other shared bits were turned on.
255932Salfred	*/
255932Salfred	return !!(access_flags & (IB_ACCESS_SHARED_MR_USER_READ |
255932Salfred				IB_ACCESS_SHARED_MR_USER_WRITE |
255932Salfred				IB_ACCESS_SHARED_MR_GROUP_READ |
255932Salfred				IB_ACCESS_SHARED_MR_GROUP_WRITE |
255932Salfred				IB_ACCESS_SHARED_MR_OTHER_READ |
255932Salfred				IB_ACCESS_SHARED_MR_OTHER_WRITE));
219820Sjeff
255932Salfred}
278886Shselasky
278886Shselaskystatic void free_smr_info(struct mlx4_ib_mr *mr)
278886Shselasky{
278886Shselasky	/* When master/parent shared mr is dereged there is
278886Shselasky	no ability to share this mr any more - its mr_id will be
278886Shselasky	returned to the kernel as part of ib_uverbs_dereg_mr
278886Shselasky	and may be allocated again as part of other reg_mr.
278886Shselasky	*/
278886Shselasky	char name_buff[16];
278886Shselasky
278886Shselasky	sprintf(name_buff, "%X", mr->smr_info->mr_id);
278886Shselasky	/* Remove proc entry is checking internally that no operation
278886Shselasky	was strated on that proc fs file and if in the middle
278886Shselasky	current process will wait till end of operation.
278886Shselasky	That's why no sync mechanism is needed when we release
278886Shselasky	below the shared umem.
278886Shselasky	*/
278886Shselasky	remove_proc_entry(name_buff, mlx4_mrs_dir_entry);
278886Shselasky	kfree(mr->smr_info);
278886Shselasky	mr->smr_info = NULL;
278886Shselasky}
255932Salfred#endif
255932Salfred
278886Shselaskystatic void mlx4_invalidate_umem(void *invalidation_cookie,
278886Shselasky				struct ib_umem *umem,
278886Shselasky				unsigned long addr, size_t size)
278886Shselasky{
278886Shselasky	struct mlx4_ib_mr *mr = (struct mlx4_ib_mr *)invalidation_cookie;
278886Shselasky
278886Shselasky	/* This function is called under client peer lock so its resources are race protected */
278886Shselasky	if (atomic_inc_return(&mr->invalidated) > 1) {
278886Shselasky		umem->invalidation_ctx->inflight_invalidation = 1;
278886Shselasky		goto end;
278886Shselasky	}
278886Shselasky
278886Shselasky	umem->invalidation_ctx->peer_callback = 1;
278886Shselasky	mlx4_mr_free(to_mdev(mr->ibmr.device)->dev, &mr->mmr);
278886Shselasky	ib_umem_release(umem);
278886Shselasky	complete(&mr->invalidation_comp);
278886Shselasky
278886Shselaskyend:
278886Shselasky	return;
278886Shselasky
278886Shselasky}
278886Shselasky
219820Sjeffstruct ib_mr *mlx4_ib_reg_user_mr(struct ib_pd *pd, u64 start, u64 length,
219820Sjeff				  u64 virt_addr, int access_flags,
255932Salfred				  struct ib_udata *udata,
255932Salfred				  int mr_id)
219820Sjeff{
219820Sjeff	struct mlx4_ib_dev *dev = to_mdev(pd->device);
219820Sjeff	struct mlx4_ib_mr *mr;
219820Sjeff	int shift;
219820Sjeff	int err;
219820Sjeff	int n;
278886Shselasky	struct ib_peer_memory_client *ib_peer_mem;
219820Sjeff
255932Salfred	mr = kzalloc(sizeof *mr, GFP_KERNEL);
219820Sjeff	if (!mr)
219820Sjeff		return ERR_PTR(-ENOMEM);
219820Sjeff
278886Shselasky	mr->umem = ib_umem_get_ex(pd->uobject->context, start, length,
278886Shselasky			access_flags, 0, 1);
219820Sjeff	if (IS_ERR(mr->umem)) {
219820Sjeff		err = PTR_ERR(mr->umem);
219820Sjeff		goto err_free;
219820Sjeff	}
219820Sjeff
278886Shselasky	ib_peer_mem = mr->umem->ib_peer_mem;
255932Salfred	n = ib_umem_page_count(mr->umem);
255932Salfred	shift = mlx4_ib_umem_calc_optimal_mtt_size(mr->umem, start,
255932Salfred		&n);
255932Salfred	err = mlx4_mr_alloc(dev->dev, to_mpd(pd)->pdn, virt_addr, length,
255932Salfred			 convert_access(access_flags), n, shift, &mr->mmr);
255932Salfred	if (err)
255932Salfred		goto err_umem;
219820Sjeff
255932Salfred	err = mlx4_ib_umem_write_mtt(dev, &mr->mmr.mtt, mr->umem);
255932Salfred	if (err)
255932Salfred		goto err_mr;
219820Sjeff
219820Sjeff	err = mlx4_mr_enable(dev->dev, &mr->mmr);
219820Sjeff	if (err)
219820Sjeff		goto err_mr;
219820Sjeff
219820Sjeff	mr->ibmr.rkey = mr->ibmr.lkey = mr->mmr.key;
278886Shselasky/* No suuport for Shared MR */
278886Shselasky#if 0
255932Salfred	/* Check whether MR should be shared */
255932Salfred	if (is_shared_mr(access_flags)) {
255932Salfred	/* start address and length must be aligned to page size in order
255932Salfred	    to map a full page and preventing leakage of data */
255932Salfred		if (mr->umem->offset || (length & ~PAGE_MASK)) {
255932Salfred		        err = -EINVAL;
255932Salfred		        goto err_mr;
255932Salfred		}
219820Sjeff
255932Salfred		err = prepare_shared_mr(mr, access_flags, mr_id);
255932Salfred		if (err)
255932Salfred			goto err_mr;
255932Salfred	}
255932Salfred#endif
278886Shselasky	if (ib_peer_mem) {
278886Shselasky		if (access_flags & IB_ACCESS_MW_BIND) {
278886Shselasky			/* Prevent binding MW on peer clients.
278886Shselasky			* mlx4_invalidate_umem must be void,
278886Shselasky			* therefore, mlx4_mr_free should not fail
278886Shselasky			* when using peer clients. */
278886Shselasky			err = -ENOSYS;
278886Shselasky			pr_err("MW is not supported with peer memory client");
278886Shselasky			goto err_smr;
278886Shselasky		}
278886Shselasky		init_completion(&mr->invalidation_comp);
278886Shselasky		ib_umem_activate_invalidation_notifier(mr->umem,
278886Shselasky					mlx4_invalidate_umem, mr);
278886Shselasky	}
278886Shselasky
278886Shselasky	atomic_set(&mr->invalidated, 0);
219820Sjeff	return &mr->ibmr;
219820Sjeff
278886Shselaskyerr_smr:
278886Shselasky/* No suuport for Shared MR */
278886Shselasky#if 0
278886Shselasky	if (mr->smr_info)
278886Shselasky		free_smr_info(mr);
278886Shselasky#endif
219820Sjefferr_mr:
278886Shselasky	(void) mlx4_mr_free(to_mdev(pd->device)->dev, &mr->mmr);
219820Sjeff
219820Sjefferr_umem:
219820Sjeff	ib_umem_release(mr->umem);
219820Sjeff
219820Sjefferr_free:
219820Sjeff	kfree(mr);
219820Sjeff
219820Sjeff	return ERR_PTR(err);
219820Sjeff}
219820Sjeff
219820Sjeffint mlx4_ib_dereg_mr(struct ib_mr *ibmr)
219820Sjeff{
219820Sjeff	struct mlx4_ib_mr *mr = to_mmr(ibmr);
278886Shselasky	struct ib_umem *umem = mr->umem;
278886Shselasky	int ret;
219820Sjeff
278886Shselasky/* No suuport for Shared MR */
278886Shselasky#if 0
278886Shselasky	if (mr->smr_info)
278886Shselasky		free_smr_info(mr);
278886Shselasky#endif
255932Salfred
278886Shselasky	if (atomic_inc_return(&mr->invalidated) > 1) {
278886Shselasky		wait_for_completion(&mr->invalidation_comp);
278886Shselasky		goto end;
255932Salfred	}
255932Salfred
278886Shselasky	ret = mlx4_mr_free(to_mdev(ibmr->device)->dev, &mr->mmr);
278886Shselasky	if (ret) {
278886Shselasky		/* Error is not expected here, except when memory windows
278886Shselasky		* are bound to MR which is not supported with
278886Shselasky		* peer memory clients */
278886Shselasky		atomic_set(&mr->invalidated, 0);
278886Shselasky		return ret;
278886Shselasky	}
278886Shselasky
278886Shselasky	if (!umem)
278886Shselasky		goto end;
278886Shselasky
296382Shselasky	ib_umem_release(mr->umem);
278886Shselaskyend:
255932Salfred
219820Sjeff	kfree(mr);
219820Sjeff
219820Sjeff	return 0;
219820Sjeff}
219820Sjeff
278886Shselaskystruct ib_mw *mlx4_ib_alloc_mw(struct ib_pd *pd, enum ib_mw_type type)
278886Shselasky{
278886Shselasky	struct mlx4_ib_dev *dev = to_mdev(pd->device);
278886Shselasky	struct mlx4_ib_mw *mw;
278886Shselasky	int err;
278886Shselasky
278886Shselasky	mw = kmalloc(sizeof(*mw), GFP_KERNEL);
278886Shselasky	if (!mw)
278886Shselasky		return ERR_PTR(-ENOMEM);
278886Shselasky
278886Shselasky	err = mlx4_mw_alloc(dev->dev, to_mpd(pd)->pdn, (enum mlx4_mw_type)type, &mw->mmw);
278886Shselasky	if (err)
278886Shselasky		goto err_free;
278886Shselasky
278886Shselasky	err = mlx4_mw_enable(dev->dev, &mw->mmw);
278886Shselasky	if (err)
278886Shselasky		goto err_mw;
278886Shselasky
278886Shselasky	mw->ibmw.rkey = mw->mmw.key;
278886Shselasky
278886Shselasky	return &mw->ibmw;
278886Shselasky
278886Shselaskyerr_mw:
278886Shselasky	mlx4_mw_free(dev->dev, &mw->mmw);
278886Shselasky
278886Shselaskyerr_free:
278886Shselasky	kfree(mw);
278886Shselasky
278886Shselasky	return ERR_PTR(err);
278886Shselasky}
278886Shselasky
278886Shselaskyint mlx4_ib_bind_mw(struct ib_qp *qp, struct ib_mw *mw,
278886Shselasky		    struct ib_mw_bind *mw_bind)
278886Shselasky{
278886Shselasky	struct ib_send_wr  wr;
278886Shselasky	struct ib_send_wr *bad_wr;
278886Shselasky	int ret;
278886Shselasky
278886Shselasky	memset(&wr, 0, sizeof(wr));
278886Shselasky	wr.opcode               = IB_WR_BIND_MW;
278886Shselasky	wr.wr_id                = mw_bind->wr_id;
278886Shselasky	wr.send_flags           = mw_bind->send_flags;
278886Shselasky	wr.wr.bind_mw.mw        = mw;
278886Shselasky	wr.wr.bind_mw.bind_info = mw_bind->bind_info;
278886Shselasky	wr.wr.bind_mw.rkey      = ib_inc_rkey(mw->rkey);
278886Shselasky
278886Shselasky	ret = mlx4_ib_post_send(qp, &wr, &bad_wr);
278886Shselasky	if (!ret)
278886Shselasky		mw->rkey = wr.wr.bind_mw.rkey;
278886Shselasky
278886Shselasky	return ret;
278886Shselasky}
278886Shselasky
278886Shselaskyint mlx4_ib_dealloc_mw(struct ib_mw *ibmw)
278886Shselasky{
278886Shselasky	struct mlx4_ib_mw *mw = to_mmw(ibmw);
278886Shselasky
278886Shselasky	mlx4_mw_free(to_mdev(ibmw->device)->dev, &mw->mmw);
278886Shselasky	kfree(mw);
278886Shselasky
278886Shselasky	return 0;
278886Shselasky}
278886Shselasky
219820Sjeffstruct ib_mr *mlx4_ib_alloc_fast_reg_mr(struct ib_pd *pd,
219820Sjeff					int max_page_list_len)
219820Sjeff{
219820Sjeff	struct mlx4_ib_dev *dev = to_mdev(pd->device);
219820Sjeff	struct mlx4_ib_mr *mr;
219820Sjeff	int err;
219820Sjeff
255932Salfred	mr = kzalloc(sizeof *mr, GFP_KERNEL);
219820Sjeff	if (!mr)
219820Sjeff		return ERR_PTR(-ENOMEM);
219820Sjeff
219820Sjeff	err = mlx4_mr_alloc(dev->dev, to_mpd(pd)->pdn, 0, 0, 0,
219820Sjeff			    max_page_list_len, 0, &mr->mmr);
219820Sjeff	if (err)
219820Sjeff		goto err_free;
219820Sjeff
219820Sjeff	err = mlx4_mr_enable(dev->dev, &mr->mmr);
219820Sjeff	if (err)
219820Sjeff		goto err_mr;
219820Sjeff
219820Sjeff	mr->ibmr.rkey = mr->ibmr.lkey = mr->mmr.key;
219820Sjeff	mr->umem = NULL;
219820Sjeff
219820Sjeff	return &mr->ibmr;
219820Sjeff
219820Sjefferr_mr:
278886Shselasky	(void) mlx4_mr_free(dev->dev, &mr->mmr);
219820Sjeff
219820Sjefferr_free:
219820Sjeff	kfree(mr);
219820Sjeff	return ERR_PTR(err);
219820Sjeff}
219820Sjeff
219820Sjeffstruct ib_fast_reg_page_list *mlx4_ib_alloc_fast_reg_page_list(struct ib_device *ibdev,
219820Sjeff							       int page_list_len)
219820Sjeff{
219820Sjeff	struct mlx4_ib_dev *dev = to_mdev(ibdev);
219820Sjeff	struct mlx4_ib_fast_reg_page_list *mfrpl;
219820Sjeff	int size = page_list_len * sizeof (u64);
219820Sjeff
255932Salfred	if (page_list_len > MLX4_MAX_FAST_REG_PAGES)
219820Sjeff		return ERR_PTR(-EINVAL);
219820Sjeff
219820Sjeff	mfrpl = kmalloc(sizeof *mfrpl, GFP_KERNEL);
219820Sjeff	if (!mfrpl)
219820Sjeff		return ERR_PTR(-ENOMEM);
219820Sjeff
219820Sjeff	mfrpl->ibfrpl.page_list = kmalloc(size, GFP_KERNEL);
219820Sjeff	if (!mfrpl->ibfrpl.page_list)
219820Sjeff		goto err_free;
219820Sjeff
219820Sjeff	mfrpl->mapped_page_list = dma_alloc_coherent(&dev->dev->pdev->dev,
219820Sjeff						     size, &mfrpl->map,
219820Sjeff						     GFP_KERNEL);
219820Sjeff	if (!mfrpl->mapped_page_list)
219820Sjeff		goto err_free;
219820Sjeff
219820Sjeff	WARN_ON(mfrpl->map & 0x3f);
219820Sjeff
219820Sjeff	return &mfrpl->ibfrpl;
219820Sjeff
219820Sjefferr_free:
219820Sjeff	kfree(mfrpl->ibfrpl.page_list);
219820Sjeff	kfree(mfrpl);
219820Sjeff	return ERR_PTR(-ENOMEM);
219820Sjeff}
219820Sjeff
219820Sjeffvoid mlx4_ib_free_fast_reg_page_list(struct ib_fast_reg_page_list *page_list)
219820Sjeff{
219820Sjeff	struct mlx4_ib_dev *dev = to_mdev(page_list->device);
219820Sjeff	struct mlx4_ib_fast_reg_page_list *mfrpl = to_mfrpl(page_list);
219820Sjeff	int size = page_list->max_page_list_len * sizeof (u64);
219820Sjeff
219820Sjeff	dma_free_coherent(&dev->dev->pdev->dev, size, mfrpl->mapped_page_list,
219820Sjeff			  mfrpl->map);
219820Sjeff	kfree(mfrpl->ibfrpl.page_list);
219820Sjeff	kfree(mfrpl);
219820Sjeff}
219820Sjeff
219820Sjeffstruct ib_fmr *mlx4_ib_fmr_alloc(struct ib_pd *pd, int acc,
219820Sjeff				 struct ib_fmr_attr *fmr_attr)
219820Sjeff{
219820Sjeff	struct mlx4_ib_dev *dev = to_mdev(pd->device);
219820Sjeff	struct mlx4_ib_fmr *fmr;
219820Sjeff	int err = -ENOMEM;
219820Sjeff
219820Sjeff	fmr = kmalloc(sizeof *fmr, GFP_KERNEL);
219820Sjeff	if (!fmr)
219820Sjeff		return ERR_PTR(-ENOMEM);
219820Sjeff
219820Sjeff	err = mlx4_fmr_alloc(dev->dev, to_mpd(pd)->pdn, convert_access(acc),
219820Sjeff			     fmr_attr->max_pages, fmr_attr->max_maps,
219820Sjeff			     fmr_attr->page_shift, &fmr->mfmr);
219820Sjeff	if (err)
219820Sjeff		goto err_free;
219820Sjeff
219820Sjeff	err = mlx4_fmr_enable(to_mdev(pd->device)->dev, &fmr->mfmr);
219820Sjeff	if (err)
219820Sjeff		goto err_mr;
219820Sjeff
219820Sjeff	fmr->ibfmr.rkey = fmr->ibfmr.lkey = fmr->mfmr.mr.key;
219820Sjeff
219820Sjeff	return &fmr->ibfmr;
219820Sjeff
219820Sjefferr_mr:
278886Shselasky	(void) mlx4_mr_free(to_mdev(pd->device)->dev, &fmr->mfmr.mr);
219820Sjeff
219820Sjefferr_free:
219820Sjeff	kfree(fmr);
219820Sjeff
219820Sjeff	return ERR_PTR(err);
219820Sjeff}
219820Sjeff
219820Sjeffint mlx4_ib_map_phys_fmr(struct ib_fmr *ibfmr, u64 *page_list,
219820Sjeff		      int npages, u64 iova)
219820Sjeff{
219820Sjeff	struct mlx4_ib_fmr *ifmr = to_mfmr(ibfmr);
219820Sjeff	struct mlx4_ib_dev *dev = to_mdev(ifmr->ibfmr.device);
219820Sjeff
219820Sjeff	return mlx4_map_phys_fmr(dev->dev, &ifmr->mfmr, page_list, npages, iova,
219820Sjeff				 &ifmr->ibfmr.lkey, &ifmr->ibfmr.rkey);
219820Sjeff}
219820Sjeff
219820Sjeffint mlx4_ib_unmap_fmr(struct list_head *fmr_list)
219820Sjeff{
219820Sjeff	struct ib_fmr *ibfmr;
219820Sjeff	int err;
219820Sjeff	struct mlx4_dev *mdev = NULL;
219820Sjeff
219820Sjeff	list_for_each_entry(ibfmr, fmr_list, list) {
219820Sjeff		if (mdev && to_mdev(ibfmr->device)->dev != mdev)
219820Sjeff			return -EINVAL;
219820Sjeff		mdev = to_mdev(ibfmr->device)->dev;
219820Sjeff	}
219820Sjeff
219820Sjeff	if (!mdev)
219820Sjeff		return 0;
219820Sjeff
219820Sjeff	list_for_each_entry(ibfmr, fmr_list, list) {
219820Sjeff		struct mlx4_ib_fmr *ifmr = to_mfmr(ibfmr);
219820Sjeff
219820Sjeff		mlx4_fmr_unmap(mdev, &ifmr->mfmr, &ifmr->ibfmr.lkey, &ifmr->ibfmr.rkey);
219820Sjeff	}
219820Sjeff
219820Sjeff	/*
219820Sjeff	 * Make sure all MPT status updates are visible before issuing
219820Sjeff	 * SYNC_TPT firmware command.
219820Sjeff	 */
219820Sjeff	wmb();
219820Sjeff
219820Sjeff	err = mlx4_SYNC_TPT(mdev);
219820Sjeff	if (err)
255932Salfred		pr_warn("SYNC_TPT error %d when "
219820Sjeff		       "unmapping FMRs\n", err);
219820Sjeff
219820Sjeff	return 0;
219820Sjeff}
219820Sjeff
219820Sjeffint mlx4_ib_fmr_dealloc(struct ib_fmr *ibfmr)
219820Sjeff{
219820Sjeff	struct mlx4_ib_fmr *ifmr = to_mfmr(ibfmr);
219820Sjeff	struct mlx4_ib_dev *dev = to_mdev(ibfmr->device);
219820Sjeff	int err;
219820Sjeff
219820Sjeff	err = mlx4_fmr_free(dev->dev, &ifmr->mfmr);
219820Sjeff
219820Sjeff	if (!err)
219820Sjeff		kfree(ifmr);
219820Sjeff
219820Sjeff	return err;
219820Sjeff}