[v3,0/2] Minimize xa_node allocation during xarry split

Message ID	20250226210854.2045816-1-ziy@nvidia.com (mailing list archive)
Headers	show Return-Path: <owner-linux-mm@kvack.org> From: Zi Yan <ziy@nvidia.com> To: Baolin Wang <baolin.wang@linux.alibaba.com>, Matthew Wilcox <willy@infradead.org>, linux-mm@kvack.org, linux-fsdevel@vger.kernel.org Cc: Andrew Morton <akpm@linux-foundation.org>, Hugh Dickins <hughd@google.com>, Kairui Song <kasong@tencent.com>, Miaohe Lin <linmiaohe@huawei.com>, linux-kernel@vger.kernel.org, Zi Yan <ziy@nvidia.com> Subject: [PATCH v3 0/2] Minimize xa_node allocation during xarry split Date: Wed, 26 Feb 2025 16:08:52 -0500 Message-ID: <20250226210854.2045816-1-ziy@nvidia.com> Content-Transfer-Encoding: 8bit Content-Type: text/plain MIME-Version: 1.0 Sender: owner-linux-mm@kvack.org Precedence: bulk
Series	Minimize xa_node allocation during xarry split \| expand [v3,0/2] Minimize xa_node allocation during xarry split [v3,1/2] mm/filemap: use xas_try_split() in __filemap_add_folio() [v3,2/2] mm/shmem: use xas_try_split() in shmem_split_large_entry()

Message ID

20250226210854.2045816-1-ziy@nvidia.com (mailing list archive)

Headers

From: Zi Yan <ziy@nvidia.com>
To: Baolin Wang <baolin.wang@linux.alibaba.com>,
	Matthew Wilcox <willy@infradead.org>,
	linux-mm@kvack.org,
	linux-fsdevel@vger.kernel.org
Cc: Andrew Morton <akpm@linux-foundation.org>,
	Hugh Dickins <hughd@google.com>,
	Kairui Song <kasong@tencent.com>,
	Miaohe Lin <linmiaohe@huawei.com>,
	linux-kernel@vger.kernel.org,
	Zi Yan <ziy@nvidia.com>
Subject: [PATCH v3 0/2] Minimize xa_node allocation during xarry split
Date: Wed, 26 Feb 2025 16:08:52 -0500
Message-ID: <20250226210854.2045816-1-ziy@nvidia.com>
Content-Transfer-Encoding: 8bit
Content-Type: text/plain
MIME-Version: 1.0
X-MS-Exchange-AntiSpam-MessageData-ChunkCount: 1
X-MS-Exchange-AntiSpam-MessageData-0: 
 CQ8QcnWXnE8u3WhFwsQrddXmChvyzvhkcM9oRBuG3G6JQHmrNgiYX9p6IcxYs6lx0tN4JjePr4AYz2W63c8nxvJIXIJsjhSsMFj3OzbJlv1RR4ZYLD+fChG6dAbKzsKyE1Pzg1wxHuuDr6EcrNYJ+BjSrsHOknact/72cHqauKPPIo24ZhaRq+IzZBkHtRHpmavcwNTipxrHbXJJezd9ay6yz1kf2Lze1B2dZZqkORlBPK3Y7VbfpjkSWI3gCa6xKWYO3Hdf44l8SMZNUlpsM9yuanamDY0V7uilDvsADmDbKTrmegrIblbt2F4gvVBkouSD7Y5bbzqCteA89qJSojmK0fKmyRmftEanoobrrpHi3VYdrcFPIpkJTdXQYmNJo9Y/6htUbTbsxQlOy8GOw4kKx7lx0yuhIhB6XUk2wgtp3Sfd7RhbK5OMZsQzTbzeVtmg/1FyZ5+uDSMBvekM/iTwnWrCqtW+VrCE3JXZWyjh2aQgvXNFYwjEvS8YoLqR0oex3MHZLSy2VitrmgbDw1BZevhJTFii/RZQj4wMXAqKlUJfnQTslJHsxR0C5x0aMyJGZqFta5jrjFC/VMx0h1z+IkvcLNEe7+GMA9Z7KVXONxQLXAw65atZXH55n3U+KIzTXA4QSB8NzQgIzqIsw52x4A/8ZqHLmyxK/Hz+dXWwEzvpqGcxCnrqCDVqdgkWf01K4CywTMlFTmWJbegG26RfbIiOm5hT+UdbhY/ZYxyybWFIcG0d8DB2EttPbw+scckva7gpBy2Ro4j21Nsv/OjMwuLDMLK5FnHDIpGIcnCA412hsGeK4MHQn6XBy4fjw6Ql29cwHqoFvFA3Zb7l6CfbmjkEx4sWJ2SWm6kPGUeTJ/QHLSoemKUm3TvGOVSgavew34rLxYoYSA9N5XScbd0wlSTF7h5qHokJM89hM+FCznRHl/BtpT4QQcDTpdKR3f82gxZxn4pVQyvky7dp9T2jOAQuAePJcUsi/FtEumTIFt7FqEtT7Es9Ry5Aes6DRMqGLvA5QOU0io+qyGwLjmoPZ57b8FbHbykeCZJnohm+Bxi5N1LYoX2yz0fko20xphdq45/6CXtlX6Cw92ifwOn+wTfmcI+SXRM718puR8KIe5ODFmXPVzQmySOq7AbBiRioECmF4PmwjorRzDQ15gMrgXSgqwAxH7ZoqhO+xY8re2oWs+NYNC4NmUIHXceoZkp3FRiW08N5bZcXha9kmHvUwPaid6b9qUKy9e5NZl15fECfu7BdHsRtMS3gbkb22p8+4zqNTFJoP6SqoO/3UDL/TYoBrs+L/41la2+ebWi8F4faYBNT7GhtF+vGbbywcIYI2lDRxuZfnTddwGpryVHnNBvwdvYOGkBClkQH3QSwtK5X+BrLjCYYWgzaNS9sKaNajnECLpTegQAjSx08bq+IKjJ8Cf1JhaWXSKnJyWJ0bXMRpZxvH/wSIsLABIKX5ZObT8CmcDutlJY9umeuV2nTRmk+FVzUGm4oLXG2X7aNJNMOuegEuO6E6nng40aZ0vXdzQHwhuAJZSd/599W83kD1kPOT2daKxZxf3c+XbrgPWQOGl0lT2dEQrzlVfEj
X-OriginatorOrg: Nvidia.com
X-MS-Exchange-CrossTenant-Network-Message-Id: 
 12252f1b-a9f7-446f-db85-08dd56a9c8e0
X-MS-Exchange-CrossTenant-AuthSource: DS7PR12MB9473.namprd12.prod.outlook.com
X-MS-Exchange-CrossTenant-AuthAs: Internal
X-MS-Exchange-CrossTenant-OriginalArrivalTime: 26 Feb 2025 21:08:57.7362
 (UTC)
X-MS-Exchange-CrossTenant-FromEntityHeader: Hosted
X-MS-Exchange-CrossTenant-Id: 43083d15-7273-40c1-b7db-39efd9ccc17a
X-MS-Exchange-CrossTenant-MailboxType: HOSTED
X-MS-Exchange-CrossTenant-UserPrincipalName: 
 GbdqqOnGWA383FOC6NEswSZuvYJE7kHAoolfQcdc3a0uqEVDrXbxNQ7gmlfnYXvF
X-MS-Exchange-Transport-CrossTenantHeadersStamped: SA1PR12MB7221
X-Rspamd-Server: rspam02
X-Rspamd-Queue-Id: 64235140014
X-Stat-Signature: t1jnigucxyutp65br64gh88butt1ps6b
X-Rspam-User: 
X-HE-Tag: 1740604142-209013
X-HE-Meta: 
 U2FsdGVkX19Qyg/HJBCRum60wf9Wa6CJJ7Id7tnCPWOdSvRPKxMR44W955BXjivsbq3QJn0fHA09oXjy9+rhRg864fYLmacslACcnQzW9GG08Vw7QdQruklggZamHZRX14btQjXLdTyv+MSppDCL2RqQHwaM5/BaVGLrlwp9cx00wFMeXOlc15t03WJr4VGt1GD6SZsA8DgoQgiIFHEdwIbl8hli8Xqq89rOvRmxOlbVnSPyGm0rmj8gcZjzVN3KvURzuTIDePYzdTlJTbLHVGDNTKmgp/AsRmNThrezP+4IH2ON4zMjt9nkPRpoxB2iO3eHiBO/kMNgUw/ghDhnTZgBY9JwNmcQ/L5zuRtnv5jUw1O8nlwYyKaqe9WW3KKz9JdT3nWn765sf+xoYtVAQ+I7wkRhfdG0YQdbZwLZs/O4OvR8zluC46HPQFQHUPm0FmjEhjuQoIxnP7t5G8x1UDrBUcesYBnJMVuyEhtEdc6knke9Y1r0TT11gO1AqIDdg4M0pcp+CeceZvwPvKCdo7NGg7PSi0swrX5kZTDd0lGXK4czHlEYAbD2pxDBPxGOHPvkFzLsdqKNz+XJxEJ/KCOFpcPTikg7UuCw/VqYIESGlI5Q2IZztCBMACY2gFMymfmWEc+jxQ5+R8Ig86APMjyVbmb0tztjgKsMp9Ex54Kdbs4xQU8UNmuR6rauw5EtJhlB3AYySJX0Y31+B9ki83JivK0CQZbZ1AECE6gDLlfK4A3f+lCUIkjrAH4Pi7OofBH+moYngHbrQArFYaBVxPl423RXa201BLSBHS2NYbkADK3p2RKBqpdAsWQvuTVYFOmgisYwn7UqqnHnkqzWcHbO/0vpIYBO4HSGnDOjtIN10sjHy7RGaCchQI13Tt893uhP2rNq7EIHJhvUenn64QEnj6Gbt4TwAxhNQwReyVTVwwdTo+axrC4s9f8q1fP2I43EIL5z7ymFk4UoI1G
 TdqrNJzS
 MNdvM3To2GwMr2bGgL+ymm++wtmtrfCxunBkrQowuHVq4EnXW3mo4F8IiOK9qsq0egpl8ejt0eBdfcAD+Vv1mf50CpRuUaqnKkw1I/Serojng9VMEGVNUju1D7n4aUYT9f5cYuyG0NkBAjnCK6kM40iW0XP0S1zsoGofSSKgJqmZcvpXfMiqucvhm6nLnBTPeZLD2nR1brOiKF2nLxkTDQ0t7Vrn4q2fToO6/loM5cVlgf7EogLkY2BRp0jzkvCnxjQr5Ph+CJR2BL03Iv4IP4dpqtEE1BdXAegJ/888khZ6vZ1tPZgdoBIL0f112AUV+UXGbVgIkLdJzd1OUiVZfZlCwKkqE0d1n1mGpoM4QZQqSzWpDOxF6wDLoFBla7Ql8WB26hZynxh1Wn9HEWS8K7W9ihE0M/MEfdZ/POd/Wx4sIlQg=
X-Bogosity: Ham, tests=bogofilter, spamicity=0.012951, version=1.2.4
Sender: owner-linux-mm@kvack.org
Precedence: bulk
X-Loop: owner-majordomo@kvack.org
List-ID: <linux-mm.kvack.org>
List-Subscribe: <mailto:majordomo@kvack.org>
List-Unsubscribe: <mailto:majordomo@kvack.org>

Series

Minimize xa_node allocation during xarry split | expand

Message

Zi Yan Feb. 26, 2025, 9:08 p.m. UTC

Hi all,

When splitting a multi-index entry in XArray from order-n to order-m,
existing xas_split_alloc()+xas_split() approach requires
2^(n % XA_CHUNK_SHIFT) xa_node allocations. But its callers,
__filemap_add_folio() and shmem_split_large_entry(), use at most 1 xa_node.
To minimize xa_node allocation and remove the limitation of no split from
order-12 (or above) to order-0 (or anything between 0 and 5)[1],
xas_try_split() was added[2], which allocates
(n / XA_CHUNK_SHIFT - m / XA_CHUNK_SHIFT) xa_node. It is used
for non-uniform folio split, but can be used by __filemap_add_folio()
and shmem_split_large_entry().

xas_split_alloc() and xas_split() split an order-9 to order-0:

         ---------------------------------
         |   |   |   |   |   |   |   |   |
         | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
         |   |   |   |   |   |   |   |   |
         ---------------------------------
           |   |                   |   |
     -------   ---               ---   -------
     |           |     ...       |           |
     V           V               V           V
----------- -----------     ----------- -----------
| xa_node | | xa_node | ... | xa_node | | xa_node |
----------- -----------     ----------- -----------

xas_try_split() splits an order-9 to order-0:
   ---------------------------------
   |   |   |   |   |   |   |   |   |
   | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
   |   |   |   |   |   |   |   |   |
   ---------------------------------
     |
     |
     V
-----------
| xa_node |
-----------

xas_try_split() is designed to be called iteratively with n = m + 1.
xas_try_split_mini_order() is added to minmize the number of calls to
xas_try_split() by telling the caller the next minimal order to split to
instead of n - 1. Splitting order-n to order-m when m= l * XA_CHUNK_SHIFT
does not require xa_node allocation and requires 1 xa_node
when n=l * XA_CHUNK_SHIFT and m = n - 1, so it is OK to use
xas_try_split() with n > m + 1 when no new xa_node is needed.

xfstests quick group test passed on xfs and tmpfs.

It is on top of Buddy allocator like (or non-uniform)
folio split V9[2], which is on top of mm-everything-2025-02-26-03-56.

Changelog
===
From V2[3]:
1. Fixed shmem_split_large_entry() by setting swap offset correct.
   (Thank Baolin for the detailed review)
2. Used updated xas_try_split() to avoid a bug when xa_node is allocated
   by xas_nomem() instead of xas_try_split() itself.

Let me know your comments.


[1] https://lore.kernel.org/linux-mm/Z6YX3RznGLUD07Ao@casper.infradead.org/
[2] https://lore.kernel.org/linux-mm/20250226210032.2044041-1-ziy@nvidia.com/
[3] https://lore.kernel.org/linux-mm/20250218235444.1543173-1-ziy@nvidia.com/


Zi Yan (2):
  mm/filemap: use xas_try_split() in __filemap_add_folio()
  mm/shmem: use xas_try_split() in shmem_split_large_entry()

 include/linux/xarray.h |  7 +++++
 lib/xarray.c           | 25 ++++++++++++++++++
 mm/filemap.c           | 45 +++++++++++++-------------------
 mm/shmem.c             | 59 ++++++++++++++++++++----------------------
 4 files changed, 78 insertions(+), 58 deletions(-)