[v13,137/137] mm/readahead: Add multi-page folio readahead

Message ID	20210712030701.4000097-138-willy@infradead.org (mailing list archive)
State	New
Headers	show Return-Path: <SRS0=Bpcp=ME=kvack.org=owner-linux-mm@kernel.org> DMARC-Filter: OpenDMARC Filter v1.3.2 mail.kernel.org C44C961152 From: "Matthew Wilcox (Oracle)" <willy@infradead.org> To: linux-kernel@vger.kernel.org Cc: "Matthew Wilcox (Oracle)" <willy@infradead.org>, linux-mm@kvack.org, linux-fsdevel@vger.kernel.org Subject: [PATCH v13 137/137] mm/readahead: Add multi-page folio readahead Date: Mon, 12 Jul 2021 04:07:01 +0100 Message-Id: <20210712030701.4000097-138-willy@infradead.org> In-Reply-To: <20210712030701.4000097-1-willy@infradead.org> References: <20210712030701.4000097-1-willy@infradead.org> MIME-Version: 1.0 Content-Transfer-Encoding: quoted-printable Sender: owner-linux-mm@kvack.org Precedence: bulk
Series	Memory folios \| expand [v13,000/137] Memory folios [v13,001/137] mm: Convert get_page_unless_zero() to return bool [v13,002/137] mm: Introduce struct folio [v13,003/137] mm: Add folio_pgdat(), folio_zone() and folio_zonenum() [v13,004/137] mm/vmstat: Add functions to account folio statistics [v13,005/137] mm/debug: Add VM_BUG_ON_FOLIO() and VM_WARN_ON_ONCE_FOLIO() [v13,006/137] mm: Add folio reference count functions [v13,007/137] mm: Add folio_put() [v13,008/137] mm: Add folio_get() [v13,009/137] mm: Add folio_try_get_rcu() [v13,010/137] mm: Add folio flag manipulation functions [v13,011/137] mm/lru: Add folio LRU functions [v13,012/137] mm: Handle per-folio private data [v13,013/137] mm/filemap: Add folio_index(), folio_file_page() and folio_contains() [v13,014/137] mm/filemap: Add folio_next_index() [v13,015/137] mm/filemap: Add folio_pos() and folio_file_pos() [v13,016/137] mm/util: Add folio_mapping() and folio_file_mapping() [v13,017/137] mm/filemap: Add folio_unlock() [v13,018/137] mm/filemap: Add folio_lock() [v13,019/137] mm/filemap: Add folio_lock_killable() [v13,020/137] mm/filemap: Add __folio_lock_async() [v13,021/137] mm/filemap: Add folio_wait_locked() [v13,022/137] mm/filemap: Add __folio_lock_or_retry() [v13,023/137] mm/swap: Add folio_rotate_reclaimable() [v13,024/137] mm/filemap: Add folio_end_writeback() [v13,025/137] mm/writeback: Add folio_wait_writeback() [v13,026/137] mm/writeback: Add folio_wait_stable() [v13,027/137] mm/filemap: Add folio_wait_bit() [v13,028/137] mm/filemap: Add folio_wake_bit() [v13,029/137] mm/filemap: Convert page wait queues to be folios [v13,030/137] mm/filemap: Add folio private_2 functions [v13,031/137] fs/netfs: Add folio fscache functions [v13,032/137] mm: Add folio_mapped() [v13,033/137] mm: Add folio_nid() [v13,034/137] mm/memcg: Remove 'page' parameter to mem_cgroup_charge_statistics() [v13,035/137] mm/memcg: Use the node id in mem_cgroup_update_tree() [v13,036/137] mm/memcg: Remove soft_limit_tree_node() [v13,037/137] mm/memcg: Convert memcg_check_events to take a node ID [v13,038/137] mm/memcg: Add folio_memcg() and related functions [v13,039/137] mm/memcg: Convert commit_charge() to take a folio [v13,040/137] mm/memcg: Convert mem_cgroup_charge() to take a folio [v13,041/137] mm/memcg: Convert uncharge_page() to uncharge_folio() [v13,042/137] mm/memcg: Convert mem_cgroup_uncharge() to take a folio [v13,043/137] mm/memcg: Convert mem_cgroup_migrate() to take folios [v13,044/137] mm/memcg: Convert mem_cgroup_track_foreign_dirty_slowpath() to folio [v13,045/137] mm/memcg: Add folio_memcg_lock() and folio_memcg_unlock() [v13,046/137] mm/memcg: Convert mem_cgroup_move_account() to use a folio [v13,047/137] mm/memcg: Add folio_lruvec() [v13,048/137] mm/memcg: Add folio_lruvec_lock() and similar functions [v13,049/137] mm/memcg: Add folio_lruvec_relock_irq() and folio_lruvec_relock_irqsave() [v13,050/137] mm/workingset: Convert workingset_activation to take a folio [v13,051/137] mm: Add folio_pfn() [v13,052/137] mm: Add folio_raw_mapping() [v13,053/137] mm: Add flush_dcache_folio() [v13,054/137] mm: Add kmap_local_folio() [v13,055/137] mm: Add arch_make_folio_accessible() [v13,056/137] mm: Add folio_young() and folio_idle() [v13,057/137] mm/swap: Add folio_activate() [v13,058/137] mm/swap: Add folio_mark_accessed() [v13,059/137] mm/rmap: Add folio_mkclean() [v13,060/137] mm/migrate: Add folio_migrate_mapping() [v13,061/137] mm/migrate: Add folio_migrate_flags() [v13,062/137] mm/migrate: Add folio_migrate_copy() [v13,063/137] mm/writeback: Rename __add_wb_stat() to wb_stat_mod() [v13,064/137] flex_proportions: Allow N events instead of 1 [v13,065/137] mm/writeback: Change __wb_writeout_inc() to __wb_writeout_add() [v13,066/137] mm/writeback: Add __folio_end_writeback() [v13,067/137] mm/writeback: Add folio_start_writeback() [v13,068/137] mm/writeback: Add folio_mark_dirty() [v13,069/137] mm/writeback: Add __folio_mark_dirty() [v13,070/137] mm/writeback: Add filemap_dirty_folio() [v13,071/137] mm/writeback: Add folio_account_cleaned() [v13,072/137] mm/writeback: Add folio_cancel_dirty() [v13,073/137] mm/writeback: Add folio_clear_dirty_for_io() [v13,074/137] mm/writeback: Add folio_account_redirty() [v13,075/137] mm/writeback: Add folio_redirty_for_writepage() [v13,076/137] mm/filemap: Add i_blocks_per_folio() [v13,077/137] mm/filemap: Add folio_mkwrite_check_truncate() [v13,078/137] mm/filemap: Add readahead_folio() [v13,079/137] mm/workingset: Convert workingset_refault() to take a folio [v13,080/137] mm: Add folio_evictable() [v13,081/137] mm/lru: Convert __pagevec_lru_add_fn to take a folio [v13,082/137] mm/lru: Add folio_add_lru() [v13,083/137] mm/page_alloc: Add folio allocation functions [v13,084/137] mm/filemap: Add filemap_alloc_folio [v13,085/137] mm/filemap: Add filemap_add_folio() [v13,086/137] mm/filemap: Convert mapping_get_entry to return a folio [v13,087/137] mm/filemap: Add filemap_get_folio [v13,088/137] mm/filemap: Add FGP_STABLE [v13,089/137] block: Add bio_add_folio() [v13,090/137] block: Add bio_for_each_folio_all() [v13,091/137] iomap: Convert to_iomap_page to take a folio [v13,092/137] iomap: Convert iomap_page_create to take a folio [v13,093/137] iomap: Convert iomap_page_release to take a folio [v13,094/137] iomap: Convert iomap_releasepage to use a folio [v13,095/137] iomap: Convert iomap_invalidatepage to use a folio [v13,096/137] iomap: Pass the iomap_page into iomap_set_range_uptodate [v13,097/137] iomap: Use folio offsets instead of page offsets [v13,098/137] iomap: Convert bio completions to use folios [v13,099/137] iomap: Convert readahead and readpage to use a folio [v13,100/137] iomap: Convert iomap_page_mkwrite to use a folio [v13,101/137] iomap: Convert iomap_write_begin and iomap_write_end to folios [v13,102/137] iomap: Convert iomap_read_inline_data to take a folio [v13,103/137] iomap: Convert iomap_write_end_inline to take a folio [v13,104/137] iomap: Convert iomap_add_to_ioend to take a folio [v13,105/137] iomap: Convert iomap_do_writepage to use a folio [v13,106/137] iomap: Convert iomap_migrate_page to use folios [v13,107/137] mm/filemap: Convert page_cache_delete to take a folio [v13,108/137] mm/filemap: Convert unaccount_page_cache_page to filemap_unaccount_folio [v13,109/137] mm/filemap: Add filemap_remove_folio and __filemap_remove_folio [v13,110/137] mm/filemap: Convert find_get_entry to return a folio [v13,111/137] mm/filemap: Convert filemap_get_read_batch to use folios [v13,112/137] mm/filemap: Convert find_get_pages_contig to folios [v13,113/137] mm/filemap: Convert filemap_read_page to take a folio [v13,114/137] mm/filemap: Convert filemap_create_page to folio [v13,115/137] mm/filemap: Convert filemap_range_uptodate to folios [v13,116/137] mm/filemap: Convert filemap_fault to folio [v13,117/137] mm/filemap: Add read_cache_folio and read_mapping_folio [v13,118/137] mm/filemap: Convert filemap_get_pages to use folios [v13,119/137] mm/filemap: Convert page_cache_delete_batch to folios [v13,120/137] mm/filemap: Remove PageHWPoison check from next_uptodate_page() [v13,121/137] mm/filemap: Use folios in next_uptodate_page [v13,122/137] mm/filemap: Use a folio in filemap_map_pages [v13,123/137] fs: Convert vfs_dedupe_file_range_compare to folios [v13,124/137] mm/truncate,shmem: Handle truncates that split THPs [v13,125/137] mm/filemap: Return only head pages from find_get_entries [v13,126/137] mm: Use multi-index entries in the page cache [v13,127/137] iomap: Support multi-page folios in invalidatepage [v13,128/137] xfs: Support THPs [v13,129/137] mm/truncate: Convert invalidate_inode_pages2_range to folios [v13,130/137] mm/truncate: Fix invalidate_complete_page2 for THPs [v13,131/137] mm/vmscan: Free non-shmem THPs without splitting them [v13,132/137] mm: Fix READ_ONLY_THP warning [v13,133/137] mm: Support arbitrary THP sizes [v13,134/137] mm/filemap: Allow multi-page folios to be added to the page cache [v13,135/137] mm/vmscan: Optimise shrink_page_list for smaller THPs [v13,136/137] mm/readahead: Convert page_cache_async_ra() to take a folio [v13,137/137] mm/readahead: Add multi-page folio readahead

Message ID

20210712030701.4000097-138-willy@infradead.org (mailing list archive)

State

New

Headers

DMARC-Filter: OpenDMARC Filter v1.3.2 mail.kernel.org C44C961152
From: "Matthew Wilcox (Oracle)" <willy@infradead.org>
To: linux-kernel@vger.kernel.org
Cc: "Matthew Wilcox (Oracle)" <willy@infradead.org>,
	linux-mm@kvack.org,
	linux-fsdevel@vger.kernel.org
Subject: [PATCH v13 137/137] mm/readahead: Add multi-page folio readahead
Date: Mon, 12 Jul 2021 04:07:01 +0100
Message-Id: <20210712030701.4000097-138-willy@infradead.org>
In-Reply-To: <20210712030701.4000097-1-willy@infradead.org>
References: <20210712030701.4000097-1-willy@infradead.org>
MIME-Version: 1.0
Content-Transfer-Encoding: quoted-printable
Sender: owner-linux-mm@kvack.org
Precedence: bulk

Series

Memory folios | expand

Commit Message

Matthew Wilcox July 12, 2021, 3:07 a.m. UTC

If the filesystem supports multi-page folios, allocate larger pages in
the readahead code when it seems worth doing.  The heuristic for choosing
larger page sizes will surely need some tuning, but this aggressive
ramp-up has been good for testing.

Signed-off-by: Matthew Wilcox (Oracle) <willy@infradead.org>
---
 mm/readahead.c | 102 +++++++++++++++++++++++++++++++++++++++++++++----
 1 file changed, 95 insertions(+), 7 deletions(-)

diff --git a/mm/readahead.c b/mm/readahead.c
index 30115a21e304..bb65fbac0b89 100644
--- a/mm/readahead.c
+++ b/mm/readahead.c
@@ -149,7 +149,7 @@  static void read_pages(struct readahead_control *rac, struct list_head *pages,
 
 	blk_finish_plug(&plug);
 
-	BUG_ON(!list_empty(pages));
+	BUG_ON(pages && !list_empty(pages));
 	BUG_ON(readahead_count(rac));
 
 out:
@@ -430,11 +430,99 @@  static int try_context_readahead(struct address_space *mapping,
 	return 1;
 }
 
+#ifdef CONFIG_TRANSPARENT_HUGEPAGE
+static inline int ra_alloc_folio(struct readahead_control *ractl, pgoff_t index,
+		pgoff_t mark, unsigned int order, gfp_t gfp)
+{
+	int err;
+	struct folio *folio = filemap_alloc_folio(gfp, order);
+
+	if (!folio)
+		return -ENOMEM;
+	if (mark - index < (1UL << order))
+		folio_set_readahead_flag(folio);
+	err = filemap_add_folio(ractl->mapping, folio, index, gfp);
+	if (err)
+		folio_put(folio);
+	else
+		ractl->_nr_pages += 1UL << order;
+	return err;
+}
+
+static void page_cache_ra_order(struct readahead_control *ractl,
+		struct file_ra_state *ra, unsigned int new_order)
+{
+	struct address_space *mapping = ractl->mapping;
+	pgoff_t index = readahead_index(ractl);
+	pgoff_t limit = (i_size_read(mapping->host) - 1) >> PAGE_SHIFT;
+	pgoff_t mark = index + ra->size - ra->async_size;
+	int err = 0;
+	gfp_t gfp = readahead_gfp_mask(mapping);
+
+	if (!mapping_thp_support(mapping) || ra->size < 4)
+		goto fallback;
+
+	limit = min(limit, index + ra->size - 1);
+
+	/* Grow page size up to PMD size */
+	if (new_order < HPAGE_PMD_ORDER) {
+		new_order += 2;
+		if (new_order > HPAGE_PMD_ORDER)
+			new_order = HPAGE_PMD_ORDER;
+		while ((1 << new_order) > ra->size)
+			new_order--;
+	}
+
+	while (index <= limit) {
+		unsigned int order = new_order;
+
+		/* Align with smaller pages if needed */
+		if (index & ((1UL << order) - 1)) {
+			order = __ffs(index);
+			if (order == 1)
+				order = 0;
+		}
+		/* Don't allocate pages past EOF */
+		while (index + (1UL << order) - 1 > limit) {
+			if (--order == 1)
+				order = 0;
+		}
+		err = ra_alloc_folio(ractl, index, mark, order, gfp);
+		if (err)
+			break;
+		index += 1UL << order;
+	}
+
+	if (index > limit) {
+		ra->size += index - limit - 1;
+		ra->async_size += index - limit - 1;
+	}
+
+	read_pages(ractl, NULL, false);
+
+	/*
+	 * If there were already pages in the page cache, then we may have
+	 * left some gaps.  Let the regular readahead code take care of this
+	 * situation.
+	 */
+	if (!err)
+		return;
+fallback:
+	do_page_cache_ra(ractl, ra->size, ra->async_size);
+}
+#else
+static void page_cache_ra_order(struct readahead_control *ractl,
+		struct file_ra_state *ra, unsigned int order)
+{
+	do_page_cache_ra(ractl, ra->size, ra->async_size);
+}
+#endif
+
 /*
  * A minimal readahead algorithm for trivial sequential/random reads.
  */
 static void ondemand_readahead(struct readahead_control *ractl,
-		bool hit_readahead_marker, unsigned long req_size)
+		struct folio *folio, unsigned long req_size)
 {
 	struct backing_dev_info *bdi = inode_to_bdi(ractl->mapping->host);
 	struct file_ra_state *ra = ractl->ra;
@@ -469,12 +557,12 @@  static void ondemand_readahead(struct readahead_control *ractl,
 	}
 
 	/*
-	 * Hit a marked page without valid readahead state.
+	 * Hit a marked folio without valid readahead state.
 	 * E.g. interleaved reads.
 	 * Query the pagecache for async_size, which normally equals to
 	 * readahead size. Ramp it up and use it as the new readahead size.
 	 */
-	if (hit_readahead_marker) {
+	if (folio) {
 		pgoff_t start;
 
 		rcu_read_lock();
@@ -547,7 +635,7 @@  static void ondemand_readahead(struct readahead_control *ractl,
 	}
 
 	ractl->_index = ra->start;
-	do_page_cache_ra(ractl, ra->size, ra->async_size);
+	page_cache_ra_order(ractl, ra, folio ? folio_order(folio) : 0);
 }
 
 void page_cache_sync_ra(struct readahead_control *ractl,
@@ -575,7 +663,7 @@  void page_cache_sync_ra(struct readahead_control *ractl,
 	}
 
 	/* do read-ahead */
-	ondemand_readahead(ractl, false, req_count);
+	ondemand_readahead(ractl, NULL, req_count);
 }
 EXPORT_SYMBOL_GPL(page_cache_sync_ra);
 
@@ -604,7 +692,7 @@  void page_cache_async_ra(struct readahead_control *ractl,
 		return;
 
 	/* do read-ahead */
-	ondemand_readahead(ractl, true, req_count);
+	ondemand_readahead(ractl, folio, req_count);
 }
 EXPORT_SYMBOL_GPL(page_cache_async_ra);

[v13,137/137] mm/readahead: Add multi-page folio readahead

Commit Message

Patch