[RFC] mm, page_alloc: double zone's batchsize

Message ID	2b51fa24-5fc7-f328-1bf3-a78f28eb742f@mellanox.com (mailing list archive)
State	New, archived
Headers	show Return-Path: <owner-linux-mm@kvack.org> Received-SPF: pass (google.com: domain of tariqt@mellanox.com designates 40.107.6.45 as permitted sender) client-ip=40.107.6.45; Subject: Re: [RFC PATCH] mm, page_alloc: double zone's batchsize To: Jesper Dangaard Brouer <brouer@redhat.com>, Michal Hocko <mhocko@kernel.org>, Tariq Toukan <tariqt@mellanox.com> Cc: Aaron Lu <aaron.lu@intel.com>, linux-mm@kvack.org, linux-kernel@vger.kernel.org, Andrew Morton <akpm@linux-foundation.org>, Huang Ying <ying.huang@intel.com>, Dave Hansen <dave.hansen@intel.com>, Kemi Wang <kemi.wang@intel.com>, Tim Chen <tim.c.chen@linux.intel.com>, Andi Kleen <ak@linux.intel.com>, Vlastimil Babka <vbabka@suse.cz>, Mel Gorman <mgorman@techsingularity.net>, Saeed Mahameed <saeedm@mellanox.com> References: <20180711055855.29072-1-aaron.lu@intel.com> <20180712125408.GL32648@dhcp22.suse.cz> <20180712155536.20023cc4@redhat.com> From: Tariq Toukan <tariqt@mellanox.com> Message-ID: <2b51fa24-5fc7-f328-1bf3-a78f28eb742f@mellanox.com> Date: Thu, 12 Jul 2018 18:01:12 +0300 User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101 Thunderbird/52.9.1 MIME-Version: 1.0 In-Reply-To: <20180712155536.20023cc4@redhat.com> Content-Type: text/plain; charset=utf-8; format=flowed Content-Language: en-US Content-Transfer-Encoding: 7bit Received-SPF: None (protection.outlook.com: mellanox.com does not designate permitted sender hosts) X-Microsoft-Exchange-Diagnostics: =?utf-8?B?MTtIRTFQUjA1TUIzMjU3OzIzOnF5alQxS3BQWExJckE3ZlNlejRTQ0paKy9j?= =?utf-8?B?UVZZM3M3bWtENGVrRnVuUjZRTGV2MTVURkF2b3lxVEwyZ2ZQbklCSWR4emRu?= =?utf-8?B?V0tReVlDT3BTbklzckU3a3RBUFpZZllmQ09aMXduU3AyVzVUSlcvNDNXeHNB?= =?utf-8?B?OTdQVi9qcG4yNjVwKzlva0RBY29BVFpEOWIrMVdNY1E4dW5oQ2tQY0FXYXpJ?= =?utf-8?B?NHdweDRGTXF6NCtqZmVPaUQrZ2lFcW5kZGRXR3B1cmUwYmZybzlrd25VTlEx?= =?utf-8?B?V3Z2NkZDb1lRRGlrZlZlaWlhSENPbmE5M2EzNERONVAwQTQyYVZaSjBmNEdo?= =?utf-8?B?TkxRMHJ6cXJjb2I0aXE0LzByQWVwOWdNbGJEWXBXQzZCK2VITmVnV0dCSWtr?= =?utf-8?B?UlJJYlJ0ckNpV1AwZi9nRHg4bzlNbE1wOEJiY1d4NUlteEhkOVM0MWxHcEdz?= =?utf-8?B?eURZWFBNQ0ZSQkRoNFo4YWk0ZjQ1YUNJRVIybzhScTBOQ2pTUEQrTGQ2bGFQ?= =?utf-8?B?YlNVcFpLRU1jWkxHRWlkQmtTT2c2Qk0zd00weDFDaVJ4N0IyU1NOcVM5WmdG?= =?utf-8?B?YVl4cWUrRXVwbFdSOTU3OXZrVVZBUG5DTU82cmZSaXRBeWRLY0RsVG5vVVJM?= =?utf-8?B?dHNSd2tBNEVUWDRPQ2dFS2tDanlqK2E1Uk1CWlJyRTNxczZ6TWhKT2NlYlNY?= =?utf-8?B?bWphWWNBT1lPeXptMThYK0UzRW1lL0xGVytDQnA3RGZaTFFLVUowT2JaZWp4?= =?utf-8?B?bVhaSFdhUER6K293TjhuaXN2NENENmE0K1E1TE9hdkIzTlFGeUlSSGRzTDdJ?= =?utf-8?B?d3dTblRVY3VIWTVkMGdNUjVWV2pvckdqTS8ycklOR2NSM0NyOWwyQWV5ZFJ1?= =?utf-8?B?cGx1SmhDcUZmSGJvNWhRLzVsMUxmSFJXMTNNS2gxdHQvVDNUOXRlYkhFdUxK?= =?utf-8?B?WHB0ai9KQ2pMRHovUTczTEJWZG8reGJ0bGVvMklWVEVMWm95enNSdGZMMU5Q?= =?utf-8?B?R1ZHNkp5aDE5T3RtQmNXU1YrajNOWkt6YWZOd0h3QkgvbzFaV202MEZOZzZP?= =?utf-8?B?bmJWZ3JqM3I0SE1wZyt5cUwwRWhhcjNFQ1U4WFZwYkt2bXFkdGdBcjRRUDVt?= =?utf-8?B?dThkSjE5dldSK2kvOW1icGR4K2hzYmEwWVhNaUhEemozallNcGtqY0FMb0Fr?= =?utf-8?B?bUJxdFMvdHBIcDNoNlp2VS8vcWQ0QTVETlJkek1YYU93QmtXTFpseHZibFhO?= =?utf-8?B?eXdhRVpFclhSSTZFVkJqNGJ3OG9RdVdnM1BhdjcyTTRrV0lQeUZjWXhpOHo4?= =?utf-8?B?NHlySEhCcTNnMlVDbVY2Nk1OVzhTd1EweVROYzdLM2t0MTVWMkNVb1pWT2hK?= =?utf-8?B?Y3JYSytsRzl5ZGtNYUxhaDcvRXZBVzR1aXFqQ0VJVlBPd3lwRURVV3VPWnlO?= =?utf-8?B?ZDA5T0lHSFNEbDZXSkF4bVVzdWU3ZEhCTlE3WmNaRk8vMDVmU29vTGFqTzg4?= =?utf-8?B?MERHT2ZlOENVa0NtR3JaQlV3b3p1dXhPTHJHUEVCVHhrcDN6cnN0OU8rR0dK?= =?utf-8?B?bUdNcHZMd0hMVTBaVElTaWY3dnFQQWcxbmJlMzFoY203eTFxN2crQkRBWGdQ?= =?utf-8?B?bmkxSi9VWFZGN0VTb0hqSitRc2ZaSGNROE9mNlpvckp3U3VtbWpjcTVVRE92?= =?utf-8?B?N2ljOUFBWkdUSCtKSlRhVGI1OUx5aHZYZFZHT2tqMHl0cG9qamJwcXhJQUxW?= =?utf-8?B?aFNLUm9DWFY3aWV0aUtFdHV1UWEwS2wwVmZMQTVvNzd6a1RXWG1CbFVhVXk4?= =?utf-8?B?TzJabVpsZHBOdi83am5uU3NONHM2UlFXd2FBcDNOT2l1VnpnbDdnSS9aU3hm?= =?utf-8?B?NS9salRWMHowQWJEQjQySDdmeE9oemcvNEJ4c0kyQjlrT1A5cU55WW1JeGZU?= =?utf-8?B?MnhaYWtkdFZyK3ZlbkFGTzQvYUM1U2ZGd254T0NGQkd5WWpJK2FNRU5GTjlx?= =?utf-8?B?Vi9UeXgyc0dpMU1EU29yRlk4SkdPRFFUVXFmZz09?= X-Microsoft-Antispam-Message-Info: cGwxY6ohSgnZ8lOkf2Bpfne9R+r/H9ap5DUAO7TZBcQVTQvClyez8/yGt/2YHD8oM6t9UQrS6LLdDaqf15MQv6yHJBXsX7ZiS17dlGztw2KdBqbbbF/nD47stn+9QVOnlaGLGFxhB4BfuxGzRiYuzDsG2AJUjYT7Og/IltloKWhdAyFQ+i8iCu0wpnXwLj1E50d+/VU35UJ+6Dv9kIEypA6fTzdZVN4qcjsHLqUUa4zk9/lg2wwOWJAVHdu1ZwiuFuUbuNZVBP3uRzU3Il76BBuoEM2EyuJvTx5uBYxU/x0DoRfNrxA9NKIwvVNR2sXaO2Av3gSXO8GWclOLg08fMsrT22St9fSrzx1sdsFvccY= X-Microsoft-Exchange-Diagnostics: 1; HE1PR05MB3257; 6:uB+4P10QGW3EoTc6TE/eZYMXKVMRRyRurrnl6GmpywEMmxJH+vPXo3/+JxAO2Xmt8JitqmHSc9/pZT9Pm1quFZjvYwvoaW541qBclzBNT2b07z+hzFNrhyDdFWewOBjNZK+JhKvBVxdTpzB1mDkCHrh6cmQvpDb6gG7vMJsTTrplf/HqJRJA+ygCKZvn8LIhcZ4aagfx2dt3nlTKXh1Zc8TSRTI3UP+GDJNb/C5zyx511Iu6kXs9nPbkDuAKlTZHdVjoH9uMBUnoxxePoTJFRj747qMVCG6hOtXQXUBRwe6G2eN9mq9mEB7miH3b8dJxckJ0E5ywAbNVdCzpsvohPTw/KHrSifIrtVZHyyyqJhXtYTMccqkmEq2QYJvW/y/hOIZmp+14mpnE0DHj4yzEfTOtcqcAEqrJYdZU9/BY57RiSku3kwjHiP3P/cRfdEYYnWkGGSghSZik4XhrIeqS6Q==; 5:P18LwTNBb8KLHxmXNbh1UUGd8Gcp5Ave1PLbFo738bnkUF5V7azOJKWu+/RHlwzXZmi/mhZXWRqyCb/d4WggqyNOpq2MOhOu3Zj5PuWAAm4DdBZWINuf/Rx5/Zrng/mwVEBaTZ3W4XxTPYc3tGvSYZ/L9pYYnrrFWOEqqlQzf1I=; 24:zJ0ZP1Ebf1GYF7ThlMZuA2NBJ3IiWWDyrjxvoeChwLQryAA+NOoifol7d8ZALoz1qqHQgFhUQ0OnygkQuhJgCxKaPJd6Q4nFGiTan61wnoI= SpamDiagnosticOutput: 1:99 SpamDiagnosticMetadata: NSPM X-Microsoft-Exchange-Diagnostics: 1; HE1PR05MB3257; 7:a3kMKZIcHfyXUP/O+VzK+IS8fo82OTddTHrIVdWVYa/HYLUI9A/jxAzDrK1HfMXgcSdBsRsF8MHXETpwS73D3/4LD9kU1UlTmFi5f45xxdh8XXnIcXEBS5aruBIba2DiIu/KH+5yEu9AkgurN/vod9l51bpGyUxZjpUSBtrk17pXPT3p0ZWAeKT1SLqx3+UXmeYxqHLkk8s+NZ/jMmDsFB8FInUGrkJ326/YFFyGs6aa5sjc4PhPLL2pb91BeH8E Sender: owner-linux-mm@kvack.org Precedence: bulk

Message ID

2b51fa24-5fc7-f328-1bf3-a78f28eb742f@mellanox.com (mailing list archive)

State

New, archived

Headers

Received-SPF: pass (google.com: domain of tariqt@mellanox.com designates
	40.107.6.45 as permitted sender) client-ip=40.107.6.45; 
Subject: Re: [RFC PATCH] mm, page_alloc: double zone's batchsize
To: Jesper Dangaard Brouer <brouer@redhat.com>,
	Michal Hocko <mhocko@kernel.org>, Tariq Toukan <tariqt@mellanox.com>
Cc: Aaron Lu <aaron.lu@intel.com>, linux-mm@kvack.org,
	linux-kernel@vger.kernel.org, Andrew Morton <akpm@linux-foundation.org>, 
	Huang Ying <ying.huang@intel.com>, Dave Hansen <dave.hansen@intel.com>,
	Kemi Wang <kemi.wang@intel.com>, Tim Chen <tim.c.chen@linux.intel.com>,
	Andi Kleen <ak@linux.intel.com>, Vlastimil Babka <vbabka@suse.cz>,
	Mel Gorman <mgorman@techsingularity.net>,
	Saeed Mahameed <saeedm@mellanox.com>
References: <20180711055855.29072-1-aaron.lu@intel.com>
	<20180712125408.GL32648@dhcp22.suse.cz>
	<20180712155536.20023cc4@redhat.com>
From: Tariq Toukan <tariqt@mellanox.com>
Message-ID: <2b51fa24-5fc7-f328-1bf3-a78f28eb742f@mellanox.com>
Date: Thu, 12 Jul 2018 18:01:12 +0300
User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64; rv:52.0) Gecko/20100101
	Thunderbird/52.9.1
MIME-Version: 1.0
In-Reply-To: <20180712155536.20023cc4@redhat.com>
Content-Type: text/plain; charset=utf-8; format=flowed
Content-Language: en-US
Content-Transfer-Encoding: 7bit
Received-SPF: None (protection.outlook.com: mellanox.com does not designate
	permitted sender hosts)
SpamDiagnosticOutput: 1:99
SpamDiagnosticMetadata: NSPM
X-MS-Exchange-CrossTenant-OriginalArrivalTime: 12 Jul 2018 15:02:48.3938
	(UTC)
X-MS-Exchange-CrossTenant-Network-Message-Id: 96281a6d-233d-4216-f101-08d5e808895e
X-MS-Exchange-CrossTenant-FromEntityHeader: Hosted
X-MS-Exchange-CrossTenant-Id: a652971c-7d2e-4d9b-a6a4-d149256f461b
X-MS-Exchange-Transport-CrossTenantHeadersStamped: HE1PR05MB3257
X-Bogosity: Ham, tests=bogofilter, spamicity=0.000000, version=1.2.4
Sender: owner-linux-mm@kvack.org
Precedence: bulk
X-Loop: owner-majordomo@kvack.org
List-ID: <linux-mm.kvack.org>
X-Virus-Scanned: ClamAV using ClamSMTP

Commit Message

Tariq Toukan July 12, 2018, 3:01 p.m. UTC

On 12/07/2018 4:55 PM, Jesper Dangaard Brouer wrote:
> On Thu, 12 Jul 2018 14:54:08 +0200
> Michal Hocko <mhocko@kernel.org> wrote:
> 
>> [CC Jesper - I remember he was really concerned about the worst case
>>   latencies for highspeed network workloads.]
> 
> Cc. Tariq as he have hit some networking benchmarks (around 100Gbit/s),
> where we are contenting on the page allocator lock, in a CPU scaling
> netperf test AFAIK.  I also have some special-case micro-benchmarks
> where I can hit it, but it a micro-bench...
> 

Thanks! Looks good.

Indeed, I simulated the page allocation rate of a 200Gbps NIC, and hit a 
major PCP/buddy bottleneck, where spinning the zonelock took up to 80% 
CPU, with dramatic BW degradation.

Test ran relatively small number of TCP streams (4-16) with unpinned 
application (iperf).

Larger batching reduces the contention on the zone lock and improves the 
CPU util. I also considered increasing the percpu_pagelist_fraction to a 
larger value (thought of 512, see patch below), which also affects the 
batch size (in pageset_set_high_and_batch).

As far as I see it, to totally solve the page allocation bottleneck for 
the increasing networking speeds, the following is still required:
1) optimize order-0 allocations (even on the cost of higher-order 
allocations).
2) bulking API for page allocations.
3) do SKB remote-release (on the originating core).

Regards,
Tariq

diff --git a/Documentation/sysctl/vm.txt b/Documentation/sysctl/vm.txt
index 697ef8c225df..88763bd716a5 100644
--- a/Documentation/sysctl/vm.txt
+++ b/Documentation/sysctl/vm.txt
@@ -741,9 +741,9 @@  of hot per cpu pagelists.  User can specify a number 
like 100 to allocate
  The batch value of each per cpu pagelist is also updated as a result. 
It is
  set to pcp->high/4.  The upper limit of batch is (PAGE_SHIFT * 8)

-The initial value is zero.  Kernel does not use this value at boot time 
to set
+The initial value is 512.  Kernel uses this value at boot time to set
  the high water marks for each per cpu page list.  If the user writes 
'0' to this
-sysctl, it will revert to this default behavior.
+sysctl, it will revert to a behavior based on batchsize calculation.

  ==============================================================

diff --git a/mm/page_alloc.c b/mm/page_alloc.c
index 1521100f1e63..c88e8eb50bcb 100644
--- a/mm/page_alloc.c
+++ b/mm/page_alloc.c
@@ -129,7 +129,7 @@ 
  unsigned long totalreserve_pages __read_mostly;
  unsigned long totalcma_pages __read_mostly;

-int percpu_pagelist_fraction;
+int percpu_pagelist_fraction = 512;
  gfp_t gfp_allowed_mask __read_mostly = GFP_BOOT_MASK;

  /*

[RFC] mm, page_alloc: double zone's batchsize

Commit Message

Patch