Project

General

Profile

Actions

Bug #38062

closed

proxy write misordering

Added by Sage Weil about 5 years ago. Updated about 5 years ago.

Status:
Resolved
Priority:
Normal
Assignee:
-
Category:
-
Target version:
-
% Done:

0%

Source:
Tags:
Backport:
Regression:
No
Severity:
3 - minor
Reviewed:
Affected Versions:
ceph-qa-suite:
Component(RADOS):
Pull request ID:
Crash signature (v1):
Crash signature (v2):

Description

out of order replies...

2019-01-28 01:07:33.850 7f170d940700  1 -- [v2:172.21.15.179:6800/37396,v1:172.21.15.179:6801/37396] --> v2:172.21.15.179:0/968020548 -- osd_op_reply(810 smithi17942435-185 oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo [write 692488~638288,stat] v0'0 uv97 ondisk = 0) v8 -- 0x55bd5f5ad900 con 0x55bd5e0bdc00
2019-01-28 01:07:33.858 7f170d940700  1 -- [v2:172.21.15.179:6800/37396,v1:172.21.15.179:6801/37396] --> v2:172.21.15.179:0/968020548 -- osd_op_reply(811 smithi17942435-185 oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo [write 1917275~606724] v0'0 uv102 ondisk = 0) v8 -- 0x55bd5f5adb80 con 0x55bd5e0bdc00
2019-01-28 01:07:33.859 7f170d940700  1 -- [v2:172.21.15.179:6800/37396,v1:172.21.15.179:6801/37396] --> v2:172.21.15.179:0/968020548 -- osd_op_reply(812 smithi17942435-185 oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo [setxattr _header (358),truncate 3092488] v0'0 uv103 ondisk = 0) v8 -- 0x55bd5f5adb80 con 0x55bd5e0bdc00
...
2019-01-28 01:07:33.880 7f170a139700  1 -- [v2:172.21.15.179:6800/37396,v1:172.21.15.179:6801/37396] --> v2:172.21.15.179:0/968020548 -- osd_op_reply(811 smithi17942435-185 oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo [write 1917275~606724] v30'42 uv102 ondisk = 0) v8 -- 0x55bd5efc5400 con 0x55bd5ebeb800
2019-01-28 01:07:33.880 7f170a139700  1 -- [v2:172.21.15.179:6800/37396,v1:172.21.15.179:6801/37396] --> v2:172.21.15.179:0/968020548 -- osd_op_reply(812 smithi17942435-185 oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo [setxattr _header (358),truncate 3092488] v30'42 uv103 ondisk = 0) v8 -- 0x55bd5f030500 con 0x55bd5ebeb800
2019-01-28 01:07:33.908 7f170a139700  1 -- [v2:172.21.15.179:6800/37396,v1:172.21.15.179:6801/37396] --> v2:172.21.15.179:0/968020548 -- osd_op_reply(810 smithi17942435-185 oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo [write 692488~638288,stat] v30'49 uv106 ondisk = 0) v8 -- 0x55bd5f50a280 con 0x55bd5ebeb800
2019-01-28 01:07:33.909 7f170a139700  1 -- [v2:172.21.15.179:6800/37396,v1:172.21.15.179:6801/37396] --> v2:172.21.15.179:0/968020548 -- osd_op_reply(813 smithi17942435-185 oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo [read 0~1] v0'0 uv106 ondisk = 0) v8 -- 0x55bd5efb5b80 con 0x55bd5ebeb800

/a/sage-2019-01-27_21:24:50-rados-wip-sage2-testing-2019-01-27-1015-distro-basic-smithi/3516669

that is, second con's replies are 811, 812, 810, 813

on that reconnect, 810 blocks on rw locks
811 replies immediately because reqid is complete

that came from the promote at

2019-01-28 01:07:33.869 7f170d940700 10 osd.0 pg_epoch: 30 pg[3.3( v 30'41 (0'0,30'41] local-lis/les=19/20 n=14 ec=19/19 lis/c 19/19 les/c/f 20/20/0 19/19/19) [0,6,1] r=0 lpr=19 luod=30'39 crt=30'41 lcod 30'38 mlcod 30'38 active+clean] append_log log((0'0,30'41], crt=30'41) [30'42 (0'0) promote  3:c9e3ac72:::smithi17942435-185 oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo:head by osd.0.0:69 2019-01-28 01:07:33.870578 0]
...
2019-01-28 01:07:33.869 7f170d940700 20 osd.0 pg_epoch: 30 pg[3.3( v 30'41 (0'0,30'41] local-lis/les=19/20 n=13 ec=19/19 lis/c 19/19 les/c/f 20/20/0 19/19/19) [0,6,1] r=0 lpr=19 luod=30'39 crt=30'41 lcod 30'38 mlcod 30'38 active+clean] finish_ctx  extra_reqids [client.4903.0:812,103,client.4903.0:811,102] {}

note that reqids 811 and 812 are there but not 810.

Actions #1

Updated by Sage Weil about 5 years ago

  • Status changed from In Progress to Resolved

1-pg-log-overrides/short_pg_log.yaml

the cache tier osd trimmed the event for the older op on the object, which didn't promote, which led to a misordered reply.

Actions

Also available in: Atom PDF