ค้นหาอยู่พักหนึ่งก็ไม่พบคำตอบหรือแม้แต่ทิศทางที่จะมองไปข้างหน้า
ดังนั้น. คลัสเตอร์ XCP-NG ของเซิร์ฟเวอร์สามตัว HP DL360p G8, MSA 2060 iSCSI NAS พร้อมไดรฟ์ SAS 10K 12 ตัว, QNAP TS-1273U-RP, สวิตช์ Mikrotik CRS317 เครือข่ายการจัดเก็บอยู่ในสะพานเฉพาะใน mikrotik อุปกรณ์ทั้งหมดเชื่อมต่อด้วยสายทองแดงยาว 3 เมตร อุปกรณ์ทั้งหมดแสดงว่าลิงก์คือ 10G ฉันยังกำหนดค่า MTU เป็น 9000 ให้กับทุกอุปกรณ์ แต่ละเซิร์ฟเวอร์มีการ์ดอีเทอร์เน็ตที่มีสองอินเทอร์เฟซ หนึ่งใช้สำหรับเครือข่ายการจัดเก็บข้อมูลเท่านั้น (eth1 บนเซิร์ฟเวอร์ทั้งสามเครื่อง) เครือข่ายย่อยที่แตกต่างกันสำหรับเครือข่ายการจัดเก็บและเครือข่ายการจัดการ แบ็กเอนด์เครือข่าย Xen คือ openvswitch
เฟรมจัมโบ้กำลังทำงาน:
ping -M ทำ -s 8972 -c 2 10.100.200.10 -- QNAP
PING 10.100.200.10 (10.100.200.10) 8972(9000) ไบต์ของข้อมูล
8980 ไบต์จาก 10.100.200.10: icmp_seq=1 ttl=64 เวลา=1.01 ms
8980 ไบต์จาก 10.100.200.10: icmp_seq=2 ttl=64 เวลา=0.349 ms
--- สถิติ ping 10.100.200.10 ---
ส่ง 2 แพ็กเก็ต ได้รับ 2 แพ็กเก็ต การสูญเสียแพ็กเก็ต 0% เวลา 1001ms
rtt นาที/เฉลี่ย/สูงสุด/mdev = 0.349/0.682/1.015/0.333 มิลลิวินาที
ping -M ทำ -s 8972 -c 2 10.100.200.8 -- MSA 2060
PING 10.100.200.8 (10.100.200.8) 8972(9000) ไบต์ของข้อมูล
8980 ไบต์จาก 10.100.200.8: icmp_seq=1 ttl=64 เวลา=9.83 ms
8980 ไบต์จาก 10.100.200.8: icmp_seq=2 ttl=64 เวลา=0.215 ms
--- สถิติ ping 10.100.200.8 ---
ส่ง 2 แพ็กเก็ต ได้รับ 2 แพ็กเก็ต การสูญเสียแพ็กเก็ต 0% เวลา 1001ms
rtt นาที/เฉลี่ย/สูงสุด/mdev = 0.215/5.023/9.832/4.809 มิลลิวินาที
ปัญหา: เมื่อฉันคัดลอกเครื่องเสมือนจากที่เก็บข้อมูลหนึ่ง (QNAP) ไปยังอีกที่หนึ่ง (MSA) ความเร็วในการเขียนอยู่ที่ประมาณ 45MB/s เมื่อฉันคัดลอกไฟล์ขนาดใหญ่จาก QNAP (เช่น: ติดตั้ง iso) ไปยังที่เก็บข้อมูลในเครื่องของเซิร์ฟเวอร์ ความเร็วจะอยู่ที่ประมาณ 100MB/s และในเซิร์ฟเวอร์นั้น ท็อป
แสดงหนึ่งคอร์ที่มีการโหลด 100%
เห็นได้ชัดว่าเครือข่ายทำงานเหมือนเครือข่าย 1G
ข้อมูลบางอย่างเกี่ยวกับฮาร์ดแวร์
ethtool -i eth1
ไดรเวอร์: ixgbe
รุ่น: 5.5.2
เวอร์ชันเฟิร์มแวร์: 0x18b30001
รุ่นขยาย ROM:
ข้อมูลรถบัส: 0000:07:00.1
รองรับสถิติ: ใช่
รองรับการทดสอบ: ใช่
รองรับการเข้าถึง eeprom: ใช่
รองรับการลงทะเบียนการถ่ายโอนข้อมูล: ใช่
รองรับ priv-flags: ใช่
ethtool eth1
การตั้งค่าสำหรับ eth1:
พอร์ตที่รองรับ: [ ไฟเบอร์ ]
โหมดลิงค์ที่รองรับ: 10,000baseT/เต็ม
รองรับการใช้เฟรมหยุดชั่วคราว: สมมาตร
รองรับการเจรจาอัตโนมัติ: ไม่
โหมด FEC ที่รองรับ: ไม่ได้รายงาน
โหมดลิงก์ที่โฆษณา: 10,000baseT/เต็ม
การใช้เฟรมหยุดชั่วคราวที่โฆษณา: สมมาตร
การเจรจาอัตโนมัติที่โฆษณา: ไม่
โหมด FEC ที่โฆษณา: ไม่ได้รายงาน
ความเร็ว: 10,000Mb/s
ดูเพล็กซ์: เต็ม
พอร์ต: แนบทองแดงโดยตรง
ไฟแอด: 0
ตัวรับส่งสัญญาณ: ภายใน
การเจรจาอัตโนมัติ: ปิด
รองรับ Wake-on:d
การปลุก: ง
ระดับข้อความปัจจุบัน: 0x00000007 (7)
ลิงค์โพรบ drv
ตรวจพบลิงก์: ใช่
lspci | เกรปเน็ต
07:00.0 ตัวควบคุมอีเทอร์เน็ต: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01)
07:00.1 ตัวควบคุมอีเทอร์เน็ต: Intel Corporation 82599ES 10-Gigabit SFI/SFP+ Network Connection (rev 01)
จากนั้นฉันก็รันเซิร์ฟเวอร์ iper3 บนโฮสต์นี้: iperf3 -s -4
ผลลัพธ์บนโฮสต์เซิร์ฟเวอร์:
[ ID] แบนด์วิดธ์การถ่ายโอนช่วงเวลา
[ 5] 0.00-10.04 วินาที 0.00 ไบต์ 0.00 บิต/วินาที ผู้ส่ง
[ 5] 0.00-10.04 วินาที 5.48 GBytes ตัวรับ 4.69 Gbits/วินาที
[ 7] 0.00-10.04 วินาที 0.00 ไบต์ 0.00 บิต/วินาที ผู้ส่ง
[ 7] 0.00-10.04 วินาที 5.44 GBytes ตัวรับ 4.66 Gbits/วินาที
[SUM] 0.00-10.04 วินาที 0.00 ไบต์ 0.00 บิต/วินาที ผู้ส่ง
[SUM] 0.00-10.04 วินาที ตัวรับ 10.9 GBytes 9.35 Gbits/วินาที
และลูกค้าบนโฮสต์อื่น: iperf3 -c 10.100.200.20 -P 2 -t 10 -4
ผลลัพธ์บนโฮสต์ไคลเอนต์:
[ ID] แบนด์วิดธ์การโอนย้ายช่วงเวลา
[ 4] 0.00-10.00 วินาที 5.49 GBytes 4.72 Gbits/วินาที 112 ผู้ส่ง
[ 4] 0.00-10.00 วินาที 5.48 GBytes ตัวรับ 4.71 Gbits/วินาที
[ 6] 0.00-10.00 วินาที 5.45 GBytes 4.68 Gbits/วินาที 178 ผู้ส่ง
[ 6] 0.00-10.00 วินาที 5.44 GBytes ตัวรับ 4.67 Gbits/วินาที
[SUM] 0.00-10.00 วินาที 10.9 GBytes 9.40 Gbits/วินาที 290 ผู้ส่ง
[SUM] 0.00-10.00 วินาที 10.9 GBytes ตัวรับ 9.38 Gbits/วินาที
สิ่งที่ต้องทดสอบต่อไปหรือวิธีค้นหาคอขวด
iperf3 แสดงว่าลิงค์ทำงานด้วยความเร็ว 10Gbit หรือฉันตีความผลลัพธ์ไม่ถูกต้อง?
เวอร์ชันซอฟต์แวร์:
xe host-list params=software-version
เวอร์ชันซอฟต์แวร์ (MRO): product_version: 8.2.0; product_version_text: 8.2; product_version_text_short: 8.2; platform_name: XCP; platform_version: 3.2.0; product_brand: XCP-ng; build_number: รีลีส/สตอกโฮล์ม/มาสเตอร์/7; ชื่อโฮสต์: localhost; วันที่: 2021-05-20; dbv: 0.0.1; xapi: 1.20; xen: 4.13.1-9.11.1; ลินุกซ์: 4.19.0+1; xencenter_min: 2.16; xencenter_max: 2.16; network_backend: openvswitch; db_schema: 5.602
เวอร์ชันซอฟต์แวร์ (MRO): product_version: 8.2.0; product_version_text: 8.2; product_version_text_short: 8.2; platform_name: XCP; platform_version: 3.2.0; product_brand: XCP-ng; build_number: รีลีส/สตอกโฮล์ม/มาสเตอร์/7; ชื่อโฮสต์: localhost; วันที่: 2021-05-20; dbv: 0.0.1; xapi: 1.20; xen: 4.13.1-9.11.1; ลินุกซ์: 4.19.0+1; xencenter_min: 2.16; xencenter_max: 2.16; network_backend: openvswitch; db_schema: 5.602
เวอร์ชันซอฟต์แวร์ (MRO): product_version: 8.2.0; product_version_text: 8.2; product_version_text_short: 8.2; platform_name: XCP; platform_version: 3.2.0; product_brand: XCP-ng; build_number: รีลีส/สตอกโฮล์ม/มาสเตอร์/7; ชื่อโฮสต์: localhost; วันที่: 2021-05-20; dbv: 0.0.1; xapi: 1.20; xen: 4.13.1-9.11.1; ลินุกซ์: 4.19.0+1; xencenter_min: 2.16; xencenter_max: 2.16; network_backend: openvswitch; db_schema: 5.602
เซิร์ฟเวอร์อีกสองเครื่องมีการ์ด HP 530FLR-SFP+:
lspci | เกรปเน็ต
03:00.0 ตัวควบคุมอีเธอร์เน็ต: Broadcom Inc. และบริษัทสาขา NetXtreme II BCM57810 10 Gigabit Ethernet (rev 10)
03:00.1 ตัวควบคุมอีเธอร์เน็ต: Broadcom Inc. และบริษัทสาขา NetXtreme II BCM57810 10 Gigabit Ethernet (rev 10)
ethtool -i eth1
ไดรเวอร์: bnx2x
รุ่น: 1.714.24 พายุ 7.13.11.0
เฟิร์มแวร์เวอร์ชัน: bc 7.10.10
รุ่นขยาย ROM:
ข้อมูลรถบัส: 0000:03:00.1
รองรับสถิติ: ใช่
รองรับการทดสอบ: ใช่
รองรับการเข้าถึง eeprom: ใช่
รองรับการลงทะเบียนการถ่ายโอนข้อมูล: ใช่
รองรับ priv-flags: ใช่
ethtool eth1
การตั้งค่าสำหรับ eth1:
พอร์ตที่รองรับ: [ ไฟเบอร์ ]
โหมดลิงค์ที่รองรับ: 1000baseT/เต็ม
10,000baseT/เต็ม
รองรับการใช้เฟรมหยุดชั่วคราว: รับอย่างเดียวแบบสมมาตร
รองรับการเจรจาอัตโนมัติ: ไม่
โหมด FEC ที่รองรับ: ไม่ได้รายงาน
โหมดลิงก์ที่โฆษณา: 10,000baseT/เต็ม
การใช้เฟรมหยุดชั่วคราวที่โฆษณา: ไม่
การเจรจาอัตโนมัติที่โฆษณา: ไม่
โหมด FEC ที่โฆษณา: ไม่ได้รายงาน
ความเร็ว: 10,000Mb/s
ดูเพล็กซ์: เต็ม
พอร์ต: แนบทองแดงโดยตรง
ไฟแอด: 1
ตัวรับส่งสัญญาณ: ภายใน
การเจรจาอัตโนมัติ: ปิด
รองรับการปลุก: g
ปลุก: g
ระดับข้อความปัจจุบัน: 0x00000000 (0)
ตรวจพบลิงก์: ใช่
แก้ไข 1:
การทดสอบพื้นที่เก็บข้อมูลในเครื่อง:
dmesg | เกรป สดา
[ 13.093002] sd 0:1:0:0: [sda] 860051248 โลจิคัลบล็อก 512 ไบต์: (440 GB/410 GiB)
[ 13.093077] sd 0:1:0:0: [sda] ปิดการป้องกันการเขียน
[ 13.093080] sd 0:1:0:0: [sda] โหมดความรู้สึก: 73 00 00 08
[ 13.093232] sd 0:1:0:0: [sda] เขียนแคช: ปิดใช้งาน, อ่านแคช: เปิดใช้งาน, ไม่รองรับ DPO หรือ FUA
[13.112781] sda: sda1 sda2 sda3 sda4 sda5 sda6
[ 13.114348] sd 0:1:0:0: [sda] แนบดิสก์ SCSI
[ 15.267456] EXT4-fs (sda1): ติดตั้งระบบไฟล์ ext3 โดยใช้ระบบย่อย ext4
[15.268750] EXT4-fs (sda1): ติดตั้งระบบไฟล์ด้วยโหมดข้อมูลคำสั่ง ตัวเลือก: (null)
[ 17.597243] EXT4-fs (sda1): ติดตั้งใหม่ ตัวเลือก: (null)
[ 18.991998] เพิ่ม 1048572k swap ใน /dev/sda6 ลำดับความสำคัญ:-2 ขอบเขต:1 ทั่ว:1048572k
[ 19.279706] EXT4-fs (sda5): ติดตั้งระบบไฟล์ ext3 โดยใช้ระบบย่อย ext4
[ 19.281346] EXT4-fs (sda5): ติดตั้งระบบไฟล์ด้วยโหมดข้อมูลคำสั่ง ตัวเลือก: (null)
dd if=/dev/sda of=/dev/null bs=1024 count=1000000
1000000+0 บันทึกใน
บันทึกออก 1000000+0
คัดลอก 1024000000 ไบต์ (1.0 GB), 11.1072 วินาที, 92.2 MB/วินาที
เป็นเรื่องแปลกเนื่องจากเซิร์ฟเวอร์มีตัวควบคุม Smart Array P420i พร้อมแคช 2GB, การโจมตีฮาร์ดแวร์ 10 ของไดรฟ์ SAS 146GB 15k 6 ตัว iLo แสดงให้เห็นว่ามีพื้นที่เก็บข้อมูลทั้งหมดก็โอเค ผลลัพธ์ของเซิร์ฟเวอร์อื่นจะคล้ายกัน คัดลอก 1024000000 ไบต์ (1.0 GB), 11.8031 วินาที, 86.8 MB/วินาที
แก้ไข 2 (ทดสอบพื้นที่เก็บข้อมูลที่ใช้ร่วมกัน):
Qnap (SSD Raid10):
dd if=/run/sr-mount/23d45731-c005-8ad6-a596-bab2d12ec6b5/01ce9f2e-c5b1-4ba8-b783-d3a5c1ac54f0.vhd of=/dev/null bs=1024 count=1000000
1000000+0 บันทึกใน
บันทึกออก 1000000+0
คัดลอก 1024000000 ไบต์ (1.0 GB), 11.2902 วินาที, 90.7 MB/วินาที
MSA (การโจมตี HP MSA-DP+):
dd if=/dev/mapper/3600c0ff000647bc2259a2f6101000000 of=/dev/null bs=1024 นับ=1000000
1000000+0 บันทึกใน
บันทึกออก 1000000+0
คัดลอก 1024000000 ไบต์ (1.0 GB), 11.3974 วินาที, 89.8 MB/วินาที
ไม่เกิน 1 เครือข่าย Gigabit ...
ดังนั้น หากฉันถ่ายโอนอิมเมจ VM ระหว่างที่เก็บข้อมูลที่ใช้ร่วมกัน แสดงว่าที่เก็บข้อมูลในเครื่องจะไม่เกี่ยวข้อง openvswitch สามารถเป็นคอขวดได้หรือไม่?
แก้ไข 3 (การทดสอบดิสก์เพิ่มเติม):
sda = Raid10 ของ 6 x 146GB 15k sas, sdb = 146GB 15k SAS หนึ่งตัวใน Raid0
dd if=/dev/sdb of=/dev/null bs=1024 count=1000000
1000000+0 บันทึกใน
บันทึกออก 1000000+0
1024000000 ไบต์ (1.0 GB) คัดลอก 16.5326 วินาที 61.9 MB/วินาที
[14:35 xcp-ng-em ssh]# dd if=/dev/sdb of=/dev/null bs=512k count=1000
1,000+0 บันทึกใน
1,000+0 บันทึกออก
524288000 ไบต์ (524 MB) คัดลอก 8.48061 วินาที 61.8 MB/วินาที
[14:36 xcp-ng-em ssh]# dd if=/dev/sdb of=/dev/null bs=512k count=10000
10,000+0 บันทึกใน
10,000+0 บันทึกออก
คัดลอก 5242880000 ไบต์ (5.2 GB), 84.9631 วินาที, 61.7 MB/วินาที
[14:37 xcp-ng-em ssh]# dd if=/dev/sda of=/dev/null bs=512k count=10000
10,000+0 บันทึกใน
10,000+0 บันทึกออก
คัดลอก 5242880000 ไบต์ (5.2 GB), 7.03023 วินาที, 746 MB/วินาที