commit 33a072b66c4c0d4548bffe7424fd6dd857467818 Author: Pan Qiancheng <1220204124@zust.edu.cn> Date: Tue Sep 16 13:20:19 2025 +0800 上传文件至 / diff --git a/image-20250916080049645.png b/image-20250916080049645.png new file mode 100644 index 0000000..9caf1ae Binary files /dev/null and b/image-20250916080049645.png differ diff --git a/image-20250916090629277.png b/image-20250916090629277.png new file mode 100644 index 0000000..9f192dc Binary files /dev/null and b/image-20250916090629277.png differ diff --git a/image-20250916092514286.png b/image-20250916092514286.png new file mode 100644 index 0000000..8f938bd Binary files /dev/null and b/image-20250916092514286.png differ diff --git a/服务器压力测试报告.md b/服务器压力测试报告.md new file mode 100644 index 0000000..5db57f8 --- /dev/null +++ b/服务器压力测试报告.md @@ -0,0 +1,303 @@ +# Dell服务器压力测试结果报告 + +## 1. 测试概述 + +### 1.1 测试目的 + +对Dell服务器进行全面的压力测试,验证服务器硬件在高负载情况下的稳定性和性能表现,包括CPU、GPU及其他关键硬件组件的测试。 + +### 1.2 测试环境信息 + +![image-20250916090629277](./%E6%9C%8D%E5%8A%A1%E5%99%A8%E5%8E%8B%E5%8A%9B%E6%B5%8B%E8%AF%95%E6%8A%A5%E5%91%8A.assets/image-20250916090629277.png) + +![image-20250916092514286](./%E6%9C%8D%E5%8A%A1%E5%99%A8%E5%8E%8B%E5%8A%9B%E6%B5%8B%E8%AF%95%E6%8A%A5%E5%91%8A.assets/image-20250916092514286.png) + +- **测试日期**: 2025-9-16 +- **测试时间**: 9:07 +- **测试人员**: 潘前程 +- **系统版本**: Ubuntu-22.04 +- **内核版本**: Linux-5.15.0-78-generic + +### 1.3 测试工具 + +- **CPU压力测试**: stress-ng +- **GPU压力测试**: gpu-burn / nvidia-ml-py +- **内存稳定性测试**: memtester / stress-ng +- **磁盘性能测试**: fio (Flexible I/O Tester) +- **温度监控**: lm-sensors / ipmitool +- **系统监控**: htop / iotop / nvidia-smi + +## 2. 系统基础信息 + +### 2.1 硬件配置 + +- **CPU信息**: [CPU型号和规格] +- **CPU核心数**: [物理核心数] +- **CPU线程数**: [逻辑线程数] +- **内存总量**: [总内存容量GB] +- **内存类型**: [内存类型和频率] +- **GPU数量**: [GPU卡数量] +- **存储配置**: [存储设备信息] + +### 2.2 初始状态检查 + +- **系统负载**: [load average值] +- **可用内存**: [可用内存GB] +- **磁盘使用率**: [各分区使用率%] +- **初始温度**: [CPU/GPU初始温度°C] + +## 3. CPU压力测试结果 + +### 3.1 stress-ng CPU测试配置 + +**测试命令**: `stress-ng --cpu [CPU核心数] --cpu-method all --metrics --timeout [测试时长]s` + +**测试参数**: + +- 测试时长: [测试持续秒数] 秒 +- CPU负载类型: 综合算法测试 +- 并发进程数: [并发进程数量] + +### 3.2 CPU性能测试结果 + +- **测试开始时间**: [开始时间戳] +- **测试结束时间**: [结束时间戳] +- **测试状态**: [PASS/FAIL] +- **平均CPU使用率**: [平均使用率%] +- **峰值CPU使用率**: [峰值使用率%] +- **CPU频率稳定性**: [是否出现降频] + +### 3.3 CPU温度监控 + +| 监控时间 | CPU温度(°C) | 频率(MHz) | 负载(%) | 状态 | +| -------- | ------------ | ------------ | ------------ | ------ | +| 测试开始 | [初始温度] | [初始频率] | [初始负载] | [状态] | +| 5分钟后 | [5分钟温度] | [5分钟频率] | [5分钟负载] | [状态] | +| 10分钟后 | [10分钟温度] | [10分钟频率] | [10分钟负载] | [状态] | +| 15分钟后 | [15分钟温度] | [15分钟频率] | [15分钟负载] | [状态] | +| 测试结束 | [结束温度] | [结束频率] | [结束负载] | [状态] | + +### 3.4 CPU性能指标 + +- **最高温度**: [最高温度°C] +- **平均温度**: [平均温度°C] +- **温度峰值时刻**: [峰值出现时间] +- **是否触发保护**: [是/否] +- **错误计数**: [错误次数] + +## 4. 内存稳定性测试结果 + +### 4.1 内存测试配置 + +**测试工具**: memtester + stress-ng **测试命令**: + +- `memtester [测试内存大小]M [循环次数]` +- `stress-ng --vm [进程数] --vm-bytes [内存大小] --timeout [时长]s` + +### 4.2 内存测试参数 + +- **测试内存大小**: [测试的内存大小GB] +- **测试循环次数**: [循环测试次数] +- **并发进程数**: [内存压力进程数] +- **测试模式**: [测试模式描述] + +### 4.3 内存测试结果 + +- **测试状态**: [PASS/FAIL] +- **测试开始时间**: [开始时间] +- **测试结束时间**: [结束时间] +- **总测试时长**: [总时长分钟] +- **错误检测**: [发现的错误数量] +- **内存利用率峰值**: [峰值利用率%] + +### 4.4 内存性能指标 + +| 测试项目 | 测试结果 | 标准值 | 状态 | +| ------------ | -------------- | -------------- | ----------- | +| 内存读取速度 | [读取速度MB/s] | [标准读取速度] | [PASS/FAIL] | +| 内存写入速度 | [写入速度MB/s] | [标准写入速度] | [PASS/FAIL] | +| 内存延迟 | [延迟时间ns] | [标准延迟] | [PASS/FAIL] | +| ECC错误计数 | [ECC错误数] | 0 | [PASS/FAIL] | + +## 5. 磁盘性能测试结果 + +### 5.1 磁盘测试配置 + +**测试工具**: fio (Flexible I/O Tester) **测试参数**: + +- 随机读写测试 +- 顺序读写测试 +- 混合读写测试 + +### 5.2 磁盘设备信息 + +| 设备名 | 设备类型 | 容量 | 文件系统 | 挂载点 | +| ------- | --------- | -------- | ---------- | -------- | +| [设备1] | [SSD/HDD] | [容量GB] | [文件系统] | [挂载点] | +| [设备2] | [SSD/HDD] | [容量GB] | [文件系统] | [挂载点] | +| [设备3] | [SSD/HDD] | [容量GB] | [文件系统] | [挂载点] | + +### 5.3 磁盘性能测试结果 + +#### 5.3.1 顺序读写性能 + +| 设备 | 顺序读(MB/s) | 顺序写(MB/s) | IOPS读 | IOPS写 | +| ------- | ------------ | ------------ | -------- | -------- | +| [设备1] | [读取速度] | [写入速度] | [读IOPS] | [写IOPS] | +| [设备2] | [读取速度] | [写入速度] | [读IOPS] | [写IOPS] | +| [设备3] | [读取速度] | [写入速度] | [读IOPS] | [写IOPS] | + +#### 5.3.2 随机读写性能 + +| 设备 | 随机读(MB/s) | 随机写(MB/s) | 4K随机读IOPS | 4K随机写IOPS | +| ------- | ------------ | ------------ | ------------ | ------------ | +| [设备1] | [随机读速度] | [随机写速度] | [4K读IOPS] | [4K写IOPS] | +| [设备2] | [随机读速度] | [随机写速度] | [4K读IOPS] | [4K写IOPS] | +| [设备3] | [随机读速度] | [随机写速度] | [4K读IOPS] | [4K写IOPS] | + +### 5.4 磁盘健康状态 + +- **SMART状态**: [所有磁盘SMART状态] +- **坏道检测**: [是否发现坏道] +- **磁盘温度**: [各磁盘温度°C] +- **磁盘使用时间**: [磁盘运行小时数] + +## 6. GPU压力测试结果 + +### 6.1 GPU测试配置 + +**测试工具**: gpu-burn + nvidia-smi **测试命令**: `./gpu_burn -d [测试时长]` **测试参数**: 双精度浮点计算 + +### 6.2 GPU硬件信息 + +| GPU编号 | GPU型号 | 显存容量 | 驱动版本 | CUDA版本 | +| ------- | ---------- | ------------ | ---------- | ---------- | +| GPU 0 | [GPU0型号] | [显存容量GB] | [驱动版本] | [CUDA版本] | +| GPU 1 | [GPU1型号] | [显存容量GB] | [驱动版本] | [CUDA版本] | +| GPU 2 | [GPU2型号] | [显存容量GB] | [驱动版本] | [CUDA版本] | +| GPU 3 | [GPU3型号] | [显存容量GB] | [驱动版本] | [CUDA版本] | + +### 6.3 GPU性能测试结果 + +| GPU编号 | 运行速度(GFLOPS) | 峰值温度(°C) | 平均温度(°C) | 功耗(W) | 显存使用率(%) | 错误计数 | +| ------- | ---------------- | ------------ | ------------ | ------- | ------------- | -------- | +| GPU 0 | [GFLOPS数值] | [峰值温度] | [平均温度] | [功耗] | [显存使用率] | [错误数] | +| GPU 1 | [GFLOPS数值] | [峰值温度] | [平均温度] | [功耗] | [显存使用率] | [错误数] | +| GPU 2 | [GFLOPS数值] | [峰值温度] | [平均温度] | [功耗] | [显存使用率] | [错误数] | +| GPU 3 | [GFLOPS数值] | [峰值温度] | [平均温度] | [功耗] | [显存使用率] | [错误数] | + +## 7. 温度监控结果 + +### 7.1 系统温度监控配置 + +**监控工具**: lm-sensors + ipmitool **监控间隔**: [监控间隔秒数] 秒 **监控时长**: [总监控时长分钟] 分钟 + +### 7.2 温度监控数据 + +| 时间点 | CPU温度(°C) | GPU0温度(°C) | GPU1温度(°C) | GPU2温度(°C) | GPU3温度(°C) | 系统温度(°C) | +| -------- | ------------- | -------------- | -------------- | -------------- | -------------- | -------------- | +| 测试开始 | [CPU初温] | [GPU0初温] | [GPU1初温] | [GPU2初温] | [GPU3初温] | [系统初温] | +| 5分钟 | [CPU 5分钟] | [GPU0 5分钟] | [GPU1 5分钟] | [GPU2 5分钟] | [GPU3 5分钟] | [系统5分钟] | +| 10分钟 | [CPU 10分钟] | [GPU0 10分钟] | [GPU1 10分钟] | [GPU2 10分钟] | [GPU3 10分钟] | [系统10分钟] | +| 15分钟 | [CPU 15分钟] | [GPU0 15分钟] | [GPU1 15分钟] | [GPU2 15分钟] | [GPU3 15分钟] | [系统15分钟] | +| 20分钟 | [CPU 20分钟] | [GPU0 20分钟] | [GPU1 20分钟] | [GPU2 20分钟] | [GPU3 20分钟] | [系统20分钟] | +| 测试结束 | [CPU结束温度] | [GPU0结束温度] | [GPU1结束温度] | [GPU2结束温度] | [GPU3结束温度] | [系统结束温度] | + +### 7.3 温度异常监控 + +- **CPU最高温度**: [最高温度°C] (时间: [发生时间]) +- **GPU最高温度**: [最高温度°C] (设备: [GPU编号], 时间: [发生时间]) +- **温度警告次数**: [警告次数] +- **过热保护触发**: [是否触发 - 是/否] +- **风扇调速情况**: [风扇速度变化描述] + +## 8. 网络性能测试 + +### 8.1 网络接口信息 + +| 接口名 | 接口类型 | 速率 | 状态 | IP地址 | +| ------- | ----------- | ---------- | --------- | -------- | +| [网卡1] | [千兆/万兆] | [速率Gbps] | [UP/DOWN] | [IP地址] | +| [网卡2] | [千兆/万兆] | [速率Gbps] | [UP/DOWN] | [IP地址] | + +### 8.2 网络吞吐量测试 + +- **内网带宽测试**: [测试结果Mbps] +- **网络延迟**: [ping延迟ms] +- **丢包率**: [丢包率%] + +## 9. 系统整体性能评估 + +### 9.1 稳定性评估 + +- **系统运行稳定性**: [优秀/良好/一般/差] +- **温度控制表现**: [优秀/良好/一般/差] +- **功耗管理效果**: [优秀/良好/一般/差] +- **散热系统效率**: [优秀/良好/一般/差] + +### 9.2 性能基准对比 + +| 组件类型 | 测试结果 | 制造商标准 | 性能评级 | 达标状态 | +| -------- | ---------- | ---------- | --------- | ------------- | +| CPU性能 | [CPU得分] | [标准值] | [A/B/C/D] | [达标/不达标] | +| 内存性能 | [内存得分] | [标准值] | [A/B/C/D] | [达标/不达标] | +| 磁盘性能 | [磁盘得分] | [标准值] | [A/B/C/D] | [达标/不达标] | +| GPU性能 | [GPU得分] | [标准值] | [A/B/C/D] | [达标/不达标] | +| 网络性能 | [网络得分] | [标准值] | [A/B/C/D] | [达标/不达标] | + +## 10. 异常情况记录 + +### 10.1 错误日志汇总 + +- **CPU测试异常**: [异常描述或"无异常"] +- **内存测试异常**: [异常描述或"无异常"] +- **磁盘测试异常**: [异常描述或"无异常"] +- **GPU测试异常**: [异常描述或"无异常"] +- **温度异常**: [异常描述或"无异常"] + +### 10.2 警告信息汇总 + +- **性能降频事件**: [降频次数和原因] +- **温度超限警告**: [超限次数和时间] +- **硬件故障警告**: [故障警告详情] +- **其他系统警告**: [其他警告信息] + +### 10.3 系统日志关键信息 + +``` +[关键系统日志条目] +[dmesg | journalctl 中的重要错误信息] +``` + +## 11. 测试结论与建议 + +### 11.1 总体评估结果 + +**服务器整体状态**: [优秀/良好/一般/需要关注/故障] + +**关键发现**: + +- [发现1 - 例如:CPU在高负载下温度控制良好] +- [发现2 - 例如:内存性能达到预期标准] +- [发现3 - 例如:磁盘读写性能优异] +- [发现4 - 例如:GPU计算能力正常] + +### 11.2 各组件性能总结 + +- **CPU压力测试**: [通过/异常 - 具体描述] +- **内存稳定性测试**: [通过/异常 - 具体描述] +- **磁盘性能测试**: [通过/异常 - 具体描述] +- **GPU压力测试**: [通过/异常 - 具体描述] +- **温度监控**: [正常/异常 - 具体描述] + +### 11.3 问题与改进建议 + +1. **需要立即处理的问题**: [问题描述和解决建议] +2. **性能优化建议**: [优化建议1] +3. **维护建议**: [维护建议1] +4. **监控建议**: [监控建议1] + +### 11.4 后续工作建议 + +- **下次测试周期**: [建议的下次测试时间] +- **重点监控项目**: [需要重点关注的硬件或指标] \ No newline at end of file