عیبیابی و رفع خطاهای سرور HPE ProLiant
رفع خطاهای سرور HPE ProLiant در منزل یا محل کار! سرور HP یکی از پرفروشترین محصولات شبکه در بازار است. بسیاری از مدیران شبکه سازمانها و ادارات، برای میزبانی از فایلها و سرویسهای شبکه به سرورهای کمپانی HP اطمینان میکنند. علت این موضوع هم به کیفیت بالا و قابلیتهای مدیریتی سرورهای HP برمیگردد. اما به عنوان مدیر شبکه، ممکن است با خطاهای مختلفی هنگام پیکربندی سرور و مدیریت شبکه مواجه شوید. در این مطلب میخواهیم خطاهای رایج در سرورهای HP و مفهوم آنها را بررسی کنیم. بررسی خطاها، نقش مهمی در شناخت ماهیت و منشا مشکلات به وجود آمده در سرور و نحوه رفع آنها خواهد داشت. با ما همراه باشید.
معرفی سرورهای اچ پی HPE ProLiant نسل نهم و دهم
سرورهای نسل نهم HP ProLiant، از برنامه مدیریتی HPE iLO نسخه ۴ بهره میبرند و محبوبیت بالایی در بین مدیران شبکه دارند. سرورهای نسل دهم HP ProLiant هم از فناوری Silicon Root of Trust این کمپانی بهره میبرند که باعث امنیت بسیار بالای آنها شده است. این فناوری، سرورهای اچ پی را در برابر حملات سایبری و هک شدن، تا حد زیادی محافظت میکند. همچنین این سرورها نسبت به نسل قبل، سریعتر و بهینهتر هستند.
سرورهای نسل ۹ و ۱۰ HPE ProLiant مثل:
را میتوانید در ایران هم با قیمتهای مناسب، تهیه کنید. همچنین تجهیزات سازگار با این سرورها مثل انواع رک شبکه و کابل شبکه هم در کشور ما موجود است.
آشنایی با خطاهای رایج در سرورهای HPE ProLiant
در یک سرور HP، ممکن است خطاهای مختلفی رخ دهد. البته باید بدانید که سرورهای HP، بسیار قابل اطمینان و با دوام هستند؛ با این وجود ممکن است تحت شرایطی، دچار مشکلات مختلفی شوند و خطاهای خاصی را به شما نشان دهند. در ادامه به این خطاها اشاره میکنیم.
رفع خطاهای سرور HPE ProLiant؛ خطاهای مربوط به پردازنده
پردازندهها وظیفه انجام تمامی محاسبات لازم برای انجام دستورالعملهای کاربر را بر عهده دارند. پردازندههای امروزی بسیار قدرتمند هستند و میتوانند در کسری از ثانیه، محاسبات مربوط به هزاران دستور را انجام دهند.
مهمترین خطاهای مربوط به پردازنده عبارتاند از:
۱- خطای ۲۱۲: CPU failed
- علت: خرابی پردازنده
- راه حل: شناسایی پردازنده معیوب با استفاده از ابزار HPE Insight Diagnostics و جایگزین کردن آن با یک پردازنده سالم.
۲- خطای ۲۱۳: CPU installation error
- علت: پردازنده به صورت صحیح در جای خود قرار نگرفته است.
- راه حل: پردازنده را به صورت صحیح در جای خود قرار دهید.
۳- خطای ۲۱۷: Processor cannot cache all installed memory
- علت: پردازنده از عهده کش کردن تمامی حافظههای موجود در سرور برنمیآید؛ چرا که ظرفیت حافظه نصب شده روی سرور از حداکثر ظرفیت پشتیبانی شده، بیشتر است.
- راه حل: حافظههای اضافی را از سرور جدا کنید.
خطاهای مربوط به مشکلات هارد درایو سرور HP
خطاهای مربوط به مشکلات هارد درایو سرور HP
هارد درایو یک سرور ممکن است مشکلات مکانیکی، الکترونیکی و منطقی مختلفی را تجربه کند.
- مشکلات مکانیکی معمولا به علت ضربه خوردن یا افتادن هارد درایو یا قرار دادن آن در شرایط محیطی نامناسب رخ میدهد (به خصوص در هاردهای HDD).
- مشکلات الکترونیکی هم ممکن است به علت شوک الکتریکی، تغییر ناگهانی ولتاژ یا گرم شدن بیش از حد هارد درایو رخ دهد.
- مشکلات منطقی هم ممکن است به علت خرابی دادهها، تغییر تنظیمات رجیستری یا فرمت کردن تصادفی درایوها به وجود بیاید.
در این صورت میتوان با تعویض هارد یا با استفاده از ابزارهای مبتنی بر خط فرمان مثل fsck در لینوکس و chkdsk در ویندوز، مشکلات منطقی هارد درایو را شناسایی و رفع کرد. مهمترین خطاهای مربوط به عملکرد هارد درایو در سرور HP عبارتاند از:
۴- خطای ۴۰۴: Parallel Port Address Conflict Detected
- علت: اختلال در عملکرد یک مؤلفه سختافزاری باعث تداخل در عملکرد درگاه موازی میشود.
- راه حل: اگر به تازگی یک سختافزار را به سرور اضافه کردهاید، آن را برای بررسی این که آیا خطا رفع میشود یا نه، جدا کنید.
۵- خطای ۱۷۰۹: One or more attached hard drives could not be authenticated
- علت: سرور قادر به شناسایی یک یا چند تا از هارد درایوها نبوده است.
- راه حل: از ابزار HPE SSA کمک بگیرید.
۶- خطای ۱۷۱۰: Slot X Drive Array – Non-Array Controller Drives Detected
- علت: اتصال یک یا چند درایور فیزیکی به non-array controller
- راه حل: خاموش کردن سرور و سپس، خارج کردن هارد درایو
۷- خطای ۱۷۱۱: Slot # Drive Array – Stripe size too large
- علت: اندازه پارامتر stripe برای سطوح ۵ یا ۶ RAID در درایوهای منطقی، بزرگتر است.
- راه حل: انجام عملیات RAID Migration با استفاده از ابزار HPE SSA.
۸- خطای ۱۷۱۲: Slot X Drive Array – RAID 5 volume(s) present
- علت: اندازه حافظه کش (Cache) برای تنظیمات فعلی، مناسب نیست.
- راه حل:
- انتقال درایو منطقی به سطوح صفر یا یک RAID.
- کاهش تعداد درایوهای موجود در Array.
۹- خطای ۱۷۱۶: Slot # Drive Array – Unrecoverable Media Errors Detected on Drives
- علت: خطایی در هنگام پخش مدیا در یک هارد درایو یا درایو موجود در همان Array رخ داده است.
- راه حل: پس از تهیه نسخه پشتیبان، فایلهای موجود در درایو را بازیابی کنید.
۱۰- خطای ۱۷۱۷: Slot X Drive Array – Disk Drive(s) Reporting OVERHEATED Condition
- علت: هارد درایوهایی که به آنها اشاره شد، بیش از حد گرم شدهاند.
- راه حل: فنهای سرور HP را بررسی کنید و از وجود جریان هوای مناسب، اطمینان حاصل کنید.
۱۱- خطای ۱۷۲۰: Slot X Drive Array – S.M.A.R.T. Hard Drive(s) Detect imminent failure
- علت: نزدیک شدن هارد درایو به پایان عمر خود
- راه حل: اگر جدا کردن این هارد، اختلالی در عملکرد سرور ایجاد نمیکند، از فایلهای موجود در آن نسخه پشتیبان تهیه کرده و پس اتصال هارد جدید، آنها را بازیابی کنید.
۱۲- خطای ۱۷۲۴: -Slot # Drive Array – Physical Drive Position Change(s) Detected
- علت: پیکربندی درایوهای منطقی پس از تغییرات هاردهای فیزیکی، به صورت خودکار آپدیت شدهاند.
- راه حل: با استفاده از ابزار HPE SSA، هاردهای Spare را بازتعریف کنید.
۱۳- خطای ۱۷۲۷: Slot X Drive Array – New (or Previously Failed) Logical Drive(s) Attachment Detected
- علت: آرایه جدیدی از درایوها که در زمان خاموش بودن سرور به آن اضافه شده بودند، شناسایی شدهاند. تنظیمات هم برای اضافه شدن درایوهای منطقی جدید، بهروز شده است. حداکثر تعداد درایوهای منطقی نباید از ۶۴ تا بیشتر باشد.
- راه حل: با استفاده از ابزار HPE SSA موجود در سرور HP، درایوهای منطقی را پیکربندی کنید.
۱۴- خطای ۱۷۲۸: Slot # Drive Array – Abnormal Shut-Down Detected
- علت: باتری HPE Smart Storage، یا وجود ندارد یا این که به صورت صحیح در جای خود قرار نگرفته است. هرگونه داده موجود در ماژول کش حافظه، با توجه به نرسیدن جریان برق به کنترلگر، از دست رفته است.
- راه حل: دادهها را با استفاده از نسخه پشتیبان بازیابی کرده و باتری HPE Smart Storage را نصب و شارژ کنید.
۱۵- خطای ۱۷۴۳: Slot # Drive Array – Logical Drive Erase Operation in Progress
- علت: درایوها در جریان عملیات پاکسازی یا حضور در صف پاکسازی، موقتا از دسترس خارج شدهاند.
- راه حل: تا اتمام عملیات پاکسازی، صبر کنید؛ یا این که با استفاده از ابزار HPE SSA، عملیات پاکسازی را متوقف کنید.
۱۶- خطای ۱۷۴۶: Slot X Drive Array – Unsupported Storage Connection Detected
- علت: کنترلر یا نسخه فرم ویر با هارد درایو سازگار نیست.
- راه حل: کنترلر و فرم ویر را آپدیت کنید.
رفع خطاهای سرور HPE ProLiant؛ خطاهای مربوط به مشکلات منبع تغذیه
مشکلات مربوط به منبع تغذیه ممکن است دلایل مختلفی داشته باشد. گاهی خود منبع تغذیه خراب میشود و گاهی هم اتصالات آن دچار مشکل میشوند. بنابراین با تعویض منبع تغذیه یا اتصالات آن، میتوان مشکل را حل کرد.
مهمترین خطاهای مربوط به منبع تغذیه در سرور HP عبارتاند از:
۱- خطای ۱۶۱۱: Power Supply Zone Fan Assembly Failure Detected
- علت: فنهای موردنیاز در منبع تغذیه وجود ندارند یا این که از کار افتادهاند
- راه حل: فنهای موردنیاز را به سرور اضافه کنید.
۲- خطای ۱۶۱۲: Primary Power Supply Failure
- علت: منبع تغذیه از کار افتاده است.
- راه حل: یک منبع تغذیه سالم را جایگزین قبلی کنید.
۳- خطای ۱۶۲۴: Power Supply Unplugged
- علت: منبع تغذیه وجود ندارد یا این که اتصالات آن قطع شده است.
- راه حل: منبع تغذیه و اتصالات آن را بررسی کنید.
۴- خطای ۱۶۲۵: Unsupported Power Supply Configuration
- فریم از منبع تغذیه موجود، پشتیبانی نمیکند.
- راه حل: یک منبع تغذیه متناسب با پیکربندی سرور را به آن اضافه کنید.
۵- خطای ۱۶۲۷: Power Supply Configuration Insufficient
- منبع تغذیه برای تأمین برق سرور، به اندازه کافی قوی نیست.
- راه حل: از منبع تغذیه اضافی یا منبع تغذیه قویتر، استفاده کنید.
۶- خطای ۱۶۲۸: The system contains multiple types of power supplies
- علت: از انواع مختلفی از منبع تغذیه استفاده کردهاید.
- راه حل: میتوانید خطا را در تنظیمات UEFI، غیرفعال کنید.
رفع خطاهای سرور HPE ProLiant؛ خطاهای مربوط به افزایش دما و عملکرد فنها
گاهی هم ممکن است به علت مشکلات محیطی، عملکرد سرور HP دچار مشکل شود. این مشکلات شامل داغی بیش از حد سرور، وجود گردوغبار در سرور و اجزای آن و رطوبت بالای محیطی که سرور در آن قرار میگیرد، است.
مهمترین خطاهای مربوط به افزایش دما در سرورهای اچ پی عبارتاند از:
۱- خطای ۳۰۷: Fan Failure Detected – Fan X Failed
- علت: خرابی فن
- راه حل: تعویض فن
۲- خطای ۳۰۸: Required Fan NOT Installed – Fan X Missing
- علت: عدم وجود فن
- راه حل: اضافه کردن یک فن به سرور
۳- خطای ۳۰۹: Insufficient Fan Solution
- علت: حداقل تعداد فن عملیاتی موردنیاز برای عملکرد صحیح و جلوگیری از وارد شدن آسیب به سرور، فراهم نشده است.
- راه حل: فراهم کردن حداقل تعداد فن مورد نیاز
۴- خطای ۳۱۰: Fan Solution Not Redundant
- علت: حداقل تعداد فنهای عملیاتی برای تضمین عملکرد سرور در شرایط اضطراری، فراهم نشده است.
- راه حل: اضافه کردن فن به تعداد موردنیاز
۵- خطای ۱۶۱۱: CPU Zone Fan Assembly Failure Detected
- علت: کار نکردن فنها یا عدم وجود آنها باعث گرم شدن بیش از حد پردازنده شده است.
- راه حل: فنهای معیوب را جایگزین کنید یا این که در صورت نیاز، فنهای جدیدی را به سرور اضافه کنید.
خطاهای مربوط به مشکلات بوت شدن (Boot) سرور و تنظیمات بایوس
مشکلات مربوط به بوت شدن سرور، به دلایلی مثل انجام غلط تنظیمات بایوس (BIOS)، وجود مشکل در مؤلفههای سختافزاری یا خرابی فایلهای سیستمی به وجود میآیند.
مهمترین خطاهای مربوط به تغییر تنظیمات بایوس و بالا آمدن سرور عبارتاند از:
۱- خطای ۱۶۲: System options error
- علت: تنظیمات اشتباه، تغییر تنظیمات پس از آخرین بوت سرور، ضعیف شدن باتری مادربرد
- راه حل:
- فشردن کلید F9 در هنگام بالا آمدن سرور و ورود به تنظیمات بایوس و انجام تغییرات لازم.
- تعویض باتری مادربرد سرور HP در صورت نیاز
۲- خطای ۱۶۳: Time and date not set
- علت: صحیح نبودن زمان و تاریخ در تنظیمات حافظه
- راه حل: فشردن دکمه F9 و وارد شدن به تنظیمات بایوس و تصحیح زمان و تاریخ.
۳- خطای ۲۸۸: A new storage device has been detected
- علت: اضافه شدن یک حافظه ذخیرهسازی به سرور و مشاهده آن در لیست بوت سرور
- راه حل: نیاز به اقدام خاصی نیست
۴- خطای ۲۸۹: A new network or storage device has been
- علت: اتصال یک شبکه یا دستگاه ذخیرهسازی جدید به سرور
- راه حل: نیاز به اقدام خاصی نیست.
۵- خطای ۲۹۰: The Boot Mode for the system has been changed
- علت: حالت بوت شدن سرور به Legacy تغییر داده شده است.
- راه حل: اقدام خاصی نیاز نیست.
۶- خطای ۲۹۱: The Standard Boot Order (IPL) has been detected as corrupted
- علت: تغییر اولویتهای بوت سرور
- راه حل: نیاز به اقدام خاصی نیست.
۷- خطای ۲۹۳: A critical error occurred resulting in a reboot of the system
- علت: به وجود آمدن یک مشکل مهم نرمافزاری یا سختافزاری پس از ریست کردن سرور
- راه حل: بررسی کامل سختافزاری و نرمافزاری سرور برای پیدا کردن مشکل
برای مدیریت بهتر سرور و پیکربندی صحیح آن، میتوانید از نرمافزارهای پشتیبانی شبکه استفاده کنید که آنها را در مقاله «معرفی بهترین نرمافزارهای پشتیبانی شبکه»، معرفی کردهایم.
رفع خطاهای سرور HPE ProLiant؛ در بخش حافظه (Memory)
حافظه جزو اجزای اصلی یک سرور است. مشکلاتی مثل هنگ کردن یا اجرا شدن ناقص برنامهها، میتواند به علت مشکلات حافظه سرور باشد. خوشبختانه، رابط کاربری برنامه مدیریت سرور HP یعنی HPE iLO، خطاهای مربوط به حافظه را به شما نشان میدهد. در صورت مشاهده چنین خطاهایی، میتوان با بررسی ماژول حافظه یا تعویض آن، مشکل را حل کرد.
مهمترین خطاهای مربوط به حافظه سرور HP عبارتاند از:
۱- خطای ۲۰۷: DIMM configuration errors
- علت: عدم تطابق تنظیمات ماژول DIMM با Advanced Memory Protection.
- راه حل: تنظیمات را مطابق با تنظیمات AMP، تغییر دهید.
۲- خطای ۲۱۷: Processor cannot cache all installed memory
- علت: حجم حافظههای نصب شده در سرور، از حداکثر ظرفیت حافظه پشتیبانی شده توسط آن بیشتر است.
- راه حل: حافظههای اضافی را جدا کنید.
۳- خطای ۲۲۲: DIMM Configuration Error – The DIMM configuration is incorrect
- علت: عدم جایگذاری صحیح حافظه
- راه حل: ماژول DIMM را به صورت صحیح جایگذاری کنید.
۴- خطای ۲۲۳: Memory Error – A memory error occurred
- علت: بروز خطای حافظه
- راه حل: از ابزار مدیریت یکپارچه ثبت وقایع (Integrated Management Log) کمک بگیرید.
۵- خطای ۲۲۸: DIMM Configuration Error – Processor X, Channel Y
- علت: عدم رعایت ترتیب صحیح در Memory Bank.
- راه حل: پر کردن Memory Bank به ترتیب صحیح.
۶- خطای ۲۲۹: -DIMM Configuration Error – Processor X, DIMM Y
- علت: نوع ماژول DIMM شناسایی نشده است.
- راه حل: نوع صحیح ماژول DIMM را نصب کنید.
۷- خطای ۲۳۰: DIMM Configuration Error – Processor X, Channel Y
- علت: تعداد زیادی ماژول DIMM در یک کانالِ شامل ماژولهای DIMM از نوع Qual-Rank، نصب شده است.
- راه حل: ماژولهای DIMM را مطابق تنظیمات پشتیبانی شده، نصب کنید.
۸- خطای ۲۳۱: DIMM Configuration Error – No memory is available
- علت: هیچگونه ماژول DIMM روی سرور نصب نشده است.
- راه حل: ماژولهای DIMM را نصب کنید.
۹- خطای ۲۳۲: Memory initialization error – Processor A, DIMM B failed
- علت: ماژولهای DIMM در تست حافظه، رد شدند.
- راه حل: ماژولهای DIMM را جایگزین کنید.
۱۰- خطای ۲۳۴: DIMM Initialization Error – Memory cannot be initialized
- علت: ماژولهای DIMM در اسلاتهای صحیح، نشانده نشدهاند.
- راه حل: جای ماژولهای DIMM را در سرور HP عوض کنید.
۱۱- خطای ۲۳۵: DIMM Configuration Error – Only 2 DIMMs can be installed on a channel with UDIMMs
- علت: در کانالی که ماژولهای UDIMM قرار دارند، بیش از یک ماژول DIMM قرار گرفته است.
- راه حل: نصب ماژولها را مطابق با پیکربندی پشتیبانی شده، انجام دهید.
۱۲- خطای ۲۳۶: DIMM Configuration Error – Ultra-Low Voltage DIMMs installed
- علت: عدم پشتیبانی از ماژولهای DIMM با ولتاژ به شدت پایین (۱.۲۵ ولت).
- راه حل: خارج کردن این ماژولها از پیکربندی سرور.
۱۳- خطای ۲۳۸: DIMM Configuration Error – Processor X, DIMM Y
- علت: ماژول را DIMM پس از ماژول SR یا DR نصب کردهاید.
- راه حل: ماژول DIMM باید در اولین اسلات هر کانال حافظه، نصب شود.
۱۴- خطای ۲۳۹: DIMM Configuration Error – Mismatched DIMM types
- علت: وجود خطا به علت ناسازگار بودن ماژولهای DIMM
- راه حل: باید از این که تمامی ماژولهای DIMM از یک نوع هستند، اطمینان حاصل کنیم.
خطاهای مربوط به مشکلات بهروزرسانی فرم ویر و درایورها
به روز نگه داشتن سرور HP باعث حفظ عملکرد و امنیت آن میشود. همواره باید آخرین نسخه از فرم ویر (Firmware) و درایورها را روی سرور خود نصب داشته باشید.
برای بهروزرسانی سرورهای HPE، قدمهای زیر را طی کنید:
- بررسی نسخه فرم ویر سرور و انجام بهروزرسانی در صورت لزوم، با استفاده از برنامه مدیریت سرور اچ پی یعنی HPE iLO (نسخه ۴ در نسل نهم و نسخه ۵ در نسل دهم).
- دانلود آخرین نسخه سرویس پک ProLiant (Service Pack for ProLiant) از بخش پشتیبانی سایت HP. این بسته نرمافزاری، یک مجموعه یکپارچه شامل سیستمعامل، نرمافزارهای سیستمی و درایورها است که مدیریت سرور را به سادگی فراهم میکند.
- نصب بهروزرسانیها با استفاده از رابط کاربری HPE iLO یا HPE OneView (به منظور نصب و اعمال متمرکز آپدیتها)
در صورت برخورد با خطاهای زیر، باید مراحل بهروزرسانی فرم ویر سرور و مجموعه مؤلفههای نصب شده روی آن را دنبال کنید:
- خطای ۱۰۱: Option ROM Error
- خطای ۲۶۱: Server Platform Services Firmware requires update
- خطای ۲۶۸: iLO FW Not Responding
- خطای ۲۷۰: iLO FW Communication Issue
- خطای ۲۷۸: Secure Boot Authentication Failure
- خطای ۳۰۰: Unable to log an entry to the Integrated Management Log (IML)
- خطای ۳۰۶: Redundant ROM Error
- خطای ۳۱۶: Chassis Firmware Error
- خطای ۳۲۸: Power Management Controller Firmware Error
- خطای ۳۶۴: NVDIMM Controller Error
- خطای ۱۵۰۰: iLO 4 configuration is temporarily unavailable
- خطای ۱۷۱۵: Slot # Drive Array Controller – Memory Error(s) Occurred
- خطای ۱۷۱۹: A controller failure event occurred
- خطای ۱۸۲۳: Slot X Encryption Failure
جمع بندی
در این مطلب با مهمترین خطاهای سرور HP آشنا شدیم. اگر شما هم به عنوان مدیر شبکه فعالیت میکنید و با سرورهای اچ پی سروکار دارید، میتوانید تجربه خود از برخورد با خطاهای مختلف را در بخش نظرات هنر توسعه و ارتباطات شایگان، با ما در میان بگذارید.
سوالات متداول
۱. چرا باید به خطاهای سرور اچ پی توجه کرده و آنها را رفع کنیم؟
نمایش هر خطا به معنای وجود یک اشکال نرمافزاری یا سختافزاری در سرور است. این مسئله ممکن است روی عملکرد آن تاثیر منفی داشته باشد یا باعث از کار افتادن سرور و از دست رفتن فایلها و اطلاعات حساس شود.
۲. منشا خطاهای سرور اچ پی چیست؟
ممکن است به علت وجود مشکل در مؤلفههای سختافزاری (مثل پردازنده، RAM، فنها و…)، بهروز نبودن فرم ویر و نرمافزارها، گرم شدن بیش از حد سرور، خرابی هارد درایو، عدم قرار دادن صحیح مؤلفههای سختافزاری در جای خود و غیره با خطا مواجه شویم.
منابع: