Chẩn đoán và khắc phục sự cố mạng trong giám sát mạng doanh nghiệp có thể là một nhiệm vụ đáng e ngại. Với khả năng có nhiều văn phòng chi nhánh, hàng trăm hoặc thậm chí hàng nghìn máy chủ, hàng chục bộ định tuyến, switch và máy chủ, tất cả đến từ các nhà cung cấp hoặc phiên bản firmware khác nhau, cùng với lỗi do con người gây ra, việc biết nên bắt đầu từ đâu là chìa khóa để triển khai giải pháp nhanh chóng.
Có một phương pháp đã được thiết lập khi chẩn đoán vấn đề mạng lớn, và tuân theo các hướng dẫn của nó sẽ giúp quản trị viên duy trì cách tiếp cận có tổ chức để khắc phục sự cố.
Kinh nghiệm trước đây với mạng đang gặp vấn đề có thể giúp quản trị viên tìm ra vấn đề và khắc phục nó. Nếu phần lớn các vấn đề mạng phát sinh trong quá trình vận hành mạng đến từ các lỗi cụ thể với cách khắc phục đã biết, điều này sẽ nhanh chóng cung cấp cho việc khắc phục sự cố một lựa chọn “đầu tiên” để giải quyết vấn đề. Ngay cả khi không quen thuộc với mạng, một quy trình có thể được tuân thủ để giúp mọi người tham gia đi đúng hướng.
Bước đầu tiên và rõ ràng nhất là xác định vấn đề để khắc phục lỗi mạng doanh nghiệp. Nếu người dùng không thể kết nối với máy chủ tệp để truy cập công việc của họ, điều đó sẽ xác định vấn đề. Bước ban đầu này thường tự thể hiện đơn giản bởi bản chất của nó. Hiếm khi được gọi đến để khắc phục sự cố mà không có vấn đề rõ ràng đã xuất hiện!
Tiếp theo, thu thập thông tin từ người dùng hoặc hệ thống bị ảnh hưởng. Trong ví dụ trên về người dùng gặp khó khăn khi kết nối với máy chủ tệp, sẽ đáng để dành thời gian hỏi một số câu hỏi cơ bản. Lần cuối cùng người dùng có thể truy cập máy chủ là khi nào? Có điều gì thay đổi kể từ đó không? Có người dùng khác cũng gặp vấn đề tương tự không? Nếu vấn đề lan rộng hơn, có khả năng có vấn đề ở phía thượng nguồn trong mạng. Nếu nó chỉ xảy ra với một máy chủ đó, có thể không có vấn đề mạng rộng hơn cần được giải quyết. Thu thập thông tin có thể là một trong những bước quan trọng nhất, và thường bị bỏ qua, trong quá trình khắc phục sự cố mạng lớn. Dữ liệu và lời khai được thu thập ở đây có thể được sử dụng để hướng dẫn quản trị viên trong suốt quá trình khắc phục sự cố còn lại.
Thu thập Dữ liệu với Ping và Trace Route
Điều này đủ quan trọng để có phần riêng của nó. Các công cụ ping và trace route cung cấp nhiều thông tin hơn những gì chức năng đơn giản của chúng ngụ ý. Một lượng lớn dữ liệu có thể được thu thập để phân tích sau này chỉ bằng cách sử dụng hai lệnh này.
Sử dụng một ví dụ khác, giả sử rằng một số người dùng ở một phần của văn phòng không thể kết nối với mạng. Lệnh ping có thể được sử dụng để thu thập thông tin và cô lập vấn đề. Công cụ chẩn đoán này hoạt động trên lớp mạng và việc sử dụng nó đầu tiên có thể được quy cho cách tiếp cận chia để trị trong việc khắc phục sự cố. Nó chỉ đơn giản gửi một gói tin từ máy chủ đến đích. Hãy nhớ rằng một số giao diện có thể có kiểm soát truy cập hoặc có thể có tường lửa phần cứng/phần mềm ngăn chặn ping đến một máy chủ, vì vậy lệnh này có thể bị hạn chế sử dụng, đặc biệt là trên các giao diện WAN đến.
Cisco khuyến nghị một quy trình bốn bước cụ thể khi sử dụng ping để giúp chẩn đoán lỗi IP ở lớp mạng:
Ping địa chỉ loopback. Đây là 127.0.0.1 và được sử dụng cụ thể cho mục đích chẩn đoán. Điều này xác nhận rằng TCP/IP đang hoạt động trên máy chủ.
Ping máy chủ cục bộ. Đây là IP nội bộ của chính máy chủ bị ảnh hưởng. Ví dụ, 10.0.0.2. Nếu ping này thành công, card mạng đang hoạt động.
Ping cổng gateway mặc định. Nếu điều này thành công, vấn đề có thể nằm ở phía thượng nguồn từ máy chủ.
Ping một IP bên ngoài. Nếu điều này thành công, nhưng máy chủ vẫn không thể kết nối với internet hoặc mạng khác, có thể có lỗi DNS, ACL được cấu hình không đúng, hoặc vấn đề với tường lửa.
Tùy thuộc vào thông tin thu thập được về vấn đề, một số bước này có thể được bỏ qua. Trong ví dụ trên, nếu đã biết rằng các máy chủ bên trong mạng đó vẫn có thể giao tiếp với nhau, việc bỏ qua bước một và hai là hợp lý.
Một lệnh mạnh mẽ khác là traceroute (trên Cisco IOS) hoặc tracert (trên dòng lệnh Windows). Trace route sẽ gửi một gói tin đến đích và báo cáo các bước nó đã thực hiện trên đường đi. Nếu gói tin không thể giao tiếp với bộ định tuyến trên đường đến đích, điều đó sẽ được báo cáo lại cho người dùng đang chạy lệnh. Điều này có thể làm nổi bật nơi có thể xảy ra vấn đề và cung cấp cho quản trị viên ý tưởng tốt về nơi bắt đầu tìm kiếm vấn đề.
Phân tích Dữ liệu và Tìm Giải pháp
Sau khi vấn đề đã được xác định và thông tin đã được thu thập, cần phải tiến hành phân tích để khắc phục sự cố mạng. Điều này có thể đơn giản hoặc phức tạp, tùy thuộc vào dữ liệu hiện có. Phân tích dữ liệu có sẵn là một bước quan trọng trong việc khắc phục sự cố mạng, vì nó cung cấp hướng dẫn về phương pháp nào để bắt đầu giải quyết vấn đề.
Cách tiếp cận Từ trên xuống hoặc Từ dưới lên
Những phương pháp này chính xác như những gì chúng nghe có vẻ: khắc phục sự cố từ trên xuống của mô hình OSI, hoặc từ dưới lên của mô hình OSI. Làm việc từ các phương pháp này có thể hiệu quả vì nói chung, nếu một lớp hoạt động, các lớp bên dưới nó thường hoạt động đúng. Điều này không phải lúc nào cũng đúng, nhưng trong hầu hết các trường hợp sẽ như vậy. Nhược điểm là nếu không thu thập đủ thông tin, việc bắt đầu từ đầu sai của mô hình có thể tạo ra một lượng công việc bổ sung không cần thiết. Đây là lý do tại sao việc thu thập thông tin rộng rãi và phân tích nó lại quan trọng đến vậy! Nếu vấn đề nằm ở lớp ứng dụng và việc khắc phục sự cố bắt đầu từ lớp vật lý, sẽ mất nhiều thời gian và công sức để xác nhận rằng sáu lớp khác đang hoạt động trước khi đạt đến vấn đề thực sự. Tùy thuộc vào quyền truy cập trên mạng, đôi khi cũng có thể khó hoặc không thể kiểm tra các lớp trên của mô hình OSI, vì vậy điều đó nên được xem xét trước khi chọn cách tiếp cận này.
Chia để Trị
Thường là phương pháp hiệu quả nhất khi thông tin bị hạn chế, cách tiếp cận này bắt đầu ở giữa mô hình OSI, thường là lớp mạng, và làm việc hướng ra ngoài. Đây là nơi các lệnh ping và trace route phát huy tác dụng. Tùy thuộc vào mức độ thành công (hoặc không) của kiểm tra ping sẽ hướng dẫn khắc phục sự cố lên hoặc xuống trong mô hình. Nếu ping hoạt động tốt, có khả năng có vấn đề ở lớp trên. Tương tự, nếu ping thất bại, có vấn đề ở lớp 3 hoặc bên dưới. Điều này có thể giúp nhanh chóng tìm ra đường dẫn đến vấn đề đang gặp phải và giúp quản trị viên nhanh chóng tìm ra giải pháp.
Ứng biến và Các Phương pháp Khác
Một số phương pháp thuộc về danh mục này, và nói chung chỉ nên được sử dụng khi thông tin thu thập được chỉ ra một vấn đề rất cụ thể. Một lý do khác để chọn phương pháp này đầu tiên là nếu cùng một vấn đề mạng liên tục xuất hiện và cách khắc phục đã được biết. Nếu có khả năng cao vấn đề sẽ được tìm thấy và giải quyết nhanh chóng bằng phương pháp này, nó sẽ tiết kiệm thời gian và tài nguyên hơn so với việc sử dụng các phương pháp khác. Sự quen thuộc với một mạng nhất định sẽ giúp quản trị viên quyết định xem đây có phải là cách đúng đắn khi khắc phục sự cố hay không.
Linh hoạt
Mỗi mạng đều khác nhau, mỗi vấn đề đều khác nhau, và quản trị viên cần có khả năng thích ứng với môi trường mạng thay đổi để nhanh chóng và hiệu quả chẩn đoán và khắc phục các vấn đề mạng. Mặc dù một kế hoạch khắc phục sự cố được tuân thủ nhất quán và được ghi chép tốt sẽ giúp mọi người cùng trang để nhanh chóng giải quyết các vấn đề tiềm ẩn, sự linh hoạt là cần thiết để tăng tốc thời gian phản hồi và sửa chữa. Hiểu khi nào không nên tuân theo các quy trình là chìa khóa để duy trì một mạng lớn.
Giải quyết Các Vấn đề Lặp lại
Tất cả các mạng sẽ trải qua một số lượng đáng kể các lỗi và vấn đề. Tuy nhiên, nếu cùng một vấn đề liên tục xuất hiện, việc tìm kiếm cách khắc phục vĩnh viễn là quan trọng. Ví dụ, nếu một bộ định tuyến liên tục gặp sự cố, có thể đã đến lúc thay thế nó. Dự phòng có thể giúp giải quyết, nhưng không giải quyết được, các vấn đề mạng lặp đi lặp lại. Tương tự, các giải pháp “tạm thời” hoặc “sửa chữa nhanh” cần phải có các giải pháp dài hạn được triển khai càng sớm càng tốt để ngăn chặn những rắc rối trong tương lai. Việc đi trước một bước thường là cách tốt nhất để giải quyết vấn đề.
Yếu tố Con người và Xâm nhập Độc hại
Con người mắc lỗi. Họ quên cắm thiết bị, bật chúng lên, cấu hình chúng đúng cách, hoặc chỉ đơn giản là không biết cách làm cho một thứ gì đó hoạt động. Cách tốt nhất để chống lại lỗi do con người là kiến thức và thực hành. Một người dùng được thông tin tốt sẽ gây ra ít cơn ác mộng về mạng hơn nhiều so với người không được hướng dẫn gì cả. Luôn tính đến yếu tố con người khi phân tích dữ liệu và tìm kiếm giải pháp cho một vấn đề.
Tương tự, đôi khi con người có mục đích không trung thực khi truy cập mạng. Luôn tuân theo các thực hành bảo mật tốt nhất và nhận thức rằng các lỗi mạng đôi khi có thể có nguồn gốc độc hại được thiết kế để gây rối loạn dịch vụ. Những loại tấn công này có nhiều hình thức và cách tốt nhất để ngăn chặn chúng là giáo dục và phòng thủ chủ động.
Phần mềm Giám sát Mạng
Có rất nhiều phần mềm mạng có sẵn sẽ giúp giám sát, chẩn đoán và khắc phục sự cố các mạng lớn. Từ các công cụ mã nguồn mở có sẵn miễn phí trên internet đến các tùy chọn hướng đến doanh nghiệp đầy đủ dịch vụ, sẽ có giải pháp phần mềm cho mọi người có thể hỗ trợ quản trị viên trong việc quản lý mạng của họ. Việc sử dụng các công cụ này có thể giúp đẩy nhanh quá trình khắc phục sự cố mạng, đưa phần lớn nguồn nhân lực và thời gian vào tay phần mềm.
Mọi Vấn đề Đều Có Giải pháp
Rào cản lớn nhất mà bất kỳ quản trị viên mạng nào sẽ phải đối mặt luôn là khắc phục sự cố và duy trì mạng của họ. Có vô số vấn đề tiềm ẩn và số lượng giải pháp tiềm năng tương đương, và việc bao quát tất cả chúng là một nhiệm vụ bất khả thi. Nếu các quy trình cụ thể được tuân theo và tuân thủ, việc xác định vấn đề và triển khai cách khắc phục sẽ trở nên dễ dàng hơn nhiều cho quản trị viên và các cộng sự của họ.