วันจันทร์ที่ 18 กุมภาพันธ์ พ.ศ. 2556

Internet TOT ล่ม




 ว่าด้วย Internet ล่ม เมื่อวันที่ 15 กุมภาพันธ์ 2556 ที่ผ่านมานั้น สาเหตุเกิดจากความผิดพลาดทางเทคนิค TOT ครับไม่ได้เกี่ยวข้องกับระบบของ รพ. แต่อย่างใด ซึ่งเหตุในวันที่ 15 กุมภาพันธ์ 2556 นั้น เกิดขึ้นเมื่อเวลา 02:42:30 เป็นเวรดึกของผมเอง ทาง User ก็ปล่อยนิ่งเดียวดายมาจนถึงตอนเช้า (ทั้งๆ ที่มี User login ใช้งานอยู่) กลับไม่แจ้ง
จนถึงเวลา 08.13 น. ขณะที่ถึงหน้า รพ. พอดี เดินไปส่งลูกที่ โรงเรียน  ได้รับโทรศัพท์จากประชาสัมพันธ์  แจ้งเข้ามาว่า ห้องบัตรเช็คสิทธิ์ ไม่ได้ ผมก็รีบตรงดิ่งไปที่ห้องบัตรช่องเช็คสิทธิ์ทันที ก็เปิดดูสถานะเครือข่าย ปรากฏว่าวงจรหลัก TOT ล่มก็เลย By Pass ทั้งหมดออกทาง UNINET จากนั้นก็ใช้ได้เลย
และเดินขึ้นมาตรวจสอบ Router ของ TOT อยู่ในห้อง Server จัดการ Reboot มันใหม่ เจ้ากรรม มันยัง ping  ไปหาที่อื่นไม่ได้ ก็เลยโทรเช็คกับพี่บาส วิศวกร TOT ประจำ จ.เลย ได้ความมาว่า ตอนนี้ล่มอยู่ ประมาณ 19 จังหวัด และจังหวัดเลยก็เป็น 1 ในนั้น ให้รอจึ้นถึงเวลา 10.30 - 11.00 น. โอพระเจ้า งั้นไม่เป็นไร เราวิ่งออกทาง Uninet อยู่ หลังจากที่วางโทรศัพท์ไปได้ไม่นาน เกิดเหตุไฟไหม้เสาไฟฟ้า ที่หนองบัวลำภู ทำให้สายไฟเบอร์ Optic ของ Uninet ขาด ทาง LRU จึงต้องไปวิ่งบน TOT ซึ่งได้ทำ BGP Routing ไปทาง Uninet อีกที(เข้าได้แต่เว็บในประเทศ) ทาง รพ. ทำ BGP Routing ไม่ได้เพราะเชื่อมกับ ISP โดยตรง
เอาละเราเหลือ 1 วงจรที่ใช้งานได้ คือ MPLS 1/1 ของ สป. จึงได้ปลุกมันขึ้นมา แต่ดันปลุกมันไม่ขึ้น เพราะเปลี่ยน เครื่อง Server ที่ทำแยกวงจรอินเตอร์เน็ตใหม่ จึงใช้เวลาประมาณ 30 นาที ในการ Config ใหม่ หลังจากที่ไม่ได้ใช้มันมานานมาก (เพราะ TOT ไม่เคยล่มนานขนาดนี้สักที) เมื่อทำการ Config สำเร็จ ประมาณ 09.45 น. ก็ สร้างกฎ ให้เฉพาะเครื่องที่เช็คสิทธิ์ 3 เครื่อง จัดเก็บรายได้ 3 เครื่อง  ห้องสื่อสาร item ems 1 เครื่อง GFMIS  1 เครื่อง (ส่วนใบรับรองการแจ้งเกิดนั้น ล่มทั้งระบบ เพราะไปใช้ ISP ของ TOT) และ ศูนย์คอม อีก 4 เครื่อง  เพื่อให้ใช้งานวงจร MPLS 1/1 M นอกนั้นใช้งานไม่ได้ จึงต้องรอวงจรหลักทำงาน
วันศุกร์ทั้งวันผมนั่งเช็คโน่นเช็คนี่ ไปเรื่อย ภาวนาให้ TOT ใช้งานได้เร็ว และโทรศัพท์ เข้า TOT ทุกครึ่ง ชั่วโมงเพื่อสอบถามความคืบหน้า จนถึงเวลาที่นัดหมายคือ 11.00 น. ก็โทรเข้าไปสอบถาม อีกครั้งก็ได้คำชี้แจงมาว่า ส่วนกลางยังแก้ไข ปัญหายังไม่สำเร็จ คงต้องรอต่อไป ไม่เกิน 16.00 น. แต่ผมก็ยังโทรสอบถามทุกครึ่ง ชม. เหมือนเดิม ก็ได้รับคำตอบเหมือนเดิม
จนกระทั่งเวลาประมาณ 15.30 น. เพื่อนผมกระซิบมาว่า เขาซ่อมไฟเบอร์ที่หนองบัวลำภูเสร็จแล้ว วงจร Uninet ทำงานแล้ว ผมก็เลย By Pass ทั้งหมดออกทาง UNINET ประมาณ 15.45 น. แต่มันก็ยังติดๆ ตับๆ อยู่ แต่ก็สามารถใช้งานได้
ได้เวลาเลิกงานผมก็ยังไม่ไว้วางใจวงจรของ UNINET เท่าไหร่นัก ก็เลยยังคงกฎเดิม เครื่องที่จำเป็นใช้งานให้ออกไปเส้นทาง MPLS เหมือนเดิม รวมทั้งเครื่องทำงานผมด้วย และก่อนกลับบ้านก็โทรไป TOT อีกรอบ บอกว่าผมกลับบ้านนอกแล้วนะครับ หากวงจรใช้งานให้บอกผมด้วย
จนกระทั่งเวลา 19.30 น. มีโทรศัพท์จากพี่วิศวกร ของ TOT โทรเข้ามาแจ้งว่า วงจร TOT สามารถใช้งานได้แล้ว และต้องขออภัยในความล่าช้า รวมระยะเวลาการ Downtime ของ TOT เป็นเวลา 17 ชม. จากเดิมที่เคยล่ม ปีละ 1 – 2 ครั้ง ครั้งละ ไม่เกิน 3 นาที และวันต่อมาผมก็ได้มาปลั๊ก TOT ระบบเข้าใช้งานเหมือนเดิม
ซึ่งการที่ระบบอินเตอร์เน็ตล่มไปในครั้งนี้ มีเสียงสะท้อนกลับน้อยมากครับในยุคนี้ เพราะมีทางเลือกอีกทางคือ ส่วนมากใช้ Mobile smart phone และเชื่อมเครือข่ายโทรศัพท์ 3G นั่นเอง ซึ่งต่างกันกับสมัยก่อนที่ยังไม่มีสิ่งเหล่านี้เข้ามามาก แบบว่า รับโทรศัพท์กันหูชากันทีเดียว ซึ่งในการล่มของ TOT ครั้งนี้ ทาง TOT ได้ออกมาชี้แจงว่าเป็นความผิดพลาดทางเทคนิค ซึ่งสามารถเกิดได้ทุกเมื่อ