컨시어지 IT 수다 #4
[금요일 퇴근길 악몽]


 불금에 울린 재앙의 알람

10여 년 전, 지금처럼 봄기운이 가득한 4월의 어느 금요일 저녁. 필자는 퇴근 후 오랜만에 친구들과 한잔하러 가는 길이었다. 들뜬 마음으로 약속 장소로 이동하던 중, 주머니 속 스마트폰이 진동한다. 이녀석들 재촉하긴 ㅎㅎ

띠링-📩

보낸 사람: 서버실

 이때부터 불길한 예감이 엄습했다. 서버실에서 오는 메시지는 언제나 반갑지 않다. 조심스럽게 메시지를 열어본다.


"디스크[6-2] 장애 발생"


순간 머릿속이 하얘졌다. 오늘이 금요일이란 사실이 더욱 뼈아프게 다가왔다. 이번 주 정말 힘들었는데, 겨우 맞이한 불금이 이렇게 허망하게 날아가 버린단 말인가.


 디스크 장애... 무시해? 말아?

문자를 보고 고민에 빠졌다.

‘RAID 구성이 잘 되어 있으니 데이터 유실은 없을 거야. 스페어 디스크도 있으니 당장 조치 안 해도 괜찮을 텐데... 그냥 모른 척하고 내일 아침에 확인할까?’

하지만 이 생각도 잠시, 우리 팀장님이 떠올랐다. **“장애 발생 시 3시간 이내 복구”**를 목숨보다 소중한 가치로 여기는 분이었다. 이걸 알면서도 모른 척한다고? 그건 불가능한 선택이었다.

결국 마음을 다잡고 담당 엔지니어(송대리)에게 전화를 걸었다. 

(지난 1화 결혼하지 못한 엔지니어 에피소드의 바로 그 주인공이 맞습니다^^)


📞 뚜-뚜-

응답 없음.

한 번 더.

📞 뚜-뚜-

여전히 응답 없음.

‘이 친구, 평소엔 바로 받는데… 뭐지?’

콜백 메시지를 남기려던 순간, 전화가 걸려왔다. 


 예상치 못한 변수

🧑‍ 김 대리: "송 대리님! 이 시간에 정말 미안한데요. 우리 스토리지 장애 알람이 떴어요."

👨‍💻 송 대리: "네? 정말요..? (혀 꼬인 목소리) 대리님, 혹시 내일 복구하면 안 될까요..?"

🧑‍ 김 대리: "우리 팀장님 성격 아시잖아요. 오늘 복구해야 할 것 같아요. 근데... 혹시 술 드셨어요?"

👨‍💻 송 대리: "하.. 사실 오늘 청첩장 돌리는 날이라 친구들과 한잔하고 있습니다... 지금 작업은 좀... 어렵습니다.. 정말 죄송합니다."

 이런 젠장.

불금의 덫은 비단 나만 걸린 게 아니었다. 송 대리는 이미 한잔 걸친 상태라 작업이 불가능했다. 어쩔 수 없이 다른 엔지니어를 찾아야 했다.

🧑‍ 김 대리: "혹시 다른 엔지니어 지원 가능할까요?"

👨‍💻 송 대리: "금요일 저녁이라 쉽지 않겠지만, 최대한 알아보고 연락드릴게요."

몇 분 후, 송 대리에게 다시 전화가 왔다.

👨‍💻 송 대리: "대리님, 다행히 엔지니어 한 분 섭외했는데요... 문제는 그분이 의정부에서 작업 중이라 최소 한 시간 이상 걸릴 거래요."

🧑‍ 김 대리: "아... 그럼 그분이 작업 끝나고 우리 쪽으로 오시는 거예요?"

👨‍💻 송 대리: "네. 그런데 디스크를 사무실에서 퀵배송해야 하는데 지금 사무실에 아무도 없어요. 결국 엔지니어가 의정부 → 여의도 → 분당 경로로 이동해야 할 것 같아요."

🧑‍ 김 대리: "...금요일 저녁에 너무 죄송하게 됐습니다. 여기 일은 걱정하지 마시고 술자리 즐기세요."

👨‍💻 송 대리: "네, 대리님도 힘내세요. 빨리 마무리되길 바랍니다."


 불금 대신 불타는 밤샘 작업

 그렇게 교통체증이 극심한 금요일 밤, 엔지니어는 의정부에서 작업을 마친 후 여의도를 거쳐 분당까지 밤늦게 이동했다. 필자는 사무실로 급히 복귀해 시스템 상태를 체크하고, 엔지니어와 함께 자정까지 디스크 교체 작업을 진행했다.

 금요일 밤을 지나 토요일 새벽시간 , 마침내 복구 완료. 작업 완료 후 팀장님께 메세지 보고. 

 

"팀장님 스토리지 장애 복구 정상 완료했으며 시스템 상태 정상입니다"


"밤늦게 수고 많았네. 푹쉬시게"


머리보다 몸이 먼저 반응했다. 기진맥진한 상태로 퇴근길에 올랐다. 


하... 진짜 불금 날아갔다.


 예전에는 장애발생하면 바로 대응해야하는 문화도 있었고 지금은 클라우드나, 자동화된 모니터링, 복구툴들이 많아서 이런일들이 쉽게 발생하진 않겠지만. 필자는 당분간 금요일 퇴근에 느닺없는 알림이 오면 깜짝 놀랐던 트라우마가 있었습니다.

 장애가 최대한 발생하지 않도록 잘 관리하셔서 여러분의 불금은 무사하길 기원합니다. 🙏





@컨시어지 서비스

[email protected]


태그가 없습니다.

25개의 댓글이 있습니다.

| 8일 전

^^ 잘 봤습니다.

한 번쯤은 똥줄 탄 경험들이 있을 것 같아요...

| 4일 전

오래근무하다 보면 한번씩은 경험하게 되죠

| 10일 전

이전엔 휴가때도 일출 보러 갔다가도 회사로 ㅠㅠ

한번은 ups 장애(회사 전체가 ups 사용)로 

서버 복구한다고 ㅠㅠ


이전엔 휴가나 휴일때 삐삐 오면 ㅠㅠ

| 10일 전

휴가 햐... 정말 힘드셨겠습니다.

| 11일 전

글 잘읽었습니다.^^

| 10일 전

넵 감사합니다^^

| 11일 전

과거 동인한 문제로 많이 고민했던 ㅎㅎ

안가면 왠지 찝찝하고.. 그것도 불금에 ㅎㅎ

| 11일 전

그렇죠. 바로 안하면 찝찝하고 나중에 큰 문제 될까봐.. 성격인가 봅니다 ㅎ

| 12일 전

정말 예전에 많이 접했던 일이네요... ㅎ 

그때는 정말 당장이라도 교체 안하면 문제 될꺼 같은 느낌, 그리고 시스템도 불안정

한 부분도 있었구요.... 매니져들은 왜 그리들 고지식들 한지.. ㅎ

지금은 그래도 많은 분들이 이중화/삼중화 되어 있는거 아시고,

급하게 처리 많이 안하더라구요... 아직도 일부는 있지만요 ㅎㅎㅎ

| 12일 전

맞아요. 생각해보면 장애가 많아서 디스크 RAID되어 있고 백업있어도 또 장애나면 복구하기 힘든 경우가 많아서 그런것 같습니다.

요즘엔 장비가 좋아서 장애율도 정말 많이 줄어든것 같아요

| 12일 전

내용 잘 읽었습니다. ^^

| 12일 전

넵 감사합니다^^

| 12일 전

OS 디스크 장애가 아니라면 요즘에는 몇일뒤에 교체하기도 하네요.

진짜 예전에는 디스크 장애나도 바로 교체하라고 해서 새벽에도 나가고 했네요.

| 12일 전

네 휴일에도 장애나면 바로 복구해야 하고 그랬었네요

| 12일 전

디스크 장애 때문에 불러 나가는 건 좀 그러네요

| 12일 전

그 당시엔 데이터 날라갈 수 있다는 불안감이 커서 그랬었죠

| 12일 전

불금에 장애라니.. 생각만 해도.. 고생이 많으셨습니다^^;

| 12일 전

넵 그당시엔 고생 많았었죠.^^

| 12일 전

그래도 요즘은 많이 좋아진것 같아요.

예전에는 정말 장애도 많고 탈도 많았는데...


| 12일 전

네 요즘엔 정밀 기술적인 성숙도가 높아서인지 서버나 스토리지 장애가 예전에 비히면 많이 줄어든듯 합니다

| 12일 전

불금에 힘드시겠습니다.

| 12일 전

그당시 많이 힘들었었죠^^

1st 5stars
| 12일 전

지난 세월 수많은 장애  사건들이 떠오르네요.

항공편으로 썬서버 마더보드를 배송 받아 서버를 수리했던적도 있고, 연휴라 고장난 유지보수에 포함되어 있지 않던 디스크를 어렵게 어렵게 물색해서 고속배송받아 데이터 복구완료햐여 업무에 문제없도록했던 기억... 새벽에 장애로 나왔다 몇일간 퇴근도 못하고 시스템 복구하느라 날밤 세웠던기억...

여러번의 극단적인 상황을 잘헤쳐 나왔다는 생각이 들고... 한편으론 최악의 상황만은  막을 수 있어서 운이 참 좋았다는 생각도 듭니다.

| 12일 전

Wansoo님도 참 고생 많이 하셨네요 예전엔 정말 체계적인 시스템도 없었고 장애발생하면 복구하느라 밤샘도 많이 있었었죠 ‘’ 최악의 상황은 막을수 있어서 운이 참 좋았다 ‘‘ 멋진 멘트네요 ^^

| 13일 전

클라우드나 IDC센터 모니터링이나 아웃소싱이 필요한 경우 24시간 잘 운영하는 쉐어드아이티 파트너사가 있습니다. 연락주시면 요구사항에 맞는 제안 드리도록 하겠습니다. 

댓글을 남기기 위해서는 로그인이 필요합니다.

로그인 회원가입
  • 10일 전
  • 댓글 : 4일 전
  • 10일 전
  • 댓글 : 4일 전
  • 컨시어지 IT수다 #4 [금요일 퇴근길 악몽] [25]
  • 컨시어지
  • | 389 읽음
  • 13일 전
  • 댓글 : 8일 전
  • 15일 전
  • 댓글 : 7일 전
  • 15일 전
  • 댓글 : 13일 전