SCT 장애 및 대응

in mini.topia2 months ago

안녕하세요 @realmankwon입니다.

최근 며칠동안 SCT 장애가 발생하고 있습니다.
장애의 원인은 2가지입니다.

  • 스팀엔진 API 오류
  • SCT 서비스 서버 장애

첫번째 원인인 스팀엔진 API 오류의 경우는 자체적으로 해결이 되지 않는 부분입니다.
스팀엔진 개발자와 연락이 닿아야 하고 연락이 닿더라도 당장 해결이 되지 않는 경우가 많기 때문에 시간이 제법 걸리는 경우입니다.

두번째 원인인 SCT 서비스 서버 장애의 경우는 최근 서버 사양 업그레이드를 위해서 서버 이전을 하였습니다.
서버 이전을 하면서 봇 관리를 더 효율적으로 하기 위해서 forever 가 아닌 pm2 모듈로 변경을 하였습니다.
그것이 원인인지는 모르겠지만 그 이후부터 개별 서비스가 중단이 되는 것이 아닌 서버 자체가 중단되는 일이 발생하였습니다.
이 경우는 aws 관리 콘솔에서 서버를 중단시키고 재실행시켜줘야만 하기 때문에 기존의 장애보다는 시간이 좀 더 걸렸습니다.

하지만 이 경우는 중요한 서비스는 개별 개발자의 PC에서 임시로 서비스가 가능하기 때문에 이가 없으면 잇몸으로라도 가능한 부분입니다.
어떤 경우에서든 장애가 생겨서 서비스가 제대로 되지 않은 점 죄송하게 생각합니다.

그런데 어떤 분은 장애가 생겼다고 제보를 하고 본인이 직접 해결했다고 댓글을 남기면서 해결 방법이 있는데 해결할 생각을 하지 않는다고도 하십니다.
다른 프로젝트 때문에 SCT에 관심을 가지지 않고 내 버려 두고 있다고 하시던데...

사실 저도 사람인지라 이런 댓글을 보면 힘이 빠집니다.

과연 제가 SCT 서비스에 관심이 안 가지고 있을까요?
제가 가지고 있는 SCT, SCTM, KRWP 를 보면 그 답이 될 것 같습니다.
제가 스팀을 몇만개씩 사서 SCTM과 SCT를 구매하기도 했고 매일매일 SCT를 소각 하면서 KRWP를 모으고 있습니다.
그리고 매일매일 KRWP 보팅 서비스를 사용하고 있구요.

즉 운영자, 개발자이기 이전에 투자자이고 사용자입니다.
어쩌면 SCT 서비스가 중단되면 가장 큰 피해를 입는 것이 바로 저 자신입니다.
그런데 제가 SCT 서비스에 관심을 가지지 않을까요?
해결책을 찾지 않을까요?

장애가 생기면 심장이 쿵쿵대고 머리가 쭈뼛쭈뼛 서면서 왜 안되는지 고민을 하고 일단 서비스를 실행할려면 어떻게 해야할지를 판단해야합니다.
그것은 겪어보지 않으면 얼마나 그 상황이 힘이 들고 어려운지 모르실 겁니다.

어떤 원인에서든 장애가 생기고 처리가 늦어지게 된 점 죄송스럽게 생각하고 있고 그런 일들이 최대한 발생하지 않도록 다각도로 애를 쓰고 있습니다.
그런데 장애가 생기지 않도록 하기 위해서 휴가를 가서도 며칠씩 밤을 지새우고 가족과 함께하는 시간에도 휴대폰을 보면서 잘 되고 있는지를 확인하곤 합니다.

어깨를 다치고 수술을 하고 다리가 불편한 상황이지만 그래도 제가 해야하는 일이 있기 때문에 지난 시간을 참고 견뎌왔습니다.
회사일을 마치고 몇 시간씩 개발을 하면서 테스트를 하고 장애가 생기고 복구되었을 때를 감안한 로직을 추가했습니다.

이 외에도 말로 다 할 수 없는 에너지를 SCT에 쏟아부어왔고 지금도 그렇게 하고 있습니다.

하지만 이런 제 노력이 그 분의 댓글들로 인해서 부질없게 느껴지는 요즘입니다.

어쩌면 그 분이 진정 바라시는게 힘을 빠지게 해서 앞으로 나아가지 못하게 하려는 것은 아닐런지...
장애글을 쓰면 그 분은 또 아무렇지 않게 비아냥거리면서 댓글을 달 것 같아서 저도 오늘은 감정적인 글을 쓰게 되었습니다.

원인도 모른채 불편한 감정의 글을 보시게 되는 많은 분들께는 죄송한 말씀드립니다.