본문 바로가기

카테고리 없음

이번 주 고민

연구소에 amazon S3 프로토콜이 도입돼서 서비스 준비하면서 회의 한 번 했다. 나도 그렇고 다들 아 좀 S3로 다 옮기고 어쩌고 하는 것 귀찮기도 하고.. 뭣보다 연구소 계산 클러스터를 마운트 바로 하지 못하고 일일히 손으로 (혹은 스크립트 짜서) 동기화 해야 하는 것도 몹시 귀찮은 일이다. 물론 데이터 버저닝도 하고 클로닝이니 여러가지 유용하긴 한데 어쩐지 업체분 얘기를 들으면 들을 수록 이건 서비스 용이지 연구하고 개발 할 때 그렇게 유용한 가 고민.. 우리가 웹앱으로 서비스하는 게 하나 있어서 거기 쓰고 뭐 말 듯.. 모르겠음. 

지금은 뮌헨 라이프니츠 컴퓨터 센터 클러스터를 많이 쓴다. 여기서 리눅스 노드가 큰 게 있고, 오픈스택 기반 가상머신 서비스로 GPU노드 (v100)하고 r shiny, rstudio, rstudio-connect 쓰고 있다. 주피터는 나는 여기선 안 쓰는데 다들 많이 쓰는 듯 그것도. 굉장히 잘 구성돼 있어서 편하다. 클러스터 저장소 (이것도 특수한 dss란 이름의 서비스인데 내가 잘 모르는 내용이라, 여튼 그냥 디스크나 gpfs 물린 건 아님)에 한 번 올리면 ssh로도 접근하고 별도의 rstudio서비스로도 접근하고, 내가 가상머신에 올린 rstudio나 shiny에서도 접근 할 수 있어서 무척 편하다. 소프트웨어 관리도 깔끔하고, 네트워크도 엄청 빠르고 좋다. 바이에른 기관에 속해 있으면 무료로 쓸 수 있는데 지금 디스크 4테라에 가상cpu 수십/수백, 메모리 수백 기가바이트를 그냥 쓰니 모 밥을 안 먹어도 배가 부르네. 독일 사람들 세금낸 걸로 연구하는 거지 사실.. 열심히 하겠습니다. 연구소 자체 클러스터는 디스크도 많이 주고 좋지만 (현재 30테라), 싱글 cpu가 다소 느리고, 소프트웨어 관리가 너무 힘들어서 잘 안쓰고 있다. 일단 docker를 안 해주고, singularity 얼마 전에 시작했는데 이게 쓰기가 영 까다롭고 뭐 안되는 게 많다 아직. 패키지 설치하기도 어렵고 영 좀 그렇다. 결정적으로 외부에서 파일 읽고 쓰는 게 느리기도 하고. 여튼 디스크는 커서..

요새 페넬로페랑 같이 하는 연구가 꽤 도전이라 고민 고민 하고 있다. 한 마디로 결론만 말하면, 지금 문제는 zero-inflated data를 기계학습 방법으로 분석 할 때 보통 선형모형 쓸 때 쓰는 전처리 방법을 써야 하는가 아닌가, hurdle 모델 같은 거나 다른 2단계 모형을 써야 하는가 아니면 GBM에서 어느 정도 알아서 해 주는가 그런 것 고민 중이다. 그리고 mixed effect를 GLM에서 처럼 명시적으로 적어줘야 하는지도 GBM에선 다른 방법이 있는지도 보고 있다. interaction term으로 적어줘야 좋은지 그냥 넣으면 적당히 알아서 처리가 되는 지 (일단은 어느 정도 interaction을 보긴 하는데, 그럼 문제가 예를 들어서 2018년 기상변수는 2018년 자료에만 영향을 줘야 하는데 자동으로 interaction을 모형하는 경우에는 2018년 기상과 2015년의 다른 변수간 인터액션도 보니까, 모델이. 다른 말로 표현하면 기계학습, 나아가 인공지능 모형에서 사람이 어떻게 명료하게 restriction을 하느냐 문제를 놓고 공부 중이다. DL에서 최근 많이 연구되고, 우리도 연구제안서에 넣었던 내용인데, 선형모형의 경우 계층베이지안 모형을 하면 된다고 나는 보고, 기계학습 모형에서 어떻게 하는지, DL에서 어떻게 나이스하게 트레이닝 과정에 결합 할 지 등 좀 공부가 필요하다.. 이게 잘 되면 분과에서 쌓아온 지식, 경험을 쉽게 기계학습 분석에 통계적으로 일관적이게 집어 넣을 수 있으니 매우 훌륭. 

다음 주엔 비엔나 BOKU란 연구기관 (오스트리아어에선 boden이 soil보다 큰 거의 landscape란 의미라고 한다, 독일어에서 boden은 거의. soil)에 회의 잡아서 가게 됐다. 가서 클레멘트 아츠베르거하고 칼 하인츠란 사람을 만나서 회의 할텐데 좀 뭐랄까.. 끓여 먹을 걸 가져가서 보여주고 같이 으쌰으쌰 해야 한다는 압박이 있다. 유럽 농업 연구를 많이 하고, 주로 요샌 고해상도 센티넬 영상으로 정밀 농업 관련 프로덕트 내고 하는 것 많이 하는 듯.. 하인츠 교수 상당히 인상이 좋았는데, 지난 번 학회에서, 글쎄.. 내가 얼마나 잘 할 수 있을 지 좀 부담이 된다. 이 사람하고는 유럽 동물 분포 모형 관련해서 HANPP 자료 얻고 칼럼리랑 같이 논문도 쓰고있는데, 뭔가 난 일 시작만 하고 마무리 늦어져서, 작아지는 느낌이다. 내가 몸무게는 더 많이 나갈 것 같은데, 힘 내야지. 내가 85kg이요. 

이번 주 할 일을 정리하고 있는데 너무 많다. 어제 밤에 겨우 코스타리카 자료 새로 만들어서 보냈고 결과도 흡족.. 한데 이건 사실 일요일 까지 끝냈어야 할 일. 월화에 페넬로페 호박벌 자료에 넘 많이 시간을 쓴 듯.. 흥미롭긴 하다. 영국에서 10년간 광범위하게 모은 호박벌 카운트 자료고 뭔가 엄청난 것들이 플롯 그리면 보이고 함. 난 이런 거 너무 좋아해서 탈이다. 주저자 논문이 약하다, 그런 고민이 점점 깊어지는 가을.. 

고민을 주워 섬기는 글이라 몇 개 더. 분자생물학과 환경 시스템 연구, 원격탐사의 조합에 대해 어제 또 심사숙고함. 생각보다 뭐 많이 된 것 같진 않다 그런 생각이 들었고, 이거 뭔가 금광의 느낌이 남.. 내가 팔 생각은 그다지 크지 않지만 하면 향후 10년 간 좋을 듯. 아내랑은 AI를 어떻게 잘 써야 하는지 그런 페이퍼를 하나 시작했다. 뭐 여기저기서 돈 준다고 연구해라 막 그러는데, 과연 제대로 가고 있는지, 환경 전체주의로 흘러가는 것은 아닌지, 혹은 또 다른 그린워싱에 그치진 않을 지 그런 얘기를 좀 해보고 싶다. AI를 여행하는 생태학자를 위한 가이드 뭐 그런 제목으로. 

GIGO, 뭐 유명한 말이다. 쓰레기를 넣으면 쓰레기가 나온다고 보통 번역을 하고, 난 이거 아마 초등 때 컴퓨터 잡지에서 처음 봤던 듯. 그 때 first come first served니 random access니 하는 기술적으로 의미 있으면서 일상 생활에도 재미지게 쓸 수 있는 용어를 많이 접할 수 있었다. GIGO란 교리를 나도 충실히 마음에 새기고 연구를 하다가 박사 과정 때 크리스티나를 통해 시계열 분석, 주파수 분석을 처음 접했는데 (이거 사실 대학교 1학년 커리큘럼에 다 있던 건데 내가 그 때는 바빠서; 공부를 못함), 그 때 GIGO에 대해 심히 고민을 하게 됐다. 뭔가 쓰레기 같은 데이터가 주파수 분석을 가미하면 멋진 플롯으로 변하는 광경. 결국 결론은 변하지 않는 거였다. 다만 다른 영역 (예를 들어 주파수 영역)에 정보가 숨어 있어서 그렇지 사실은 garbage가 아니었기 때문. 다만 그 때 상당수의 자료는 눈으로 봐선 garbage인지 아닌지, 다른 말로 하면 random noise인지 signal 인지, 또 다른 말로 하면 information이 있는 지 아닌지를 알기 어렵다는 것을 깨달았다.

여전히 GIGO이지만, 쓰레기가 아닐 수도, 때론 쓰레기들이 결합되어 또 정보가 될 수도 있다는 말이 하고 싶었다.  똥 인지 된장 인지는 맛을 보면 알지만, 똥 인지 약 인지는 모를 수도 있다. 왜냐면 맛의 영역이 아니라 인체에 미치는 생리적 영향력에 약의 가치가 있으니. 그러니 좀 쉽게 어떤 자료건, 혹은 주장이건 garbage다 아니다 판단하지 않으려 노력하기 시작했던 것 같다. 주의깊게 들여다 보고, 신뢰할 수 있는 사람들의 의견을 취합하고, 정량적인 자료, 혹은 숫자를 기준으로 어떤 가치가 있는지, 내가 모르는 것들이 항상 있고, 그걸 모르는 걸 몰랐다는 걸 후에야 알게 되는 경우가 여전히 많고, 죽을 때 까지 그럴 것이다.이게 상당히 지금까지도 내 사고방식에 영향을 많이 끼친다. 최소한, 이불킥을 줄일 수 있다.