Ökoinfomatik

딜레마

분류없음2017.03.05 01:49

난 주로 계산용인데, aws를 제대로 쓰려니 사용료가 부담이 된다. 학교에서 쓰는 컴퓨터가 ubuntu에 i7 6700에 64기가 메모리 인데, 좀 느리긴 하지만 드롭박스 써서 데이터도 자동으로 싱크시키고 하니까 쓰기 꽤 편하다. 원래 있던 서버는 스토리지가 큰 거 빼곤 다 메모리도 작고 느려서 잘 안 쓴다. 결정적으로 centos 버전이 낮아서 프로그램 설치가 안되는 게 많다. centos 업그레이드 하기엔 기존에 쓰는 사람이 많아서 위험 부담 너무 크고.. 여튼 학교에 이것 저것 깔아놓고 잘 쓰고 있다만.. 요새 뭐 하나 하면 시간이 엄청 걸려서 문제였다. 일단 영상 처리 쪽에선 미국 본토 전체 뭐 하나하면 병렬화 해도 계산 한 번에 10~20분 걸리는 게 예사고, 이번에 공간 그래프 분석 할 때는 하루 이상 걸리고 해서, about a day 의 추억이 떠올랐다. 지금 보다 더 빠르게 계산을 amazon web service 이용해서 하려면 amazon ec2에서 cpu 4코어 이상에 메모리 64기가 이상이어야 하는데, 그러면 시간당 비용이 20~50센트 정도, 그러니까 대충 500원 잡자. 이게 물론, 머리를 쓰거나 프로그램을 쓰면 안 쓸 때 자동으로 꺼지게 한다던가, 뭐 방법이 많다. cpu 사용량을 낮추는 것도 중요하고. 여튼 이게 부가적인 작업이다. 결정적으로, 스토리지하고 네트워크가 조금만 많이 쓰기 시작하면 무료가 아니다. 우리가 쓸데없이 자료만 많이 쓰다 보니 보통 100기가 정도는 최소한 올려 놓고 써야 하는데, 저장만 하고 있어도 돈이 나오고, 또 드롭박스로 싱크를 하면 또 네트워크 트래픽에 과금이 된다. 이것도 줄이려면 아마존 s3에 올리고 또 s3를 싸게 하기 위해 또 작업을 하고 해야 하는데, s3에 파일 올리고 내리는 것도 일이고...   음. 여튼 엄청 신경을 쓰면 비용대비 효율적으로 고성능 서버를 굴릴 수 있으나, 엄청 신경을 안쓰면 잡일도 많고, 비용이 얼마가 청구 될 지 감이 안와 불안하기도 하고, 이걸 내가 자비 부담해야 하는 것도 문제다; 학교도 그렇고, 같이 일하는 기관 분에게도 문의를 했는데 aws 비용 처리는 아직 우리 분야 쪽에선 어려운 모양이다. 그래서 순간적으로 엄청 cpu와 램을 많이 쓰는 작업 할 때는 유용할 것 같은데, 24시간 돌리면서 이것 저것 하기엔 좀 어려움이 있다. 

.. 그래서 라이젠 1800x서버를 구입하기로 했다 이 얘기 하려고 변명을 길게 썼다. 집에 라이젠 1800x에 64기가 메모리 붙여서 서버 만들기로 결정 후후. gpu는 일단 gtx960이 하나 있어서, 대략 150만원 정도면 맞출 수 있을 듯. 1800x는 물리 8코어에 가상 16코어고, 코어 당 성능이 브로드웰/스카이레이크 정도 나오는 듯 하다. aws도 기준이 현 세대 제온이라고 하니 (사실은 가상화되어서 뭐 복잡한데.. 할당되는 cpu 파워가 동적으로 변한다고 한다). 대충 m4.4xlarge 요금 수준인데 이게 시간당 0.862 달러니까, 1천원 잡고 하루면 2만4천원. 한 달이면 대충 70만원, 그러니까 잠도 안재우고 계산을 안 쉬고 2달 돌리면 라이젠 구입 비용 뽑을 듯 하다. cpu를 계속 풀로드 시키지 않겠지만, 스토리지랑 네트워크 비용이 추가로 들어가는 것도 감안하면 열심히 두 세 달만 써도 이득..   기대하는 성능은 현재 학교 리눅스의 3배 정도. 뭔가 아직 아무 것도 안 했는데 돈 버는 기분이다. 나야 그리고 이걸로 뭐 서비스를 하는게 아니고 혼자 쓰는 것이니. 그리고 16코어로 하면 블로그도 빨리 쓸 수 있고 좋다. 

문제는 이걸 이번 출장 한 달 가는 동안 원격으로만 써야 한다는 건데, rstudio와 ssh로 하니까 큰 문제가 없어야 하나, 네트워크 사정이 어떻게 될 지 알 수가 없다. 학교 서버실에 두고가면 네트웤이 집보다 느려서 답답할 것 같고, 집에 두고가면 전원 내려가거나 했을 때 봐 줄 수 있는 사람이 없어서 문제. 캐리어에 싸들고 가는 방법이 있긴 하다. 


----

UC Berkeley CS188 Intro to AI -- Course Materials

http://ai.berkeley.edu/lecture_slides.html


---

모두의 연구소

http://www.modulabs.co.kr

좋은 아이디어 같애. 얼마나 잘 돌아가고 있을 지 궁금하다. 

http://keunwoochoi.blogspot.kr/2016/06/andrej-karpathy.html

또 좋은 강화학습 튜토리얼 번역. 사이트 잘 정리해 두셔서 도움 됨. 

저작자 표시 비영리 변경 금지
신고
0

0

그야말로 최근 연구 동향; 초고해상도 3d 이미지 찍고, 나무 하나하나 딥러닝으로 자동 매핑. 
레이저 센서는 고해상도 라이다 같음. 카본이랑 나이트로젠을 뭘로 잰 건지 모르겠는데, 요새 형광 센서 써서 leaf nitrogen 보는 식으로 대신 고해상도로 한 것 아닌가 추측. 이런 연구를 어서 시작해야 하는데.. 
https://cao.carnegiescience.edu/publications 발표자 Greg Asner가 속해 있는 연구 그룹 홈페이지. 
사이언스 논문
http://science.sciencemag.org/content/355/6323/385
다음 주에도 프로젝트 회의 있는데, .. 연구 갭이 너무 크게 느껴져서 갑갑하다. 뭔가 회의를 하면서 '새로운 방법!' 하면 반응은 보통 2가지다. '뭔진 모르지만 그럴싸 하니 해보자' 아니면 '뭐 항상 대단한 건 없었으니 그냥 하던 대로 하자'. 첫 번째 반응을 따라가면 결국 뭐 이것 저것 새로운 용어만 붙으면서 근본적인 연구, 분석은 옛날 스타일로 하는 경우가 된다. 빅 데이터.. 어쩌고 하는 연구가 상당수 들여다 보면 그렇다. 두 번째 반응을 따라가면 그냥 뭐, 코릴레이션, ols, pca. 그리고 결국은 뭐 불확실성이 있다 (그러나 우리는 다루지 않겠다), 이런 결론을 내리는 연구가 된다. 
왜 새로운 방법이 나왔고, 실제 장점은 무엇이며, 그것을 우리가 어떻게 도입해서 연구 해야 하는지 진지하게 의논하는 그런 분위기 속에서 일하고 싶은데, 언제가 될 지, 언젠가는 될 지 아직도 모르겠다. 
자, 이 연구로 돌아오자. 왜 나왔는가. 이런 방법을 쓰지 않으면 대규모 연구 지역에 대한 고해상도 (3D) species mapping은 불가능하다. 그리고 그게 불가능해서 현재 대부분의 중규모 생태학 연구에서는 100미터 이상 해상도에 분류도 굉장히 러프하게 된 식생 지도를 사용한다 (e.g., 서울 숲이 500m 500m 픽셀의 활엽수림이라 던가). 이 동영상 초반에 소개한 사자 이동 연구 같은 건 당연히 불가능하다. 실제 장점은 무엇인가, 자료처리 방법론이 정리가 되고, 국가나 광역 수준에서 이와 같은 데이터를 정기적으로 만들면, 지금까지 '토의'로 남겨 놓던 부분을 해결할 수 있다. 예를 들어서 중부지방 산림 고사의 경우, 개별 나무 수준의 시뮬레이션을 수행할 수 있고, 고사 원인 분석도 그러니 수목 수준에서 진행할 수 있다. 이게 안 돼서 아직 산림 고사 원인이 분명히 밝혀지지 않았다. 조류나 포유류 다양성 연구에도 이와 같은 자료가 있냐 없냐가 가져올 차이는 매우 크리라 짐작한다. 어떻게 도입할 수 있나. 라이다야 지금도 조금씩 찍는데, 언뜻 보기에도 여기서 쓴 자료는 더 고해상도로 보인다. 형광 센서 이용한 거라면, 라이다 촬영 할 때 고해상도 형광도 같이 찍는 캠페인을 해야하고, 개별 기관 수준에서는 힘들어도 중요한 생태연구지에 대해 국가연구기관에서 시범적으로 수행하는 것은 가능하리라 본다. 자료가 일단 얻어지면, 자료 처리는 이 사람들이 만든 논문도 있을 거고, 확실친 않지만 species mapping은 비교적 간단한 알고리즘 사용했을 수도 있다. 레이저 자료 처리는 오래 연구가 돼서 3d자료에서 나무 모양 비교해서 분류하는 정도는 많이 출간되어 있다. 건물 같은 큰 구조물은 아주 정확히 매핑하고, 나무도 요샌 많이 잘 한다. 자료 양이 많으니 처리 자체가 좀 일 이겠지만, 가능하다. 
쓰고 나니, 역시 똑같은 반론에 부딪힐 수 있단 생각이 든다. 뭐 예전 부터 하던 거 아니냐, 비슷하지 않냐. 결국 고해상도로 자료를 얻고 처리하는 것, 그 처리를 자동화 하는 것, 자동화 하면서 정확도를 deep learning 이용해서 향상시키는 것 세 가지다. 이게 큰 차이라고 보는 사람과 그렇지 않은 사람 간의 결정은 사뭇 다를 것이다. 난 결국 생태학 연구가 곧 생태계 요소 전부를 고해상도로 가상 공간에 올리고 지금 게임에서 사용하는 것과 같은 물리엔진을 이용해서, 일종의 생물리엔진을 이용한 연구로 전환될 것으로 본다. 그리고 많은 발전한 프레임 워크가 그렇듯, 기존의 생태학 연구 방법은 이런 가상공간에서 엔진을 이용한 연구에 투사해서 100% 동일하게 재현할 수 있다. 재현해서 보면 그 허점, 무리한 가정이 드러날 수 밖에 없다. 예를 들어서, 10년 내내 기후가 똑같다던지, 흙의 깊이가 전국이 다 똑같다던지, 나무가 똑같은 종류 하나만 심어져 있다던지. 그렇게 투영해 보면 지금 연구의 한계가, 난 쉽게 드러난다고 생각한다. 앞으로 그리고 나아갈 수 있다고 믿는다. 언제, 누구에 의해서 될 것인지 궁금할 뿐. 


AI MAPS BIOLOGICAL RICHES OF THE RAINFOREST 
An ecologist at the Carnegie Institution for Science and Stanford University is using deep learning and a powerful spectral imaging method to map Peru’s rainforest in unprecedented detail.

AI MAPS BIOLOGICAL RICHES OF THE RAINFOREST
 

10X More Rainforest Biodiversity



저작자 표시 비영리 변경 금지
신고
0

0

오랜만에

분류없음2017.03.03 17:17

개괄하는 논문을 읽었다. 어제 일 여러가지 마쳐서 그래도, 좀 숨 돌리는 하루. 1996년 논문인데,

저작자 표시 비영리 변경 금지
신고
0

0

요즘

분류없음2017.02.28 13:35

정말 많이 바빴다. 과거에 게을러서 그렇다. 

smote 리비전 마쳤고, fractional vegetation cover 투고 작업 마쳤다. 지난 주에 연결망 잘 끝냈고, 내 식물 생육 발표도 어찌저찌 마쳤고, 학교 사람들을 여러 팀 만났다. 지원서 한 군데 내는 것 어떻게 끝냈고, 원고 프루프 리딩도 하나 마치고, 두개 만 더 잘 하면 된다. 비엔나 출장 예약했고, 연말정산도 반나절 만에 어떻게든 했고, 자전거도 고쳤고, 성당 교리도 빼먹지 않으려고 노력 중이다. 지오사이언스 스페셜 이슈 결국 못 냈고, 아직 쌓여 있는 일이 많다, 원고 진지하게 보아야 할 것 두개. 생육 논문 써야 하는 것, ngc 제안서 제출, 3월 15일 까지 또 지원할 곳 하나 있고. 

밤에 잠 줄이고, 놀지 않고 열심히 하고 있다 다행히. 체력, 집중력이다. 리듬, 파워, 집중력!


---

이번 EGU 초록 낸 것, 구두 발표 승인이 났다. 아 어쩐지 떨리는 고만.. 

크리스티나 온다고 하고, 아마 몇 더 있을 듯 하다. 물어본 몇은 못 온다고 했는데, 나중에 바이 들러서 보고 올 것 같다. 학회에 친구들이 온다고 내 발표를 들으러 올 수 있을 지는 회의적이다.. egu도 agu처럼 몇 천명 단위로 참석하는 곳이라 그냥, 백화점 식으로 구경한다 생각하려고 한다. 불행인지 다행인지 발표가 첫 날이라, 둘째 날 부턴 마음 편하게 돌아 다닐 듯. 

빈은 이번으로 세 번째 길게 가는 건데, 그래서인지 막연하나마 친근하다. 여행을 두 번 길게 가서 뭐 많이 돌아다녔는데, 언제나 하루키가 지루하다고 했던 도시, 란 생각과 프라터에 가면 유명한 영화 생각이 나고 그렇다. 학회장이 큰 도나우 건너편에 있는데, 보통 여행은 강 서쪽 구도심에서만 한다. 지난 번 여행 때, 진짜 도나우를 보겠다고 고집 부려서 희라랑 야밤에 전철을 타고 나섰다가, 우리로 치면 양화대교 교각 만 보다 왔던 기억이 새록새록 하다. 나중엔 트램에 승객도 없고, 정말 뭐 총이라도 맞는거 아닌가 생각이 들었다. 도나우는 작은 도나우만 보면 된다고 한다, 알고 보니. 돌아오는 길에 분식 먹었던 것 생각난다. 어디서나, 야식은 과식. 

저작자 표시 비영리 변경 금지
신고
0

0

희미한

분류없음2017.02.28 02:31

희미한 옛사랑의 그림자

김광규

4·19가 나던 해 세밑

우리는 오후 다섯시에 만나

반갑게 악수를 나누고

불도 없는 차가운 방에 앉아

하얀 입김 뿜으며

열띤 토론을 벌였다

어리석게도 우리는 무엇인가를

정치와는 전혀 관계없는 무엇인가를

위해서 살리라 믿었던 것이다

결론 없는 모임을 끝낸 밤

혜화동 로터리에서 대포를 마시며

사랑과 아르바이트와 병역 문제 때문에

우리는 때묻지 않은 고민을 했고

아무도 귀기울이지 않는 노래를

누구도 흉내낼 수 없는 노래를

저마다 목청껏 불렀다

돈을 받지 않고 부르는 노래는

겨울밤 하늘로 올라가 별똥별이 되어 떨어졌다

그로부터 18년 오랜만에

우리는 모두 무엇인가가 되어

혁명이 두려운 기성 세대가 되어

넥타이를 매고 다시 모였다

회비를 만 원씩 걷고

처자식들의 안부를 나누고

월급이 얼마인가 서로 물었다

치솟는 물가를 걱정하며

즐겁게 세상을 개탄하고

익숙하게 목소리를 낮추어

떠도는 이야기를 주고받았다

모두가 살기 위해 살고 있었다

아무도 이젠 노래를 부르지 않았다

적잖은 술과 비싼 안주를 남긴 채

우리는 달라진 전화번호를 적고 헤어졌다

몇이서는 포커를 하러 갔고

몇이서는 춤을 추러 갔고

몇이서는 허전하게 동숭동 길을 걸었다

돌돌 말은 달력을 소중하게 옆에 끼고

오랜 방황 끝에 되돌아온 곳

우리의 옛사랑이 피흘린 곳에

낯선 건물들 수상하게 들어섰고

플라타너스 가로수들은 여전히 제자리에 서서

아직도 남아 있는 몇 개의 마른 잎 흔들며

우리의 고개를 떨구게 했다

부끄럽지 않은가

부끄럽지 않은가

바람의 속삭임 귓전으로 흘리며

우리는 짐짓 중년기의 건강을 이야기했고

또 한 발짝 깊숙이 늪으로 발을 옮겼다 



저작자 표시 비영리 변경 금지
신고
0

0

일도 많고

분류없음2017.02.22 00:11

힘들 때 좋다 




---
유튜브 림프 너바나 노래 중 한 곳, 첫 코멘트 

I was 14 when this song came out. Now I'm 40. Where the hell has time gone?


나도 그 노래를 처음 들었을 때 14, 15 였다. 어디로 시간이 흘러간 걸까? 

저작자 표시 비영리 변경 금지
신고
0

0

그거

분류없음2017.02.19 14:25

그거, 인터넷. 

인터넷은 처음엔 공대 전산실 같았다가, 도서관 같더니, 카페가 되었다 언젠가는 인문대 대학원 휴게실 같기도 하더니 지금은 남고 교실 쉬는 시간 같아지는 가 싶더니 지금은 단체 채팅방에 들어와 있는 기분이 들게 한다. 

잘 말하고 쓰는 것 보다 다른 사람의 이야기를 읽고 듣는 것이 중요한 시대란 생각이 든다. 



2003.03.10 23:08
관찰하지 않고 인간을 사랑하기는 쉽다. 그러나 관찰하면서도 그 인간을 사랑하기란 얼마나 어려운가? 

깊은 사색없이 소박하기는 쉽다. 그러나 깊이 사색하면서 단순 소박하기란 얼마나 어려운가? 

자신을 기만하면서낙천적이기는 쉽다. 그러나 자신을 기만하지 않으면서 낙천적이기란 얼마나 어려운가? 

어리석은 자를 증오하지 않고 포용하기는 쉽다. 그러나 어리석은 자를 증오하면서 그에게 애정을 보내기란 얼마나 어려운가? 

외롭지 않은 자가 온화하기는 쉽다. 그러나 속절없는 고립 속에서 괴팍해지지 않기란 얼마나 어려운가? 

적개심과 원한을 가슴에 가득 품고서 악과 부정과 비열을 증오하기는 쉽다. 그러나 적개심과 원한 없이 사랑하면서 악과 부정과 비열을 증오하기란 얼마나 어려운가? 


                                    서준식 '옥중서한' 중에서



저작자 표시 비영리 변경 금지
신고
0

0

aws

분류없음2017.02.16 15:27

도저히 안 돼서 aws 사용방법 찾고 있다. 

https://aws.amazon.com/blogs/big-data/running-r-on-aws/

이런 자료가 있는데, 작년에 해 보니까 데이터 주고 받는게 좀 복잡하던데.. 

여튼 cpu 40개에 메모리 244gb 라고 한다. 털썩. 



----

훌륭하신 분들 덕분에 성공

http://datum.io/aws-ec2-rserver-installation1/

한글로 설명된 곳. 특히 여기서 아래의 영국분 사이트 링크를 알게 됐다. 

http://www.louisaslett.com/RStudio_AMI/

서버 설정이 복잡한데, R에 맞게 설정한 서버 인스턴스 복제를 얻을 수 있음. 


datum.io의 설명을 따라가면 쉽게 할 수 있다. 접속되면 패스워드 변경 할 수 있게 R펑션을 만들어 두셨고, dropbox 링크도 준비해 두셨다. 엄청 편리하다. -> 드롭박스 쓸 경우 처음에 무조건 전체 파일을 싱크하니 주의. 네트워크 사용량과 디스크 사용량 고려해서 최소한 폴더만 싱크하게 하거나, 새 계정으로 해서 공유폴더로 주는게 좋을 듯 하다. 

64코어에 256gb를 상시적으로 이용하면 시간 당 3.5불 정도. 엄청 많이쓰면 돈이 좀 많이 들겠으나.. m4.4xlarge 타입은 8코에어 32gb 메모리고 시간당 1불이 채 안된다. 하루 종일 쓰면 2만원 정도. 연속해서 100일 정도 쓰면 컴퓨터를 하나 사는게 나을 듯 하다. 인스턴스 켜고 끄고 자주 하면 되는데 아무래도 번거롭고.. 여튼 안심이 됨 이제. 


---

사용량에 맞춰서 요금을 최적화 하는 것이 가능한데, 고려할 요소가 꽤 많다. 하지만 자동으로 해 주는 프로그램을 짤 수 있다 (api 이용). 

t 타입은 cpu 사용량까지 고려해서 요금 계산을 한다. 서버 켜놓은 시간 / cpu 사용량 / 디스크 점유한 시간 (서버를 꺼도 디스크는 점유) 세 가지 모두 고려해야 함. 순간적으로 cpu 사용량이 변하는 경우 유용. 

m 타입은 켜놓은 시간만 고려하면 되고, 대신 cpu 사용량이 적어도 시간 단위로 돈을 내니까 계속 cpu 사용이 많은 경우에 적합. 

둘 다 디스크와 네트워크 사용은 신경을 써야 함. 자세히 들어가니 복잡하기에, 대충 돈 좀 더 낸다 생각하고 편하게 쓰는 게 좋을 듯 하다. 더 복잡하게 들어가면 on demand라고 항상 내가 컴퓨팅 자원을 쓰는 경우와, 그 보다 요금이 저렴하게 입찰해서 쓰는 방식 등이 있는데 개인 업무에선 신경 안 쓰는 게 삶이 편할 듯. 

대충 보니 cpu는 브로드웰 제온, 하스웰 제온 이라고 보면 되겠다. t 타입의 경우 고가용성으로 뭐 가변적으로 cpu 성능을 얻어오는 것 같은데 잘 모르니 패스.. 

저작자 표시 비영리 변경 금지
신고
0

0

라디오에서

분류없음2017.02.16 00:12

라디오에서 들었는데, 이 사람 연주를 좋게 평가하는 사람이 많단다. 


저작자 표시 비영리 변경 금지
신고
0

0

올만에

분류없음2017.02.14 19:28

사진기 들고 학교갔다. 뚱스를 못 만났다. 




저작자 표시 비영리 변경 금지
신고
0

0

티스토리 툴바