반응형

Major Study./Computer Science 51

LLM을 medical text에 활용해보면서 느낀점 및 정리

요즘 Large Language Model (LLM) 모델의 인기가 엄청나다. 주로 유전체 정보와 환자의 영상이미지, 병리이미지 등을 다루다가, 이제는 pathology 및 radiology report까지도 다루게 됐다. 모든 연구자들은 빠르게 아무도 안해본 데이터를 활용해서 새로운 결과를 만들어 좋은 저널페이퍼를 출간하고 싶은 법.. 나도 텍스트 데이터에 전혀 관심이 없다가 이번에 LLM을 활용해보면서 든 생각들을 정리해보았다.  필요한 GPU 메모리는 어느정도인가?현재 내가 쓰고있는 GPU는 A6000 * 8개짜리로, 각 gpu는 대략 48기가의 용량을 갖는다.내 경험상, 이 정도의 서버 스팩이면 7B 사이즈 정도의 텍스트는 충분히 처리할 수 있었다.대략 7,000 ~ 12,000 개 정도로 된 i..

pytorch hub, torchvision으로 받은 모델의 forward 가져오기

Transfer learning을 수행해야할 때, torch의 hub를 활용해서 기존의 pretrained model을 가져오는 경우가 많이 있다. 그러나, 단순히 마지막 fully connected layer만을 없애고 싶은게 아니라, 중간의 feature부터 활용하고 싶은 경우가 있는데, 이런 경우는 forward 함수를 건드리면 제일 간편하다. 예를 들어, vision transformer에서, 마지막 cls token의 값을 가져오는게 아닌 patch의 정보를 가져오고 싶을때? 단순히 모델의 architecture를 수정한다고 해결할 수 있는 문제는 아니다. forward 함수에서, cls token만 짚어서 return하고 있기 때문이다. 이런 경우, python의 inspect를 활용하면 매우..

JupyterLab 에서 함수 클래스 숨기기 (Toggle, Folding )

가끔 서버에서 visualization을 위해, Jupyter Notebook (JupyterLab)을 활용해야할 때가 있다. NbClassic Notebook이라면, 간단하게 Notebook Extensions 등의 기능을 설치하면 되지만, JupyerLab에서는 이걸 default로 제공한다. (기능은 안켜져 있음) 1. 상단 탭의 Settings -> Advanced Settings Editor 2. 좌측 Notebook 탭 -> Code Folding 선택 3. Jupyterlab에서 Notebook을 켜서 folding / toggle이 가능한지 확인한다.

Google Drive 파일 Linux 서버에서 다운로드

목표: Google Drive에 업로드 된 테라 단위의 파일을 서버에 받아야 하는 상황 Ubuntu 리눅스 서버 환경에서 Google Drive와의 동기화를 시도했으나, google-drive-ocamlfuse와 rclone을 사용하는 과정에서 여러 어려움이 있었습니다. 제 서버 환경은 GUI가 없어서, OAuth 인증 과정에서 리디렉션과 인증 코드 입력이 필요했습니다. google-drive-ocamlfuse의 경우, 서버 설정과 리디렉션 URI 문제가 복잡했으며, rclone도 비슷한 인증 과정을 요구했습니다. 아무튼, 정리하면 google-drive-ocamlfuse는 사용자 인증을 필요로 하는 OAuth 2.0을 기반으로 합니다. 이 방식은 일반적으로 사용자의 브라우저에서 Google 계정으로 로..

AI 연구원이 ChatGPT 활용하는 꿀팁

ChatGPT 관련 블로그 글들을 보면 대부분 추상적인 얘기만 한다. 무슨 역할을 부여하라, 구체적으로 물어봐라, 기타 등등.. 별로 도움도 되지 않고, 매번 ChatGPT와 토론하기 위해 Prompt engineering을 하자니 타자를 치는 손가락이 아프다고 느껴진다. 요즘 연구를 하는 도중, ChatGPT와 토론하면서 새로운 연구주제들, 방법론들을 찾아내고 있는데, 정말 많이 써오면서 만들었던 나만의 꿀팁을 블로그에 공유해본다. 1. Custom Instruction을 작성한다. 좌측 하단에 Custom instructions가 있다. Custom instructions를 클릭하면 우측의 창이 뜬다. 여기에 2가지 입력하는 칸이 있다. What would you like ChatGPT to know..

윈도우 탐색기에 SSH 서버 폴더로 등록하기

윈도우에서 ssh로 서버의 파일에 접근할 때, WinSCP 를 활용해서 보통 작업을 했었습니다. WinSCP의 인터페이스가 불편하진 않지만 윈도우 디렉토리로 바로 접근이 가능하면 훨씬 편합니다. 윈도우 탐색기에 SSH 연결하는법 [1] 필요한 소프트웨어의 다운로드1 : WinFsp WinFsp: https://winfsp.dev/rel/ Download · WinFsp Download WinFsp is released in the form of an MSI installer that includes a signed driver and all files necessary to run and develop user mode file systems on Windows. The installer supports..

노트북에 연결된 모니터 반응속도 느릴 때

조그만 노트북 (서피스 랩탑)에 32인치 모니터를 연결했더니, 마우스의 속도가 버벅거리는 식으로 움직입니다. 이는 바로 모니터의 "주사율" 이라는 건데, 1초에 몇번의 화면을 새로고침 할것인지에 대한 내용입니다. 주사율: 모니터의 새로고침 빈도 일반적인 모니터의 주사율은 60hz입니다. 게이밍 모니터의 경우 90hz, 120hz, 144hz까지 갑니다. 이게 올라갈때 크게 좋은걸 못느끼지만, 내려왔을때 역체감이 심하게 느껴집니다. [노트북 반응속도가 느린 이유] 이 글을 찾아오신 분들은, 노트북에 연결된 모니터의 속도가 느린 것으로 검색하셨을 것으로 예상됩니다. 노트북의 경우, 그래픽카드가 매우 좋은것은 아니기 때문에, 크고 해상도가 높은 모니터를 노트북에 연결하셨을 경우 최대 주사율이 낮게 설정될 수 ..

URL 이미지 다운로더 ImageURL v1.1

다운로드 링크1 - ImageURL_1.1.zip 다운로드 링크2 - ImageURL_1.1.zip (google drive) URL 로부터 이미지를 다운받아야 하는 작업이 필요하다는 분이 있어서, 프로그램을 하나 만들어봤습니다. 이 프로그램은 사용자가 입력한 URL로부터 이미지를 자동으로 확인하고, Space (혹은 클릭) 키보드 입력을 통해서 자동으로 이미지를 다운로드 할 수 있는 프로그램입니다. 프로그램의 주요 기능은 여러 이미지를 키보드를 통해 넘기고, space를 통해 다운로드 하는 기능입니다. 입력된 URL 인터넷 주소에서 이미지만 추출하여 다운로드할 수 있는 기능을 제공합니다. 사용법은 다음과 같습니다. 1. ① 번에 검색하고자 하는 URL 인터넷 주소를 입력하세요. 2. ② 번을 클릭하여,..

오토마우스 무한클릭 v1.7 - Auto Click

/* * http://sosal.kr/ * made by so_Sal */ 마우스를 자동으로 클릭해주고, 키보드를 자동으로 입력하게 하는 오토마우스 무한클릭입니다. 무한클릭 프로그램은 관리자 권한을 일체 요청하지 않는 안전한 프로그램입니다. 게임이나 반복적인 업무를 하실 때 유용한 프로그램입니다. - 오토마우스 무한클릭 다운로드 비밀번호: sosal 오토마우스 무한클릭의 인터페이스는 다음과 같습니다. 1. 오토마우스 실행 / 종료 Start에 해당되는 F5 버튼을 클릭하면 오토마우스 기능이 시작되며 Stop에 해당되는 F6 버튼을 클릭하면 오토마우스의 기능이 중지됩니다. 2. 오토마우스 실행버튼, 종료버튼 변경 F5 버튼의 스크롤을 클릭하시면 다른 버튼으로 수정할 수 있습니다. 3. 자동으로 입력할 이벤..

Differential privacy - 차등 개인정보 보호

의학 연구에 있어서, 샘플의 정보는 환자 개인의 고유한 정보라고 할 수 있다. 따라서 개인의 자발적 동의 없이 데이터를 유통하는 것은 쉽지 않다. 분석가치가 높은 데이터일수록, 혹은 Sample에 대한 정보가 많을수록 정보의 민감성은 증가한다. 따라서 데이터를 활용하기 위해선 개인정보를 보호하는 단계는 필수적이다. 1. Definition of Attributes in Data Privacy 1) Identifiers: 식별자 (혹은 Key) 흔히 Database에서, entity (개체)를 구분할 수 있는 변수를 Key라고 부른다. 식별자는 의료데이터에서 각 샘플들을 독립적으로 구분할 수 있는 변수기 때문에, 필히 민감정보가 된다. 예를 들어 주민번호, 전화번호, 환자등록번호, 계좌번호, 영상의학이미지..

반응형