반응형

Sosal~ 798

Sklearn - PolynomialFeatures

Feature Engineering은 데이터의 전처리를 통해 머신러닝 모델의 성능을 향상시키는 방법입니다. PolynomialFeatures 는 주어진 입력값을 기반으로, 고차항들을 추가하는 방법입니다. scikit-learn의 패키지에서 이 기능을 제공하며, 단순한 선형모델을 활용한다는 가정 하에 보다 복잡한 다항식 모델로 변환시킬 수 있기 때문에, 입력값이 적고 비선형 데이터에 대한 모델링을 수행할 때 효과적입니다. - 기본 사용 방법 from sklearn.preprocessing import PolynomialFeatures poly = PolynomialFeatures(degree=2, include_bias=False) poly.fit_transform(pd.DataFrame([3, 6, 9]..

엑셀 행 높이를 건드릴 경우 멈춤 현상, 해결하기

윈도우 11 노트북에서, 엑셀을 사용하다 행 높이를 건드리는 경우 엑셀이 멈춰버리는 현상이 발생합니다. 엑셀이 중단되었다거나, '응답 없음' 메시지 팝업 조차 뜨지 않으며, 작업관리자에서 엑셀 전체를 종료해야만 종료가 가능합니다. 이는 엑셀에서 Shift 키를 누른 상태에서, 행 높이를 건드릴 경우 생기는 멈춤 현상입니다. 이를 해결하는 방법이 있습니다. 1. 시작키 -> 설정 2. 시간 및 언어 -> 언어 및 지역 3. 한국어 -> ... -> 언어 옵션 4. Microsft 입력기 -> 키보드 옵션 5. 이전 버전의 Microsoft IME 를 '켬' 이제 Shift를 누르고 행을 조절해도 멈추지 않습니다..

Windows_ 2023.04.06

레오폴드 기계식 키보드 커피 (라떼) 쏟았을 때 청소방법

커피를 키보드에 쏟았을 때, 심지어 라떼를 쏟았다면? 사망선고 같나요? 카페에서 커피한잔 하다가 키보드에 엄청난 양의 라떼를 쏟았습니다. 이대로 두면, 말린다고 해서 절대 정상작동 하지 않아요 ㅠㅠ 커피를 아주 살짝 흘렸다면, 키캡만 빼서 닦아주는 것도 방법입니다. 키캡 빼는 방법은 카드 2개로 지렛대 원리 이용해서 쏙 뺴주시면 됩니다. 그런데 이 글을 찾아보신 분들은, 아마 이정도로 해결이 안되신 분들이겠죠? 커피를 많이 쏟았을 때, 키 하나를 눌렀는데도 여러개가 눌리는 현상 등이 존재한다면 그건 100% 안쪽에 흡음재가 커피, 라떼, 우유 또는 수분 때문에 쇼트가 발생하는 것입니다. (쇼트: 접촉되면 안되는 두 도체가 전류적으로 접촉되는 현상) 그럼 분해를 해야겠죠? 어렵지 않습니다. 수리 쉽게 됩니..

Stigmatized./ETC. 2023.03.16

tf.keras로 Embedding layer 뜯어보기, 구현해보기

Embedding layer가 어떻게 동작하는지 정확하게 알기 위해서, 가장 쉬운 예제를 통해 이해하려고 노력해봤습니다. import tensorflow as tf from tensorflow.keras.utils import plot_model query_input = tf.keras.Input(shape=(5), dtype='int32') token_embedding = tf.keras.layers.Embedding(input_dim=5, output_dim=10) query_embeddings = token_embedding(query_input) Model = tf.keras.models.Model(inputs = query_input, outputs=query_embeddings) Model: ..

Histopathology를 다루기 위한 MIL

Bulk-sequencing 혹은 Spatial transcriptomics 데이터의 Phenotype을 보기 위해, Histopathology (혹은 Whole-slide Imaging) 데이터와 결합하여 보는 경우가 많아졌다. 나는 이 연구를 시작하게 된 계기는, 하버드 Peter park 랩에서 Normal tissue에 대한 CNV 연구가 활발한데, 정상인에서 발견되는 초기암으로 생각되는 CNV의 phenotype을 WSI에서 과연 볼 수 있을까? 에 대한 주제로 코웍을 하게 된 것인데, 만약 Histopathology에서 CNV를 어느정도 탐지할 수 있는 능력이 있다면, 때 초기암의 phenotype으로 여겨지기도 하는 hyperplasia같은 영역을 중요한 patch로 꼽지 않을까? 하는 질문..

[미국 포닥] 탑스쿨 포닥 준비과정 리뷰 후기

일기 처럼 적는 이 글에서, 포닥을 준비하시는 분들께 조금이나마 도움이 되었으면 하지만 정말 제 개인적이고 주관적인 생각이 포함된 글이며 분야마다 상이할 수 있으니 귀엽게 봐주시면 감사하겠습니다. 2022년에 전문연구요원이 끝나는 시기에 맞춰, 미국 포닥 (PostDoc)을 준비했다. COVID-19 오미크론으로 NIW로 미국 영주권 비자인터뷰가 늦어지는 바람에, 2023년 랜딩을 목표로 정말 천천히, 느릿느릿 준비했다. 탑스쿨이라고 할 수 있는 곳에서는 아래의 4곳에서 순서대로 최종 오퍼를 받았는데, 여기까지 달려왔던 여정들을 한 번 정리해보고자 한다. 1. 하버드 의과대학, Department of BioMedical Informatics, Genomics lab 2. 스탠포드 의과대학, Radiol..

Stigmatized./Essay 2023.02.21

URL 이미지 다운로더 ImageURL v1.1

다운로드 링크1 - ImageURL_1.1.zip 다운로드 링크2 - ImageURL_1.1.zip (google drive) URL 로부터 이미지를 다운받아야 하는 작업이 필요하다는 분이 있어서, 프로그램을 하나 만들어봤습니다. 이 프로그램은 사용자가 입력한 URL로부터 이미지를 자동으로 확인하고, Space (혹은 클릭) 키보드 입력을 통해서 자동으로 이미지를 다운로드 할 수 있는 프로그램입니다. 프로그램의 주요 기능은 여러 이미지를 키보드를 통해 넘기고, space를 통해 다운로드 하는 기능입니다. 입력된 URL 인터넷 주소에서 이미지만 추출하여 다운로드할 수 있는 기능을 제공합니다. 사용법은 다음과 같습니다. 1. ① 번에 검색하고자 하는 URL 인터넷 주소를 입력하세요. 2. ② 번을 클릭하여,..

NIW DS-260 P4 주변 케이스 체크하기

2021년 12월 초에 P3 (DQ: documentarily qualified) 를 받았고, 기다리는 도중에 2022년 4월, 심지어는 2022년 8월에 P3를 받으신분도 2023년 2월달에 P4를 받았다는 케이스를 몇개 보았다. 너무 부럽기도 하고, 내 케이스만 왜이렇게 늦는 것일 까, 멘붕이 와서 Visa Status Check 에서 내 케이스 주변을 살펴보았다. * 영사전자신청센터 CEAC (Consular Electronic Application Center) https://ceac.state.gov/CEACStatTracker/Status.aspx CEAC ceac.state.gov 위 웹사이트에서는 나의 Case ID를 알면 상태를 조회할 수 있다. 내 CASE 번호를 중심으로 맨 끝자리 숫..

Stigmatized./Essay 2023.02.13

Single Cell Analysis Best Practice 정리해보기

BIML, single cell 강의 들으면서 정리해본 내용입니다. 1. Data Format Annotated data: Single cell data를 효율적으로 구성한 데이터 format obsp: (n_obs, n_vars)인 sparse matrix dictionary 일반적으로 n_obs는 Cell의 수이고, n_vars는 Gene의 수 obsm: (n_obs, n_comps)인 sparse matrix dictionary 여기서 n_comps는 구성 요소의 수. -> 차원 감소 또는 클러스터링 알고리즘의 결과를 저장하는 데 사용 (PCA 또는 t-SNE 시각화 등의 2차원 정보 등을 저장) varm: (n_vars, n_vars)인 sparse matrix dictionary 여기서 n_va..

tf.keras에서 Transformer의 self attention 및 중요도

1. Transformer에서 self-attention의 의미 Self-attention은 자연어 텍스트와 같은 Sequential data를 처리하기 위한 Transformer layer에 있는 메커니즘입니다. 이를 통해 모델은 시퀀스의 중요한 부분에 집중하여 시퀀스의 각 요소에 대한 표현을 계산할 수 있습니다. Attention score는 위 그림처럼, 2차원의 word vector에 대해 Matrix multiplication이 수행됩니다. Word embedding이 잘 되어있다면, 비슷한 의미를 가지는 단어는 비슷한 Feature pattern을 보일 것입니다. 따라서, 같은 문장의 MatMul을 통해 만들어진 Attention score (Matrix)는 '유사도' 처럼 작동할 것입니다. ..

반응형