본문 바로가기

전체 글75

데이터과학자 준비할 때 중요한 것! 저는 현재 의료인공지능 회사에서 데이터과학자로 일하고 있습니다. 제가 데이터과학자를 준비하면서 가장 중요하게 생각했고, 도움이 됐던 생각을 공유해보려 합니다. "회사와 비슷한 고민을 하고 내가 가진 자원으로 해결해보는 것" 1. 데이터과학자 데이터과학자란 문제를 정의하고 이걸 데이터로 해결해나가는 사람을 뜻합니다. 즉 2가지 과정이 있습니다. 문제를 정의 -> 내가 가진 자원과 기술로 해결 프로젝트를 하며 포트폴리오를 만들 때는 이 2가지 과정이 잘 녹아있어야 합니다. 2. 회사 회사는 문제를 정의하고 그걸 해결해나가며 수익을 내는 집단입니다. 회사에서 일하는 데이터과학자들은 본인이 정의하거나 운영진에서 정의한 문제를 회사의 자원과 본인의 기술들로 해결해나갑니다. 데이터과학자를 준비하는 사람과 회사에서 .. 2024. 4. 10.
[면접 준비하기 #1] 기회가 찾아옴. 뭘 준비해야할까 처음으로 면접을 보게 됐다. 작성일 기준으로 일주일정도 남았는데 뭘 준비해야할지 정리해보고, 그 과정을 글로 남겨보려 한다. 내가 생각했을 때 3가지 포인트에서 이해의 수준을 높여야 한다고 생각한다. - 나에 대한 이해 - 기술에 대한 이해 - 회사에 대한 이해 1. 나에 대한 이해 어쨌든 면접의 목적은 회사에서 내가 회사에 잘 맞는지, 내가 어떤 인물인지를 알아보는 것이라고 생각한다. 이에 잘 답변하기 위해서는 나에 대한 이해를 높이고, 잘 정리해볼 필요가 있겠다. 특히 이력서에 쓴 내용들을 다시 한번 확인하고 정리해보자. https://mkk-keeplearning.notion.site/7a4bd8ff2122488c8aff802b7c299c0c?pvs=4 생각해볼 이야기들 - 해왔던 프로젝트에 대한 .. 2024. 3. 16.
아이펠 후기 저는 23.9 ~ 24.2 동안 아이펠 6기 리서치 과정을 수료했고, 회고 겸 후기를 적어보려 합니다. 일단 제가 어떤 상태에서 아이펠을 들었는지 설명드리겠습니다. 일단 저는 산업공학을 전공했고, 통계학을 부전공했습니다. 학부생때 ML에 관심이 많아서 혼자서 공부했었고, 관련 프로젝트도 진행했습니다. DL 부분은 잘 몰랐는데, 시작하기 1달전에 "밑바닥부터 시작하는 딥러닝" 2회독정도 했습니다. 제 배경지식은 통계학 + 컴퓨터공학 + DL 조금. 정도로 정리할 수 있겠습니다. 1. 난이도 처음 1~2달 정도는 그 전에 공부했던 것들이라 복습하는 느낌으로 공부했고, 나머지는 개념정도만 아는 상태에서 공부를 했습니다. 그래서 따라가는데 어려움은 없었습니다. 다만, 양이 워낙 많아서 평균적으로 추가공부를 3~.. 2024. 3. 12.
[삽질 기록하기] Keras custom trainer 2024.02.25 - [DataScience/Project] - [아이펠톤] DR그알 - DR Segmentation [아이펠톤] DR그알 - DR Segmentation 아이펠에서 아이펠톤이라는 이름으로 프로젝트를 진행했습니다. 여기서 저는 DR그알이라는 팀을 만들고, 팀장 역할을 맡아 프로젝트를 진행했습니다. 사용했던 코드와 최종 발표자료는 https://gi mkk4726.tistory.com 이 프로젝트를 하면서 시간을 가장 뺏어간 삽질입니다. https://github.com/mkk4726/DR-GeuAl/blob/main/code/assets/one_mask/trainer.py 이런식으로 학습시키는 부분을 직접 짜면서 발생한 문제인데, 결과적으로는 인자를 빼먹어서 생긴 문제입니다. 1. 문제.. 2024. 2. 26.
지금 궁금한 것 안저 사진으로 안질환과 관련된 일들을 해결할 수 있다는 것을 알게 되었고, 관련 프로젝트도 완료했다. 2024.02.25 - [DataScience/Project] - [아이펠톤] DR그알 - DR Segmentation 지금 궁금한건, 이게 어떻게 질병이 아닌 건강 문제로 확장될 수 있을지다. 왜 확장해야한다고 묻는다면, 그래야 시장이 더 커지지 않을까 생각한다. 심각한 비만환자에게만 pt가 필요한 건 아니니까, 건강을 챙기려는 사람들 모두 pt가 필요할 수 있다. 그리고 그래야 pt를 더 많이 할 수 있다. 대표적인 회사들이 어떤 서비스를 하는지 찾아봤다. - 메디웨일 - 비쥬웍스 - 뷰노 서비스 이 중 가장 궁금한건 메디웨일의 "닥터눈 생체나이 서비스"와 비쥬웍스의 "안저사진 질환 예측 프로그램" .. 2024. 2. 26.
[아이펠톤] DR그알 - DR Segmentation 아이펠에서 아이펠톤이라는 이름으로 프로젝트를 진행했습니다. 여기서 저는 DR그알이라는 팀을 만들고, 팀장 역할을 맡아 프로젝트를 진행했습니다. 사용했던 코드와 최종 발표자료는 https://github.com/mkk4726/DR-GeuAl 여기서 확인할 수 있습니다. 제 기술블로그에 어떤 프로젝트를 했는지 간단히 정리해보려고 합니다. 자세한 내용은 발표자료와 발표영상을 확인해주세요. 1. 팀이름 : DR 그알 DR (Diabetic Retinopathy, 당뇨병성 망막병증) 그알 (그것이 알고 싶다) 을 뜻합니다. 나름 라임을 맞춰서 센스있게 지어봤습니다. 팀이름처럼 DR과 관련된 프로젝트를 진행했습니다. 뒤에서 설명하겠지만 비증식성 DR을 segmentation 했습니다. 2. DR이란? 당뇨병 환자들.. 2024. 2. 25.
현재 나의 목표, 고민들 "심리적 마약" 내가 가장 경계하는 녀석이다. 마약은 쾌락을 주고 고통은 잊게 해준다. 이에 중독되면 남는건 회피하며 도망치고 있는 자아만 남게 된다. 지금 취업과 커리어라는 문제를 풀고 있는 나에게 공부는 쾌락을 제공한다. 그리고 고통을 잊게 해준다. "열심히 하고 있으니까 괜찮을거야" 라며 문제를 회피한다. 현재 공부하는 것들이 이런 "심리적 마약"이 아닐까? 하는 의심을 가지려 하지만 쉽지 않다. 쾌락은 중독적이기 때문이다. 지금 나는 아이펠 리서치 과정을 통해 AI를 공부하고 있다. 단순히 여러 모델들을 사용하는게 아닌, 그 원리를 깊게 이해하고 싶었다. 그리고 3개월이라는 시간을 통해 목표를 달성했다. 3개월이 지난 지금, 나는 아이펠이 내 심리적 마약은 아닐까? 하는 의문을 가진다. 이는 다시.. 2023. 11. 27.
MLE vs MAP 의 직관적 이해 MLE(Maximum Likelihood Estimation)과 MAP(Maximum A Posteriror estimation)의 차이를 직관적으로 이해하는 건 꽤나 중요한 것 같다. 수식으로보면 다음과 같다. 값을 계산하기 위한 2가지 값(파라미터와 입력값) 이 주어졌을 때, 해당 값이 나올 확률이 얼마나 되는지를 likelihood (가능도) 라고 한다. 이 가능도를 최대화 하는게 MLE 이다. 반대로 입력값과 출력값이 주어졌을 때, 해당 파라미터가 나올 확률을 Posterior( 사후확률 ) 이라고 한다. 이는 앞에서 본 가능도 x 사전 확률 , 로 나타낼 수 있다. 이 2가지 방법에서의 관점 차이를 이해하는게 핵심이라고 생각한다. 먼저 MLE는 모수가 정해져있다는 가정이 깔려있다. 그렇기에 이 .. 2023. 9. 22.
[아이펠] 1주차 회고 8월 중순 쯤, 이런저런 고민 끝에 아이펠이라는 교육과정에 신청했다. 면접을 보고 나니 붙었으면 좋겠다는 생각이 강해졌고, 합격하니 신청 때와는 다르게 더 절실함(?)이 느껴졌다. 8월말에 졸업하고 본격적으로 백수생활을 시작한 나에게 6개월이라는 시간은 꽤나 크게 다가왔다. 그래서 신중히 선택했고 의심(?)이 남아있는 채로 과정을 시작했다. 첫 주는 온보딩 주를 가졌다. 아이펠, 모두의 연구소의 철학에 친숙해지며, 이 교육과정에 맞도록 마인드셋을 바꾸는 시간이었다. 솔직히 말하자면, 처음 1~2일은 이게 뭐지? 라는 생각이 많이 들었다. 비대면부터가 너무 어색하게 느껴졌고, 당장 공부를 시작하지 않고 떠드는(?) 그런 분위기가 이상하게 느껴졌다. 시간이 지나고 1주일이 끝나니 온보딩 주의 필요성과 그 의.. 2023. 9. 10.
[차원축소] PCA의 직관적 의미 PCA를 이해하기 위해서는 다음과 같은 인식(?)이 필요합니다. 분산이 곧 정보다. 따라서 분산을 유지하는게 중요하다. 이는 꽤나 직관적인 이야기입니다. 왼쪽에 있는 데이터가 오른쪽처럼 변환된다면 아무런 정보도 남지 않게 됩니다. "분산"이란 데이터가 퍼져있는 정도를 의미하며, 그 자체로 정보를 나타내게 됩니다. 이런 데이터의 분산을 의미하는게 "공분산 행렬"입니다. 공분산 행렬은 행렬이 가지는 본질적인 기능, "선형변환"의 역할을 통해 데이터를 표현합니다. 왼쪽의 기저벡터는 공분산 행렬이 곱해져 오른쪽과 같이 변환됩니다. 이로부터 분산을 최대한 유지하면서 차원을 축소하기 위한 아이디어가 추출됩니다. 공분산 행렬의 고유벡터대로 축소하자 공분산 행렬은 행렬의 정보인 "분산"을 반영하는 행렬이고, 공분산 행.. 2023. 8. 4.