데이터 사이언스 입문 강의 정리

https://www.boostcourse.org/ds001/joinLectures/70393

네이버 부스트 헬로, 데이터 사이언스 강좌를 수강하고 내용을 정리했습니다.


데이터 과학이란 무엇입니까?

도메인 지식, 수학(통계) 및 컴퓨터 과학의 교차점

영역 지식은 경험을 통해 축적된 특정 분야 또는 주제에 대한 지식입니다.

데이터 분석에 필요한 기술

1. 비판적 사고.

정보를 비판적으로 받아들이는 사고방식을 실천해야 합니다. 주장을 데이터로 뒷받침하는 데 필요한 교육.

과학적 과정에서 많은 가정이 이루어지며 하나의 가정이 잘못되면 모두 잘못된 것입니다. 그래서 석사과정이나 박사과정 중에 수년간 수련을 하는 사람들이 있는데, 논문을 읽는 것이 사실은 간극을 찾는 것입니다. 본 논문의 한계는 무엇이며 일반화한다면 어디까지 일반화할 수 있는가?

2. 숫자 기반 사고

직감으로 판단하기보다 숫자를 확인하는 마음가짐을 실천하세요. 그러나 훈련된 직관이 새로운 통찰력을 제공하기 때문에 균형이 필요합니다.

데이터 분석의 윤리

1. 프라이버시 문제

한국의 개인정보 보호법은 엄격합니다. 모든 회사는 확실하게 절차를 만들고 유지합니다. 개인 데이터에 대한 액세스 권한을 오용하거나 오용하지 않도록 주의해야 합니다.

데이터 분석가는 개인 데이터를 보호하기 위해 회사에서 시행하는 절차가 골칫거리가 아니라 데이터를 분석하는 사람들을 보호한다고 믿는 것이 좋습니다.

2. 크롤링 등 법적 측면

데이터를 확보하기 위해 크롤링하는 것은 저작권 침해 및 비즈니스 지연을 위반할 수 있습니다. 정보를 제공하는 API를 사용하는 것이 가장 좋습니다. 법적 의무는 없으나, robots.txt(이 페이지는 크롤링하면 안된다고 쓰여진 문서)를 확인하는 것이 좋습니다.

크롤링된 요청당 한 명의 사용자와 유사한 효과입니다. 100명 정도가 사용하던 웹사이트를 크롤링하는 것은 수천 명의 사람들이 그것을 사용하기 위해 달려드는 것과 같은 효과가 있습니다. 이 경우 서버 비용과 같은 다양한 비즈니스 문제가 발생합니다.

데이터 과학과 관련된 과정은 무엇입니까?

확실히 도움이 되는 전공

  1. 컴퓨터 과학
  2. 소프트웨어 개발
  3. 산업 및 플랜트 공학
  4. 수학
  5. 통계

대학원을 가야 한다면

  1. AI대학원
  2. 빅 데이터 MBA
  3. 석사/박사 통계로
  4. 해외 온라인 석사(Georgia Tech, Michigan, UIUC 등). 다른 석사 프로그램과 마찬가지로 해외 온라인 석사 프로그램은 특히 입학하기는 쉽지만 완료하기는 매우 어렵습니다.

기술이 있으면 학위가 필요하지 않습니다. 내 실력을 객관적으로 증명할 수 없을 것 같아서 학위로 대체한다. 실력만 있으면 석사학위가 필요 없고, 요즘은 무료로 배울 수 있는 오픈소스 학습 콘텐츠가 많다.

비전공자는 어떻게 해야 할까요?

1. 프로젝트부터 시작하자

원래 전공으로 프로젝트 단위로 데이터 사이언스를 적용하여 데이터를 분석하거나 개발하는 경험을 쌓게 되고, 프로젝트를 마치면 무엇을 놓치고 있는지 깨닫게 되니 부족한 관련 지식을 하나씩 채워나간다.

데이터 사이언스 학위에서는 프로젝트(대회, 데이터 사이언스 콘테스트 등)의 데이터와 Kaggle이라는 데이터 분석 플랫폼으로 연습할 수 있습니다.

2. 함께 배우기

전공자가 혼자 공부하기란 쉽지 않습니다. 학교 친구, 회사 동료 및 커뮤니티와 함께 ​​학습하면 시너지 효과가 발생하고 서로에게 동기를 부여합니다.

어떤 과목을 공부해야 하나요?

  1. R 또는 Python과 같은 분석 도구
  2. 분석된 결과를 해석하기 위한 통계적 지식, 미래 가치를 예측하기 위한 예측 모델을 생성하기 위한 기계 학습 지식
  3. 비즈니스 지식. 큰 영향을 미치기 위해 현실에서 데이터를 어디에 적용해야 하는지 결정할 수 있는 도메인 지식.

먼저 데이터를 처리하는 도구에 대해 알아보고 연습하고 감을 잡으십시오.

이를 효과적으로 활용하기 위한 통계적 방법과 머신러닝 기법을 배우고,

자신의 전문 분야(마케팅, 의학 등)의 이론을 배웁니다.

이 세 가지가 결합되면 데이터로 수행되는 프로젝트가 효과적입니다.

실제로 어떤 도구가 사용됩니까?

보통은 유료 도구를 사용하여 사람들을 즉시 실전에 투입하지만, 회사마다 다른 도구를 사용하여 어떤 도구를 사용하는지 결정하는 것은 불가능합니다.

대신 일반적으로 사용되는 도구가 있습니다.

1. 주피터 노트북

분석 결과를 공유하기 위한 도구로서 사실상의 표준입니다.

연구 노트를 작성할 때 코드와 함께 사용하는 것을 볼 수 있습니다.

Google Colab 및 Hue 등 데이터 편집에 사용되는 모든 도구를 차용합니다.

Python에서 사용되는 것으로 유명하지만 거의 모든 언어를 지원합니다.

2. 힘내

코드 버전 제어를 위한 표준입니다.

데이터 분석가가 소프트웨어 개발자와 함께 일하지 않는 것은 매우 어렵습니다. 분석을 넘어 코드로 협업하기 위한 필수 도구

이 분야에서 가장 일반적으로 사용되는 언어는 다음과 같습니다.

1. 기본 중의 기본 SQL

많은 곳에서 사용되는 기본 도구입니다. 현대에 생성되는 거의 모든 데이터는 데이터베이스에 있으며 이를 처리하기 위해서는 SQL이 필수적입니다.

분석을 위한 SQL은 crud에서 r을 이해하는 것만으로도 충분합니다.

2. 모든 것이 가능한 파이썬

어떤 언어로든 개발 언어를 배워야 한다면 Python이 좋습니다.

거대한 생태계와 주변에서 배우는 많은 사람들로 인해 적극 권장됩니다.

코딩 테스트는 취업 면접에서도 Python으로 진행됩니다.

3. 데이터 전문가의 언어 R

R. 학계의 강력한 지원을 받을 수 있습니다.

2차원 데이터와 표 형식 데이터를 처리하는 데 가장 적합한 언어는 R입니다.

Excel과 동일한 형식의 데이터를 처리해야 하는 경우 적극 권장합니다.

알아야 할 용어

1. 데이터 리터러시

문해력은 문해력입니다. 읽고 쓰는 능력. 데이터를 읽고 쓰고 사용하는 일반적인 능력을 데이터 리터러시라고 합니다.

2. 데이터 마이닝

데이터 분석과 유사한 개념입니다. 그 차이를 찾기 위해 데이터마이닝은 보는 것이 아니라 빅데이터에서 필요한 데이터를 찾는 느낌이다.

3. 데이터 분석

데이터를 수집, 정제, 분석 및 결정하기 위한 일련의 프로세스입니다. 데이터 분석에는 시각화에서 커뮤니케이션까지의 모든 프로세스가 포함됩니다.

4. 인공지능

지능형 기계를 만드는 과학과 기술. 인간처럼 생각할 수 있는 기계를 만드는 과학 또는 기술의 한 분야.

기계 학습과 딥 러닝에 비해 인공 지능이 가장 큰 개념입니다.

5. 기계 학습

인공 지능보다 약간 작은 개념입니다.

인간이 기계에 개별 코드를 부여할 필요 없이 데이터에서 직접 기계가 학습하고 실행할 수 있는 알고리즘을 개발하는 연구 분야입니다.

6. 딥 러닝

기계 학습 방법 중 하나입니다. 머신러닝의 한 분야.

비선형 정보 처리를 수행하는 계층을 쌓아 학습 모델을 구현하는 기계 학습의 영역.

인기 있는 이유는 엄청난 양의 데이터에서 중요한 부분과 규칙을 잘 찾아내고 결과적으로 의사결정과 예측을 잘하게 되었기 때문입니다.

원래 인공신경망 분야는 기술적 한계로 당시 무너진 분야였다. 시간이 지나면서 기존 인공신경망의 한계를 극복한 빅데이터, GPU와 같은 컴퓨팅 파워, CNN, RNN 등의 알고리즘이 위기를 극복한다.

그 이후로 인공신경망이라는 용어를 사용하는 것이 지겹다. 원래 인공신경망이라고 불렸던 것이 그 한계를 극복하면서 이름이 바뀌었다는 점은 주목할 만하다.

데이터 분석 프로세스

  1. 계획하다
  2. 데이터 수집
  3. 분석하다
  4. 보고서

네 가지로 볼 수 있는데 이것은 선형적으로 바로 끝나는 것이 아니라 계속해서 이 과정을 반복하고 반복한다.

1 계획

문제 정의: 어떤 문제를 해결할 것인가?

분석 방법론의 정의:

  1. 기술 통계 분석: 데이터를 요약하는 방법입니다. 표와 그래프를 만듭니다.
  2. 가설 검정
  3. 예측 모델 개발: 머신 러닝 활용

2. 데이터 수집

담당 기관에서 데이터를 얻습니다.

데이터 탐색, 오류 확인 : 오류, 데이터 누락 등의 경우가 많습니다. 나. 해당 부서에서 수집한 자료의 수치가 극히 높거나 낮거나 열(column)의 명칭이 아닌 다른 의미를 가진 자료 이러한 사항을 확인하고 필요한 자료를 요청하는 과정을 반복합니다.

3. 분석

  1. 데이터 탐색 및 전처리를 통해. 사용할 모델에 맞게 데이터를 처리하는 프로세스입니다. B. 통계 분석 모델 또는 기계 학습 모델. 이 과정은 매우 깁니다. 작업의 80% 이상을 차지합니다.
  2. 기술통계분석 – 모집단간 비교, 시계열간 비교
  3. 가설 검정 – 가설 지지 검증
  4. 예측 모델의 개발 및 추가 개발

4차 보고

  1. 테이블 및 그래프 생성
  2. 보고 – 문서화, 대시보드 개발