목록분류 전체보기 (16)
yooonicode
빅데이터 도입의 선결조건 : 데이터, 정보기술 인프라, 관련 분석 기술보다는 빅데이터 분석 및 활용과 관련된 기획능력, 전략적 활용 기회를 탐색하고 분석 및 활용 시나리오 도출 능력 - 어떤 데이터를 어떻게 분석하여, 어떻게 가치를 창출할 것인가라는 질문에 답하기 1. 빅데이터 활용의 핵심성공 요인 데이터 확보, 저장, 처리, 분석보다 기획 능력 - 기술만 중요한 것이 아닌 문제의 정의와 문제 해결을 위한 빅데이터의 분석 기획이 중요함, 분석 시나리오 수립 실패 요인 : 대상 데이터에 대한 이해 부족, 수집과 저장, 처리와 분석 기술에 대한 이해 부족, 결과 도출에 대한 이해 부족이 주 원인으로 꼽힘 ➡️ 빅데이터와 관련된 요소 기술 이해, 얻을 수 있는 가치 분석, 성공 사례 살펴보기를 통한 수립 역량..

5-1 결정트리 - 로지스틱 회귀로 와인 분류 - head(), info(), describe() - 학습 데이터, 테스트 데이터 만들기 - StandardScaler를 통해 데이터 안의 다양한 스케일들을 정리해주는 작업 - 사이킷런의 LogisticRegression 모델을 임포트하여 학습시킨 결과, 과소적합 - lr.coef_, lr.intercept_를 이용하여 모델을 설명하기에는 한계가 있음 🥞 결정 트리 - 트리 그림으로 출력하는 plot_tree() - max_depth를 지정하여 얕은 트리 만들기 - 자식 노드, 부모 노드라고 부름 (책에서는 리프노드) + 리프노드에서 가장 많은 클래스가 예측 클래스가 됨 (k-최근접 이웃 알고리즘과 유사한 면 존재) 🥞 Gini index, informat..

✨ 4-1 로지스틱회귀 - 기존 k-최근접 이웃 알고리즘의 사용 복기 - pd. unique를 이용하여 species 열에서 고유한 값을 추출함 ✔️ species 열을 타깃으로, 나머지 열들을 입력 데이터로 사용 ✔️ to_numpy()를 이용하여 1차원 배열을 만들어줌 [['species']]라면 2차원 배열이 되므로 주의할 것 - 모델 학습을 위한 데이터셋 쪼개기 - 사이킷런의 StandardScaler 클래스를 이용하여 표준화 전처리 🥞 훈련세트의 통계값을 정확히 테스트세트 변환하는데에 이용 - KNeighborsClassifier 클래스 객체 생성 - 훈련 세트로 모델 훈련 - 점수 확인 ++ ) kn.classes_를 이용하면 알파벳순으로 섞이는 점 주의 - kn.predict를 이용하여 처음..

ch 3-1 ; k-최근접 이웃 회귀 알고리즘 지도학습 알고리즘 - 분류 / 회귀 - k-최근접 이웃 분류 알고리즘 | 예측하려는 샘플에 가장 가까운 샘플 k개를 선택한 후, 샘플들의 클래스를 확인하여 다수 클래스를 새로운 샘플의 클래스로 예측하기 - k-최근접 이웃 회귀 알고리즘 | 분류와 같이, 예측하려는 샘플에 가까운 샘플 k개를 선택하고 이웃한 샘플의 타깃은 클래스가 아닌 수치가 되지만, 수치들의 평균을 구하면 예측 타깃값을 낼 수 있음 ✨ 데이터 준비 ✨ 산점도 그리기 ✨ train_test_split을 통해서 훈련과 테스트 세트로 나누기 ✔️ 만약 test_array.reshape(2,2)라면 오류가 발생하게 되는데, 원본 배열의 원소는 4개이기 때문 ➡️ 2차원 배열로 변경한다 ✨ 결정 계수..

😺 1-1, 1-2 ; 코랩 사용법, 머신러닝의 역사, 사이킷런, 파이토치 등의 설명 📖 1-3 마켓과 머신러닝 👻 생선 분류 문제(도미) - 캐글에 공유된 데이터 셋, fish-market을 이용함 - 머신러닝은 기준을 스스로 찾아내고, 이 기준을 이용하여 생선이 도미인지 아닌지를 판별해냄 (왜도미지) - 도미와 빙어를 분류하는 binary classification(이진 분류) 진행, bream and smelt - 길이와 무게를 특성이라고 부르며, 특성은 데이터의 특징을 말함 - 길이를 x축, 무게를 y축으로 하는 산점도 그래프를 그려줌 - scatter 사용 ✔️ 과학 계산용 그래프를 그리는 대표적 패키지는 맷플롯립 ✔️ 임포트 ; 따로 만들어둔 파이썬 패키지를 사용하기 위해 불러오는 명령 - 생..

✔️ export ; 모든 형태의 레이어를 내보내기, 다양한 확장자 지원+ 오른쪽 하단의 [+]를 연속해 누르면 화질 배수를 높일 수 있음 - @2x, @3x로 표기, 다른 파일로 - 한 가지 애셋을 여러 방식으로 내보낼 때, 접미어 수정하면 알아보기 쉬움 - 마우스 오른쪽 눌러서 복사옵션 제공하므로 활용 가능 😺 애셋 내보내서 피그마에 넣기 - 로고 애셋 선택 후 export - 피그마창으로 드래그 앤 드롭✔️ 실시간 저장, 관리 기능 - ctrl+s 필요 없이, 버전 히스토리에 기록하지 않아도 파일당 30개 정도의 오토세이브 버전을 시간대별로 제공 - 로컬버전으로 저장하고 싶다면 save as .fig로 따로 저장 가능 cf) 토스트 메시지 - 사용자에게 짧은 메시지 형식으로 정보를 전달하는 UI, ..

👻 7-1 통계적으로 추론하기 💫 통계적으로 추론하기 - 가설검정, 순열검정, 모수검정, 표준점수, 중심극한정리, 신뢰구간 ✔️ 모수검정: 모집단에 대한 파라미터의 추정 방법 파라미터 - 평균, 분산 / 모집단 - 관심의 대상인 전체 데이터 ➡️ 현실적으로 모두 조사하기 어려워, 일부 데이터를 조사하는 것이 모수검정, 일부 샘플은 표본이라 부름 - 모수검정시, 모집단의 데이터에 대한 가정을 전제로 하고 수행되는 경우가 많음, 모집단의 데이터가 정규 분포를 따른다고 가정하는 방식 ✔️ 표준점수(z 점수): 각 값이 얼마나 떨어져 있는지를 표준편차를 사용해 변환한 점수 ✔️ Z 점수 구하기 ⬆️ 사이파이로 편리하게 계산하는 방법도 있음 - stats 모듈 임포트 후 zscore() 사용하여 배열 x에 대한 ..

- 맷플롯립의 고급 기능 및 새로운 그래프(스택, 막대, 원) 📖 6-1 객체지향 API 그래프를 그리는 방식으로는 matplotlib.pyplot의 pyplot 방식 피겨 객체와 서브플롯 객체를 만들고 메서드를 사용하는 객체지향 API 방식 - 복잡한 그래프 그릴때는 객체지향 방식이 좋음(하나의 피겨에 여러가지 서브플롯) ✔️ 한글 출력 방법 - 맷플롯립의 기본 폰트가 한글을 지원하지 않음 폰트 설치 이후 맷플롯립 임포트, DPI 기본값의 변경 - sans-serif 폰트로 되어있음을 확인하는 코드를 rcParams의 font.family 속성에서 찾을 수 있음 - 나눔고딕으로 변경 - rc() > 설정할 그룹이 첫번째 매개변수, font가 그룹이고 family는 그룹의 하위 속성이므로 첫 매개변수는 ..