반응형

분류 전체보기 125

난수 ・ random seed

Random seed 랜덤시드는 한국에서 난수 생성기라고 부르며, 랜덤한 값을 생성해낸다.마치 무작위 시드 값을 생성하는 것 같지만 반은 맞고 반은 틀린 말이다.임의의 값을 랜덤하게 생성해낸다는 점에서는 맞지만, 한번 정해진 시드 값은 다음 랜덤시드에서도 동일하게 산출된다.따라서 랜덤 시드란 랜덤하게 컴퓨터가 시드 값을 정하는 것을 의미하며랜덤하게 시드 값이 계속 바뀌는 것을 의미하지는 않는다. 또한 랜덤 시드값은 사실 무작위로 정해지는 것은 아니다.인간의 뇌에서 무작위 숫자를 선택해서 결정할 수 있지만, 컴퓨터는 자율적으로 생각해서 랜덤한 숫자를 선택하지 못한다.한마디로 랜덤한 숫자를 출력하도록 알고리즘화를 해줘야 하는데, 이것이 쉽지 않은 과정이다.왜냐하면 컴퓨터에게 랜덤이라는 것을 할 수 있도록 명..

[혼자 공부하는 데이터분석] 데이터 분석 기초 강의 모음

데이터 분석 과정  1. 데이터 분석이란 ?구글 코랩 알아보기데이터 찾기 2. 데이터 수집하기파이썬으로 JSON과 XML 데이터 다루기 API 사용하기 웹 스크래핑 하기뷰티플수프 사용하기 3. 데이터 정제하기pandas 기반 불필요한 데이터 삭제하기잘못된 데이터 수정하기4. 데이터 요약하기 기술통계 구하기 분포 그래프 그리기 5. 데이터 시각화하기matplotlib으로 그래프 그리기 6. 복잡한 데이터 표현하기 matplotib 고급 기능 배우기7. 통계적으로 추정하고 머신러닝 예측하기 1강. 데이터 분석이란 ?데이터 과학 4가지 요소 통계학, 머신러닝, 데이터 분석, 데이터 마이닝 데이터 과학자 '지 리'의 답변 데이터 과학은 데이터 세계와 비즈니스 세계를 잇는 다리입니다. 데이터 과학을 활용해서 소프..

List 대신 Deque를 사용하는 이유 ?

Deque ? 파이썬의 deque는 list와 같이 요소들을 한 곳에 담아두는 배열이다.Stack은 LIFO(Last In First Out)으로, 나중에 들어온 것이 먼저 나가는 형태의 자료구조이다.Queue는 FIFO(First In First Out)으로, 입장 순서대로 나가는 형태의 자료구조이다.Deque는 queue이지만, 양방향인 queue이다. 앞/뒤에서 요소를 추가/삭제 할 수 있다. 왜 List 대신 Deque를 사용하는 것일까 ? List보다 deque의 속도가 빠르기 때문이다.List는 O(N)의 속도를 따르지만, deque는 O(1)의 속도를 따른다.이는 추출한 데이터의 주소에 이전 데이터를 이전하는 작업이 동반되어, 시간 복잡도가 증가하는 것이다. 즉, 연산이 많을 수록 deque..

In-Context Learning ・PEFT

최근 소개되는 언어 모델들은 긴 컨텍스트 윈도우(Long-Context Window)를 기본으로 지원한다. 이는 언어 모델이 한 번에 많은 양의 데이터를 처리할 수 있음을 의미한다. Many-Shot In-Context Learning이 가능해지면서 프롬프트 엔지니어링 전략만으로도 언어 모델의 성능을 향상시킬 수 있게 되었다.과거에는 특정 목적을 달성하기 위해서 사전 훈련된 언어모델에 Fine-tuning 과정이 필요했지만,이제는 더 적은 데이터로 많은 비용과 시간을 들이지 않고도 성능을 높일 수 있게 되었다. 따라서 이제는 fine-tuning의 필요성에 대한 의문을 제기하기 시작했다. 그렇다고 fine-tuning이 완전히 쓸모 없는 것은 아니다. 최근에는 규모가 큰 사전 훈련 모델의 전체 파라미터를..

ColumnTransformer (Encoding)

데이터를 처리하다보면, categorical 데이터를 numerical 데이터로 변환해야 할 필요성을 느낍니다. 이러한 변환을 encoding이라고 합니다.다양한 목적과 자료의 특징에 맞추어, 올바르게 인코딩한 categorical 데이터는모델의 퍼포먼스와 효율에 상당한 영향을 끼칩니다. 그러나, categorical 데이터의 인코딩은 생각보다 단순하지 않습니다.  One Hot Encoding, Ordinal Encoding, Label Encoding, Target Encoding 등종류도 다양하고 비슷한 인코딩도 library에 따라 크고 작은 차이가 있습니다. ColumnTransformer는 make_column_transformer과 거의 동일한 기능을 제공합니다.그럼 make_column_t..

train_test_split의 random_state 의미

scikit-learn의 model_selection 패키지 안에, train_test_split 모듈을 활용하여쉽게 train set과 test set을 분리할 수 있습니다.  from sklearn.model_selection import train_test_splitx_train, x_test, y_train, y_test = train_test_split(x, y, random_state=0)  그렇다면 train, test set을 분리하는 이유는 무엇일까요 ? 학습과 검증을 위한 데이터셋을 분리하는 목적을 정확히 알아야 합니다. 머신러닝 모델에 train 데이터를 모두 학습시킨 후, test 데이터를 통해 예측율을 확인해보면성능이 생각보다 안나오거나 학습 시보다 떨어지는 경우가 많습니다.  이..

프로그래머스 - 식품분류별 가장 비싼 식품의 정보 조회하기 (SQL)

https://school.programmers.co.kr/learn/courses/30/lessons/131116 프로그래머스 코드 중심의 개발자 채용. 스택 기반의 포지션 매칭. 프로그래머스의 개발자 맞춤형 프로필을 등록하고, 나와 기술 궁합이 잘 맞는 기업들을 매칭 받으세요. programmers.co.kr 💬 내가 작성한 SQL 코드 (틀린 코드) # max로 조회하면 해당 컬럼에 대한 값만 나올뿐 행 전체가 나오지 않는다. # 그래서 서브 쿼리로 걸러주고 조회해야한다. SELECT CATEGORY, MAX(PRICE) AS MAX_PRICE, PRODUCT_NAME FROM FOOD_PRODUCT WHERE CATEGORY IN ('과자', '국', '김치', '식용유') GROUP BY CAT..

프로그래머스 - 조건별로 분류하여 주문상태 출력하기 (SQL)

💬 내가 작성한 SQL 코드 SELECT ORDER_ID, PRODUCT_ID, DATE_FORMAT(OUT_DATE,'%Y-%m-%d') AS OUT_DATE, (CASE WHEN OUT_DATE '2022-05-01' THEN '출고대기' ELSE '출고미정' END ) AS 출고여부 FROM FOOD_ORDER ORDER BY ORDER_ID ASC; # 1. 5월 1일을 기준으로 주문 ID, 제품 ID, 출고일자, 출고여부를 조회 # 2. 출고여부는 5월 1일까지 출고완료 # 3. 이 후 날짜는 출고 대기로 미정이면 출고미정으로 출력 # 4. 주문 ID를 기준으로 오름차순 정렬 날짜 비교 문제이다.

프로그래머스 - 조건에 부합하는 중고거래 상태 조회하기 (SQL)

💬 내가 작성한 SQL 코드 SELECT BOARD_ID, WRITER_ID, TITLE, PRICE, (CASE WHEN STATUS = 'SALE' THEN '판매중' WHEN STATUS = 'RESERVED' THEN '예약중' ELSE '거래완료' END) AS STATUS FROM USED_GOODS_BOARD WHERE CREATED_DATE = '2022-10-05' ORDER BY BOARD_ID DESC; # 1. 게시글 ID, 작성자 ID, 게시글 제목, 가격, 거래상태를 조회 # 2. 2022년 10월 5일에 등록된 중고거래 게시물 # 3. 거래상태가 SALE 이면 판매중, RESERVED이면 예약중, DONE이면 거래완료 분류하여 출력 # 4. 게시글 ID를 기준으로 내림차순 정렬..

728x90
반응형