- 0주차(2021-06-16)
- 스터디 방향성 회의
- 1주차(2021-06-23)
- 발표 주제
- 김기찬 : 도커 사용이유와 사용방법
- 김예지 : 다양한 데이터에 따른 효과적인 표현방법
- 최진영 : 빅데이터 이용된 마케팅 사례
- 전체적인 데이터 엔지니어/사이언티스트 흐름을 파악하기로 함
- 다음 주제는 데이터 엔지니어 로드맵 전체 흐름 발표
- 발표 주제
- 2주차(2021-06-30)
- 발표 주제
- 김기찬 : 데이터 엔지니어 로드맵 전체 흐름
- 김예지 : 데이터 엔지니어 로드맵 중 커맨드라인, api
- 최진영 : 현직 데이터 엔지니어 하는 일 스크랩, 데이터 엔지니어 로드맵 중 encryption
- 전체적인 흐름을 보기에는 배경지식이 너무 많이 필요하여 세부적인 내용 하나씩 조사하기로 함
- 발표 주제
- 3주차(2021-07-07)
- 발표 주제
- 김기찬 : Docker-compose를 사용해서 MySQL, python 연동 시켜서 실제로 사용하는 법
- 김예지 : Neo4j 사용법
- 발표 주제
- 4주차(2021-07-14)
- 발표 주제
- 김기찬 : Hadoop 설치 및 HDFS실행
- 김예지 : neo4j 예제 돌려서 장점 확인해보기
- 새로운 멤버 합류
- 발표 주제
- 5주차(2021-07-21)
- 발표 주제
- 김기찬 : Hadoop Map Reduce
- 김예지 : neo4j를 docker로 돌려보기
- 김현용 : Mongo 쓰는 방법
- 발표 주제
- 6주차(2021-07-28)
- 발표 주제
- 김기찬 : Hadoop 3.3.1의 새로운 특징과 Hadoop세팅변수설정, HDFS의 목표점과 NameNode, DataNode의 역할
- 김예지 : 추천시스템(협업필터링과 콘텐츠 기반 필터링정리).Neo4j와 Cyper를 사용해 콘텐츠 기반 필터링 영화 추천 모델 예제수행
- Content-based filtering 모델을 간단하게 만들어보았고 Neo4j의 장점인 노드와 노드 사이의 연결을 그래프로 직관적이게 시각화 수행함.
- 다른 Nosql과 비교했을 때는 아직까지는 시각화의 장점만 보임.
- 김현용 : RDBMS와 비교한 MongoDB의 기본개념 정리. MongoDB 환경설정 및 CRUD 데이터핸들링
- 발표 주제
- 7주차(2021-08-04)
- 발표 주제
- 김예지 : style.grass이용해 그래프 스타일 설정 변경/ Similarity Metrics(Cosine,Pearson similarity)을 이용한 쿼리문으로 추천영화 예제
- 김기찬 : kafka와 spark의 차이, kafka 실행 예제
- 김현용 : docker container를 이용한 MongoDB 샤딩 환경 세팅
- 새로운 멤버 합류
- 발표시간은 20분으로 줄이기
- 발표 주제
- 8주차(2021-08-08)
- 발표 주제
- 김예지 : Neo4j 내부 graph application인 Neo4j Bloom과 Neo4j Dash 소개
- 김기찬 : kafka cluster 구축 및 기능 테스트
- 김현용 : ip주소, port번호, protocol 기본 정리
- 장현석 : ELK 설명& ELK 구성 및 원격서버 파일비트 설치후 테스트
- 발표 주제
- 9주차(2021-08-18)
- 발표 주제
- 김예지 : Neo4j에서 ShortestPath 알고리즘 사용 예제와 Neo4j Graph Data Science Library 사용 방법 소개
- 김기찬 : SparkStreaming의 사용방법(StreamingContext, SparkSession) 및 적용
- 김현용 : Kafka, MongoDB 파이썬 기반 메시지 스트리밍
- 장현석 : 메트릭비트란? 간단한 설치와 모니터링 구축
- 발표 주제
- 10주차(2021-08-25)
- 발표 주제
- 김예지 : neo4j를 이용하여 초파리의 뇌지도(Connectome) 구현한 neuPrint 소개
- 김기찬 : Java 객체지향이론 및 Spring 튜토리얼
- 김현용 : DE 직무 자격요건 및 우대사항 정리
- 장현석 : Hadoop, Spark cluster 구성 및 yarn submit 실행 및 spark cluster 구동방식 비교
- 발표 주제
- 11주차(2021-09-01)
- 발표 주제
- 김기찬 : 스마트카 빅데이터 파이프라인 시뮬레이션 방법론 및 버츄얼박스 세팅
- 김현용 : Apache Airflow 기본개념정리
- 장현석 : 쿠버네티스 설명 & kubeadm 으로 클러스터 구성하기
- 발표 주제
- 12주차(2021-09-13)
- 발표 주제
- 김기찬 : cloudera manager cluster 구축을 위한 사전준비 및 cloudera manager standalone탐방
- 장현석 : Helm 이란 & Helm 을 이용한 elk stack k8s 배포
- 추석 있는 주는 스터디 없음
- 발표 주제
- 13주차(2021-09-27)
- 발표 주제
- 김기찬 : cloudera manager 분석 및 데이터파이프라인 하둡 설치
- 장현석 : 주차수요 예측 경진대회 notebook 발표
- 스터디 주기를 1주에서 2주로 늘림
- 1주 지나면 슬랙에 중간보고
- 발표 주제
- 14주차(2021-10-13)
- 발표 주제
- 김기찬 : 데이터파이프라인 세팅(수집 단계)
- 장현석 : Spark&Hadoop Web UI 확인법& Pycharm으로 원격서버 pyspark 연동
- 발표 주제
- 15주차(2021-10-27)
- 발표 주제
- 김기찬 : 면접 대비 하둡, DB 중요내용
- 장현석 : Python으로 hadoop 데이터 다루기(Pyarrow) & parquet 데이터
- 발표 주제
- 16주차(2021-11-14)
- 발표 주제
- 김기찬 : 면접 대비 web, spark 내용
- 장현석 : 스파크 구조적 API & 미분배로그 간단 EDA
- 발표 주제
- 17주차(2021-11-24)
- 발표 주제
- 김기찬 : 면접 대비 backend 기본용어들
- 장현석 : openstack api 를 이용한 migration 실행 및 평균소요시간 계산
- 내년 1월부터는 지치지 않고 꾸준히 진행하기 위해 1달간격으로 스터디를 하자
- 발표 주제
- 조사할 데이터 및 개발 관련된 주제를 각자 정하고 글을 남겨서 적절한 주제인지 서로 검토한다
- 데이터 엔지니어 로드맵, 데이터 사이언티스트 로드맵에 있는 것과 무조건 연관시켜서
- 2주정도 기간동안 조사하고 정리한다(+절반되는 기간에 slack에 지금까지 한 것 공유)
- 발표자료(마크다운)와 코드등을 올린다
- 한 사람당 10분~20분을 가진다
- 반복
- 모이는 날 참여 불가능하면 미리 말하기(단, 경조사 등이 아니라 단순히 준비하기 싫어서는 안됨)
- 인원이 적으면 날짜를 아예 바꾸기
- 무단으로 불참하면 스터디 제외
- 자료(발표자료, 정리자료, 코드 등)는 발표전에 깃에 올리기
- 주제
- 딥러닝>210616자연어처리.md
- 발표자료는 markdown
- 질의응답 때 시간이 너무 오래걸리거나 중요도가 낮은 질문에 대해선 발표자 재량으로 넘어갈 수 있다.
- 발표주제는 단순히 수업내용을 복습하는 것은 안된다(새로운 것이어야 함)
- 발표가 끝나고 나서 각자 발표한 주제를 각자 정리해서 보내주기
- 각자 발표가 끝난 후 Q&A 질문이나 피드백 하나 이상 하기
- git convention 통일
- 날짜 | 한글로 명확한 제목
- 210728 | 6번째 회의록