Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

에타게시판 일간 이슈키워드(=실시간검색어) 개발 및 E2E 머신러닝 파이프라인 구축 #13

Open
jason9693 opened this issue Aug 4, 2022 · 0 comments

Comments

@jason9693
Copy link

jason9693 commented Aug 4, 2022

필요 분야 및 인원

AI 4명, Data Engineer(백엔드) 4명

필요 스택 - ML

Programming: Python, Numpy, Pytorch, Huggingface, Fast API
AI: NLP
Math: 선형대수

필요 스택 - DE

Programming: Python, Elastic Search, Airflow, ... (TBA)

프로젝트 내용

에브리타임같은 게시판에서 올라오는 게시물에 대한
하루단위의 이슈를 파악할수 있는 n개의 키워드를 뽑아내는 프로젝트입니다.
ex)

2022년 7월 29일 오늘의 이슈
1. 2학기 수업방식
2. 수강신청
3. 채플 대면
4. 상대평가

이번 프로젝트는
단순한 ML모델링이 아닌
데이터 엔지니어 / 머신러닝 엔지니어가 한팀이 되어
머신러닝 프로젝트의 한 사이클
(데이터 수집 - 적재 - 분석 - 모델링 - 서빙 -평가)
을 돌면서 실제 프로덕션 레벨을
간접적으로 경험해 보는것을 목표로 하고 있습니다.

수행하게 될 일 (ML엔지니어)

  • 게시글을 크롤링하여 모델 학습에 필요한 데이터를 수집합니다.
  • key-bert와 같은 딥러닝모델, 혹은 고전 알고리즘들을 활용하여 키워드 추출 알고리즘을 모델링 합니다.
  • 실험요소로 삼은 모델 혹은 데이터 주입방식으로 나온 결과들을 평가합니다.
  • 학습한 모델을 데이터엔지니어가 만든 저장소에서 데이터를 가져와서 추론하는 api서버를 개발합니다.

수행하게 될 일 (데이터 엔지니어)

  • ETL 파이프라인에 필요한 각종 데이터 엔지니어링 제품들을 리뷰하고, 장단점을 파악합니다.
    • 산출물: 각 제품을 비교분석, Proof of Concept을 빠르게 수행하고 Technical Document를 작성합니다.
  • 현 시점, 혹은 미래의 계획에 맞춰서 적합한 제품들을 직접 선택, 구축합니다.
    • 산출물: 각 제품[Airflow, Database, ElasticSearch, Logstash,… 직접 찾아봅니다) 별 구축되어 working하는 시나리오 완성
  • 구축된 데이터 파이프라인과 머신러닝을 결합해서 다양한 소스로부터 발생한 데이터들을 수집, 가공, 분석, 모델링, 서빙, 적재 등을 수행할 수 있는 ETL Pipeline을 완성합니다.
    • 산출물: 각플랫폼들을 연결해서 End-to-end 데이터 파이프라인을 구축해봅니다.
  • 시간, 비용, 인원들을 생각해서 직접 제품을 선택하고 필요한 기술들을 빠르게 섭렵하여 ‘현실 가능한’ 엔지니어링 적 결정을 수행하는 것을 배워봅시다!

참고자료

참가자 기대수준 (공통)

  1. 참가자들은 파이썬을 자유롭게 사용할수 있어야 합니다.
  2. 참가자들은 아래의 링크를 한번씩 읽어보고 오시는것을 기대하고 있습니다.

참가자 기대수준 (ML)

  1. 참가자들은 Transformer (Vaswani et al, 2017) 모델구조와 BERT에 대하여 기본적으로 알고 있다는 전제 하에 진행합니다.
    1-1 . 혹시 잘 모르신다면, 이 서적을 구매하셔서 참고&공부하시면서 진행하시는것을 추천드립니다. (http://www.yes24.com/Product/Goods/78569687)

참가자 기대수준 (DE)

  • 기본적인 프로그램 로직을 작성하는데, 큰 어려움이 없어야 합니다.
  • 다양한 언어, 플랫폼들을 적응할 자신이 잇거나 적응해보고 싶은 분들에게 적합한 코스입니다.
  • 프로그래밍보다 다큐멘테이션, 커뮤니케이션, 각종 제품들을 분석하는 일을 더해야할 수도 있습니다. 이래도 괜찮으신 분

프로젝트 멘토

  • 추후 공개
@jason9693 jason9693 changed the title 에브리타임or유어슈 게시판 실시간 이슈키워드 개발 에브리타임or유어슈 게시판 일일 이슈키워드 개발 Aug 5, 2022
@jason9693 jason9693 changed the title 에브리타임or유어슈 게시판 일일 이슈키워드 개발 에브리타임or유어슈 게시판 일간 이슈키워드 개발 Aug 5, 2022
@acious acious changed the title 에브리타임or유어슈 게시판 일간 이슈키워드 개발 에브리타임 or 유어슈 게시판 일간 이슈키워드 개발 Aug 5, 2022
@jason9693 jason9693 changed the title 에브리타임 or 유어슈 게시판 일간 이슈키워드 개발 에타게시판 일간 이슈키워드(실시간검색어) 개발 및 E2E 머신러닝 파이프라인 구축 Aug 6, 2022
@jason9693 jason9693 changed the title 에타게시판 일간 이슈키워드(실시간검색어) 개발 및 E2E 머신러닝 파이프라인 구축 에타게시판 일간 이슈키워드(=포털의 실시간검색어) 개발 및 E2E 머신러닝 파이프라인 구축 Aug 6, 2022
@jason9693 jason9693 changed the title 에타게시판 일간 이슈키워드(=포털의 실시간검색어) 개발 및 E2E 머신러닝 파이프라인 구축 에타게시판 일간 이슈키워드(=포털 실시간검색어) 개발 및 E2E 머신러닝 파이프라인 구축 Aug 6, 2022
@jason9693 jason9693 changed the title 에타게시판 일간 이슈키워드(=포털 실시간검색어) 개발 및 E2E 머신러닝 파이프라인 구축 에타게시판 일간 이슈키워드(=실시간검색어) 개발 및 E2E 머신러닝 파이프라인 구축 Aug 6, 2022
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants