과거 프로젝트 경험 정리

2020. 8. 23. 18:51ETC/정리

1. 외식 프랜차이즈 추천 서비스

- 주제 선정 이유

  • 외식사업의 실패 요인으로 사전 준비, 시장조사의 부족이 많이 손꼽힌다.

  • 시기별로 특정 브랜드, 상품이 흥행하는 현상에 대한 궁금증

- 프로젝트 설명

  • 외식 프랜차이즈 추천

    • 공공데이터 활용(공정거래위원회, 공공데이터 포털, 소상공인 마당)

      • 누락 데이터로 프랜차이즈 수가 4300여 개 -> 1500여 개로 줄어듦

      • 매출액 데이터의 누락이 많음

      • 프랜차이즈의 각 매장의 접근성을 생성해 매출 정보를 대체하려 했지만, 근거가 부족한 것 같다는 팀원들의 반대로 무산

    • 수집한 데이터를 바탕으로 6개의 지표 생성

      • 평판

        • SNS / 네이버 블로그에 상호를 검색한 결과를 수집

        • $긍정 언급 \over 전체 언급$

      • 신규 개업률

        • $신규 점포 수 \over 전체 점포 수$

      • 본사의 신용도

        • $e^{-(부채비율 + 법 위반 횟수*0.001)}$

      • 안정성

        • $가맹점 수 - 해지율 + 본사의 안정성$

        • $해지율 = {계약해지 \over 신규 개점}$

        • $본사의 안정성 = 자기 자본 비율 - 부채비율$

      • 초기 비용 대비 매출

        • $연간 평균 매출 \over 초기 비용$

      • 평균 영업 기간

        • 프랜차이즈별 개업부터 기준일(폐업일)까지의 평균 기간

    • K-Means 군집분석을 통해 약 1500개의 프랜차이즈를 12개의 군집으로 군집화

      • CH index / Silhouette / 군집 비율 고려해 12개가 최적이라 판단

    • 서비스 시각화

      • 6개의 지표를 활용해 Rador plot 생성

      • 구체적인 정보는 Tableau를 활용해 시각화

  • 창업 입지 추천

    • 공공데이터 활용(서울시 열린 데이터 광장, 공공데이터 포털)

      • 데이터의 부족으로 입지 추천은 서울시로 한정

    • 도로명 별로 매출 지수 생성

      • 전달력을 높이기 위해 4 Quantile Categorical Data로 변환

    • 프랜차이즈의 업종 중분류 별로 모델 생성

      • RandomForest 활용

      • MLP도 시도했지만 Overfitting이 의심되는 결과가 나와 제외

      • 선택한 프랜차이즈를 해당하는 중분류 모델에 넣어 추천도 산출

    • 거주지 / 선호 지역 / 추천도를 종합적으로 고려해 추천 입지 선정

    • QGIS를 활용해 시각화

2. 해외 주식 트렌드 알림 서비스 (미완)

- 주제 선정 이유

  • 미래에셋 빅데이터 페스티벌 공모 주제 중 하나

  • 인공지능 스피커의 콘텐츠를 만들어 보고 싶어서 선택

- 프로젝트 설명

  • 해외 투자에 익숙하지 않은 사람들을 위한 서비스

  • 구글 뉴스(미국)에서 실시간 기사를 수집

    • 주식과 직접적인 연관이 있는 이슈들을 수집하기 위해 경제, 비즈니스 기사들을 위주로 수집

  • 수집한 뉴스 기사를 자연어 처리하여 어휘들을 추출

  • 각 날짜별 많이 등장한 어휘를 추출하여 키워드 생성

    • 해당 키워드와 관련도가 높은 어휘들도 함께 추출하여 키워드와 함께 제공

  • 인공지능 스피커인 Clova를 통해 키워드들을 전달

    • 키워드에 대해 질문하면 연관 어휘들을 함께 제공하면서 구체적인 정보를 원하면 키워드와 연관어들을 함께 검색하는 것이 좋겠다고 알려줌

  • Naver Cloud Function을 활용해 Rest API 만듦

    • 하지만 키워드를 발화 문으로 구현하는데 Node.js가 필요한데 Javascript를 다룰 줄 몰라 진행 불가로 프로젝트 마무리

3. 드라마 PPL 지수를 활용한 명품 선호 트렌드 예측

- 주제 선정 이유

  • 롯데쇼핑의 데이터를 활용

    • 롯데 백화점, 면세점이 롯데쇼핑 매출의 큰 부분을 차지한다는 것을 알게 됨

    • 고가의 상품들에 대한 선호지수와 소비 트렌드를 알아보는 것도 재미있겠다고 생각됨

  • 유명 연예인이 착용했다는 이유로 고가의 물건이 품절되는 현상에 대한 궁금증

  • 이 현상이 언론플레이인지 아님 실제 근거가 있는 것인지 알아보고 싶었음

- 프로젝트 설명

  • 롯데 멤버스에서 제공한 데이터, 웹 크롤링, 네이버 검색어 API 활용

  • 새로운 명품 기준 만듦

    • 롯데 백화점 사이트의 명품 리스트

    • 상품 카테고리별 가격과 인지도가 높은 브랜드

    • 두 가지 기준을 모두 만족하는 브랜드 활용 (총 386개 브랜드)

  • 3개의 지수를 생성해서 온라인 선호지수 판단

    • 최신성

      • 최근 많이 팔린 상품에 가중치를 주면서 실시간 선호지수를 생성할 수 있도록 함

      • 오래된 데이터의 영향 조정

    • 관심도

      • 사람들이 해당 상품에 얼마나 관심을 가지고 있는지 알아보기 위함

      • 상품 검색에 소요되는 시간과 검색 수, 구매 대비 검색 수 들을 활용해 계산

    • 인기도

  • 예측에 활용한 Feature

    • 드라마 PPL지수, 상품 판매량, 가격, 상품 분류

  • 하나의 모형을 각각 훈련시키니 오버 피팅이 의심되는 결과가 나옴

    • RMSE가 매우 낮게 나옴 (1000 단위 scale에서 7 ~ 12 정도)

    • classification도 Accuracyrk 80% 중반을 넘음

    • 4 ~ 8월 데이터를 훈련시켜 9월 데이터를 예측해보니 매우 낮은 결과가 나옴 (rmse : 7 ~ 12 => 100 이상, acc : 10 ~ 30%)

  • 주요 feature들 표준화 및 새로운 feature 추가

  • 각 모델별 HyperParameter tuning (GridSearchCV 활용)

  • 앙상블 방법(스태킹)을 활용

    • 의사결정 트리 기반의 여러 모형들(Random Forest, Gradient Boost, 등...)을 활용

    • 최종적으로는 XGBoost 활용

    • 60%로 Accuracy를 높일 수 있었음

    • F1 Score의 경우 80%대까지 상승

  • 각 모델별 변수 중요도를 평균을 내어보니

    • 드라마 PPL지수가 중요 활용 변수로 나타남

    • 선호지수와 ppl지수의 상관계수가 크지 않는다는 점이 눈에 띔

4. 건물주 뒷담화 (Deprecated)

Concept

[프로토 타입](https://ovenapp.io/view/9 jveue4 Cix9 VtvAX8 gyJ1 q5 bcjsmTUCE/)

  • 상가, 원룸 등 건물주들에 대한 뒷담화를 할 수 있는 사이트 (잡플래닛 건물주 버전)

  • 빈 방 또는 빈 상가에 대한 기본 정보(월세, 보증금 등)를 제공한다.

  • 그 외의 이전에 그곳에서 장사를 했거나 살았던 사람들이 솔직한 후기를 제공함으로써 일반적으로 알기 힘든 비하인드 스토리를 공유할 수 있도록 한다.

5. 유사 관상 서비스 (Deprecated)

Concept

[프로토타입](https://ovenapp.io/view/WUjt6 Uder2 xBQcszdfJo3 wHzptnKK0 Cj/)

  • 이용자의 관상을 봐주는 서비스

  • 명리학 기반으로 실제 관상을 봐주는 것이 아니라 야매로 관상을 봐주는 유사 관상 서비스

  • 클로바 얼굴인식 API를 이용해서 닮은꼴 유명인들을 찾아보고 그 유명인들의 일대기를 정리해서 앞으로의 일을 이야기해준다.

  • 또는 유명인 연관 어휘들을 추출하여 이 어휘들을 이용해 무작위 문장들을 생성하여 관상을 봐준다.

'ETC > 정리' 카테고리의 다른 글

과거 공부한 것 정리  (0) 2020.08.23