과거 프로젝트 경험 정리

과거 프로젝트 경험 정리

2020. 8. 23. 18:51ㆍETC/정리

1. 외식 프랜차이즈 추천 서비스

- 주제 선정 이유

외식사업의 실패 요인으로 사전 준비, 시장조사의 부족이 많이 손꼽힌다.
시기별로 특정 브랜드, 상품이 흥행하는 현상에 대한 궁금증

- 프로젝트 설명

외식 프랜차이즈 추천
- 공공데이터 활용(공정거래위원회, 공공데이터 포털, 소상공인 마당)
  - 누락 데이터로 프랜차이즈 수가 4300여 개 -> 1500여 개로 줄어듦
  - 매출액 데이터의 누락이 많음
  - 프랜차이즈의 각 매장의 접근성을 생성해 매출 정보를 대체하려 했지만, 근거가 부족한 것 같다는 팀원들의 반대로 무산
- 수집한 데이터를 바탕으로 6개의 지표 생성
  - 평판
    - SNS / 네이버 블로그에 상호를 검색한 결과를 수집
    - $긍정 언급 \over 전체 언급$
  - 신규 개업률
    - $신규 점포 수 \over 전체 점포 수$
  - 본사의 신용도
    - $e^{-(부채비율 + 법 위반 횟수*0.001)}$
  - 안정성
    - $가맹점 수 - 해지율 + 본사의 안정성$
    - $해지율 = {계약해지 \over 신규 개점}$
    - $본사의 안정성 = 자기 자본 비율 - 부채비율$
  - 초기 비용 대비 매출
    - $연간 평균 매출 \over 초기 비용$
  - 평균 영업 기간
    - 프랜차이즈별 개업부터 기준일(폐업일)까지의 평균 기간
- K-Means 군집분석을 통해 약 1500개의 프랜차이즈를 12개의 군집으로 군집화
  - CH index / Silhouette / 군집 비율 고려해 12개가 최적이라 판단
- 서비스 시각화
  - 6개의 지표를 활용해 Rador plot 생성
  - 구체적인 정보는 Tableau를 활용해 시각화
창업 입지 추천
- 공공데이터 활용(서울시 열린 데이터 광장, 공공데이터 포털)
  - 데이터의 부족으로 입지 추천은 서울시로 한정
- 도로명 별로 매출 지수 생성
  - 전달력을 높이기 위해 4 Quantile Categorical Data로 변환
- 프랜차이즈의 업종 중분류 별로 모델 생성
  - RandomForest 활용
  - MLP도 시도했지만 Overfitting이 의심되는 결과가 나와 제외
  - 선택한 프랜차이즈를 해당하는 중분류 모델에 넣어 추천도 산출
- 거주지 / 선호 지역 / 추천도를 종합적으로 고려해 추천 입지 선정
- QGIS를 활용해 시각화

2. 해외 주식 트렌드 알림 서비스 (미완)

- 주제 선정 이유

미래에셋 빅데이터 페스티벌 공모 주제 중 하나
인공지능 스피커의 콘텐츠를 만들어 보고 싶어서 선택

- 프로젝트 설명

해외 투자에 익숙하지 않은 사람들을 위한 서비스
구글 뉴스(미국)에서 실시간 기사를 수집
- 주식과 직접적인 연관이 있는 이슈들을 수집하기 위해 경제, 비즈니스 기사들을 위주로 수집
수집한 뉴스 기사를 자연어 처리하여 어휘들을 추출
각 날짜별 많이 등장한 어휘를 추출하여 키워드 생성
- 해당 키워드와 관련도가 높은 어휘들도 함께 추출하여 키워드와 함께 제공
인공지능 스피커인 Clova를 통해 키워드들을 전달
- 키워드에 대해 질문하면 연관 어휘들을 함께 제공하면서 구체적인 정보를 원하면 키워드와 연관어들을 함께 검색하는 것이 좋겠다고 알려줌
Naver Cloud Function을 활용해 Rest API 만듦
- 하지만 키워드를 발화 문으로 구현하는데 Node.js가 필요한데 Javascript를 다룰 줄 몰라 진행 불가로 프로젝트 마무리

3. 드라마 PPL 지수를 활용한 명품 선호 트렌드 예측

- 주제 선정 이유

롯데쇼핑의 데이터를 활용
- 롯데 백화점, 면세점이 롯데쇼핑 매출의 큰 부분을 차지한다는 것을 알게 됨
- 고가의 상품들에 대한 선호지수와 소비 트렌드를 알아보는 것도 재미있겠다고 생각됨
유명 연예인이 착용했다는 이유로 고가의 물건이 품절되는 현상에 대한 궁금증
이 현상이 언론플레이인지 아님 실제 근거가 있는 것인지 알아보고 싶었음

- 프로젝트 설명

롯데 멤버스에서 제공한 데이터, 웹 크롤링, 네이버 검색어 API 활용
새로운 명품 기준 만듦
- 롯데 백화점 사이트의 명품 리스트
- 상품 카테고리별 가격과 인지도가 높은 브랜드
- 두 가지 기준을 모두 만족하는 브랜드 활용 (총 386개 브랜드)
3개의 지수를 생성해서 온라인 선호지수 판단
- 최신성
  - 최근 많이 팔린 상품에 가중치를 주면서 실시간 선호지수를 생성할 수 있도록 함
  - 오래된 데이터의 영향 조정
- 관심도
  - 사람들이 해당 상품에 얼마나 관심을 가지고 있는지 알아보기 위함
  - 상품 검색에 소요되는 시간과 검색 수, 구매 대비 검색 수 들을 활용해 계산
- 인기도
예측에 활용한 Feature
- 드라마 PPL지수, 상품 판매량, 가격, 상품 분류
하나의 모형을 각각 훈련시키니 오버 피팅이 의심되는 결과가 나옴
- RMSE가 매우 낮게 나옴 (1000 단위 scale에서 7 ~ 12 정도)
- classification도 Accuracyrk 80% 중반을 넘음
- 4 ~ 8월 데이터를 훈련시켜 9월 데이터를 예측해보니 매우 낮은 결과가 나옴 (rmse : 7 ~ 12 => 100 이상, acc : 10 ~ 30%)
주요 feature들 표준화 및 새로운 feature 추가
각 모델별 HyperParameter tuning (GridSearchCV 활용)
앙상블 방법(스태킹)을 활용
- 의사결정 트리 기반의 여러 모형들(Random Forest, Gradient Boost, 등...)을 활용
- 최종적으로는 XGBoost 활용
- 60%로 Accuracy를 높일 수 있었음
- F1 Score의 경우 80%대까지 상승
각 모델별 변수 중요도를 평균을 내어보니
- 드라마 PPL지수가 중요 활용 변수로 나타남
- 선호지수와 ppl지수의 상관계수가 크지 않는다는 점이 눈에 띔

4. 건물주 뒷담화 (Deprecated)

Concept

[프로토 타입](https://ovenapp.io/view/9 jveue4 Cix9 VtvAX8 gyJ1 q5 bcjsmTUCE/)

상가, 원룸 등 건물주들에 대한 뒷담화를 할 수 있는 사이트 (잡플래닛 건물주 버전)
빈 방 또는 빈 상가에 대한 기본 정보(월세, 보증금 등)를 제공한다.
그 외의 이전에 그곳에서 장사를 했거나 살았던 사람들이 솔직한 후기를 제공함으로써 일반적으로 알기 힘든 비하인드 스토리를 공유할 수 있도록 한다.

5. 유사 관상 서비스 (Deprecated)

Concept

[프로토타입](https://ovenapp.io/view/WUjt6 Uder2 xBQcszdfJo3 wHzptnKK0 Cj/)

이용자의 관상을 봐주는 서비스
명리학 기반으로 실제 관상을 봐주는 것이 아니라 야매로 관상을 봐주는 유사 관상 서비스
클로바 얼굴인식 API를 이용해서 닮은꼴 유명인들을 찾아보고 그 유명인들의 일대기를 정리해서 앞으로의 일을 이야기해준다.
또는 유명인 연관 어휘들을 추출하여 이 어휘들을 이용해 무작위 문장들을 생성하여 관상을 봐준다.

'ETC > 정리' 카테고리의 다른 글

과거 공부한 것 정리 (0)	2020.08.23

과거 공부한 것 정리 2020.08.23

소금탄커피 블로그

소금탄커피 블로그

공지사항

최근글

댓글

태그

아카이브

1. 외식 프랜차이즈 추천 서비스

- 주제 선정 이유

- 프로젝트 설명

2. 해외 주식 트렌드 알림 서비스 (미완)

- 주제 선정 이유

- 프로젝트 설명

3. 드라마 PPL 지수를 활용한 명품 선호 트렌드 예측

- 주제 선정 이유

- 프로젝트 설명

4. 건물주 뒷담화 (Deprecated)

Concept

5. 유사 관상 서비스 (Deprecated)

Concept

'ETC > 정리' 카테고리의 다른 글

관련글

티스토리툴바