2020. 8. 23. 18:51ㆍETC/정리
1. 외식 프랜차이즈 추천 서비스
- 주제 선정 이유
-
외식사업의 실패 요인으로 사전 준비, 시장조사의 부족이 많이 손꼽힌다.
-
시기별로 특정 브랜드, 상품이 흥행하는 현상에 대한 궁금증
- 프로젝트 설명
-
외식 프랜차이즈 추천
-
공공데이터 활용(공정거래위원회, 공공데이터 포털, 소상공인 마당)
-
누락 데이터로 프랜차이즈 수가 4300여 개 -> 1500여 개로 줄어듦
-
매출액 데이터의 누락이 많음
-
프랜차이즈의 각 매장의 접근성을 생성해 매출 정보를 대체하려 했지만, 근거가 부족한 것 같다는 팀원들의 반대로 무산
-
-
수집한 데이터를 바탕으로 6개의 지표 생성
-
평판
-
SNS / 네이버 블로그에 상호를 검색한 결과를 수집
-
$긍정 언급 \over 전체 언급$
-
-
신규 개업률
-
$신규 점포 수 \over 전체 점포 수$
-
-
본사의 신용도
-
$e^{-(부채비율 + 법 위반 횟수*0.001)}$
-
-
안정성
-
$가맹점 수 - 해지율 + 본사의 안정성$
-
$해지율 = {계약해지 \over 신규 개점}$
-
$본사의 안정성 = 자기 자본 비율 - 부채비율$
-
-
초기 비용 대비 매출
-
$연간 평균 매출 \over 초기 비용$
-
-
평균 영업 기간
-
프랜차이즈별 개업부터 기준일(폐업일)까지의 평균 기간
-
-
-
K-Means 군집분석을 통해 약 1500개의 프랜차이즈를 12개의 군집으로 군집화
-
CH index / Silhouette / 군집 비율 고려해 12개가 최적이라 판단
-
-
서비스 시각화
-
6개의 지표를 활용해 Rador plot 생성
-
구체적인 정보는 Tableau를 활용해 시각화
-
-
-
창업 입지 추천
-
공공데이터 활용(서울시 열린 데이터 광장, 공공데이터 포털)
-
데이터의 부족으로 입지 추천은 서울시로 한정
-
-
도로명 별로 매출 지수 생성
-
전달력을 높이기 위해 4 Quantile Categorical Data로 변환
-
-
프랜차이즈의 업종 중분류 별로 모델 생성
-
RandomForest 활용
-
MLP도 시도했지만 Overfitting이 의심되는 결과가 나와 제외
-
선택한 프랜차이즈를 해당하는 중분류 모델에 넣어 추천도 산출
-
-
거주지 / 선호 지역 / 추천도를 종합적으로 고려해 추천 입지 선정
-
QGIS를 활용해 시각화
-
2. 해외 주식 트렌드 알림 서비스 (미완)
- 주제 선정 이유
-
미래에셋 빅데이터 페스티벌 공모 주제 중 하나
-
인공지능 스피커의 콘텐츠를 만들어 보고 싶어서 선택
- 프로젝트 설명
-
해외 투자에 익숙하지 않은 사람들을 위한 서비스
-
구글 뉴스(미국)에서 실시간 기사를 수집
-
주식과 직접적인 연관이 있는 이슈들을 수집하기 위해 경제, 비즈니스 기사들을 위주로 수집
-
-
수집한 뉴스 기사를 자연어 처리하여 어휘들을 추출
-
각 날짜별 많이 등장한 어휘를 추출하여 키워드 생성
-
해당 키워드와 관련도가 높은 어휘들도 함께 추출하여 키워드와 함께 제공
-
-
인공지능 스피커인 Clova를 통해 키워드들을 전달
-
키워드에 대해 질문하면 연관 어휘들을 함께 제공하면서 구체적인 정보를 원하면 키워드와 연관어들을 함께 검색하는 것이 좋겠다고 알려줌
-
-
Naver Cloud Function을 활용해 Rest API 만듦
-
하지만 키워드를 발화 문으로 구현하는데 Node.js가 필요한데 Javascript를 다룰 줄 몰라 진행 불가로 프로젝트 마무리
-
3. 드라마 PPL 지수를 활용한 명품 선호 트렌드 예측
- 주제 선정 이유
-
롯데쇼핑의 데이터를 활용
-
롯데 백화점, 면세점이 롯데쇼핑 매출의 큰 부분을 차지한다는 것을 알게 됨
-
고가의 상품들에 대한 선호지수와 소비 트렌드를 알아보는 것도 재미있겠다고 생각됨
-
-
유명 연예인이 착용했다는 이유로 고가의 물건이 품절되는 현상에 대한 궁금증
-
이 현상이 언론플레이인지 아님 실제 근거가 있는 것인지 알아보고 싶었음
- 프로젝트 설명
-
롯데 멤버스에서 제공한 데이터, 웹 크롤링, 네이버 검색어 API 활용
-
새로운 명품 기준 만듦
-
롯데 백화점 사이트의 명품 리스트
-
상품 카테고리별 가격과 인지도가 높은 브랜드
-
두 가지 기준을 모두 만족하는 브랜드 활용 (총 386개 브랜드)
-
-
3개의 지수를 생성해서 온라인 선호지수 판단
-
최신성
-
최근 많이 팔린 상품에 가중치를 주면서 실시간 선호지수를 생성할 수 있도록 함
-
오래된 데이터의 영향 조정
-
-
관심도
-
사람들이 해당 상품에 얼마나 관심을 가지고 있는지 알아보기 위함
-
상품 검색에 소요되는 시간과 검색 수, 구매 대비 검색 수 들을 활용해 계산
-
-
인기도
-
-
예측에 활용한 Feature
-
드라마 PPL지수, 상품 판매량, 가격, 상품 분류
-
-
하나의 모형을 각각 훈련시키니 오버 피팅이 의심되는 결과가 나옴
-
RMSE가 매우 낮게 나옴 (1000 단위 scale에서 7 ~ 12 정도)
-
classification도 Accuracyrk 80% 중반을 넘음
-
4 ~ 8월 데이터를 훈련시켜 9월 데이터를 예측해보니 매우 낮은 결과가 나옴 (rmse : 7 ~ 12 => 100 이상, acc : 10 ~ 30%)
-
-
주요 feature들 표준화 및 새로운 feature 추가
-
각 모델별 HyperParameter tuning (GridSearchCV 활용)
-
앙상블 방법(스태킹)을 활용
-
의사결정 트리 기반의 여러 모형들(Random Forest, Gradient Boost, 등...)을 활용
-
최종적으로는 XGBoost 활용
-
60%로 Accuracy를 높일 수 있었음
-
F1 Score의 경우 80%대까지 상승
-
-
각 모델별 변수 중요도를 평균을 내어보니
-
드라마 PPL지수가 중요 활용 변수로 나타남
-
선호지수와 ppl지수의 상관계수가 크지 않는다는 점이 눈에 띔
-
4. 건물주 뒷담화 (Deprecated)
Concept
[프로토 타입](https://ovenapp.io/view/9 jveue4 Cix9 VtvAX8 gyJ1 q5 bcjsmTUCE/)
-
상가, 원룸 등 건물주들에 대한 뒷담화를 할 수 있는 사이트 (잡플래닛 건물주 버전)
-
빈 방 또는 빈 상가에 대한 기본 정보(월세, 보증금 등)를 제공한다.
-
그 외의 이전에 그곳에서 장사를 했거나 살았던 사람들이 솔직한 후기를 제공함으로써 일반적으로 알기 힘든 비하인드 스토리를 공유할 수 있도록 한다.
5. 유사 관상 서비스 (Deprecated)
Concept
[프로토타입](https://ovenapp.io/view/WUjt6 Uder2 xBQcszdfJo3 wHzptnKK0 Cj/)
-
이용자의 관상을 봐주는 서비스
-
명리학 기반으로 실제 관상을 봐주는 것이 아니라 야매로 관상을 봐주는 유사 관상 서비스
-
클로바 얼굴인식 API를 이용해서 닮은꼴 유명인들을 찾아보고 그 유명인들의 일대기를 정리해서 앞으로의 일을 이야기해준다.
-
또는 유명인 연관 어휘들을 추출하여 이 어휘들을 이용해 무작위 문장들을 생성하여 관상을 봐준다.
'ETC > 정리' 카테고리의 다른 글
과거 공부한 것 정리 (0) | 2020.08.23 |
---|