카테고리 없음

네이버 고평점 영화 줄거리 감성분석

집빈지노 2021. 1. 15. 17:52

 

네이버에 있는 고평점 영화들(movie.naver.com/movie/sdb/rank/movie.nhn)의 '줄거리' 자연어 분석을 한 번 해보았다.

하고 나니 댓글 분석도 아닌 웹상에 요약된 줄거리를 가지고 분석한 것이라 큰 의미는 없다고 보지만...ㅎ

BeautifulSoup을 통해 web을 scraping 하였고, 위의 줄거리 부분만 추출하여 rhinoMorph를 이용해 형태소 분석을 하였다.

 

 

그리고 난 뒤에 WordCloud를 통한 단어 빈도 분석이다.

 

 

'하, '되' 같은 쓸데 없는 형태소들이 많이 나와서, 인위적으로 조작하게 되었다. ㅜㅜ

'자신', '위하', '시작', 같은 의미 있는 단어들을 추려서 리스트를 다시 만들고, 이것을 wordcloud에 넣으면,

 

 

 

'자신'이 가장 빈도수가 높았고, '시작', '함께', '사랑', '사람', '가족, 친구' 같은 단어들이 많이 보인다. 다시 생각해보니 자신 보단 '시작', '사랑', '마을' 같은 단어들이 더 의미가 있을 것 같다.