빅데이터분석 텍스트마이닝을 통한 헤어스타일 연구동향 분석
Research Trends Related on Hair Style in the Text Mining of Big Data Analysis
Article information
Trans Abstract
This study identified research trends by conducting keyword word frequency (TF), related word analysis (N-gram), and reverse document frequency (TF-IDF) through text mining, which analyzes text, which is unstructured data in big data, using the title and Korean abstract of domestic academic papers searched as hairstyles keywords in the Research Information Service (RISS). Through the research results, it was confirmed that hairstyles represent the characteristics of the times, and they are producing them or writing papers to understand preferences through statistics. The purpose of this study is to provide basic data to identify research trends through keywords extracted through text mining that analyzes text, which is unstructured data, in a new way with the development of big data processing technology.
I. 서 론
1. 연구의 필요성 및 목적
오늘날 사회 전반적으로 경제와 문화 수준이 높아지고, 빠르게 급변하면서 다양한 소비자들의 욕구에 따라 뷰티산업은 급속도로 발전해왔으며 현대인들은 자신의 가치를 향상시키기 위해 다양한 노력을 하고 있다(Kim & Park, 2019). 그 중 헤어스타일은 신체의 작은 비중을 차지하나 외모에 큰 영향력 있는 변인으로서 개인의 개성과 이미지를 새로운 형태로 재창조하며 표현한다(Lee et al., 2022).
또한 4차 산업 혁명으로 일컬어지는 IT 기술은 놀라운 속도로 발전하고 있다. 예전에는 상상도 못했던 기술들이 이미 현실화되어 있고 인공지능 스피커나 자율 주행 자동차와 같은 기술들이 일반적으로 사용되고 있으며, 알파고로 대표되는 인공지능 소프트웨어는 이제 인간이 수행하던 역할을 대체할 수 있는 정도에 이르렀다. 그리고 이러한 성장은 더욱 빨라질 것으로 예상된다(Kim, 2018). 미용산업에서 IT 기술은 나에게 어울리는 헤어스타일을 예상해 볼 수 있게 제공하는 스마트미러와 AI가 소비자에게 맞는 맞춤형 헤어스타일과 컬러, 시술 등을 추천하는 시스템 등으로 성장해 가고 있다. 이러한 변화에 발맞춰 논문 분석 또한 빅데이터를 활용한다. 기존의 존재하는 연구 문헌에 분포, 구성, 특징, 관계, 규칙 등의 텍스트(Text) 정보를 추출하여 텍스트마이닝 분석 방법을 통해 네트워크 관계를 파악함으로써 특정 학술 분야의 연구 성과를 집성하여 중점 연구 및 발전과정, 향후 연구방향 등을 제시하는 중요한 수단으로 활용된다(Kim, 2020).
빅데이터와 텍스트마이닝에 관한 선행연구로 Kim(2023)은 텍스트마이닝을 활용하여 미용교육에 연구 동향을 분석하여 대학 중심의 만족도 연구와 학제 및 전공의 연구 편차를 확인하였으며, Kim(2023)은 빅데이터 분석을 활용하여 코로나19시대 전후를 비교하여 뷰티, 미용 분야의 연구 동향을 알아보고 4차 산업의 변화에 부응하는 미용 교육과정을 확대하여, 뷰티산업과 시대적 변화를 융합시키는 기반을 마련하였다. Moon & Lee(2020)는 빅데이터를 활용한 헤어커트 패러다임 변화 연구를 통하여 헤어미용분야 마케팅 홍보를 위한 텍스트 구성 전략에 대한 기본자료를 제공하였다. Lee et al.(2022)는 텍스트마이닝과 의미연결망 해석을 이용하여 온라인 커뮤니케이션에서 나타나는 헤어스타일에 대한 트렌드를 확인하였으며, Kwon & Kim(2015)은 계량서 지학적 분석을 통하여 학문의 속성, 흐름, 연구자의 연구 활동을 통하여 헤어스타일 연구동향을 수량적으로 규명하였다. 한편 기존의 연구 동향 논문은 통계적 분석 기법 측면에 초점을 맞추었다면 빅데이터를 활용한 연구 논문은 미미한 실정이다.
이에 본 연구는 비정형 데이터인 텍스트를 분석하는 텍스트마이닝이란 새로운 연구 방식을 통하여 추출된 키워드를 가지고 시각화한 후, 헤어스타일 연구동향을 파악하여 헤어스타일 논문 분석의 기본 자료를 제공하는데 그 목적을 둔다.
II. 이론적 배경
1. 빅데이터
빅데이터란 일반적으로 기존의 해석 및 관리 체계로는 데이터의 양이나 단위 관점에서 처리할 수 없을 수준의 대규모 데이터의 집합을 의미하는 것으로, 특징의 구성을 3V로 요약하는 것이 일반적이다. 3V란, 양(Volume), 다양성(Variety), 생성 속도(Velocity)라는 특징을 가지며, 이러한 특성을 통해 해석과 추론의 역할로 진화한다. 이를 통하여 데이터의 활용 방식에 따라 이전에는 발견되지 않았던 다양한 새로운 가치의 발견과 창조를 가능하게 한다(Park, 2020). 빅데이터는 생성 주체와 데이터 수집방법, 데이터 유형에 따라 종류를 구분한다. 생성 주체에 따라서는 기계데이터와 사람데이터, 관계데이터로 구분되며, 데이터의 유형은 수치로 표기되는 정형데이터와 텍스트, 사진, 동영상 등에서 추출되는 비정형데이터, 그리고 그 중간개념의 반정형데이터로 나뉜다. 데이터 수집 방식에 있어서는 보안이 요구되는 내부데이터와 웹에서 수집 가능한 공개데이터로 분류된다(Park & Lee, 2023).
2. 텍스트마이닝
텍스트마이닝은 문서, 글을 뜻하는 ‘Text’와 채광, 채굴을 뜻하는 ‘Mining’이 합쳐진 단어로 글 혹은 문서 안에서 유의미한 정보를 추출하여 활용하기 위한 분석 도구이다(Jin, 2019). 기술적 정의에 텍스트마이닝이란, 비정형 또는 반 정형데이터에 관하여 문서 처리 기술과 자연어처리(NLP) 기술을 활용하여 의미 있는 데이터를 추출하고 가공하여 정보처리하는 것이라 할 수 있다. 이를 위한 분석 과정으로 데이터 수집, 정제, 도출의 순서로 수행 되어지며, 가장 대표적인 분석 기법으로 주제에 대한 키워드의 등장 빈도를 기반으로 중요도를 분석하는 빈도분석(TF), 상대적 중요도에 빈도를 분석하는 역문서 빈도(TF-IDF) (Na, 2022), 데이터마이닝 방법과 자료검색, 자연어처리, 용어 및 데이터 추출과 같은 특징 추출, 문서 구분, 군집화, 연결분석 등의 기법들이 결합되어(Noh, 2019) 형태소를 추출하여 발생빈도를 파악하는 형태소 및 키워드 분석, 저자가 서술 대상에 표현하고자 하는 의견을 찾아내는 오피니언 마이닝, 특정 주제를 추출하는 알고리즘의 대표인 토픽모델링, 한 단어에 인접하여 등장하는 관련 단어로 인공 신경망에 학습시키는 위드투벡이 있다(Kim et al., 2016).
3. 헤어스타일
헤어스타일은 헤어와 스타일이라는 두 단어가 합쳐진 복합 명사로 머리카락의 모양을 낸 형이라는 뜻을 가지고 있다(국립국어원표준국어대사전). 인간은 누구나 헤어스타일을 가지고 자신에게 가장 잘 어울리고 아름답게 보이고자 하는 본능으로 개인의 개성을 표현하고자 한다. 헤어스타일을 통하여 외적 이미지 메이킹을 함으로 자기 존중감을 높일 수 있고, 타인에게 긍정적 요소로 작용하여 사회적 성공요인으로 기여하게 할 수 있다(Jang & Park, 2009). 헤어스타일 표현의 요소로 커트, 컬러, 퍼머넌트의 다양한 형태로 나눌 수 있고. 이는 사람들의 취향을 고려하여 나타나며 시대의 유행문화도 알아낼 수 있다(Jang & Park, 2023).
III. 내용 및 방법
1. 연구내용
첫째, 각 년도 별 논문을 파악하여 시각화한다.
둘째, 키워드 단어빈도(TF)를 파악하여 시각화한다.
셋째, 키워드 연관어 분석(N-gram)를 파악하여 시각화한다.
넷째, 키워드 역문서 빈도(TF-IDF)를 파악하여 시각화한다.
2. 분석 개요
학술연구 정보서비스(RISS)에 2024년 1월 3일 헤어스타일 검색 키워드로, 1960년부터 게재된 국내학술논문 923편 중 중복항목, 국문초록이 없고 대상에 맞지 않는 논문을 제외한 827편의 제목과 국문초록을 선정하였다. ㈜더이아엠씨에서 개발한 빅데이터 분석 솔루션 텍스톰(TEXTOM) 프로그램으로 단어분석을 하였다. 단어빈도(TF)는 문서 안에 단어가 얼마나 자주 발생하는지를 나타내는 척도를 나타내며, 연관어 분석(N-gram)은 통계 기반 언어 분석모델로 문자열에서 2개의 연속된 요소를 추출하여 문장 내 연속하여 동시 등장하는 단어와 그 빈도를 계산한다. 마지막으로 역문서 빈도(TF-IDF)는 문서 안에서 단어가 얼마나 중요한지를 평가한다. 본 연구에서는 키워드의 단어빈도(TF), 연관어 분석(N-gram), 역문서 빈도(TF-IDF)로 다양한 시각화 작업을 통해 연구 동향을 파악하고자 한다.
IV. 결과 및 고찰
1. 년도 별 논문
본 연구는 학술연구 정보서비스(RISS)에서 헤어스타일 키워드로 검색한 논문을 Excel 저장하여 다국어 초록과 제목은 파파고(번역사이트)를 통하여 번역하였다. 중복으로 게재된 논문은 자료가 있는 년도로 포함하였으며, 국문초록이 없거나 찾을 수 없는 논문과 목적에 맞지 않은 논문은 제거 후, 각 년도 별 논문 수를 파악하였다. 결과로는 2002년 급증하면서 가장 많이 게재한 년으로는 2008년인걸 확인할 수 있고, 그 뒤로 2011년, 2009년 순으로 나타났다. 본 연구에 사용된 논문이 가장 많은 년으로는 2008년 동일하나 2009년 초록 없이 개제한 논문으로 본 연구에는 순위가 변경되었음을 확인할 수 있다. 종합하여 보면 2002년부터 급증한 논문의 수가 2008년 정점을 찍고 톱니 모양을 그리면서 서서히 줄어드는 걸 확인할 수 있었다. 이러한 결과는 2000년 이후 미용대학의 증가로 연구자가 늘어난 효과로 급등하였고 연구자의 수가 조금씩 줄어 게재가 줄어들고 있다는 걸 시사하고 있다. 이는 Kwon & Kim(2015)의 계량서지학적 분석과 유사한 결과이다. 통합 결과는 다음 <Table 1>과 이를 시각화한 <Fig. 1>과 같다.
2. 단어 빈도(TF) 분석
본 연구의 헤어스타일 키워드는 복합명사로 Espresso K 분석을 하였다. 분석 결과 명사 102578개, 숫자4855개 총 107433개가 추출되었으며 정제작업 후 결과로는 ‘헤어스타일’, ‘스타일’이 가장 높은 빈도를 보였으며 ‘이미지’와 ‘여성’이 뒤를 이어 등장했음을 확인할 수 있었다. ‘년’, ‘시대’, ‘년대’, ‘세기’처럼 비슷한 내용을 가진 단어의 빈도수를 더하면 2위인 ‘스타일’보다 빈도가 높은 것을 확인할 수 있다. 이러한 결과는 각 시대 즉, 이집트에서는 머리카락이 가운데로 갈라져 어깨로 물결치는 가발, 귀를 보여주는 한 종류와 쇄골 아래로 늘어뜨린 단정한 롤이 있는 가발 등이 있었고(Shin, 2000) 로코코 헤어스타일은 낮은 치논과 꽃, 가발, 큰 모자로 과도한 장식을 선호했던 것처럼(Kwon et al., 2006) 헤어스타일에 나타나는 시대 특징을 파악한 논문이 있다는 것을 확인할 수 있다. 또한 ‘남성’보다 ‘여성’이 높게 나타났으며, ‘업스타일’, ‘컬러’, ‘커트’가 나타난 것을 확인할 수 있었다. 주로 여성의 스타일을 나타내고 헤어스타일의 기본적인 형태 변화에 대한 연구가 많음을 시사하고 있다. 단어 빈도(TF) 상위 50개의 키워드는 <Table 2>로 시각화는 <Fig. 2>와 같다.
3. 연관어 분석(N-gram)
연관어 분석은 단어 다음에 등장하는 단어 즉 연속한 단어를 분석함으로써 단어와 단어의 연결 특징을 파악할 수 있다. 결과로는 ‘헤어스타일’앞에 ‘여성’, ‘메이크업’, ‘남성’, ‘현대’, ‘선호’, ‘이미지’가 나타났으며, 뒤로는 ‘변화’, ‘이미지’, ‘행동’, ‘표현’이 동시 등장했음을 확인할 수 있다. ‘20’, ‘21’, ‘세기’가 특정이 되었고, ‘20’, ‘대’가 다른 나이보다 많이 등장했음을 확인할 수 있다. ‘헤어’, ‘커트’, ‘스타일’ 연결성을 보였으며 ‘작품’으로는 ‘제작’을 하는 경우로 확인할 수 있다. ‘미용’, ‘서비스’, ‘산업’과 ‘소셜네트워킹’, ‘서비스’도 연속 등장했음을 확인할 수 있었다. 이러한 결과는 사람들이 선호하는 현시대에 나타나는 헤어스타일을 통하여 이미지 변화를 표현하는 것이며 특정 시대의 트렌드 파악, 메이크업 의상과 더불어 선호하는 작품을 선정, 제작하는 논문이 존재함을 알 수 있다. 또한 젊을수록 이미지 관리에 신경을 쓰고 사회연결망을 통하여 헤어스타일을 접한다는걸 시사하고 있다. 상위 21개의 연관어 분석(N-gram)은 다음 <Table 3>으로 이를 시각화한 <Fig. 3>은 화살표 굵기로 빈도가 높은 것을 확인할 수 있다.
4. 역문서 빈도(TF-IDF)
TF-IDF값이 높을수록 논문 내의 핵심적인 단어일 확률이 높다고 볼 수 있다. 결과로는 ‘이미지’와 ‘스타일’이 높은 빈도를 나타내고 있다는 것을 확인할 수 있다. 단어빈도에서 1위인 ‘헤어스타일’은 역문서 빈도에서 3위에 있음을 확인할 수 있고, ‘스타일’, ‘여성’, ‘고객’은 단어빈도와 역문서 빈도가 동일 순위로 나타났다. 단어 빈도수와 역문서 빈도는 대체적으로 큰 변동이 없는 단어가 많았으나 특이점으로 단어 빈도 수에 비해 높은 순위를 나타내는 경우를 보면 ‘웨딩’, ‘영화’, ‘행동’, ‘외모’는 50위 안으로 새로 출연했음을 확인할 수 있었다. 이러한 결과는 ‘웨딩’이나 ‘영화’처럼 매체를 통하여 외모와 행동을 알아보는 자료를 수집하여 사용하는 것을 시사하고 있다. 상위 50개의 역문서 빈도(TF-IDF)는 다음 <Table 4>와 이를 시각화한 <Fig. 4>와 같다.
V. 결 론
본 연구는 학술연구 정보서비스(RISS) 국내학술논문에 헤어스타일 키워드로 게재된 논문을 ㈜더이아엠씨에서 개발한 빅데이터 분석 솔루션 텍스톰(TEXTOM) 프로그램을 사용하여 새로운 시각으로 단어빈도(TF), 연관어 분석(N-gram), 역문서 빈도(TF-IDF) 연구를 통해 정보를 추출하여 수치화된 데이터를 알아봄으로써, 헤어스타일 연구동향을 알아보았다.
첫째, 년도 별 논문 분석 결과를 통하여 2008년 정점을 찍고 톱니 모양을 그리면서 서서히 줄어드는 걸 확인할 수 있었다. 예전에는 각 전문 분야가 나눠지지 않았고 헤어스타일 발달이 가장 빨리 발전해왔었지만, 현재 피부, 네일, 메이크업처럼 세분화되면서 분야별 전문 연구자가 분산되어 게재가 줄어들고 있다고 사료된다.
둘째, 단어빈도(TF)분석 결과를 통하여 연구의 주된 관심사가 시대별 스타일을 분석하는 논문이 많이 쓰여지고 헤어스타일 자체의 다양한 형태와 표현 방법에 집중되어 여성을 대상으로 하는 것으로 나타났다. 이는 헤어스타일이 개인의 개성과 이미지를 표현하는 중요한 요소로 인식되고 여성들이 시대의 특징을 잘 나타내고 있으며 패션에 조금 더 관심이 많은 것으로 사료된다.
셋째, 연관어 분석(N-gram) 결과를 통하여 헤어스타일은 작품을 제작하여 표현하는 것으로 나타났다. 또한 소셜네트워크를 통하여 스타일을 접한다는 걸 확인할 수 있었다. 이는 인터넷의 발달로 예전보다 손쉽게 다양한 스타일을 접할 수 있다고 사료된다.
넷째, 역문서 빈도(TF-IDF)분석 결과를 통하여 영화나 웨딩 등 매체 통해 자료 수집을 한다는 걸 확인할 수 있었다. 이는 독특한 헤어스타일이라던지, 인물의 성격이나 이미지 등이 잘 표현되어 있고 특별한 스타일을 찾는데 이용한다고 사료된다.
반면, 연구 자료를 RISS 학술 데이터로 한정 지었고 한글로만 데이터를 추출하였기에 형태에 따른 C, S와 같은 영어식 표현을 볼 수 없었으며 데이터가 불완전하거나 오류가 있다면 잘못된 해석이 나올 수 있는데 한계점이 있다. 향후 연구 방향에서는 국내 논문뿐만 아니라, 국제 학술 데이터베이스와 출판물, 다국어를 사용한 포괄적인 분석을 통해 연구동향을 알아보고 특정 시대 헤어스타일 디자인 표현에 제한을 두지 않고 탈모인들의 위한 증모술이나 덧 가발로 표현할 수 있는 헤어스타일, 도구의 발달로 변화되는 헤어스타일처럼 범위를 확장하여 후속 연구로 발전하기를 기대한다.