| Home | Sitemap | Contact Us |  
top_img
Hum. Ecol. Res Search

CLOSE

Human Ecology Research > Volume 63(2); 2025 > Article
머신러닝과 텍스트마이닝을 활용한 SNS 상의 비자살적 자해 위험군 식별

Abstract

This study was intended to rapidly and accurately detect non-suicidal self-injury(NSSI) risk groups on social networking services (SNS) using machine learning and text mining methods. Data were collected from the text-based SNS platform, X, using the keyword “self-injury” over a one-year period. Following preprocessing and cross-validation by three researchers, 18,758 posts were labeled (1: NSSI risk posts, 0: non-risk posts). Users were placed in the NSSI risk group if they had at least one NSSI risk post. A transformer-embedding method for natural language processing was then used, followed by supervised machine learning algorithms to validate the detection of NSSI risk and non-risk groups.
After the collected SNS posts were labeled, 6,613 posts (35.25%) were identified as NSSI risk posts, while 12,147 posts (64.76%) were identified as non-risk posts. Users who posted risk-related content even once were placed in the at-risk group. Consequently, among the 10,524 participants included in the study, 1,733 users (16.47%) were identified as belonging to the NSSI risk group, and 8,791 users (83.53%) as belonging to the non-risk group. Furthermore, the development of a supervised machine learning model to detect NSSI risk groups on SNS demonstrated excellent performance, achieving an accuracy of approximately 85%. This result highlights the high precision of the model in distinguishing between NSSI risk and non-risk groups on SNS.
These results indicate the NSSI risk groups on SNS can be efficiently and accurately identified using machine learning, thereby providing a cost-effective and timely approach for early detection. This study advances previous research by expanding the analytical focus from individual posts to user-level accounts. This approach provides a more comprehensive understanding of self-harm risk groups, which may be challenging to identify at the post-level, and enhances the feasibility of connecting insights to practical interventions.

서론

‘SNS 속 넘치는 자해사진, 내 아이가 위험하다’(Kukinews, 2022)라는 뉴스 제목에서 볼 수 있듯이 최근 수년간 미디어에서는 소셜 네트워크 서비스(Social Network Service, SNS)에서 광범위하게 공유되는 청소년의 비자살적 자해행동이 사회적 문제로 떠오르고 있다. 이는 SNS가 일상생활의 일부로 자리잡으면서 개인의 사적 경험까지 나누는 맥락이 된 것과 무관하지 않다. 비자살적 자해(Nonsuicidal Self-Injury, NSSI)는 죽으려는 의도 없이 고의적으로 자신의 신체 조직을 훼손시키거나 손상시키는 사회적으로 허용되지 않는 행동으로 정의된다(Cipriano, Stefania, & Cotrufo, 2017; Nock, 2010). 대표적으로 칼로 긋기, 불로 지지기, 긁기, 과도하게 문지르기 등을 포함한다. 비자살적 자해는 2013년 DSM-5의 section Ⅲ에 추가 연구가 필요한 진단적 상태로 분류되면서(American Psychiatric Association, 2013) 연구자들 사이에서도 주목받고 있는 현상이다.
국내외 선행연구에 따르면 비자살적 자해는 주로 13세 전후로 시작되어 청소년과 성인 초기에 지속되다가 25세 이후부터는 빈도가 급속히 감소하는 양상을 보인다(Lee, D., Ham, K., & Bae, B-H., 2016; Muehlenkamp, Xhunga, & Brausch, 2019). 해외의 메타분석 연구에서 청소년의 비자살적 자해 유병율은 17.2%로 나타났으며(Swannell, Martin, Page, Hasking, & St John., 2014), 국내의 경우, 비임상 청소년 집단을 대상으로 한 조사에서 22.8%가 비자살적 자해의 경험이 있다고 답한 것으로 나타나(Ahn & Song, 2017) 그 심각성을 보여주고 있다. 이에 따라 교육부에서는 학생 정서·행동특성검사에 자해 관련 질문을 추가하여 매년 초·중·고등학생을 대상으로 전수조사를 실시할 만큼 관심이 필요한 이슈가 되었다. 실제로 전국 청소년상담복지센터의 자살·자해 관련 상담 건수는 2022년 약 12만 6천건으로 나타나, 최근 5년 간 77% 가량 증가한 것으로 보고되었다(Yonhap News Agency, 2022). 이에 한국청소년상담복지개발원에서는 2023년부터 자살·자해 집중 심리클리닉을 신설하여 운영하고 있다. 더욱이 우리나라 청소년의 사망 원인은 10년 연속 자살이 1위를 차지하고 있는데(E Today, 2022) 비자살적 자해는 자살의도가 없다 할지라도 반복될 경우 자살에 이를 가능성이 높아지므로(Joiner, 2015) 비자살적 자해에 대한 조기개입이 시급한 상황이다.
비자살적 자해는 특히 SNS 상에서 광범위하게 목격된다. 이는 점점 더 많은 사람들이 개인적인 감정을 표현하는 공간으로 소셜미디어를 이용하고 있으며, 이에 따라 익명성을 유지한 채 자신의 심리적 문제를 드러내는 경우가 증가하고 있기 때문이라고 할 수 있다(Wang et al., 2017). 실제로 청소년들은 자신의 자해 경험을 타인과 나누기 위해 SNS에 자해 관련 게시물을 업로드하는 경향을 보인다(Lewis, Heath, & Michal, & Duggan, 2012). 비자살적 자해 실시자들의 절반 이상이 관련 SNS 활동을 한다고 알려졌는데, 이들에게 SNS는 일상에서 경험하는 부정적인 정서를 자유롭게 표출하고 상호관계를 형성하는 공간이다(Shin & Kwon, 2019). 이들은 현실에서의 맞닥뜨릴 수 있는 자해행동에 대한 부정적 반응을 피해 SNS에서 새로운 의지처를 찾고자 하므로(Song, 2021) 오프라인에서의 도움을 추구하기보다는 익명성에 기반한 온라인 소통과 지원을 선호하는 특징이 있다. 따라서, 온라인 공간은 비자살적 자해 위험군에 개입하기 위한 적절한 접근통로가 될 수 있다. 더욱이 SNS에서 활발히 활동하는 경우에는 자해 심각도가 더 높고 우울, 불안, 식이장애 등 정신병리적 문제를 동반할 가능성이 제기되고 있으므로(De Riggi, Lewis, & Heath, 2018; Kaukiainen & Martin, 2017), SNS 상에서 이들을 찾아내고 심리적 지원을 제공하는 것은 매우 중요한 과제라 할 수 있다.
그러나 지금까지의 방법들은 비자살적 자해행동에 대한 정확하고 구체적인 이해에 기초하여 위험군을 추려내기보다는 이들의 게시물을 단순히 제재하는 수준에 머물렀다. 공익적 목적으로 사람이 직접 SNS 상의 자해 게시물을 모니터링하고 조치하려는 활동을 주기적으로 실시하는 경우도 있으나, 실시간으로 오르내리는 SNS 게시물을 일일이 살펴보며 실제 비자살적 자해와 그렇지 않은 경우를 판단하는 것은 불가능에 가깝다. 일부 SNS 플랫폼에서는 자체적으로 자해사진이 포함된 게시물을 유해게시물로 분류하여 삭제하는 조치를 취하고 있는데, 이를 우회하기 위한 새로운 해시태그가 등장하거나 아예 다른 플랫폼으로 이동하는 양상이 포착되어 효과가 제한적이라는 지적을 받고 있다(Giordano et al., 2022). 이와 같은 시도들은 SNS 상의 자해 게시물이 사회적으로 미칠 수 있는 영향을 완화하는 데에 일부 기여했을 수 있지만, 게시물에 대한 통제만으로 비자살적 자해행동 자체가 예방되거나 감소되기는 어렵다.
궁극적으로 온라인 상의 비자살적 자해 게시물을 줄이고자 한다면 SNS에서 보여지는 비자살적 자해 현상에 대한 면밀한 이해를 바탕으로 위험군을 식별하는 것이 필수적이다. 이러한 목적을 달성할 수 있는 효과적이고 현실적인 방안은 최근 데이터 사이언스의 발전에 따른 SNS의 빅데이터와 머신러닝 알고리즘을 활용하는 것이다. 실제로 최신의 정신건강 관련 연구에서는 SNS 게시물을 통해 심리적 위기를 감지하려는 노력들이 이루어지고 있다. 일례로, Malhotra와 Jindal (2022)은 SNS의 게시물을 분석하여 우울증 또는 자살 위험군에 대한 조기 발견과 비임상적 진단을 수행하였고, Pan, Wang, Zhou, Hang과 Guo (2023)의 연구에서는 수십 만 건의 SNS 게시물에서 보여지는 텍스트 특징을 토대로 머신러닝 분석을 수행하여 우울증과 자살생각을 예측할 수 있는 언어적 요소들을 밝혀낸 바 있다. 이때, 비정형 데이터인 SNS 게시물의 텍스트를 분석가능한 정형 데이터로 변환하는 자연어 처리(natural language processing) 방법과 이에 기반한 텍스트마이닝(textmining) 방법론이 활용되었다. 이와 같이 비자살적 자해행동에 대해서도 머신러닝과 자연어 처리, 텍스트마이닝을 접목하여 SNS의 빅데이터를 분석한다면 어떤 사용자들이 위험군에 해당할지를 효율적으로 분류해낼 수 있을 것이다.
기존의 연구들에 비하여 SNS 빅데이터와 머신러닝을 접목한 연구가 가지는 강점은 비자살적 자해 현상을 보다 정확하게 파악할 수 있고 이들을 식별하는 데 소요되는 비용을 줄일 수 있다는 점이다. 우선, SNS 빅데이터를 통해서는 직접 연구대상을 선정하여 설문조사를 실시하거나 인터뷰를 수행하는 것보다 훨씬 다양하고 방대한 데이터를 확보할 수 있다(Goldberg et al., 2020). 무엇보다 SNS의 빅데이터는 개인의 주관성이 개입된 응답이 아니라 SNS 상에서 있는 그대로 관찰되는 게시물의 내용(예: 텍스트, 이미지)이기 때문에 현상을 편향이나 왜곡없이 해석 가능하다. 또한, 머신러닝 분석을 적용하면 대규모의 데이터를 빠르게 처리할 수 있고 자동화된 절차를 통해 위험군 예측을 수행할 수 있으므로 사람이 분류를 위해 들이는 물리적, 정신적 노력에 비해 훨씬 적은 시간과 비용으로 위험군을 조기에 스크리닝할 수 있다(Aafjes-van Doorn, Kamsteeg, Bate, & Aafjes, 2021; Grag, 2023). 따라서, 본 연구에서 SNS 빅데이터를 기반으로 머신러닝 분석을 통해 비자살적 자해의 위험군을 식별해내는 것은 실효성 있는 비자살적 자해의 예방 및 개입방안을 고안해내는 데 기여할 수 있을 것이다.
SNS 상의 비자살적 자해 위험군 식별을 달성하기 위하여 본 연구에서는 SNS에서 ‘자해’ 키워드가 포함된 게시물을 대상으로 지도학습(supervised learning) 방식의 머신러닝 분석을 수행하고자 한다. 소셜미디어에서 얻을 수 있는 정보의 원천은 텍스트와 이미지, 소리나 영상, 사용자의 프로필 정보, 상호작용성을 반영하는 메타데이터 등으로 다양하지만, SNS 상에서 정신건강의 위험을 탐지하고자 할 때에는 게시물 텍스트가 우선적으로 포함된다(Song, You, Chung, & Park, 2018; Tadesse, Lin, Xu, & Yang, 2019; Yang, Zhang, & Ananiadou, 2022). SNS의 게시물 텍스트는 사용자의 내면적 심리상태를 반영하는 직접적인 수단이므로 텍스트 기반의 위험군 식별은 상대적으로 적은 노력으로 대규모의 데이터를 처리하고자 하는 효율적인 선택이 될 수 있다. 따라서, 본 연구에서는 지도학습 머신러닝을 활용하여 ‘자해’ 키워드가 포함된 게시물 내용만으로 빠르게 위험 게시물 여부를 판단한 후, 1회라도 위험 게시물을 올린 사용자를 비자살적 자해 위험군으로 정의하였다. 이러한 방식은 온라인 자해 관련 선행연구들이 주로 게시물 단위(post-level) 분석에 그쳤던 것을 사용자 단위(user-level)로 확장시켜 추후 개입의 대상으로 고려해볼 수 있다는 의의가 있다.
이를 위해 본 연구에서는 다양한 SNS 플랫폼 중 X(구 Twitter)를 선정하였다. SNS 플랫폼마다 주요 목적 및 사용의도가 다른데, 이 중 X는 텍스트 기반의 소셜미디어로 여타 SNS에 비해 솔직하고 자기개방적인 특성이 두드러져 SNS 사용자의 정신건강 상태를 탐지하기 위한 공간으로 꾸준히 이용되어왔다(Lee & Kwon, 2023; Prieto et al., 2014). 또한 X는 다중 계정을 익명으로 운영할 수 있고 상대적으로 유해게시물에 대한 검열이 덜하여 현재 국내 SNS 플랫폼 중 자해 게시물을 활발히 공유할 수 있는 곳은 X가 거의 유일한 실정이다(Shin, 2021). 따라서, 본 연구에서는 X의 사용자들을 대상으로, 비자살적 자해 위험군을 식별하고자 하였다.
한편, 본 연구에서는 X에서 수집된 게시물 텍스트를 분석 가능한 정형 데이터 형태로 변환시키는 방법으로 최신의 자연어 처리 기술인 트랜스포머(transformer) 기반 임베딩(embedding) 방식을 적용하였다. 이 방식은 텍스트 데이터를 고차원의 벡터 공간에 할당하여 텍스트에 내재된 문맥적 의미와 복잡한 언어패턴을 파악하는 데에 강점이 있다(Vaswani et al., 2017). 본 연구는 이 방법을 활용함으로써 기존의 단어 빈도분석이나 키워드 중요도 분석 방법으로는 도출하기 어려웠던 SNS 게시물의 맥락적 분석을 수행하였다.
요약하면, 본 연구에서는 SNS의 게시물을 통해 비자살적 자해 위험군을 식별해보고자 한다. 본 연구의 결과는 온라인 공간에서 공유되는 비자살적 자해 게시물을 통해 자해 위험군을 조기선별하여 예방 및 중재 방안을 마련하는 데 기초자료로써 기여할 수 있다. 나아가 비자살적 청소년과 관련되는 부모, 교사와 정신건강 전문가들에게 보다 효과적인 소통과 협력 방안을 제안할 수 있으며, 거시적인 측면에서 비자살적 자해 청소년을 지원하기 위한 정책 수립의 방향성을 제시할 수 있을 것이다. 이상의 연구목적을 위해 본 연구에서는 다음과 같은 연구문제를 설정하였다.
1. SNS 데이터에서 비자살적 자해 위험군을 식별하기 위한 데이터 라벨링과 교차검증은 어떻게 이루어졌는가?
2. 지도학습 머신러닝을 활용하여 텍스트 기반 SNS 게시물에서 비자살적 자해 위험군과 비위험군은 어떻게 식별되는가?
3. SNS 데이터에서 비자살적 자해 위험군의 언어적 특징은 워드클라우드 시각화를 통해 어떻게 나타나는가?
4. 토픽모델링을 활용하여 비자살적 자해 위험군의 주요 주제를 도출할 수 있는가?

연구방법

1. 데이터 수집 및 연구대상

본 연구는 온라인 상의 비자살적 자해 위험군을 식별하기 위하여 SNS 플랫폼 중 텍스트 기반으로 소통되는 X(구 Twitter)에서 전체공개된 게시물 텍스트를 웹 기반 스크래핑(scraping) 방식으로 수집하였다. 스크래핑이란 웹상의 정보를 자동화된 방식으로 추출하는 방법으로 이를 통해 SNS 게시물의 텍스트를 수집할 수 있다. 수집된 SNS 빅데이터는 엑셀(excel) 파일의 형태로 취합하여 분석에 활용 가능하다.
본 연구에서는 온라인 상의 비자살적 자해 위험군을 식별하고자 2024년 1월 자료수집 시점에서 직전 1년 동안 ‘자해’ 키워드로 검색되는 전체공개 게시물을 대상으로 삼았다. 이때, 1년 간의 게시물을 수집한 이유는 다음과 같다. 먼저, 온라인 공간은 매우 역동적인 특징을 띠므로 시기에 따른 SNS 게시물의 빈도나 주제에 편차가 있을 수 있다. 더욱이 본 연구에서 대상으로 하고 있는 자해와 같은 정신건강 문제의 경우 계절적 요인이나 특정 사회적 이슈로 인해 발생빈도에 차이가 발생할 수 있으므로, 검색 기간을 1년으로 설정하여 데이터의 대표성 측면에서 자해 관련 게시물의 안정적인 추이를 반영하고자 하였다. 또한, DSM-5에서 비자살적 자해를 진단할 때 기준으로 삼는 기간은 1년으로 최근 1년의 단위가 자해행동의 판단에 중요한 참조 기간이라는 점을 고려하였다. 마지막으로 데이터 관리 및 분석의 효율성을 감안하여 1년이라는 수집기간을 상정하였다.
한편, 기존의 온라인 자해 선행연구에서는 자해 관련 해시태그(예: #자해, #자해계, #자해러 등)로 분석대상 게시물을 수집하였으나, 본 연구에서는 다음과 같은 사항을 고려하여 ‘자해’ 키워드 검색으로 수집되는 모든 전체공개 게시물을 포함하였다. 첫째, 본 연구의 목적은 온라인 상의 자해 게시물을 분석하여 자해 관련 게시물의 내용을 파악하고자 함에 그치지 않고, 자해 게시물을 업로드한 위험군 사용자에 대한 식별이므로 최대한 많은 사용자가 포함될 수 있도록 하였다. 둘째, 해시태그 중 상위 빈도 수를 차지하는 주요 해시태그는 검색 시점에 따라 변동이 있으므로(신성미, 권경인, 2018; Giordano et al., 2021) 해시태그에 한정한 검색으로는 누락되는 자해 게시물이 많을 것으로 판단하였다. 셋째, 실제 SNS에서 자해를 검색한 결과, 해시태그를 포함하지 않고 게시된 자해 게시물이 훨씬 많이 관찰되었으므로 본 연구에서는 특정 해시태그를 통한 검색 대신 ‘자해’ 키워드로 검색하여 게시물을 수집하였다.
따라서, 본 연구에서는 ‘자해’로 검색된 전체공개 게시물의 텍스트와 게시물에 포함된 사용자 ID, 본문에 포함된 해시태그 목록, 게시물 게시 날짜를 수집하였다. 이때, 수집과정에서 식별 가능한 개인정보는 수집하지 않았으며 개인정보 보호를 위해 각 게시물에는 무작위 번호를 할당하여 처리하였다. 수집된 게시물 중 게시물의 웹페이지 주소(Uniform Resource Locator; URL)를 기준으로 중복수집된 게시물을 삭제하고 명백하게 자해 위험군이 아님에도 도배성 게시물을 올린 한 명의 사용자의 게시물을 제외한 최종 연구대상은 10,524명이 업로드한 게시물 총 18,758건이었다.

연구도구

SNS 상의 비자살적 자해 위험군 식별을 위해서는 ‘자해’ 키워드로 수집된 게시물 텍스트를 다음 Table 1과 같이 라벨링한 결과를 활용하였다. 즉, 연구자 포함 3인이 게시물의 내용을 교차검증하여 비자살적 자해 게시물(1)과 비위험 게시물(0)로 분류한 결과가 머신러닝 지도학습 분석을 위한 연구도구라 할 수 있다. 구체적으로, 실제 자해행동이나 자해사고를 시사하지 않는 게시물은 자해 비위험 게시물로 분류되었고, 비자살적 자해행동의 직접적인 언급과 이미지가 있거나 명시적인 자해행동의 실행이 확인되지는 않지만 자해사고를 시사하는 게시물은 자해 위험 게시물로 분류되었다. 즉, 자해도구나 자해부위, 흉터 등과 함께 실제로 자해행동을 보고하였거나 ‘손목 긋고 싶다’, ‘몰래 자해하고 싶다’ 등 자해에 대한 생각을 강하게 표출하는 경우를 자해 위험 게시물로 구분하였다.

자료분석

본 연구에서 온라인 상의 비자살적 자해 위험군 식별을 위하여 다음 Figure 1과 같이 데이터 전처리, 데이터 라벨링, 머신러닝 모형개발 및 성능평가, 워드클라우드 시각화, 토픽모델링을 통한 주제 도출의 과정을 통해 수행하였으며, 구체적인 내용은 과정별로 설명하였다.

1. 데이터 전처리

본 연구에서는 수집된 게시물 텍스트를 최신의 고성능 텍스트 임베딩(embedding) 알고리즘인 Open AI의 ‘text-embedding-3-small’을 활용하여 자연어 처리하고자 하였다. 이는 트랜스포머(transformer) 구조로 이루어진 언어모델로, 우수한 다국어 성능을 탑재하였고 효율적인 자연어 처리가 가능하기 때문이다. 트랜스포머 모델의 입력은 텍스트의 본래 구조를 유지하는 것이 중요하다고 알려진 바에 근거하여(Egger & Yu, 2022). 본 연구에서는 수집된 게시물 텍스트의 원형을 최대한 그대로 입력하여 분석하고자 하였다. 또한, 기술적인 데이터 전처리에 해당하지는 않지만 분석의 효율성을 위하여 수집된 게시물 중 비자살적 자해 위험군이 분명히 아님에도 불구하고 자해 관련 해시태그로(#자해, #자해계) 도배성 게시물을 올리는 한 명의 사용자 게시물을 모두 제외하였다(4,605건). 그 결과, 최종적으로 분석대상 텍스트 건수는 총 10,524명의 사용자로부터 얻어진 게시물 18,758건이었다.

2. 데이터 라벨링

SNS 게시물은 비정형 데이터로서 이를 해석하고 분석에 활용하기 위해서는 데이터 라벨링(Labeling) 또는 데이터에 주석을 다는 절차(Data annotation)가 필수적이다. 온라인 상에서 SNS 게시물을 통해 자살 위기, 우울 위험 등 정신건강과 관련한 어려움을 탐지하고자 할 때, 선행연구에서 가장 많이 활용되고 있는 방법은 연구자 추론 방식(Research-inferred)으로 보고된 바 있다(Skaik & Inkpen, 2020). 연구자 추론 방식이란 SNS 게시물의 텍스트를 바탕으로 연구자가 일정한 가이드라인에 따라 게시물을 분류하고 2∼3인의 연구자가 교차검증하는 방법이다(Mowery, Park, Bryan, & Conway, 2016). 따라서, 본 연구에서는 연구자 추론 방식을 채택하여 연구자가 일차적으로 게시물을 자해 위험(1: At-risk)과 비위험(0: No-risk)으로 분류하고 동료 연구자 2인과 함께 연구자의 코딩 결과를 교차검증하고자 하였다. 게시물 상에 비자살적 자해행동의 직접적인 언급과 이미지가 포함되어있거나, 명시적인 자해행동의 실행이 확인되지는 않지만 자해사고를 시사하는 게시물을 자해 위험(1)으로 코딩하였고, 실제 자해행동이나 자해사고를 시사하지 않는 게시물을 비위험(0)으로 코딩하여 이진분류하였다. 이때, DSM-5의 비자살적 자해 진단기준을 참조하여, 고의적으로 자신의 신체에 상처, 출혈, 고통을 유발하는 방법(예: 칼로 긋기, 불로 지지기, 긁기, 과도하게 문지르기 등)을 직접 행하는 경우를 비자살적 자해행동으로 간주하였다. 연구자의 라벨링 이후, 아동가족학 전공 박사과정 이상에 해당하며 비자살적 자해 관련 상담 경험이 있는 2인으로부터 코딩 결과에 대한 교차검증을 수행하였다.

3. 자연어 처리

SNS 게시물의 텍스트는 비정형 데이터로서 이를 분석하기 위해서는 정형 데이터로 변환하는 자연어 처리 과정을 거쳐야 한다. 텍스트의 특징을 추출하여 텍스트를 컴퓨터가 이해할 수 있는 수치화된 벡터(vector)로 변환하는 방법은 다양한데, 최근에는 트랜스포머(transformer) 기반의 임베딩(embedding) 방식이 활발하게 적용되고 있다(Gram, 2023). 트랜스포머 기반의 텍스트 임베딩은 어텐션 메커니즘(attention mechanism)을 사용하여 단어 간의 관계를 파악함으로써 모델이 각 단어를 개별적으로 처리하는 것이 아니라, 전체 문장의 문맥 속에서 단어의 의미를 이해할 수 있도록 한다(Vaswani et al., 2017). 예를 들어, “오늘 점심에 사과를 받았어.”라는 문장이 있을 때 트랜스포머 모델은 사과의 의미를 주변 단어와의 관계를 통해 파악한다. 사과라는 과일을 먹었다는 뜻인지 아니면 타인으로부터 미안하다는 사과를 받았다는 뜻인지를 문맥을 통해 정확히 이해하는 것이다. 또한 트랜스포머 모델은 대량의 데이터를 효율적으로 학습할 수 있어 SNS 게시물과 같은 복잡하고 비정형적인 텍스트를 분석하는 데 탁월한 성능을 보고하고 있다(Devlin, Chang, Lee, & Toutanova, 2018). 따라서, 본 연구에서는 트랜스포머 기반의 텍스트 임베딩 방식을 채택하고자 하였으며, 그 중에서도 Open AI에서 개발된 GPT 모델인 ‘text-embedding-3-small’ 알고리즘을 활용하였다. GPT 모델은 현재 상용화된 언어모델 중 가장 강력한 성능을 보이고 있을 뿐 아니라, 방대한 대규모 데이터를 사전학습함으로써 다양한 언어와 주제, 영역에서 우수한 적응성을 보여주고 있으므로 SNS 게시물 텍스트의 의미와 감정을 파악하는 데 적절하다고 판단하였다.

4. 머신러닝 모형 개발 및 성능평가

연구자에 의해 라벨링된 SNS 게시물을 자연어 처리한 후, 비자살적 자해 위험군을 식별하고자 지도학습 방식(supervised learning)으로 머신러닝 모형을 개발하고 성능을 평가하였다. 지도학습 머신러닝 분석과정을 도식화하면 다음 Figure 2와 같다. 먼저, 머신러닝 분석을 위해 전체 데이터를 훈련용 자료(train data)와 검증용 자료(test data)의 8:2 비율로 분리한 후, SMOTE(Synthetic Minority Over-sampling Technique) 방식을 적용하여 불균형한 데이터를 보정하였다. 이후, Python 프로그램의 pytorch 라이브러리를 활용하여 Neural Network 알고리즘으로 데이터를 모델링하여 분석하였다. Neural Network는 딥러닝에 해당하는 신경망 알고리즘으로, 고차원으로 임베딩된 텍스트 데이터를 처리하는 데 적합하며, 복잡한 문맥적 정보를 처리하고 이해하는 데 우수한 성능을 보이는 것으로 보고되고 있다(LeCun, Bengio, & Hinton, 2015). 본 연구에서는 개발한 모형이 다양한 데이터에서 잘 작동하는지를 확인하기 위해 5겹 교차검증(5-fold validation) 방법을 사용하였다. 이 방법은 데이터를 5개의 부분으로 나누고, 이 중 4개는 모형의 학습에 사용하고 1개는 검증에 사용하는 과정을 5번 반복하는 것이다. 이를 통해 모형의 알고리즘이 가장 잘 작동 하는 최적의 설정값(parameter)를 산출하였다. 또한, 모형의 성능을 평가하기 위하여 모형이 얼마나 많은 데이터를 정확하게 예측했는지를 보여주는 혼동 행렬(confusion matrix)과 정확도(모형이 식별한 것 중 실제로 맞는 비율), 정밀도(모형이 식별한 것 중 실제로 맞는 비율), 재현율(실제 정답 중 모형이 맞춘 비율), F1 점수(정밀도와 재현율의 조화 평균), AUC 지수(모형이 얼마나 잘 예측하는지를 평가하는 지표) 등 여러 지표를 종합적으로 활용하였다.

5. 워드클라우드 시각화

검증이 완료된 데이터를 통해 온라인 상의 비자살적 자해 위험군과 비위험군의 특성을 쉽게 이해할 수 있도록 워드클라우드 (word cloud)를 통해 집단의 차이를 시각화하였다. 워드클라우드는 텍스트마이닝 방법 중 하나로, 텍스트 데이터 내의 패턴과 경향을 빠르게 파악할 수 있도록 하는 시각화 도구이다. 워드클라우드에 등장하는 단어의 크기는 빈도수를 반영하여 결정되므로, 더 자주 등장하는 단어일수록 더 크게 표시된다. 본 연구에서는 Python 프로그램의 wordcloud 라이브러리를 활용하여 특정 단어가 전체 문서에서 얼마나 자주 등장하는지를 기준으로 워드클라우드를 작성하였다. 이때, 위험 게시물과 비위험 게시물에서 공통적으로 나타난 단어를 교집합으로 표시하고, 나머지 여집합에 각각의 집단에서 나타나는 단어들을 배치하는 시각화 방법을 통해(조창규, 2021) 분류 결과에 대한 이해를 도모하고자 하였다.

6. 토픽모델링을 통한 주제 도출

식별 절차를 통해 분류된 위험 게시물과 비위험 게시물에 대한 이해를 돕고자 추가적으로 토픽모델링을 통한 주제 도출을 수행하였다. 토픽모델링은 대량의 텍스트 데이터로부터 주제를 추출해내는 데 사용되는 기법으로, 본 연구에서는 SNS 게시물의 텍스트 길이가 짧음을 고려하여 짧은 글에 적합한 Biterm Topic Model(BTM) 분석을 활용하였다. 이 방법은 텍스트 내에서 자주 함께 등장하는 단어 쌍을 식별하고 이를 통해 유의미한 주제를 도출한다(Vidal, Ares, & Jaeger, 2022; Zhang, Gao, & Jia, 2023). Python의 bitermplus 라이브러리를 사용하여 식별된 위험 게시물과 비위험 게시물 각각에 대해 주제를 추출하였다.

연구결과

1.데이터 라벨링과 교차검증 결과

X 플랫폼에서 1년 간 ‘자해’ 키워드로 검색하고 데이터 전처리 절차를 통해 분석대상 게시물로 분류된 18,758건의 게시물을 라벨링한 결과, 비자살적 자해 위험게시물은 6,613건(35.25%), 비위험게시물은 12,147건(64.76%)으로 나타났다. 본 연구의 목적은 비자살적 자해 위험군을 식별하는 것이었으므로 자해 위험 게시물을 1건이라도 포함한 경우를 위험군으로 분류하고자 하였다. 위험군 사용자가 올린 게시물 수는 1∼224개 범위로 나타났다. 위와 같은 기준으로 살펴보았을 때, 연구에 포함된 10,524명 중 비자살적 자해 위험군은 1,733명(16.47%), 비위험군은 8,791명(83.53%)으로 나타났다. 한편, 1인당 평균 게시물 수는 위험군의 경우 3.82건, 비위험군의 경우는 1.38건으로 나타나, 실제로 위험군이 자해라는 단어가 포함된 게시물을 비위험군에 비해 훨씬 많이 업로드하였음을 알 수 있었다.
연구자의 라벨링 이후 동료 연구자 2인과의 교차검증 과정에서 다음에 해당하는 게시물은 자해 위험게시물이 아닌 것으로 분류하였다: (a) 자해 해시태그를 포함하지만 자해사고나 행동에 대한 언급이 없고 가출에 대한 이야기가 주를 이루는 경우, (b) 자해와 자살을 모두 언급하였지만 자해보다는 자살이 낫다는 비교의 의미가 담겨 자살의도가 분명하게 관찰되는 경우, (c) 타인을 겁주거나 위협하려는 의도로 타인이 자신의 뜻대로 하지 않으면 자해를 할 것임을 과장하여 언급한 경우. 이 중 (b)를 제외한 이유를 상술하면 다음과 같다. 본 연구는 비자살적 자해를 식별하는 데 초점을 맞추었으며, 자살 의도가 명확히 드러나는 경우(NSSI와 구분되는 경우)는 연구 범위에서 제외하였기 때문이다. 이는 서론에서 밝혔듯 자살과 비자살적 자해가 심리적 동기, 행동적 목적 및 임상적 개입 측면에서 구분되는 별개의 개념임을 기반으로 한다.
연구자의 라벨링과 교차검증 결과, 최종적으로 이루어진 비자살적 자해 위험 게시물(1)과 비위험 게시물(0)에 대한 데이터 라벨링 결과는 각각 다음 Table 2Table 3와 같다. 먼저 자해 위험 게시물은 직접 게시물에 자해 해시태그(예: #자해, #자해계, #자해전시, #자해트친소, #쫄보자해 등)를 포함하였거나 #살면서_겪은일_본사람_다하기1라는 해시태그 게시물에서 자해 행동에 ‘경험있음’으로 보고한 경우가 해당하였고 자해방법이나 도구, 신체부위, 상처 등을 통해 자해행동을 묘사한 경우가 포함되었다. 구체적으로 자해 부위와 관련하여 대체로 칼로 긋는 컷팅자해(cutting)는 손목에 한다고 알려져있으나, 게시물들을 보면 상당히 다양한 부위에 자해를 행하고 있음을 알 수 있었다. 특히, 허벅지는 자해를 쉽게 들키지 않기 위해서 자주 사용되는 부위로 보이며, 자해가 심각해질수록 손목에서 시작하여 팔 → 허벅지 → 다리, 배, 어깨 등 기타 부위 순으로 부위가 확장되는 것으로 파악되었다. 또한 자해 방법과 관련하여서는 대다수 게시물들이 다양한 뾰족한 도구(커터칼, 눈썹칼, 면도날, 가위, 바늘, 샤프, 자 등)를 이용하여 살갗을 긁어내거나 피부를 긋는 컷팅자해에 해당하나, SNS 상에서는 약물자해와 사혈자해가 늘고 있는 것으로 관찰되었다. 약물자해(drug self-harm)는 두통약, 수면제 등을 생명에 위협이 없을 만큼 과다복용하는 방법을 의미하며, 사혈자해(bloodletting self-harm)는 직접 자신의 신체에 주사기를 주입하여 피를 뽑아내는 방법을 일컫는다. 이러한 두 가지 방법은 DSM-5의 진단이나 자해 척도 상에서 명시적으로 언급되지는 않고 있으나, 현실에서는 흉터가 안 남는 자해의 방편으로 선호되고 있는 것으로 보인다. 추가로, 자해로 인한 병원이나 상담기관 방문 경험을 공유하거나 주변인들에게 자해행동이 알려졌음을 언급하는 경우, 그리고 자해하고싶다는 자해사고를 표명한 경우가 자해 위험게시물로 라벨링되었다.
한편, 자해 비위험 게시물은 자해에 대한 반대나 거부의사를 정확하게 밝히는 경우와 각종 드라마, 영화, 웹소설, 아이돌 등 덕질과 관련하여 또는 SNS 상에서 유행하는 밈의 표현으로 자해라는 단어가 쓰인 경우에 해당하였다. 또한, 자해 키워드와 함께 쓰인 단식, 밤샘, 폭음, 무분별한 성관계 등 다양한 자학성 행위가 비위험 게시물로 분류되었으며, 그 밖에 자해와 관련한 언론보도나 다른 단어의 일부로 자해가 포함된 경우(예: 자해공갈, 소문이 자자해)도 비위험 게시물에 포함되었다. 앞서 언급하였던 #살면서_겪은일_본사람_다하기 해시태그 게시물에서 자해 항목에 직접 ‘경험없음’으로 응답한 경우도 비위험게시물로 라벨링되었다.

2. 머신러닝 모형 개발 및 성능평가

온라인 상의 비자살적 자해 위험군을 식별하기 위해 Open AI의 임베딩 알고리즘인 ‘text-embedding-3-small’을 사용하여 수집된 게시물의 텍스트를 임베딩하여 자연어 처리하였다. 임베딩 수행 결과, 데이터의 크기는 18,758 x 1,536으로 나타났다. 즉, 18,758건의 텍스트 데이터가 1,536개 차원으로 나뉘어 정량화되었다. 이는 각각의 텍스트 데이터는 1,536개 차원 안에서 구체적인 위치를 가지게 되었고 이를 통해 텍스트 간 관계를 수치적으로 측정할 수 있게 되었음을 의미한다.
변환된 데이터에 라벨링 결과를 학습시켜 머신러닝의 지도 학습 알고리즘으로 분석하고자 전체 데이터를 8:2의 비율로 훈련용 자료(traning data)와 검증용 자료(test data)로 분할하였다. 본 연구의 데이터는 비자살적 자해 위험게시물과 비위험게시물의 비율에 차이가 있는 불균형 데이터임을 감안하여 SMOTE(Synthetic Minority Over-sampling Technique) 방법을 적용하였다. 이 방법은 머신러닝에서 불균형 데이터로 인한 문제를 해결하는 대표적인 방법 중 하나로, 적은 수의 위험게시물 데이터 기반으로 비슷하지만 새로운 가상의 데이터를 만들어내어 위험게시물과 비위험게시물의 수가 1:1의 비율이 되도록 한다. 이를 통해 머신러닝 모형이 과적합(overfitting)을 방지하고 예측 성능을 향상시킬 수 있다(Basha et al., 2022; Wang et al., 2021). 과적합이란 모델이 훈련용 자료에 지나치게 최적화되어 새로운 데이터에 대한 예측 성능이 저하되는 현상을 의미한다. 본 연구에서는 Python의 pytorch 라이브러리를 활용하여, 고차원의 데이터를 모델링하는 데 적합한 딥러닝 알고리즘인 Neural Network 알고리즘을 적용하였다. 이 과정에서 머신러닝 모형이 데이터 전반에 일반화될 수 있는지를 평가하고자 5겹 교차검증 방법을 사용하였다. 분석결과, 본 연구 데이터의 혼동행렬은 다음 Table 4와 같이 도출되었다.
도출된 혼동행렬에 기초하여 모형의 성능을 종합적으로 평가해본 결과, 다음 Table 5에 제시된 바와 같이 식별의 정확도(accuracy)는 84.74%, 정밀도(precision)는 80.42%, 민감도(recall)은 70.44%, F1 점수는 75.10%, AUC 지수는 80.64%로 나타났다. 일반적으로, 이러한 머신러닝의 성능평가 지표들은 70% 이상일 경우 머신러닝 모형의 분류가 양호한 수준, 80% 이상일 경우 우수한 수준의 성능으로 간주한다(Greiner, Pfeiffer, & Smith, 2000). 따라서, 본 연구의 분석결과는 지도학습 머신러닝 알고리즘을 통해 SNS 상의 비자살적 자해 위험군을 우수하게 식별해낼 수 있음을 보여준다.
구체적으로, 정확도는 가장 직관적인 성능 측정치로 모형이 얼마나 많은 데이터를 정확하게 분류해냈는지를 확인할 수 있다. 본 연구에서 정확도는 a+da+b+c+d의 수식을 통해 84.74%로 산출됨으로써 모델이 전체 사례의 약 84%를 정확하게 예측했음을 알 수 있었다. 정밀도는 모형이 ‘양성’(여기서는 위험군을 의미)이라고 예측했을 때, 그 예측이 얼마나 정확한지를 보여주는지 표로서, db+d의 수식으로 계산된다. 본 연구에서는 모형이 위험군으로 예측한 경우 중 80%가 실제로 위험군에 해당하였다. 이와 반대로, 민감도는 모형이 실제 양성 사례를 얼마나 잘 재현해 내는지를 보여주는데, dc+d의 수식으로 산출된다. 본 연구의 경우 실제 위험군 중 70%가 모형에 의해 위험군으로 정확히 식별되었다. 이와 같은 정밀도와 재현율을 동시에 고려하여 F1 점수를 산출하는데, 이는 두 지표의 조화 평균을 의미한다. 높은 F1 점수는 모형이 균형잡힌 성능을 보이고 있음을 나타내며, 본 연구에서 약 75%로 나온 F1 점수는 정밀도와 재현율이 양호한 균형을 이루고 있음을 보여준다. 이상의 지표들을 시각화하여 제시하는 방법으로, AUC 지수(Area Under the Curve)는 Figure 3와 같이 ROC 곡선(Receiver Operating Characteristic curve) 아래 영역을 나타내며 모형이 위험군과 비위험군을 구분하는 능력을 평가한다. AUC 지수는 100에 가까울수록 모형의 성능이 우수함을 의미하는데, 본 연구의 값은 80.64%이므로 모형이 위험군과 비위험군을 식별하는 데 상당히 뛰어난 능력을 보이고 있음을 의미한다.

3. 워드클라우드 시각화

머신러닝 분석을 통해 식별된 온라인 상의 비자살적 자해 위험군과 비위험군의 차이를 살펴보기 위해서 워드클라우드를 통한 시각화를 실시하였다. 전체 문서에서 해당 단어가 차지하는 빈도를 비율로 산출하여, 비율이 높을수록 워드클라우드 내의 단어 크기가 크게 표시되도록 하였다. 그 결과는 Figure 4에 제시하였다. 본 연구에서 위험 게시물과 비위험 게시물이 ‘자해’ 키워드를 공유하고 있음이 시각적으로 반영되도록 벤다이어그램의 교집합과여 집합의 형태로 표현하였다. 워드클라우드 그림에서 중간의 교집합 영역에는 위험게시물과 비위험 게시물에서 공통적으로 나타나고 있는 단어들이 표시되었고, 여집합 왼쪽 영역에는 비위험 게시물의 경우, 여집합 오른쪽 영역에는 위험 게시물의 경우에 주로 나타난 단어들이 도출되었다.
워드클라우드에 제시된 단어들 중 상위 10개의 빈도 비율을 살펴보면 다음 Table 6에 제시된 바와 같다. 위험 게시물의 경우에는 ‘흉터, 상처’와 같은 자해행동의 결과와 직접적으로 연관되는 단어가 포함되었고 ‘존나, 시발, 씨발’과 같은 강한 감정을 표출하는 단어들도 다수 포함되어 자해행동의 발생에 강한 부정적 정서 경험이 동반됨을 반영하였다. 또한 ‘엄마, 학교’와 같은 단어가 포함되어있어 자해행동을 촉발하는 스트레스원에 가족과 학업적 요소가 있음을 시사하였다. 그 밖에 ‘담배’ 단어가 포함되어 스트레스 해소 방법으로 흡연을 사용하는 경우가 많다는 것을 보여주었고, ‘자살’ 단어가 상위 노출단어로 나타나 비자살적 자해행동에 자살사고가 동반되는 경우가 많음도 확인할 수 있었다. 한편, 비위험 게시물의 경우에는 ‘사진’에 대한 언급이 높아, SNS 상에서 자해사진 게시에 대한 찬반 논의가 활발함을 보여주었다. 실제로 특정 날짜의 실시간 인기 트윗(‘실트’)에 자해사진이 올라온 것에 대해 많은 사람들이 놀라움과 우려를 표하며, 자해사진을 올리는 것은 개인의 자유이나 타인에 대한 예의 차원에서 계정의 프로필에 자해사진의 존재 유무를 미리 밝히는 것이 필요함이 공론화되는 것을 관찰할 수 있었다. 또한, ‘사랑은 자해다’라는 표현이 일종의 밈으로써 유행함에 따라 ‘사랑’이라는 단어가 상위에 포함되었고, 덕질의 영역에서 너무 좋다는 과장의 의미로 자해‘영상’이라는 단어가 빈번하게 쓰이는 것으로 나타났다. 그 밖에 자해‘공갈’이나 자해성 ‘행위’에 대한 논의도 SNS에서 활발함을 확인할 수 있었다.

4. 토픽모델링을 통한 주제 도출

식별된 온라인 상의 비자살적 자해 위험 게시물과 비위험 게시물의 주요 관심사와 특징을 명확히 구분하고, 이를 통해 각 게시물의 성격을 더욱 깊이있게 이해하기 위한 토픽모델링 분석결과는 다음과 같다. 먼저, Table 7에 제시된 바와 같이 위험 게시물의 경우에는 자해행동 묘사, 정신건강 어려움 호소, 자해 이후 고통 호소, SNS 계정 활동 소개, 부모 자해노출 토로, 자해경험 자가보고의 6가지 주제로 정리되었다. 손목, 허벅지, 커터칼 등 직접적인 자해행동을 보여주는 게시물이 약 67%로 가장 많은 비중을 차지하였고 우울증, 정신병, 자살 등의 단어를 통해 정신건강 상의 어려움을 호소하는 게시물이 약 12%로 나타났다. 또한 흉터나 밴드, 응급실 등 자해행위 이후의 고통과 후유증에 대한 게시물이 약 10%로 나타나 자해의 위험성을 보여주었다. 기타 게시물로는 부모에게 자해를 들킨 것과 관련한 게시물들, 그리고 자신의 SNS 계정 운영과 활동을 소개한 게시물과 #살면서_겪은일_본 사람_다하기라는 해시태그의 ‘자해’ 항목에 ‘경험있음’으로 표시한 경우로 나타났다.
반면, 비위험 게시물의 경우에는 Table 8에 보고된 바와 같이 7가지 주제가 도출되었는데 과반수 이상이 다양한 덕질과 관련한 긍정적인 언급에 자해라는 단어를 사용한 게시물이었으며, 약 24% 정도는 자해와 관련된 뉴스기사를 공유하는 게시물이었다. 또한 자해사진을 공유하는 것에 반대를 표하거나 자해 자체에 대한 거부적 입장을 밝히는 게시물이 약 12% 정도를 차지하였고 그 밖의 게시물로는 덕질 관련이지만 부정적인 언급에 해당하는 경우, 자학성 행위를 언급하는 경우, #살면서_겪은일_본사람_다하기라는 해시태그에 ‘자해’ 경험없음으로 보고한 경우가 포함되었다.

논의 및 결론

본 연구는 비자살적 자해 위험군의 조기 탐지 및 효과적인 개입방안 모색을 위한 일환으로서 SNS 상에서 비자살적 자해 위험군을 식별하고자 하였다. 이를 위해 SNS 플랫폼 중 X에서 게시물 텍스트를 수집하고, 머신러닝과 텍스트마이닝 분석을 활용하여 결과를 도출하였다. 이에 대한 주요 결과를 요약하고 논의하면 다음과 같다.
먼저 SNS 게시물 텍스트를 통해 비자살적 자해 위험군을 식별하기 위해 X에서 자해 관련 게시물을 수집하였고 그 결과, 전체의 17%가 위험군으로 분류되었다. 본 연구를 통해 머신러닝의 지도학습 알고리즘을 활용하여 SNS 상의 비자살적 자해 위험군을 우수하게 식별할 수 있음이 검증되었다. 본 연구에서는 텍스트 기반의 SNS 플랫폼에 중점을 두고 X에서 데이터를 수집하였는데, 트위터는 X로 바뀐 이후에도 여전히 정신건강 상의 어려움을 가진 사람들에게 자유로운 교류창구이자 놀이터로 기능하는 것으로 관찰되었다(예: 우울계, 자해계, 정병계, 프아계2 등). 특히, 자해사고가 있는 사람들은 X를 통해 자해에 대한 구체적인 정보를 얻고 자 하는 경향이 있어서 X는 대표적인 자해 입문처가 되고 있었다. 구체적으로 자해도구 구입 및 보관법, 자해 감추는 법, 자해흉터 처리하는 법, 자해를 들켰을 때의 대처방법 등 실제적인 자해 경험담이 공유되었다. 이를 통해 비자살적 자해 위험군 식별을 위한 온라인 공간으로 X를 선택한 것이 타당하였음을 확인하였다. 전반적으로 X에서는 자해의 언급 자체에 대해서는 호의적인 태도를 취하나, 쿠션없는 자해전시(사전알림이나 경고 없이 자해사진을 올리는 것)에 대해서는 반감을 표하는 경우가 많았다.
X 게시물을 통해 본 연구에서 SNS 텍스트만으로도 비자살적 자해 위험군과 비위험군을 약 85% 정도 수준으로 정확하게 식별해낸 결과는 온라인 상에서 자해 위험군을 찾고자 할 때, 우선 게시물의 내용만으로 위험군을 빠르게 선별해내는 것이 효과적임을 시사한다. 이러한 결과는 일반적인 통계적인 기계학습이 대략 75∼80%의 정확도를 보고한 선행연구와 비교하였을 때 우수한 수준임을 알 수 있으며(Collingwood & Wilkerson, 2012), 특히 본 연구의 데이터가 SNS 게시물의 단문임을 고려하면 훨씬 괄목할만한 성과로 볼 수 있다. 이는 선행연구(Howard et al., 2019)와 연장선 상에서 SNS 사용자 계정의 프로필 정보나 메타데이터 없이도 텍스트를 기준으로 정신건강 상 위험군의 식별이 가능함을 보여주었다. 게시물의 텍스트는 복잡한 수집 절차 없이 검색어의 입력만으로 손쉽게 수집할 수 있으므로, 시간과 비용 면에서 매우 효율적인 방식이라 할 수 있다. 특히, 정신건강과 관련하여 조기개입의 목적으로 온라인 상에서 위험군을 선별하고 예방적 조치를 취하기 위해서는 최대한 많은 대상을 포괄하여 잠재적인 위험을 최소화하는 것이 중요하다고 알려져있다(Chancellor & de Choudgury, 2000; Yazdaver et al., 2020). 따라서, 식별 자체의 높은 정확도를 추구하기보다는 위험군에 속할 가능성이 있는 개인을 누락시키지 않기 위한 방법으로 SNS 게시물 내용을 위험군 식별의 주된 기준으로 삼는 것이 적절하다 할 수 있다.
이때, 동일한 맥락으로 위험군 식별을 위해 게시물을 수집할 때 해시태그 검색보다는 키워드 검색방식이 적절할 것으로 사료된다. 자해와 관련한 해시태그로 게시물을 수집한 기존의 연구들(Lee & Kwon, 2023; Park & Yu, 2021)과 달리, 본 연구에서는 자해 키워드로 게시물을 폭넓게 수집하는 방식을 택하였다. 그 결과, 자해 해시태그를 포함하지 않은 다수의 게시물을 위험군 식별과정에 포함함으로써 훨씬 많은 위험군을 조기개입의 대상으로 선별할 수 있게 되었다. 이는 위에서 언급한대로 조기선별의 맥락에서는 정확한 소수의 위험군을 추려내는 것보다 다소 불확실할지라도 의심되는 다수의 위험군을 분류해내는 것이 더 중요하므로 효과적인 방식이었던 것으로 판단된다. 이를 통해 초기 단계에서 위험군에게 예방적 교육이나 치료개입을 실시하게 되면 장기적으로 치료에 소요되는 시간과 비용을 절약할 수 있다는 이점이 있다. 한편, 자해는 자살 위험이나 우울을 감지하는 것보다 까다로운 것으로 알려져있다. 자살이나 우울은 ‘죽고싶다’, ‘삶이 힘들다’ 등 직접적인 언급이 많은 데 비해, 자해는 보다 은밀하고 우회적으로 표현되는 경향이 있기 때문이다(Alhassan et al., 2021; Lavis & Winter, 2020). 실제로 SNS 상의 자해 식별과 관련한 선행연구들에서는 자해로 특정된 게시물(self-harm user text)과 자해와 전혀 관련없는 일반 게시물(random user text)을 분류한 결과 모델의 성능이 0.6~0.7 수준으로 나타난 바 있다(Bucur, Cosma, & Dinu, 2021; Martinez-Castano, Htait, Azzopardi, & Moshfeghi, 2020). 이와 비교하였을 때 본 연구는 무작위 게시물 중에서 자해 게시물을 식별해내는 것이 아니라, ‘자해’ 키워드를 포함하는 게시물 중 자해 위험과 비위험을 분류하는 것이므로 훨씬 어려운 문제에 해당한다. 그럼에도 선행연구에 비해 높은 성능을 도출한 본 연구의 결과는 SNS 상에서 복잡미묘한 정신건강 문제를 정교하게 식별해내는 데 키워드 방식의 자료 수집과 트랜스포머 기반의 텍스트 임베딩, 지도학습 머신러닝 알고리즘 적용의 조합이 충분히 효과적일 수 있음을 증명하였다.
이와 같이 SNS 게시물을 통해 정신건강 상의 위험여부를 판단하는 데 핵심이 되는 것은 근거기반의 정확한 라벨링이다. 이를 위해 본 연구에서는 연구자 외 박사과정 이상의 연구자 2명이 추가로 교차검증을 수행함으로써 라벨링의 타당도를 확보하고자 노력하였다. 교차검증 과정에서 연구자들은 자해에 대한 전문적 지식과 직관적 이해를 바탕으로 기계가 판단하기 어려운 자해 게시물에 담긴 미묘한 뉘앙스와 맥락을 포착해낼 수 있었다. 이를 통해 본 연구에서는 SNS 상의 비자살적 자해 위험군 식별에 있어 인간 전문가의 참여가 중요한 역할을 한다는 점을 확인하였다. 최신의 머신러닝 기법은 방대한 데이터를 분류하고 예측하는 데 탁월한 성능을 보이지만, 인간의 언어가 가지는 복잡성을 모두 반영해내기는 어려우므로 인간 전문가의 전문성은 이러한 기계학습의 한계를 보완해줄 수 있다. 실제로 텍스트에 기반하여 자살위험 탐지를 하고자 하였던 선행연구들에서는 인공지능 시스템이 높은 정확도를 보였으나, 인간 전문가의 검토가 추가되었을 때 예측의 정밀도가 더욱 향상된 것으로 나타났다(Bernet et al., 2020; Ophir, Asterhan, & Schwarz, 2020). 따라서 추후 연구에서도 데이터 라벨링 과정에서 연구자의 교차검증을 통한 기계와 인간의 협업은 필수적으로 포함되어야 할 것으로 제언할 수 있다.
본 연구의 라벨링 과정에서 새롭게 발견된 점을 서술하면 다음과 같다. SNS에서 자해라는 단어는 아이돌, 애니, 웹소설 등 덕질의 영역에서도 활발하게 쓰이며 다양한 자학성 행위에도 광범위하게 사용되고 있었다. 또한 주로 자해와 함께 시점이 언급된 경우(예: 자해시작, 자해중, 내일 자해할 것임), ‘00은 자해다’라는 표현, 그리고 자해에 수식어가 있는 경우(예: 크게, 거하게, ㅎㅎ, ㅋㅋ)에는 실제 자해의 의미가 아닐 가능성이 높았다. 따라서 SNS를 통해 비자살적 자해 위험군을 식별하고자할 때에는 이러한 용어의 혼용에 대해 인식하고 정확히 걸러낼 필요가 있다.
자해행동은 개인적 위해를 가할 뿐만 아니라 심할 경우 자살에 이르러 국가적 부담으로 연결될 수 있는 행위임에도 자해라는 용어가 일상에서 가볍게 사용되는 것은 자해에 대한 사회적 인식이 미비하기 때문일 수 있다. 무분별한 용어 사용은 자해의 심각성을 과소평가하게 만들거나 사회구성원들이 자해의 위험에 둔감하게 만들 수 있으므로 신중하게 사용되어야 한다. 예를 들어, 마약이란 단어는 ‘마약옥수수’, ‘마약토스트’ 등과 같이 특정 음식이 중독성있게 맛있다는 것을 표현하고자 사용되어왔지만, 최근 마약으로 인한 사회적 문제가 부각되면서 이러한 용어의 사용을 지양하는 목소리가 높아지고 있다. 또한 ‘커피 성애자’나 ‘운동 성애자’ 같은 표현이 흔히 사용되고 있는데, 이는 성애자라는 용어가 가지고 있는 병적 집착의 의미를 희석시킬 수 있기 때문에 이에 대한 사회적 경각심이 촉구되는 추세이다. 이와 같이 자해에 대해서도 용어 오남용에 대해 주의하게 된다면 실제로 자해행동을 하는 사람들에 대한 식별과 개입이 보다 효율적으로 이루어질 수 있을 것이다. 실질적으로 SNS 플랫폼 운영자는 자해 용어 사용에 대한 가이드라인을 제작하여 사용자들에게 배포할 수 있으며, 교육기관이나 정신건강 전문가들은 올바른 자해 용어 사용에 대한 교육 캠페인을 전개하는 방안을 구상해볼 수 있다.
반면, 자해 위험군의 게시물인 경우에는 구체적인 자해도구나 장면 언급(예: 칼, 피, 흉터, 상처, 소독, 그었다, 벅벅 등)이 많고, 자해와 직접적인 해시태그를 첨부하며(#자해, #자해전시, #자해계, #쫄보자해 등) 자해에 대한 강한 욕구 표현이나(예: 자해 마렵다, 자해 말린다) 자해를 들켰다는 표현이 쓰이는 것을 확인할 수 있었다. 추후 온라인 상의 자해 게시물에 대해 식별하고자 할 때에는 위와 같은 차이를 참고하여 라벨링을 수행한다면 훨씬 빠르고 정확하게 수행할 수 있을 것이다. 한편, 국외에는 우울이나 자살 위험과 관련하여 다수의 전문가에 의해 검증된 연구용 데이터 라벨링 세트가 다수 존재하였다(예: myPersonality, CLPsych, eRisk 등)(Safa et al., 2023). 국내에도 이와 같은 연구용 데이터를 구축할 수 있다면 온라인에서 자해를 비롯한 정신건강 상의 위험의 효과적인 식별 방법에 대해 보다 활발한 연구를 할 수 있을 것이다.
본 연구가 가지는 학문적, 실천적, 정책적 의의를 서술하면 다음과 같다. 먼저, 본 연구에서 데이터 라벨링과 지도학습 머신러닝을 통해 온라인 상의 비자살적 자해 위험군을 식별해낼 수 있는 가능성을 확인했다는 사실은 학술적으로 위험군의 조기 선별(early screening) 차원에서 중요한 의미를 갖는다. 선행연구에서 청소년 집단의 비자살적 자해의 발생률이 대략 10〜23%로 보고되었음을 고려해볼 때(Ahn & Song, 2017; Swannell et al., 2014), 본 연구에서 위험군이 17%로 나타난 것은 비자살적 자해 청소년의 대부분이 SNS를 자해 관련 소통의 장으로 활용하고 있음을 보여준다. SNS의 특성상 사용자의 인구사회학적 특성을 정확하게 파악하기는 어려우나, 실제로 본 연구에서 도출된 위험군 중 만 12∼17세인 경우가 59%를 차지하였고, 여성의 비율은 약 88%로 나타나, 위험군 대다수가 여성 청소년일 가능성을 시사하였다. 따라서, SNS 게시물을 통해 자해 위험군을 식별하고자 하는 본 연구의 시도는 유의미하였다고 볼 수 있다. 자해행동은 주변에 드러내지 않고 자기은폐되는 경향이 강하므로 이미 심각도가 높아진 경우에야 치료기관을 찾거나 도움을 구하는 경우가 많다는 문제가 있다. 실제로 자기은폐 수준이 높은 사람들은 자살 위험이 높게 나타나는 경향이 보고되었다(Friedlander, Nazem, Fiske, Nadorff., & Smith, 2012). 따라서, 현실에서는 자해 사실을 최대한 숨기면서 온라인 상에서 자해사고를 보이거나 경미한 자해행동을 보이는 사람들을 SNS를 통해 조기에 식별하고 지원한다면, 자해 및 자살의 위험을 낮출 수 있을 것이다.
이를 위해, 현재 X와 같은 SNS 플랫폼에서는 자체적으로 자해 콘텐츠에 대해서 자동화된 모니터링을 통해 게시물을 삭제하거나 계정을 정지시키는 등의 조치를 취하고 있으나, 이는 플랫폼 내 자해를 조장하는 콘텐츠 확산을 방지하기 위함으로 실제 자해 위험군을 위한 조치는 아니기 때문에 실효성이 낮은 실정이다. 최근 ChatGPT를 개발한 Open AI에서는 플랫폼 보호를 위해 유해 콘텐츠를 세분화하여 각 범주별로 특화된 식별 도구를 만들어 제공하고 있다. 그 중 Self-harm API는 자해와 관련한 콘텐츠 탐지를 목적으로 제작된 것으로, 텍스트 자료에 해당 API를 적용하면 자해 콘텐츠 여부를 확인할 수 있고 구체적으로 실제 자해행동을 시사하는 콘텐츠인지(self-harm/intent API) 또는 자해에 대한 지침이나 조언을 제공하는 콘텐츠인지(self-harm/instructions)를 판단하는 데 도움을 받을 수 있다고 알려져있다. 본 연구를 수행하면서 Open AI의 Self-harm API의 활용을 시도해보았으나, 영어 텍스트를 기반으로 만들어진 도구이기에 한국어 텍스트에 대해서는 정확도가 현저하게 낮게 나오는 것을 확인할 수 있었다. 또한 이 도구는 비자살적 자해를 구분하지 않고 일반적인 자해행동 전부를 포괄하고 있으며 SNS에 특화된 것이 아니라 광범위한 텍스트에 적용하도록 되어 있으므로, SNS 상의 비자살적 자해 위험군을 식별하고자 하는 본 연구의 목적을 달성하기에는 한계가 있었다. 따라서 한국어 SNS 환경에 효과적으로 적용할 수 있는 비자살적 자해 콘텐츠 식별 도구의 제작이 요청되며, 이는 자해 예방 및 개입 단계에서 활발하게 활용될 수 있을 것이다.
실제적으로, 자해 위험 게시물에 대한 실시간 모니터링과 필터링 시스템이 구축된다면 이를 바탕으로 식별된 위험군을 대상으로 하는 다양한 온라인 개입을 시도해볼 수 있다. 자해라는 이슈는 개인적 수치심뿐 아니라 타인의 비판적 시각과 관련되므로 오프라인 관계에서 드러내기 어려운 특성이 있으므로 익명에 기반한 온라인 개입이 훨씬 효과적일 수 있다. 먼저, 자해에 대한 이해를 증진하는 교육 컨텐츠를 제공할 수 있다. SNS 플랫폼 내에 자해 예방 및 인식개선을 위한 내용 또는 자해의 위험성을 알리고 위급 시 적절한 대응방안을 안내하는 내용의 컨텐츠를 노출되도록 함으로써 사용자의 자해행동 관리와 대처능력을 고양시킬 수 있을 것이다. 또한 SNS 플랫폼 내에서 익명으로 접근가능한 채팅 상담이나 핫라인 개설을 통해 자해 위험군의 심리적 또는 의료적 지원을 제공할 수 있을 것으로 기대된다. 자해행동은 심야 시간에 발생할 가능성이 높기에 자해로 인한 위급상황 시 즉각적인 지원을 제공하기 위해서는 24시간 온라인 지원 시스템이 필요할 수 있다. 나아가 SNS라는 익명의 공간이 주는 안전감을 활용하여 자해 위험군이 각자의 자해 경험을 나누고 집단으로 정서적 지지와 심리적 문제해결을 촉진하는 커뮤니티를 마련해볼 수도 있을 것이다.
한편, 상담 현장에서 자해 청소년에게 개입 시 부모교육을 병행하는 것은 큰 도움이 될 수 있다. 실제로 위험군의 게시물에서 ‘엄마’가 언급된 경우가 많았으므로, 부모님께 자녀와의 원활한 관계수립과 의사소통 방법을 안내할 필요가 있다. 특히, 자녀가 자해행동을 하는 것을 알게 되었을 때 혼내거나 비난하지 않고 왜 자해를 하는지 그 이면의 마음을 이해하려 노력해주는 것이 중요할 것으로 보여진다. 일부 부모들은 자녀의 자해행동을 부적절하게 관심을 끌고자 하는 ‘패션자해’로 치부하고 오히려 무시하려는 경향이 있음도 관찰되었는데, 그러한 접근은 자녀의 자해행동을 악화시킬 수 있음을 개입과정에서 부모에게 충분히 주지시킬 필요가 있다. 또한, 온라인 상의 자해 게시물을 많이 접하거나 그러한 계정을 팔로우하는 경우, 사회적 전염에 의해 자해행동이 촉발될 수 있으므로(Lavis & Winter, 2020) 혹시나 자녀가 그러한 자극 요소에 노출되어 있는지도 살피는 것이 도움이 될 수 있다.
나아가, 비자살적 청소년의 대부분에게 학교는 하루 중 상당한 시간을 보내는 곳으로 학교 장면에서의 예방과 개입 역시 중요할 수 있다. 교사들은 매일 학생들을 만나는 입장에 있으므로, 청소년의 행동을 모니터링하여 위험군의 조기식별과 개입을 늘리는 데 주요한 역할을 할 수 있다. 따라서, 청소년의 비자살적 자해 발생율이 높다는 것을 인지하고 자해 가능성을 의심할 만한 행동을 포착해내는 것이 필요하다. 온라인 상에서 자해 위험군은 학교 화장실에서 자해하는 경우를 빈번히 보고하였으므로, 어떤 학생이 수업시간에 자리를 오래 비우거나 여름임에도 불구하고 반팔을 입지 않는 경우 또는 필통에 커터칼을 다수 소지하고 있는 경우 등을 유심히 살펴볼 필요가 있다. 또한 자해행동으로 인해 교내 위클래스 상담을 하게 될 경우, 비밀보장에 대한 우려나 낙인에 대한 두려움 때문에 자해 위험군들은 학교 외부의 병원이나 상담센터의 지원을 받는 것을 선호하는 경향을 보였다. 따라서, 교사가 어떤 학생이 자해행동을 한다는 것을 알게 되었을 때 바로 위클래스 상담으로 연결하기보다는 학생과의 개별면담을 통해 어떤 방식의 도움이 그 학생에게 적절할 지에 대해 논의해보는 것이 필요할 것이다.
마지막으로, 정책적 측면에서 본 연구의 결과는 실제로 자해 위험군이 얼마나 되는지, 자해의 경향은 어떠한지를 파악하는 데 유용한 정보가 될 수 있다. 이는 보다 효과적인 개입의 고안으로 이어질 수 있을 뿐 아니라, SNS를 통해서 위험군의 증감이나 유형 변화 등을 모니터링하는 방법으로 활용될 수도 있을 것이다. 한편, SNS 게시물을 통해 살펴보았을 때 자해를 중단하는 데 기여하는 요인으로 과거 자해를 했으나 성공적으로 중단한 사람의 경험을 듣는 것임이 관찰되었으므로 SNS를 통한 자해 극복기 콘텐츠를 활성화하는 것이 도움이 될 수 있다. 또한, 자해로 인한 후유증이 생각보다 크다는 것을 알게 되는 것이 자해를 보류하거나 중지하게 되는 또 다른 요인임이 파악되었다. 따라서, 자해로 인해 응급실 방문 시 보험처리도 되지 않아 생각보다 많은 비용이 지출되는 현실과 또는 자해 흉터치료에는 수 년에 걸친 막대한 시간과 치료비용이 소요되는 사실 등 자해로 인한 감당해야 하는 실질적인 무게가 크다는 것을 적극적으로 알리는 것이 자해 예방 차원에서 유효할 수 있다.
본 연구의 제한점과 후속 연구를 위한 제언은 다음과 같다.
첫째, 본 연구는 온라인 상의 비자살적 자해 위험군을 빠르고 정확하게 식별하고 그들의 특성을 파악하기 위한 단면 연구로 시간적 선행 관계를 고려하지는 못하였다. 최근 SNS 게시물을 활용한 연구들은 시계열 분석을 통한 모니터링을 시도하고 있다. 특정 주제와 관련하여 종단적으로 접근하게 되면, SNS 게시물의 빈도나 주로 논의되는 내용의 추이를 살핌으로써 개입 대상을 빠르게 찾아내거나 정책적 측면에서 큰 방향성을 설정하는 데 도움을 줄 수 있다.
둘째, 본 연구에서 사용한 분석자료는 SNS 상에 공개된 자해 게시물이었다. SNS 빅데이터의 주요 특성 중 하나는 소통욕구가 높은 사람들이 산출한 자료라는 점이다. 따라서 적극적인 소통을 원하는 사람들로 연구대상이 국한되었을 가능성이 높다. 즉, SNS 상에 자해게시물을 비공개로 게시하는 위험대상의 특성은 반영되지 않았을 가능성이 있다. 이에 본 연구결과가 SNS 상의 전체 자해 위험군을 대표하지는 않을 수 있으므로 해석에 유의할 필요가 있다. 또한 비공개로 자해 게시물을 올리는 사람들을 음지에 두어서는 안 되며 SNS 관리자 차원에서는 개인정보가 식별되지 않는 선에서 비공개 위험군에 해당하는 대상에게도 지원하려는 노력을 기울여야 할 것이다. 이를 위한 구체적인 적용 방안을 추후 연구에서 탐색해볼 수 있을 것이다.
본 연구결과, 비자살적 자해가 가장 많이 공유되는 맥락이 SNS임을 확인하였고 SNS를 통해 비자살적 자해 위험군을 변별해내는 것이 조기에 효과적인 개입을 가능하도록 하는 출발점이 될 수 있음을 알 수 있었다. 또한 머신러닝과 텍스트마이닝 방법을 활용하여 정확성 뿐 아니라 시간과 비용 면에서 효율성이 높은 방식으로 비자살적 자해 위험군을 조기 선별할 수 있음을 검증하였다. 현실에서는 자해 사실을 최대한 숨기면서 온라인 상에서 자해사고를 보이거나 경미한 자해행동을 보이는 사람들을 SNS를 통해 조기에 식별하고 지원한다면 자해 및 자살의 위험을 낮출 수 있을 것으로 기대된다. 본 연구는 선행연구들과 달리, 분석대상을 개별 게시물(post) 단위에서 계정(user) 단위로 확장함으로써, 게시물 차원에서는 포착하기 어려웠던 자해 위험군에 대한 이해를 심화하고 실제적인 개입으로의 연결 가능성을 높였다는 의의가 있다.

Declaration of Conflicting Interests

The authors declare no conflict of interest with respect to the authorship or publication of this article.

Notes

Acknowledgments

This work was supported by the Ministry of Education of the Republic of Korea and the National Research Foundation of Korea (NRF-2023S1A5B5A17089964)

Notes

1) X에서 유행하는 해시태그 목록 중 하나로, 사용자가 그 동안 살면서 겪은 일에 대해서 O, X로 간단히 답하는 게시물임. ‘#살면서_겪은일_본사람_다하기 연애: 키스: 자퇴: 전학: 선도: 자해: 자살시도: 가출: 골절: 입원: 해외여행: 동아리: 술: 담배: 도박: 알바: 절교: 장학금: 상장: 외박: 흉터: 피어싱: ’의 형태로 구성됨. ‘본 사람 다하기’란 SNS에서 이걸 본 사람은 모두 답하라는 의미임.

Notes

2) SNS에서 ‘프아계’란 프로아나(Pro-Ana)를 선망하는 사람들의 커뮤니티를 의미함. 프로아나는 식욕부진증(거식증)을 의미하는 Pro-Anorexia의 약어로 지나치게 마른 체형을 지지하거나 미화하는 사람들 사이에서 사용됨.

Figure 1.
Data analysis procedure.
her-63-2-185f1.jpg
Figure 2.
Supervised machine learning analysis process.
her-63-2-185f2.jpg
Figure 3.
AUC-ROC curve.
her-63-2-185f3.jpg
Figure 4.
Word cloud visualization results.
her-63-2-185f4.jpg
Table 1.
Data Labeling Indicators for Risk Group Detection
범주 구분 기준
0 자해 비위험 게시물 실제 자해행동이나 자해사고를 시사하지 않는 게시물
1 자해 위험 게시물 비자살적 자해행동의 직접적인 언급과 이미지가 있거나, 명시적인 자해행동의 실행이 확인되지는 않지만 자해사고를 시사하는 게시물
Table 2.
Data Labeling Results for Non-Suicidal Self-Injury Risk Posts
구분 내용 예시
위험 게시물 (1) 직접적 해시태그 언급 자해 해시태그 포함 자기 경험으로 직접 보고 #자해, #자해계, #자해전시, #자해트친소, #쫄보자해 등 #살면서_겪은일_본사람_다하기 해시태그에서 자해 항목에 ‘있음’ 표기
명시적 자해행동묘사 자해방법 언급 그었다, 때렸다, 자해벅벅 등
자해상처 언급 자해흉터, 자해흔, 자해자국, 지방(층), 상처, 소독 등
자해도구 언급 커터칼, 눈썹칼, 면도날, 가위 등
자해 신체부위 언급 손목, 팔, 허벅지 등
병원 및 상담기관 경험 공유 자해행동으로 인한 병원 및 상담기관 방문 언급 응급실, 정신건강의학과, 폐쇄병동, 피부과, 상담센터, 위클래스 등
자해행동 노출 언급 주변인들에게 자해 행동이 알려짐을 언급 들켰다, 눈치챘다 등
자해사고 표명 자해행동에 대한 강한 의향 표현 자해하고싶다, 자해마렵다, 자해말린다, 자해참는다 등
Table 3.
Data Labeling Results for Non-Suicidal Self-Injury Non-Risk Posts
구분 내용 예시
비위험 게시물 (0) 자해 반대/거부 자해하는 사람 이해가 안 가거나 싫다는 표현 자해계 차단, 쿠션없는 자해 싫다, 왜 자해해요, 자해사진 징그럽다 등
자해하지 말라고 조언 자해하지 마세요, 자해금지 등
문화적 맥락에서 사용 ‘자해’ 단어와 함께 덕질과 관련한 언급 드라마, 영화, 웹소설, 아이돌 등
‘00은 자해다’라는 일종의 밈 사랑은 자해다, 덕질은 자해다, 스포츠는 자해다 등
패션 목적으로 타인에 의해 시행 타투나 피어싱
자학적 행동 표현 스스로를 힘들게 하는 광범위한 자학성 행위 언급 밥을 안 먹는 것, 술을 많이 먹는 것, 무분별한 성관계, 폭식 또는 자극적인 음식 을 먹는 것, 밤새는 것 등
언론 보도 자해 관련 뉴스 위기의 청년들..자해, 자살로 응급실 방문 50〜70% 급증, 자해하는 아이들의 1/3이 나중에 자살시도 등
직접 해시태그응답 직접 경험없음 응답 #살면서_겪은일_본사람_다하기의 자해 항목에 ‘없음’으로 표기
기타 꿈에서의 경험 언급 꿈에서 자해해서 피 봤다, 꿈에서 자해하고 들켰다 등
다른 단어의 일부에 ‘자해’가 포함 자해공갈, 사귀자해, 마트가자해, 소문이 자자해 등
Table 4.
Confusion Matrix
식별된 비위험 게시물(Predicted Non-Risk) 식별된 위험 게시물(Predicted Risk) 합계
실제 비위험 게시물(Actual Non-Risk) 2,222 (a) 224 (b) 2,446
실제 위험 게시물(Actual Risk) 386 (c) 920 (d) 1,306
합계 2,608 1,144 3,752
Table 5.
Model Performance Evaluation Results
평가지표 값 (%) 평가지표 값 (%)
정확도 84.74 정밀도 80.42
민감도 70.44 F1 점수 75.10
AUC 지수 80.64
Table 6.
Comparison of Top 10 Key Words and Frequency Ratios Presented in the Word Cloud Between Risk and Non-Risk Groups
비자살적 자해 비위험군 빈도 비율 (%) 공통 빈도 비율 (%) 비자살적 자해 위험군 빈도 비율 (%)
1 사진 0.14 자해 1 존나 0.07
2 사랑 0.10 사진 0.10 자살 0.07
3 사람 0.07 우울 0.07 그냥 0.06
4 실트 0.03 사람 0.06 시발 0.04
5 공갈 0.03 생각 0.05 흉터 0.04
6 여성 0.02 자살 0.05 엄마 0.03
7 건강 0.01 전시 0.05 상처 0.03
8 남자 0.01 정신 0.04 씨발 0.03
9 행위 0.01 친구 0.02 담배 0.03
10 영상 0.01 때문 0.02 학교 0.02
Table 7.
Topic Modeling Analysis Results for Risk Posts
주제 번호 주요단어 비율 주제명
1 허벅지, 손목, 흉터, 스트레스, 기분 58.31 자해행동 묘사
2 커터칼, 벅벅, 흉터, 혼자, 상처 8.92
3 자살, 스트레스, 정신병, 담배, 우울증 8.29 정신건강 어려움 호소
4 정병, 정신과, 혼자, 점점, 요즘 4.06
5 흉터, 밴드, 고통, 아픔, 팔 2.93 자해 이후 고통 호소
6 밴드, 응급실, 신경, 눈물, 제발 7.02
7 트위터, 계정, 금지, 전부, 얼굴 3.11 SNS 계정 활동 소개
8 비계, 트친, 쿠션, 발언, 수위 2.61
9 부모, 연락, 정병, 정신병원, 갑자기 2.48 부모 자해노출 토로
10 입원, 담배, 가출, 도박, 전학 2.26 자해경험 자가보고
Table 8.
Topic Modeling Analysis Results for Non-Risk Posts
주제 번호 주요단어 비율 주제명
1 멤버, 최애, 노래, 뮤비, 포카 54.88 덕질 관련 언급-긍정
2 라이브, 가요대전, 선물, 생일, 건강 2.81
3 사람, 사건, 단식, 중단, 트윗 4.04 자해 관련 뉴스기사 공유
4 자살, 스트레스, 요즘, 갑자기, 사실 18.36
5 학원, 사고, 버스, 거리, 배경 1.64
6 사진, 실트, 씨발, 제발, 트위터 9.35 자해사진 공유 반대
7 정병, 우울증, 병원, 일단, 친구 3.16 자해 거부적 입장 표명
8 소재, 무대, 사진, 스트레스, 무서움 2.71 덕질 관련 언급-부정
9 사람, 존나, 근황, 멘탈, 인생 2.38 자학성 행위 언급
10 입원, 담배, 가출, 도박, 전학 0.67 자해경험없음 자가보고

References

Aafjes-Van Doorn, K., Kamsteeg, C., Bate, J., & Aafjes, M. (2021). A scoping review of machine learning in psychotherapy research. Psychological Research, 31(1), 92-116. https://doi.org/10.1080/10503307.2020.1808729
crossref pmid
Ahn, Y. S., & Song, H. J. (2017). Non-suicidal self-injury in adolescents. Journal of Emotional & Behavioral Disorders, 33(4), 257-281. https://doi.org/10.33770/JEBD.33.4.13
crossref
American Psychiatric Association. (2013). Diagnostic and statistical manual of mental disorders (5th ed). American Psychiatric Association Publishing.

Basha, S., Madala, S., Vivek, K., Kumar, E., & Ammannamma, T. (2022). A review on imbalanced data classification techniques. Paper presented at the 2022 International Conference on Advanced Computing Technologies and Applications (ICACTA). 1-6. https://doi.org/10.1109/ICACTA54488.2022.9753392.
crossref
Bernet, R. A., Hilber, A. M., Melia, R., Kim, J. P., Shah, N. H., & Abnousi, F. (2020). Artificial intelligence and suicide prevention: A systematic review of machine learning investigations. International Journal of Environmental Research and Public Health, 17(16), 5929. https://doi.org/10.3390/ijerph17165929
crossref pmid pmc
Chancellor, S., & de Choudhury, M. (2020). Methods in predictive techniques for mental health status on social media: A critical review. NPJ Digital Medicine, 43(3), https://doi.org/10.1038/s41746-020-0233-7
crossref pmid
Cho, C. K. (2021). Apparatus and method for word cloud visualization (Patent No. 1022392250000). Retrieved from https://doi.org/10.8080/1020190110208
crossref
Cipriano, A., Cella, S., & Cotrufo, P. (2017). Nonsuicidal self-injury: A systematic review. Frontiers in Psychology, 8, 1946. https://doi.org/10.3389/fpsyg.2017.01946
crossref pmid pmc
Collingwood, L., & Wilkerson, J. (2012). Tradeoffs in accuracy and efficiency in supervised learning methods. Journal of Information Technology & Politics, 9(3), 298-318. https://doi.org/10.1080/19331681.2012.669191
crossref
De Riggi, M. E., Lewis, S. P., & Heath, N. L. (2018). Nonsuicidal self-injury in adolescence: Turning to the internet for support. Counselling Psychology Quarterly, 31(3), 397-405. https://doi.org/10.1080/09515070.2018.1427556
crossref
Devlin, J., Chang, M-W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv, https://doi.org/10.48550/arXiv.1810.04805
crossref
Egger, R., & Yu, J. (2022). A topic modeling comparison between LDA, NMF, Top2Vec, and BERTopic to demystify twitter posts. Frontiers in Sociology, 7, 886498. https://doi.org/10.3389/fsoc.2022.886498
crossref pmid pmc
Park, G. (2022, May 25). Deliberate self-harm: Leading cause of death among adolescents for 10 consecutive years. E Today . Retrieved June 20, 2023, from https://www.etoday.co.kr/news/view/2137163

Friedlander, A., Nazem, S., Fiske, A., Nadorff, M. R., & Smith, M. D. (2012). Self-concealment and suicidal behaviors. Suicide and Life-Threating Behavior, 42(3), 332-340. https://doi.org/10.1111/j.1943-278X.2012.00094.x
crossref pmid pmc
Giordano, A. L., Lundeen, L. A., Wester, K. L., Lee, J., Vickers, S., Schmit, M. K., et al. (2022). Nonsuicidal self-injuy on Instagram: Examining hashtag trends. International Journal for the Advancement of Counselling, 44(1), 1-16. https://doi.org/10.1007/s10447-021-09451-z
crossref
Goldberg, S. B., Flemotomos, N., Martinez, V. R., Tanana, M. J., Kuo, P. B., Pace, B. T., et al. (2020). Machine learning and natural language processing in psychotherapy research: Alliance as example use case. Journal of Counseling Psychology, 67(4), 438-448. https://doi.org/10.1037/cou0000382
crossref pmid pmc
Grag, M. (2023). Mental health analysis in social media post: A survey. Archives of Computational Methods in Engineering, 30, 1819-1842. https://doi.org/10.1007/s11831-022-09863-z
crossref pmid pmc
Greiner, M., Pfeiffer, D., & Smith, R. D. (2000). Principles and practical application of the receiver-operating characteristic analysis for diagnostic tests. Preventive Veterinary Medicine, 45(1-2), 23-41. https://doi.org/10.1016/S0167-5877(00)00115-X
crossref pmid
Howard, D., Maslej, M., Lee, J., Ritchie, J., Woollard, G., & French, L. (2019). Transfer learning for risk classification of social media posts: Model evaluation study. Journal of Medical Internet Research, 22(5), e15371. https://doi.org/10.2196/15371
crossref pmid pmc
Joiner, T. (2005). Why people die by suicide. Harvard University Press.

Kaukiainen, A., & Martin, G. (2017). Who engages with self-injury related Internet sites, and what do they gain? Suicidology Online, 8(2), 47-58.

Im, J. H. (2022, August 25). Overflowing self-harm images on social media: Is my child at risk? Kukinews. Retrieved March 7, 2024, from https://www.kukinews.com/newsView/kuk202208240094

LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. Nature, 521, 436-444. https://doi.org/10.1038/nature14539
crossref pmid
Lee, D., Ham, K., & Bae, B. (2016). Adolescents' self-injurious behaviors: Suicidal self-injury and non-suicidal self-injury in female middle school students. The Korean Journal of Counseling and Psychotherapy, 28(4), 1171-1192.
crossref
Lee, Y. L., & Kwon, H. (2023). Analysis of Twitter post with ‘self-injury’ and ‘suicide’ using text mining. Korean Journal of Culture and Social Issues, 29(1), 147-170. https://doi.org/10.20406/kjcs.2023.2.29.1.147
crossref
Lewis, S. P., Heath, N. L., Michal, N. J., & Duggan, J. M. (2012). Nonsuicidal self-injury, youth, and the Internet: What mental health professionals need to know. Child and Adolescent Psychiatry and Mental Health, 6(13), https://doi.org/10.1186/1753-2000-6-13
crossref pmid
Malhotra, A., & Jindal, R. (2022). Deep learning techniques for suicide and depression detection from online social media: A scoping review. Applied Soft Computing, 130, 109713. https://doi.org/10.1016/j.asoc.2022.109713
crossref
Mowery, D. L., Park, Y. A., Bryan, C., & Conway, M. 2016, December. Towards automatically classifying depressive symptoms from Twitter data for population health. In Proceedings of the workshop on computational modeling of people’s opinions, personality, and emotions in social media (PEOPLES). 182-191. The COLING 2016 Organizing Committee. Retrieved from https://aclanthology.org/W16-4320/.

Muehlenkamp, J. J., Xhunga, N., & Brausch, A. M. (2019). Self-injury age of onset: A risk factor for NSSI severity and suicidal behavior. Archives of Suicide Research, 23(4), 551-563. https://doi.org/10.1080/13811118.2018.1486252
crossref pmid pmc
Nock, M. K. (2010). Self-injury. Annual review of clinical psychology, 6, 339-363. https://doi.org/10.1146/annurev.clinpsy.121208.131258
crossref pmid
Ophir, Y., Asterhan, C. S., & Schwarz, B. B. (2020). The role of human expertise in text-based suicide risk detection using machine learning. Frontiers in Psychology, 11, 569. https://doi.org/10.3389/fpsyg.2020.00569
crossref pmid pmc
Pan, W., Wang, X., Zhou, W., Hang, B., & Guo, L. (2023). Linguistic analysis for identifying depression and subsequent suicidal ideation on Weibo: Machine learning approaches. International Journal of Environmental Research and Public Health 20(3), (pp. 2688. https://doi.org/10.3390/ijerph20032688.
crossref pmid pmc
Park, S., & Yu, K. (2021). Analysis of Instagram posts related to self-injury and suicide using text mining. The Korean Journal of Counseling and Psychotherapy, 33(3), 1429-1455.
crossref
Prieto, V. M., Matos, Álvarez, M., Cacheda, F., & Oliveira, J. L. (2014). Twitter: A good place to detect health conditions. PLoS ONE, 9(1), e86191. https://doi.org/10.1371/journal.pone.0086191
crossref pmid pmc
Safa, R., Edalatpanah, S. A., & Sorourkhah, A. (2023). Predicting mental health using social media: A roadmap for future development. In Deep learning in personalized healthcare and decision support (pp. 285-303). Academic Press. https://doi.org/10.48550/arXiv.2301.10453.

Safa, Ramin, Edalatpanah, S A, & Sorourkhah, Ali (2023). Predicting mental health using social media: A roadmap for future development. 10.48550/arXiv.2301.10453
crossref
Shin, K. J. (2021). Self-help bonds among adolescents engaging in self-harm: A case study of the ‘self-harm community on Twitter (Unpublished Master’s thesis). Seoul National University, Seoul, Korea.

Shin, S. -M., & Kwon, K. -I. (2019). Text network analysis of Instagram posts with self-injury. Korean Journal of Counseling, 20(6), 273-295. https://doi.org/10.15703/kjc.20.6.201912.273
crossref
Skaik, R., & Inkpen, D. (2020). Using social media for mental health surveillance: A review. ACM Computing Surveys, 53(6), 1-31. https://doi.org/10.1145/3422824
crossref
Song, H., You, J., Chung, J. W., & Park, J. C. (2018). Feature attention network: interpretable depression detection from social media. Paper presented at the 32nd Pacific Asia Conference on Language, Information and Computation. 613-622.

Song, W. Y. (2021). Self-help solidarity among self-harming adolescents: In the case of “Jahaegye” on Twitter (Unpublished Mater’s thesis). Sogang University, Seoul, Korea.

Swannell, S. V., Martin, G. E., Page, A., Hasking, P., & St John, N. J. (2014). Prevalence of nonsuicidal self-injury in nonclinical samples: Systematic review, meta-analysis and meta-regression. Suicide & life-threatening behavior, 44(3), 273-303. https://doi.org/10.1111/sltb.12070
crossref pmid
Tadesse, M. M., Lin, H., Xu, B., & Yang, L. (2019). Detection of depressionrelated posts in Reddit social media forum. IEEE Access, 7, 44883-44893. https://doi.org/10.1109/ACCESS.2019.2909180
crossref
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., et al. (2017). Attention is all you need. Paper presented at the 31st Conference on Neural Information Processing Systems (NIPS 2017).

Vidal, L., Ares, G., & Jaeger, S. R. (2022). Biterm topic modelling of responses to open-ended questions: A study with US consumers about vertical farming. Food Quality and Preference, 100, 104611. https://doi.org/10.1016/j.foodqual.2022.104611
crossref
Wang, L., Han, M., Li, X., Zhang, N., & Cheng, H. (2021). Review of classification methods on unbalanced data sets. IEEE Access, 9, 64606-64628. https://doi.org/10.1109/ACCESS.2021.3074243
crossref
Wang, Y., Tang, J., Li, J., Li, B., Wan, Y., Mellina, C., et al. (2017). Understanding and discovering deliberate self-harm content in social media. Paper presented at the 26th International Conference on World Wide Web. 93-102. https://doi.org/10.1145/3038912.3052555.
crossref
Yang, K., Zhang, T., & Ananiadou, S. (2022). A mental state knowledgeaware and contrastive network for early stress and depression detection on social media. Information Processing & Management, 59(4), 102961. https://doi.org/10.1016/j.ipm.2022.102961
crossref
Yazdavar, A., Mahdavinejad, M., Bajaj, G., Romine, W., Sheth, A., Monadjemi, A., ..., & Hitzler, P. (2020). Multimodal mental health analysis in social media. PLoS ONE, 15, https://doi.org/10.1371/journal.pone.0226248
crossref pmid
Kye, S. H. (2023, April 29). Teenagers' consecutive suicides... Counseling cases increased by 77% over five years. Yonhap News Agency. Retrieved April 20, 2024, from https://www.yna.co.kr/view/AKR20230428079400530

Zhang, J., Gao, W., & Jia, Y. (2023). WES-BTM: A short text-based topic clustering model for analyzing student feedback. Symmetry, 15(10), 1889. https://doi.org/10.3390/sym15101889
crossref
TOOLS
PDF Links  PDF Links
PubReader  PubReader
ePub Link  ePub Link
Full text via DOI  Full text via DOI
Download Citation  Download Citation
Supplement  Supplement
  Print
Share:      
METRICS
0
Crossref
163
View
7
Download
Editorial Office
The Korean Home Economics Association
TEL : +82-2-561-6416, +82-2-561-6446    FAX : +82-2-562-2999    
E-mail : khea6416@daum.net
About |  Browse Articles |  Current Issue |  For Authors and Reviewers
Copyright © 2014 The Korean Home Economics Association.                 Developed in M2PI