Analysis of Geographic Information Using Social Network Service Data and Topic Modelling: A Case of Instagram Data of Seongsu-Dong,  Seoul

Eun Young Kim; Cha Yong Ku

doi:10.22905/kaopqj.2022.56.3.4

Preview

국토지리학회지. 30 September 2022. 189-202
https://doi.org/10.22905/kaopqj.2022.56.3.4

Analysis of Geographic Information Using Social Network Service Data and Topic Modelling: A Case of Instagram Data of Seongsu-Dong, Seoul

사회관계망 서비스 데이터와 토픽 모델링을 이용한 공간정보 분석: 서울시 성수동의 인스타그램 데이터를 대상으로

Eun Young Kim^a

Cha Yong Ku^b^*

김 은영^a

구 자용^b^*

^aMaster Student, Department of Geography, Graduate School of Sangmyung University, Seoul, Korea

^bProfessor, Faculty of Space and Environment Studies, Sangmyung University, Seoul, Korea

^a상명대학교 대학원 지리학과 석사과정

^b상명대학교 공간환경학부 교수

^{*Corresponding Author}

ABSTRACT

Location-Based Social Network Services (LBSNS) utilize location information to build users’ network around a specific place or region and it makes possible to exchange information between them. This study aims to analyze users' posts using Instagram data to find out how users' points of interest are formed, and compare how places in the region are spatially distributed according to randomly formed topics and provide a better understanding of the spatial location characteristics of each topic. This study established a short-term POI related to keywords by using data from location-based social network services. In addition, by generating topics based on text data, topics were defined through words included in each topic, and place characteristics were analyzed by generating a POI model for each topic through a central keyword.

Keywords

Text-Mining

Topic Modelling

point of interest (POI)

Spatial Big Data

Location-Based Social Network Service

Instagram

위치기반 사회관계망 서비스(LBSNS)는 위치 정보를 활용하여 특정 장소나 지역을 중심으로 사용자들의 사회적 연결망을 구축하고 그들 간의 정보 교환이 가능하다. 본 연구에서는 대표적인 LBSNS 플랫폼인 인스타그램의 데이터를 활용해 사용자들의 게시물을 분석하여 사용자들에 의한 관심 지점의 분포를 분석하고, 지역 내 장소들은 임의로 형성되는 토픽에 따라 공간적으로 어떻게 분포하는지 비교하며 각 토픽의 장소 특성을 파악하였다. 위치기반 사회 관계망 서비스의 데이터를 활용해 키워드와 관련된 단기간의 관심지점(POI)를 구축하고 데이터의 분포를 분석하였다. 또한 텍스트 데이터를 기반으로 토픽을 생성하여 각 토픽에 포함된 단어를 통해 주제를 정의하고 특성을 파악하고, 중심 키워드를 통해 각 토픽의 POI 모델을 생성함으로써 공간적인 분포를 분석하였다.

키워드

텍스트 마이닝

토픽 모델링

관심 지점

공간 빅데이터

위치기반 사회 관계망 서비스

인스타그램

MAIN

I. 서론
1. 연구 배경 및 목적
2. 연구지역
3. 연구 내용
II. 관련 연구 동향 분석
1. SNS를 활용한 텍스트 마이닝 분석 연구 동향
2. 토픽 모델링을 주제로 한 연구 동향
3. 소결
III. 분석 데이터 추출 및 시각화
1. 관심지점 구축
2. 밀도 분석
IV. 토픽 모델링을 통한 장소 특성 분석
1. 텍스트 마이닝 분석을 위한 데이터 정제 및 분석
2. 토픽 모델링을 통한 장소 특성 및 공간분포 분석
V. 결론

I. 서론

1. 연구 배경 및 목적

다양한 정보수집 채널에 의해 생성되는 거대한 정보들은 정보통신 기술의 발달과 함께 더욱 빠른 속도로 생성되고 있고 여러 가지 경로로 이동하고 있다. 이를 통해 생성되는 빅데이터는 우리 삶 속에서 여러 가지 방법을 통해 다양하게 활용되어 우리에게 유익한 정보를 제공해주고 있으며, 전 세계도 그 흐름에 따라 흘러가고 있다. 위성항법시스템(Global Navigation Satellite System, GNSS)을 기반으로 한 모바일 단말기의 위치 설정과 더불어 애플리케이션 내에서의 사용자의 직접 위치 입력을 통한 위치 정보 제공은 해당 지역에 관한 특정 정보를 제공하는 위치기반 서비스(Location Based Service, LBS)가 다양하게 활용 가능하다(오효정 등, 2014). 이와 같은 지오태그(geo tag) 기반의 위치기반 사회관계망 서비스(Location Based Social Network Service, LBSNS)는 대표적인 빅데이터 중 하나로 손꼽힌다.

위치기반 사회관계망 서비스(LBSNS)는 위치 정보를 활용하여 특정 장소나 지역을 중심으로 사용자들의 사회적 연결망을 구축하고 그들 간의 정보 교환이 가능하도록 한다. 3세대 SNS를 이끄는 대표적인 플랫폼인 인스타그램은 LBSNS 중 하나이다. 인스타그램은 다수의 사람들이 자신의 감정, 경험, 일상 등을 공유하며, 어느 장소에 방문했을 때 주관적 평가를 내리거나 표현하는데 많이 사용한다. 사용자에 의해 게시되는 내용들은 해당 지역의 장소성을 형성하는데 도움을 주며, 이를 통해 형성된 각 장소마다 갖는 특유의 장소성은 사람들을 불러들이는 요소로 작용한다.

한편 장소성과 관련된 연구는 대부분 그 변화 양상을 분석하거나, 변화 이후의 현황에 대해서 분석한다. 성수동은 과거 도심형 구산업단지였으나 생산 및 유통환경의 변화로 침체되었다. 하지만 입점 상점의 변화와 함께 2010년대 이후 SNS를 통해 유명세를 얻게 되면서 다수의 방문을 불러일으켰다. 이전과 유사한 외관이지만 다른 분위기를 지님으로써 장소성을 새로이 형성하고 있다. 따라서 이를 토대로 방문객을 불러들이는 성수동의 장소 특성에 대해 분석해보고자 한다.

2. 연구지역

본 연구는 SNS 사용자로 하여금 ‘성수동’, ‘성수’로 인식되는 지역의 데이터를 활용함에 따라 주 연구대상 지역을 성수동으로 한다. 성수동은 현재 서울특별시 성동구에 속해있으며, 한강 이북의 동쪽에 위치하고 있다. 1995년 3월 성동구는 성동구와 광진구로 분구되었다. 성수 1가 1･2동, 성수2가 1･2･3･4동에서 성동구와 광진구로 분구되면서 성수2가 2･4동은 광진구로 편입되어 현재 중국인 밀집 거주지 중 하나인 자양동으로 명명되었다(최은영, 1999). 현재의 성수동은 행정동 기준 성수 1가 제1･2동과 성수 2가 제1･3동을, 법정동 기준 성수동 1･2가를 포함한다

성수동은 과거 낮은 지가로 제조업 상권 및 공장이 대부분을 차지하던 도심형 구산업단지이다. 특히 제화산업의 집적지로서 90년대까지 활기를 띠었으나, 주문자 상표부착 생산방식(OEM)의 한계와 인력의 노령화 등의 생선 및 유통환경의 변화로 침체되고 크게 위축되었다(김상현･이한나, 2016). 하지만 2010년대 이후 기존 상권의 몰락과 함께 새로운 종류의 상권의 등장은 제조업 관련자들의 방문 빈도 감소를 불러일으켰으며, 다양한 온라인 매체의 등장으로 인한 새로운 상권의 활성화로 성수동을 찾는 방문객은 젊은 층으로 바뀌었다. 성수동은 과거의 건물을 재건축하지 않고 기존 공간의 특성을 유지 및 재활성화하여, 이전과 유사한 외관을 보이지만 다른 분위기를 지님으로써 장소성을 새로이 형성하고 있다.

3. 연구 내용

본 연구는 대표적인 위치기반 사회 관계망 서비스인 인스타그램의 데이터를 활용해 사용자들의 게시물을 분석하여 사용자들에 의한 관심 지점을 구축하여 분포를 알아보고, 지역 내 장소들은 임의로 형성되는 토픽에 따라 공간적으로 어떻게 분포하는지 비교하며 각 토픽의 장소 특성을 파악해보고자 한다.

이를 위해 위치기반 사회 관계망 서비스 데이터를 수집 및 전처리한 후 해당 위치에 따른 사용자 기반 장소 POI¹⁾를 구축한다. 구축한 POI는 위치 데이터와 속성정보를 기반으로 범위 및 밀도 분석을 진행한다. POI 구축에 사용한 위치 데이터 이외의 텍스트 데이터의 일부는 텍스트 마이닝 분석을 진행하여 대표 이미지를 알아보고, 이를 기반으로 토픽 모델링 분석을 실시하여 각 토픽의 관심 지점을 구축하여 장소 특성을 파악한다(그림 1).

https://cdn.apub.kr/journalsite/sites/kaopg/2022-056-03/N037560304/images/kaopg_56_03_04_F1.jpg

그림 1.

연구 흐름도

II. 관련 연구 동향 분석

1. SNS를 활용한 텍스트 마이닝 분석 연구 동향

SNS의 빅데이터를 활용해 텍스트 마이닝을 분석한 연구는 주로 사회적으로 이루어지는 현상과 관련한 정책 수립에 기여하고자 하는 연구, 그리고 공간에 대한 방문객의 장소 인식에 대한 연구가 주를 이루고 있다. 아래의 연구들은 트위터, 페이스북, 플리커, 유튜브, 인스타그램을 사용해 분석을 진행하고 있으며, 이와 더불어 몇몇 연구들은 웹 브라우저를 연구 대상으로 함께 하고 있다. SNS의 범위는 앞서 단어에서 정의한 바에 따라 설정하며, 웹 브라우저와 같은 네이버, 다음 등은 단독으로 사용되지 않고 SNS와 함께 사용된 경우에만 포함하였다(표 1).

표 1.

SNS를 활용한 텍스트 마이닝 분석 연구

분류	저자	연도	내용
현상/정책 관련	정연식･ 엄기종	2014	자료의 한계를 극복하기 위해 SNS 기반의 주민참여형 교통안전 개선 방안을 제시하였음
	이종훈 등	2015	SNS 데이터의 텍스트 마이닝 분석을 통해 범죄 발생 위험요소의 검색 정확도를 향상시켜 효율적으로 데이터 추출할 수 있는 방안을 제시하였음
	임화진･ 박성현	2015	충청남도에 대한 언론기사와 트위터를 활용하여 분석하여 미래전략 수립 기초자료로의 활용 가능성을 제시하였음
	권회윤	2016	SNS 데이터의 위험도를 분석해 차등화하고, (시계열)지도 시각화를 통해 실제로 재난전조감지의 수단으로서 활용 가능한지 검토하였음
	박상훈･ 이희정	2017	네트워크 텍스트 분석을 통해 전통시장에 대한 국내 수요자들의 인식변화를 분석하였음
	강현우	2019	SNS 빅데이터를 텍스트 마이닝 기법을 활용해 젠트리피케이션 현상과 관련된 익선동의 장소성 텍스트를 바탕으로 속도를 분석하였음
	문지영 등	2020	빅데이터 분석을 활용하여 음식관광산업의 활성화를 위한 전략 및 방안을 제시하였음
장소 인식 관련	이혜진 등	2019	플리커에 게시된 지오태깅된 사진 데이터와 텍스트 데이터를 활용하여 우리나라 방문객이 갖는 지역별 이미지를 비교 및 분석하였음
	차지은	2019	인기 상권의 형성에 영향을 주는 SNS 데이터를 활용하여 현재 주목받고 있는 핫플레이스에 대한 현재 상황 분석하며, 특정 공간에 대한 소비자의 인식과 특징을 파악하였음
	정의석 등	2020	SNS의 비정형 데이터를 텍스트 마이닝 기법과 언어네트워크 분석을 활용하여 맛집을 중심으로 한 핫플레이스 이미지를 여름과 겨울로 구분해 계절적 변화를 분석하였음
	김민정 등	2021	실제 캠핑 이용자들을 대상으로 설문조사를 실시하여 차박 이용자가 캠핑에서 중요하게 생각하는 요소들을 도출하고, 이를 토대로 이용자들의 편의 증대를 위한 자동차 캠핑맵(차박 지도)을 제작하였음
	최유연	2021	빅데이터 분석방법을 통해 관광객의 관광경험 공유와 경험적 가치에 대해 분석하였음

정책 수립과 관련하여 빅데이터가 정책에서의 기초자료로 활용될 수 있을지에 대한 가능성에 대해서 많은 연구가 진행되었다. 대표적으로 정연식･엄기종(2014)은 교통사고 자료의 한계를 극복하기 위해 SNS 기반의 주민참여형 교통안전 개선 방안을 제시하였다. 잠재적인 위험지역을 주민들의 의견을 통해 파악하여 교통안전 개선사업의 지점 선정에 보완 자료로 활용 가능성을 제시하였다.

SNS 데이터로 국지적인 정책 수립을 마련하고자 한 연구는 임화진･박성현(2015)가 대표적이다. 충청남도에 대한 언론기사와 트위터를 활용하고 분석하여 미래전략 수립 기초자료로의 활용 가능성을 제시하였다. 이를 정책과 연결하여 정책파급양상을 공간적 및 가시적으로 표현함으로써 지역과 키워드 간의 관계를 조망하였다.

국내 침수 관련 텍스트 데이터를 활용한 권회윤(2016)의 연구에선 지역별 사회적, 자연적 지표 등을 함께 활용하여 보다 더 정교하고 체계적으로 위험도를 분석해 차등화하였다. 1초 단위의 시계열적인 지도를 시각화함으로써 실제 재난전조감지의 수단으로서 활용 가능성을 제시하였다.

네트워크 텍스트 분석을 통해 전통시장에 대한 국내 수요자들(시장 방문객)의 인식변화를 분석한 박상훈･이희정(2017)의 연구는 현실성이 제고된 전통시장 활성화 전략 수립에 기초자료의 근간을 마련했다. 나아가 온라인에서 생산된 데이터 활용에 대한 방향성과 새로운 진단의 방법론을 제시하였다.

식음 문화를 기반으로 관광을 분석한 연구는 문지영 등(2020)가 대표적으로, 빅데이터 분석을 활용하여 음식관광산업의 활성화를 위한 전략 및 방안을 제시하였다. 더불어 음식 관광에서도 빅데이터에 기반을 둔 과학적인 마케팅을 도입할 수 있는 실마리를 제공하고, 나아가 통계 분석에서 융･복합적 측면에서의 학문적 성과를 제고하였다.

위의 연구들을 통해 SNS의 텍스트 데이터를 활용해 정책 수립의 단초를 제공할 수 있고, 지역 내 현상에 대한 분석이 가능함을 확인하였다. 이와 더불어 공간에 대한 방문객의 장소 인식과 관련해서도 연구가 다수 이루어졌다.

공간에 대한 방문객의 장소 인식과 관련한 연구는 외식 및 관광 측면을 주제로 다루고 있다. 텍스트 데이터를 활용해 관광 측면을 주제로 다룬 대표적인 연구는 이혜진 등(2019)의 연구로, 플리커에 게시되어 있는 지오태깅 된 사진 데이터와 텍스트 데이터를 활용하여 우리나라 방문객이 갖는 지역별 관광 이미지를 비교 분석하였다. 특히 외국인 관광객의 지역별 관심사를 분석해 관광특성을 알아보았다.

소비공간 측면에서 핫플레이스에 대한 인식 및 현재 상황을 분석한 차지은(2019)은 현재 주목받고 있는 익선동을 대상으로 연구를 진행하였다. 인기 상권의 형성에 영향을 주는 SNS 데이터를 활용하여, 소비자들이 익선동을 식음 소비공간을 넘어 문화, 체험, 관광이라는 경험적 소비의 장소로 인식하고 있음을 파악하였다.

마찬가지로 최유연(2021)의 연구는 빅데이터 분석방법을 통해 관광객의 관광경험 공유와 경험적 가치에 대해 분석하였으며, 이를 바탕으로 관광산업 분야의 관광마케팅 방법에 대한 방향을 제시하였다.

한편 계절을 구분하여 장소의 이미지를 비교 분석한 연구도 이루어졌다. 정의석 등(2020)에서는 SNS의 비정형 데이터를 텍스트 마이닝 기법과 언어네트워크 분석을 활용하여 맛집을 중심으로 여러 개의 핫플레이스 이미지를 여름과 겨울로 구분해 그 변화를 분석하였다. 위 분석을 통해 외식 창업 기초자료 및 외식 실무자의 지역마케팅 기초자료로서의 활용 가능성을 제시하였다.

마지막으로 텍스트 데이터 및 위치 데이터를 기반으로 지도를 제작한 연구도 이루어졌다. 김민정 등(2021)는 실제 캠핑 이용자들을 대상으로 설문조사를 실시하여 이용자가 캠핑에서 중요하게 생각하는 요소들을 도출하고, 이를 토대로 이용자들의 편의 증대를 위한 차박 지도를 제작하였다. 차박지, 편의시설 정보, 차박지 특징을 담은 해시태그를 하나의 지도에 담아 한눈에 볼 수 있도록 구성해 키워드 이용자들이 보다 쉽게 차박 장소를 선택할 수 있도록 하였다.

SNS를 활용한 텍스트 마이닝 분석과 관련해서는 주로 현상과 관련한 정책 수립에 이바지하고자 하는 내용과 공간에 대한 방문객의 장소 인식을 분석하는 내용이 포함된다. 전자의 경우 정책 수립과 관련해 기초자료로의 활용 가능성을 주제로, 후자의 경우 외식 및 관광 측면을 주제로 다수 연구되었다.

2. 토픽 모델링을 주제로 한 연구 동향

SNS 데이터를 기반으로 토픽 모델링을 진행한 연구는 공간적인 의미나 특성을 분석하는 연구가 주를 이루고 있다. 다수의 연구에서 토픽 모델링과 더불어 오피니언 마이닝, 네트워크 분석 등 여러 다른 텍스트 마이닝 기법과 함께 분석되어 연구를 진행하고 있다(표 2).

표 2.

토픽 모델링을 주제로 한 연구

저자	연도	내용
강애띠	2016	트위터 사용자들이 트윗 데이터에 표현한 스트레스 감성과 토픽이 공간상에서 보이고 있는 특성을 분석하였음
황혜진	2016	텍스트 기반의 위치 정보 및 시계열 데이터를 가공하여 지역별로 나타난 패턴을 탐색하였음
강애띠･ 강영옥	2018	SNS를 통해 현대인이 느끼는 스트레스라는 현상의 지역적 차이를 공간적으로 분석하였음
우현지	2018	트윗 데이터의 시공간 정보에 따른 내용 정보를 주제로써 분류하고, 공간상에 주제로서 나타나는 장소의 의미 및 특성을 분석하였음
안성현･ 박성택	2020	빅데이터 분석을 활용하여 외국인 방문객이 많은 서울을 중심으로 국내 관광 서비스 개선 방안을 탐색하였음
이혜진･ 강영옥	2020	플리커 데이터 분석을 통해 부산을 방문한 외국인 관광객의 선호관광지와 관광지 키워드를 분석하였음
허대겸	2021	도시공원을 이용하는 이용자들의 행태 및 도시공원이 가지는 기능에 관한 분석을 진행하였음

우선 시간 및 위치 정보를 분석에 모두 반영함으로써 공간상의 특성 및 패턴을 활용하여 장소를 특성화하는 연구가 존재하였다. 대표적으로 황혜진(2016)은 텍스트 기반의 위치 정보 및 시계열 데이터를 가공하여 지역별로 나타난 패턴을 탐색하였다. 이를 통해 일반 태그 분석보다 상관 관계가 높은 해시태그들이 군집화되어 지역을 구분하고 지역과 관련된 키워드를 잘 뽑아내는 데 효과적임을 확인할 수 있었다.

같은 맥락에서 우현지(2018)는 트윗 데이터의 시공간 정보에 따른 내용 정보를 주제로써 분류하고 공간상에 주제로서 나타나는 장소의 의미 및 특성을 분석하여, 최신의 트렌드를 반영한 사용자의 장소 선호 속성에 따른 핫플레이스의 탐색 및 장소 특성화에 활용 가능성을 확인하였다.

도시공원을 이용하는 이용자들의 연도별･계절별 행태를 분석한 연구는 허대겸(2021)이 대표적이다. 이는 시계열적 분석 및 도시공원이 가지는 기능에 관해 분석함으로써 오픈 스페이스인 도시공원을 관리하고 유지하기 위한 방안을 제시하였다.

토픽 모델링과 더불어 감성 분석을 함께 진행하여 공간적인 분석을 한 연구도 이루어졌다. 강애띠(2016)는 트위터 사용자들이 트윗 데이터에 표현한 스트레스 감성과 토픽이 공간상에서 보이고 있는 특성을 분석하였다. 이를 통해 특정 토픽이 차지하는 비율만으로 그 시도의 성격을 판단하는 것보다 내부 포함된 단어들의 스트레스 감성점수의 분포를 통해 시도의 특성을 평가하는 것이 더 타당하다는 것을 확인하였다.

SNS를 통해 현대인이 느끼는 스트레스의 특징을 분석한 강애띠･강영옥(2018)의 연구에서는 지역적 차이를 공간적으로 분석하고, 토픽을 스트레스의 원인, 결과, 해소방법 3가지 주제로 구분하여 시도별로 어떤 토픽에 높은 관심을 갖는지 비교하였다.

관광객, 특히 국내 외국인 관광객이 방문하는 관광지와 관련해 주제별로 매력요인을 분석하는 연구도 이루어졌다. 안성현･박성택(2020)은 외국인 방문객이 많은 서울을 중심으로 관광객의 만족도를 높이고 이를 통해 재방문을 향상시킬 수 있고 서비스를 개선할 수 있는 방안을 제시하였다. 또한 내･외국인 모두가 선호하는 곳의 공통점을 통해 외국인들의 관광을 더 즐겁게 할 수 있는 추천 시스템을 제안하였다.

마지막으로, 이혜진･강영옥(2020)의 연구는 플리커 데이터를 활용한 공간 및 텍스트 분석을 통해 부산을 방문한 외국인 관광객의 여행 카테고리별 선호관광지와 관광지 키워드를 분석하여 관광지별 매력요인과 SNS 데이터의 관광영역에서의 활용 가능성을 확인하였다.

연구들은 시공간 정보를 모두 활용함으로써 장소를 특성화하는 내용, 그리고 관광객을 대상으로 주제별 관광지의 매력요인을 분석하는 내용을 포함한다.

3. 소결

선행연구들을 살펴본 결과 연구 데이터로는 수집이 용이한 트위터, 페이스북, 플리커 등이 다수 활용되었다. 또한, 사회의 다양한 이슈나 장소의 특징을 분석하여 정책 및 방안을 제시함으로써 사회적으로 이바지하고자 하는 함의를 갖는 연구들이 주를 이루고 있었다. 방법론 측면에서 SNS 데이터를 활용한 연구는 대부분 텍스트 분석만을 다루거나 공간 분석만을 다루고 있었다.

따라서, 본 연구는 따라서 본 연구는 API 제공 중단으로 인해 데이터 획득이 어려워 기존의 선행연구들에서 자주 다루지 않았던 인스타그램의 위치 정보를 기반으로 POI 모델을 구축하여 공간적인 분석을 시행하고, 속성정보를 이용하여 텍스트 분석을 시행하고자 한다. 본 연구는 연구에서 전 세계적으로 주목받고 사용되고 있는 인스타그램이라는 SNS의 데이터를 기반으로 연구를 한다는 점, 그리고 방법론 측면에서 텍스트 분석과 더불어 공간 분석을 함께 시행한다는 점에서 차별성을 찾아볼 수 있다.

III. 분석 데이터 추출 및 시각화

1. 관심지점 구축

위치기반 사회 관계망 서비스 데이터는 인스타그램 데이터를 이용하고자 한다. 인스타그램의 경우 API 제공이 중단되었기에, 다양한 프로그래밍 언어 중 파이썬을 통해 웹 크롤링 과정을 진행하여 데이터를 수집하였다. 행정구역 데이터는 국가 공간정보 포털의 법정동 기준 읍면동 행정구역 경계도면을 수집하였다. 인스타그램 검색창에 #성수핫플을 기입하여 검색을 진행하였는데, 그 이유는 인스타그램에서 ‘성수’라는 지역명을 검색할 경우 그 장소와 관련되지 않은 장소들도 많이 등장하였기 때문이다. 인스타그램이 이제는 단순히 일상공유의 수단이 아닌 홍보의 수단 및 인플루언서 등극으로의 수단으로 이용이 되면서 관련 없는 장소가 게시되는 경우가 많기에, 사람들이 너도나도 찾는 장소라는 의미를 갖는 핫플레이스의 줄임말인 핫플을 지역명과 합쳐 성수핫플이라는 합성어를 해시태그와 함께 검색해 나온 게시글²⁾을 바탕으로 연구를 진행하였다. 획득한 인스타그램 데이터는 여러 조건에 따라 전처리 후 카카오 API를 통해 지오코딩하여 위도, 경도, 주소 등의 위치 데이터 관련 정보를 추출한 후 저장한다. 이와 같은 과정을 통해 얻은 인스타그램 크롤링 데이터와 카카오 지오코딩 데이터는 결합되어 범위 및 밀도 분석, 그리고 장소 특성 분석을 위한 모델 개발의 밑바탕이 된다. 기본적인 지역 구분 데이터는 국토교통부의 국가공간정보포털의 법정동 기준 행정구역을 활용하였으며, 이전 성수동 연구와 수집 데이터의 지오태그에 따라 서울특별시 법정동 행정경계 데이터 중에서도 성동구와 광진구만 추출하였다. 정제과정을 거쳐 최종적으로 추출된 10383개의 #성수핫플 데이터를 바탕으로 POI 모델을 개발하여 성수동을 대표하는 위치를 파악하였으며, 통계 분석을 통해 동일 장소별 게시물 수를 시각화하고 분석을 진행하였다(그림 2).

https://cdn.apub.kr/journalsite/sites/kaopg/2022-056-03/N037560304/images/kaopg_56_03_04_F2.jpg

그림 2.

#성수핫플 게시글 데이터의 위치 분포

사용자들이 인식하는 성수동의 범위는 성동구 및 광진구에 걸쳐 널리 형성되어 있었다. 대다수가 성수동 1, 2가 지역에 밀집되어 분포하였지만, 거리상으로 가까워 왕래가 용이한 건대입구역 인근에서도 데이터 수가 높게 나타났다. 추출 데이터 중 특히 더 많은 게시글 수를 가진 곳들이 성수동의 핫플레이스, 핫스팟으로 인식되는 곳들일 수 있다고 생각하였다. 그리하여 범주별 통계를 통해 장소별 게시글 수를 파악하여 100개 이상의 게시글 수를 갖는 장소를 추출하였다(그림 3).나타난 13개의 장소는 대부분 복합 문화공간이라는 특징을 지녔다. 복합문화공간은 단일의 시설이나 연계된 시설을 통해 전시, 공연, 문화보급과 같은 문화예술 활동이 한꺼번에 두 개 이상 서로 다른 매체나 문화의 전달방법을 통해 소비자에게 전달되는 공간을 의미한다(서구원･민형철, 2008). 이 장소들은 성수동을 자주 방문하는 주 연령층인 MZ세대가 추구하는 다양한 체험 중시라는 특징과 밀접한 연관을 갖는다.

https://cdn.apub.kr/journalsite/sites/kaopg/2022-056-03/N037560304/images/kaopg_56_03_04_F3.jpg

그림 3.

100개 이상의 게시글 수를 갖는 #성수핫플 장소.³⁾

2. 밀도 분석

벡터는 가장 기초적인 점을 기반으로 다양하게 활용된다. 구축한 위치 데이터는 벡터의 기반으로서 다양하게 시각화하여 나타낼 수 있다. 위치의 속성을 갖는 #성수핫플 POI 점 데이터를 기반으로 밀도를 분석하였다.

밀도 분석은 데이터의 변수가 가질 수 있는 모든 값의 밀도(확률)을 추정하는 것으로, 대표적으로 커널 밀도 추정(Kernal Density Estimation)을 통해 분석이 가능하다(이창용, 2018). 커널밀도 추정은 각 점에 대칭적인 표면을 배치한 후 수학적 함수에 기초하여 지점에서 기준 위치까지의 거리를 평가하고 그 기준 위치의 모든 표면에 대한 값을 합산하는 것을 포함한다. 이 절차는 연속된 포인트에 대해 반복됨에 따라 각 관측치 위에 커널을 배치할 수 있으며, 이러한 개별 커널을 합하면 인스타그램의 성수동 위치 데이터의 분포에 대한 밀도 추정치를 얻을 수 있다.

앞서 생성한 POI 구축 데이터를 기반으로 커널 밀도 추정을 통해 가중치 반영 여부에 따라 다른 조건을 갖는 네 개의 밀도를 분석하고자 하였다. 가중치를 부여하지 않은 POI 위치 데이터, 좋아요 수를 가중치로 부여한 POI 위치 데이터 모두 연무장길 일대에 중심을 형성하였으나, 후자에서 중심의 면적이 더 넓게 나타났다(그림 4, 그림 5).

https://cdn.apub.kr/journalsite/sites/kaopg/2022-056-03/N037560304/images/kaopg_56_03_04_F4.jpg

그림 4.

POI 위치 데이터 밀도지도: 가중치 미부여

https://cdn.apub.kr/journalsite/sites/kaopg/2022-056-03/N037560304/images/kaopg_56_03_04_F5.jpg

그림 5.

POI 위치 데이터 밀도지도: 좋아요 수 가중치 부여

가중치를 부여하지 않은 위치별 게시글 수 데이터, 좋아요 수를 가중치로 부여한 위치별 게시글 수 데이터는 앞의 두 조건과 달리 연무장길 일대와 서울숲 및 뚝섬역 일대에 두 개의 중심을 형성하였다(그림 6, 그림 7). 다만, 그림 6의 밀도지도에 비해 그림 7의 밀도지도에서 서울숲 및 뚝섬 일대의 중심면적이 넓게 나타났으며, 연무장길 일대에서 중심 면적이 미세하게 축소되어 나타났다. 이는 서울숲 및 뚝섬 일대의 게시글에서 사용자들의 좋아요 수가 상대적으로 더 높게 나타난 것으로 추측이 가능하다.

모두 연무장길 일대에서 높은 밀도의 커널이 위치했으며, 위치별 게시글 수 데이터 밀도지도에서는 서울숲 및 뚝섬지역에서도 높은 밀도의 커널이 나타났다. 그러나, 이 외의 지역에서는 밀집의 양상을 거의 찾아볼 수 없었다.

단순히 위치 점 데이터로만 확인했을 때는 #성수핫플의 분포가 상당히 넓게 나타나지만, 커널 밀도 분석을 통해 분석한 결과는 좁은 범위로 축소된 것을 보아 인스타그램 사용자의 인식 속 성수핫플의 이미지는 비교적 성수동1･2가에 밀집형성되어 있음을 확인할 수 있다.

https://cdn.apub.kr/journalsite/sites/kaopg/2022-056-03/N037560304/images/kaopg_56_03_04_F6.jpg

그림 6.

위치별 게시글 수 데이터 밀도지도: 가중치 미부여

https://cdn.apub.kr/journalsite/sites/kaopg/2022-056-03/N037560304/images/kaopg_56_03_04_F7.jpg

그림 7.

위치별 게시글 수 데이터 밀도지도: 좋아요 수 가중치 부여

IV. 토픽 모델링을 통한 장소 특성 분석

1. 텍스트 마이닝 분석을 위한 데이터 정제 및 분석

필터링 된 게시물의 텍스트 데이터는 해당 지역의 장소 특성 분석을 위한 코딩을 진행한다. 진행 과정에서 장소 특성 분석을 위한 텍스트 데이터가 없는 경우 분석을 위한 판단 과정에 필요하지 않다고 판단하였다. 이에 따라, 인스타그램 데이터 중 게시글 본문 텍스트가 존재하는 10247개의 데이터를 기반으로 한국어 처리 패키지 KoNLPy의 Okt 클래스를 활용하여 텍스트 마이닝 연구를 진행하였다. 트위터에서 만든 오픈소스 한국어 분석기인 Okt는 간결하고 문장을 적당히 분절하는 결과를 추출함으로써 다수 웹이나 소셜 네트워크 서비스 데이터 연구에 활용되고 있다. 한글은 아직 불용어가 정의되어 있는 패키지가 존재하지 않아 Ranks NL⁴⁾의 Korean Stopwords를 참고하여 불용어 목록을 생성하였으며, 이와 더불어 연구목적에 맞지 않거나 의미 파악이 어려운 단어는 추가 불용어 목록을 생성하여 필터링하였다. 필터링 과정을 거쳐 최종적으로 명사로 구분되는 형태소만을 추출하였고, 키워드가 비중을 너무 많이 차지하거나 너무 적게 나타나는 것은 제외하였다. 빈도 순위 상위에 있는 데이터 기준 상위 500개를 대상으로 워드클라우드로 시각화한 결과는 그림 8과 같다. 그 결과 먹거리, 상대적으로 가벼운 식음료, 인근 지역의 명칭, 정보제공, 색다른 체험 공간, 방문 목적, 시대적 상황, 가게 홍보 등 크게 7가지 종류와 관련된 키워드들이 성수동의 이미지를 형성하였다.

https://cdn.apub.kr/journalsite/sites/kaopg/2022-056-03/N037560304/images/kaopg_56_03_04_F8.jpg

그림 8.

#성수핫플 워드 클라우드

2. 토픽 모델링을 통한 장소 특성 및 공간분포 분석

워드 클라우드는 각 키워드 간 연관성 파악이 어려워 이 한계점을 보완하기 위해 토픽모델링 분석을 진행하였다. 토픽 모델링은 수집된 텍스트에 대해 각 텍스트에 어떠한 주제들이 존재하는지 찾아내는 기계학습의 한 종류로, 함께 자주 등장하는 단어들을 클러스터링함으로써, 텍스트를 가장 잘 나타낼 수 있는 잠재된 주제를 유추하여 추출하는 기법이다. 즉, 텍스트 데이터로부터 유의미한 토픽을 추출하기 위해 많이 활용하는 텍스트 마이닝 기술이 토픽 모델링이다(Jelodar et al., 2018). 잠재 디클리레할당(Latent Dirichlet allocation, 이하 LDA)은 대표적인 토픽 모델링 기법으로, 단어 빈도수 분포를 기반으로 분석하여 각 문서 내에 어떤 주제들이 존재하는지 추측하는 생성 확률 모델이다. LDA는 gensim과 sklearn 패키지를 활용하여 토픽 모델링을 수행할 수 있다. gensim 패키지는 토픽 모델링 연구에 더 많이 사용되었으며 coherence(응집도)와 같은 뛰어난 기능을 갖는다. sklearn 패키지는 다른 패키지와의 호환성이 좋고 실행속도가 빠르다. 또한 텍스트 내 주제를 발견하는데 사용될 수 있는 기능이 오랫동안 검증되어왔으며, 행렬 계산과정이 더 간단하다. 따라서 sklearn 패키지를 사용하였다. 주제의 개수를 최적의 값으로 설정하기 위해서는 흔히 ‘복잡도(혼란정도)’라 해석되는 perplexity값이 적은 주제 값을 선택해야 한다. 복잡도는 토픽 확률 모델이 결과를 얼마나 정확하게 예측하는지 판단하는 평가 측도로서 그 값이 적을수록 토픽 확률 모델은 더 정확하게 예측한다고 본다(배전희, 2019). 주제의 개수는 너무 적지도 않고 많지도 않은 범위 내에서 파악해보고자 4~8개 사이의 perplexity값을 추출하였으며, 그 결과는 표 3과 같다.

표 3.

주제별 perplexity 값

Number of Topics	Perplexity Score
4	325.159032
5	339.556714
6	411.644567
7	459.861071
8	491.932133

perplexity 함수를 통해 주제의 혼란 정도를 파악한 결과 주제의 개수가 4개로 설정될 경우 가장 적은 값을 갖는다. 따라서 상대적으로 가장 좋은 성능을 갖고 있다고 파악되는 4개를 주제의 개수로 설정하여 앞서 추출한 키워드들을 기반으로 하여 문서 구성에 따라 관련이 높은 단어들끼리 묶어 주제를 정의하였다. 토픽별 가장 관련 깊은 키워드 10개는 가중치 부여 값과 함께 표 4에 정리하였다. 또한 각 토픽의 빈도 순위 상위에 있는 중심 키워드를 대상으로 토픽마다의 관심지점을 구축하여, 토픽에 따라 다르게 나타나는 관심지점의 분포를 통해 특성을 분석하였다.

표 4.

인스타그램 #성수핫플 데이터의 토픽 모델링 결과⁵⁾

Topic 1	Topic 2	Topic 3	Topic 4
맛집(1515.37)	커피(142.37)	인생(283.14)	꽃집(416.63)
피자(747.01)	방문(108.87)	파티(161.15)	카페(183.59)
스테이크(536.74)	예약(89.7)	사진(146.79)	예약(142.11)
데이트(286.69)	쌀국수(86.37)	와인(137.81)	문의(120.51)
메뉴(227.98)	단골(82.2)	분위기(107.69)	나들이(115.58)
포터(189.37)	테이블(81.64)	공간(101.43)	모임(73.16)
문의(186.4)	식사(73.86)	피치스(94.31)	원데이(68.67)
음식(186.25)	튀김(68.67)	도넛(79.47)	디저트(63.83)
토마호크(184.82)	크림(67.05)	크리스마스(79.23)	풍선(59.48)
육즙(169.84)	트렌디(63.77)	방문(78.48)	클래스(54.13)

Topic 1의 관련 키워드는 양식과 관련된 키워드가 다수 차지하여 ‘구산업단지에 위치한 양식/데이트 맛집’으로 주제를 정의하였다. 중심 키워드인 ‘맛집’을 포함하는 데이터를 추출하여 관심 지점을 분석한 결과, 추출된 개수가 여러 개다 보니 많은 곳에서 밀집된 분포의 양상을 보였다(그림 9). 성수동1･2가를 비롯해 자양동 일대까지 밀집 분포가 나타났다. ‘맛집’ 키워드는 미각적 측면뿐만이 아니라 시각적 측면에서도 사용되면서, 대부분 두 요소 모두를 만족하는 장소들이 추출되었다.

https://cdn.apub.kr/journalsite/sites/kaopg/2022-056-03/N037560304/images/kaopg_56_03_04_F9.jpg

그림 9.

Topic 1의 ‘맛집’ 관심 지점

Topic 2는 Topic 1과 비슷하게 식사 관련 키워드들이 주를 이뤘지만, 상대적으로 가벼운 느낌의 음식 키워드와 커피 키워드가 나타나 ‘관광거리로 변모한 이면도로 인근의 간단한 식사/음식’으로 주제를 정의하였다. Topic 2는 중심 키워드인 ‘커피’와 직접적으로 관련된 성수동 카페거리와 서울숲 카페거리에 관심 지점이 밀집되어 분포하였다(그림 10).

https://cdn.apub.kr/journalsite/sites/kaopg/2022-056-03/N037560304/images/kaopg_56_03_04_F10.jpg

그림 10.

Topic 2의 ‘커피’ 관심 지점

Topic 3은 공간의 분위기 혹은 기념일과 관련된 키워드들이 다수 차지해 ‘중심 상점가 인근의 인생샷 명소/경험공간’으로 주제를 정의하였다. 중심 키워드인 ‘인생’은 만족의 정도를 표현하는데 사용되고 있었으며, 관심 지점은 2호선 성수역이 위치한 성수동2가 인근에서 다수 나타났다(그림 11). 이들은 복합 문화공간, 팝업스토어 시설이라는 공간적 특성을 보였다.

https://cdn.apub.kr/journalsite/sites/kaopg/2022-056-03/N037560304/images/kaopg_56_03_04_F11.jpg

그림 11.

Topic 3의 ‘인생’ 관심 지점

Topic 4는 체험 및 배움 관련 키워드들이 존재하여 ‘도심 속 자연공간 인근에 위치한 원데이클래스/공방’으로 주제를 정의하였다. 중심 키워드 ‘꽃집’은 서울숲 인근에 더 많이 분포하고 있었으며, 꽃집 기능만이 아닌 배우거나 체험할 수 있는 경험의 공간적 특성을 나타냈다(그림 12).

https://cdn.apub.kr/journalsite/sites/kaopg/2022-056-03/N037560304/images/kaopg_56_03_04_F12.jpg

그림 12.

Topic 4의 ‘꽃집’ 관심 지점

V. 결론

본 연구는 빠른 기간 내에 장소 특성의 변화가 존재했던 성수동 지역의 최근 장소성을 위치기반 사회 관계망 서비스인 인스타그램 데이터를 활용해 알아보았다. 현 시점의 장소 특성을 분석하기 위해 단기간의 POI 모델을 개발하였으며, POI의 범위 및 밀도 분석을 진행하였다. 특히 본 연구의 구축 모델은 위치뿐만 아니라 범위 및 밀도 분석을 실행하여 데이터의 분포를 더 다양하게 파악하였다. 뿐만 아니라 텍스트 데이터를 기반으로 토픽을 생성하여 각 토픽에 포함된 단어를 통해 주제를 정의하고 특성을 분석하였으며, 이 중 중심키워드를 통해 각 토픽의 POI 모델을 생성함으로써 공간적인 분포를 분석하였다.

본 연구는 데이터를 방법론 측면에서 공간 및 텍스트 분석을 모두 실행함으로써 다양하게 연구지역을 분석하였다는 점에 의의가 있다. 성수동은 환경의 변화와 다양한 매체에 의해 다른 지역보다 빠르게 변모하였기에, 이후 어떤 계기로 얼마나 빠르게 변할지는 모른다. 따라서 현 시점에서의 장소 특성 분석은 장소 흐름 파악에 기여할 수 있을 것이다. 하지만 활용한 데이터가 크롤링의 한계로 #성수핫플 일부 데이터를 활용하다보니 해당 주제를 완벽하게 대변할 수 있을지 의문이다. 또한 명사추출 및 정제 과정에 있어 구어체를 정제하여 정확성이 떨어질 수 있다는 한계점이 있어, 이를 보완할 수 있는 후속 연구가 필요하다.

Acknowledgements

본 논문은 김은영의 상명대학교 석사학위 논문(2022년 8월)의 일부를 수정･보완한 내용임

각주

[1] 1) POI(Point Of Interest)는 특정인이 관심을 가지는 현실 세계 또는 지도나 도면상의 특정위치를 말하며, 관심지점이라고도 한다. ① 주요 시설물, 역, 공항, 터미널, 호텔 등을 전자 수치 지도에 표시하는 데이터, ② 목적지 검색에 사용되는 검색 데이터, ③ 바탕 화면에 표시만 되는 바탕 데이터, 크게 세 개로 구분할 수 있다(이강원･손호웅, 2016).

[2] 2) 크롤링의 한계로 2022년 2월 1일 기준으로 55,032개의 데이터 중 11,093개의 데이터를 추출하여 연구 데이터로 활용하였다. 활용 데이터는 2021년 10월 17일부터 2022년 2월 1일까지의 게시글을 대상으로 하였다. 수집 기간은 2022년 1월 24일부터 2022년 2월 5일이다.

[3] 3) 그림 2, 그림 3의 일반도(배경지도)는 QGIS 플러그인인 TMS for Korea 중 Kakao Maps의 Kakao Street을 활용하였다. 그리고 그림 2, 3의 단계구분도는 내추럴 브레이크(Natural Breaks) 방법을 활용하였다.

[4] 4) Ranks NL, https://www.ranks.nl/stopwords/korean,2022.03.17.

[5] 5) 표 4의 음영 처리된 부분은 토픽 간 공통적으로 나타나는 키워드를 나타낸 것이다.

References

강애띠, 2016, 트윗에서 추출한 스트레스 감성과 토픽의 공간적 특성 연구, 이화여자대학교 박사학위논문.

강애띠･강영옥, 2018, “트윗데이터를 활용한 스트레스 토픽의 지역별 특징 분석,” 한국지도학회지 18(2): 53-69. 10.16879/jkca.2018.18.2.053

강현우, 2019, 텍스트 마이닝 기법을 활용한 젠트리피케이션 현상의 속도 분석 연구: 서울시 종로구 익선동 젠트리피케이션 현상을 중심으로, 서울시립대학교 석사학위논문.

권회윤, 2016, 재난전조 감지를 위한 SNS 데이터의 위험도 분석 및 활용가능성 연구: 침수 관련 트윗을 사례로, 이화여자대학교 석사학위논문.

김민정･김수현･오지혜･엄지윤･강주영, 2021, “SNS 텍스트 마이닝 기반 포스트 코로나 신트렌드 차박 여행 지도 제작 및 차박지 추천에 관한 연구,” 한국IT서비스학회지 20(5): 11-28.

김상현･이한나, 2016, “성수동 지역의 젠트리피케이션 과정 및 특성 연구,” 문화콘텐츠연구 0(7): 81-105. 10.34227/tjocc.2016..7.81

문지영･김학선･이종호, 2020, “의미연결망 분석을 활용한 음식관광 활성화 방안에 관한 연구,” 산업혁신연구 36(2): 135-153.

박상훈･이희정, 2017, “사회네트워크 텍스트 분석을 통한 전통시장 인식 변화에 관한 연구,” 주택도시연구 7(2): 109-125. 10.26700/shuri.2017.08.7.2.109

서구원･민형철, 2008, “기업 복합문화공간의 공간선호도와 기업이미지에 관한 연구,” 서울도시연구 9(4): 71-85.

안성현･박성택, 2020, “외국인 관광객 재방문율 향상과 소비 활성화를 위한 빅데이터 기반의 탐색적 연구,” 산업융합연구 18(6): 19-25. 10.22678/JIC.2020.18.6.019

오효정･배용진･김현기･최남현･윤보현, 2014, “트윗 문서의 사용자 프로파일 기반 POI 상관성 분석,” 한국정보기술학회논문지 12(9): 107-113.

우현지, 2018, 토픽 모델링을 활용한 시공간 트윗 데이터의 장소 특성 연구, 한국교원대학교 박사학위논문.

이강원･손호웅, 2016, 지형공간정보체계 용어사전, 서울: 구미서관.

이종훈･송기성･강진아･황정래, 2015, “범죄발생 위험요소와 연관된 SNS 데이터의 효율적 추출 방법에 관한 연구,” 한국컴퓨터정보학회논문지 20(1): 255-263. 10.9708/jksci.2015.20.1.255

이창용, 2018, “농축산분야 육종을 위한 유전체 선발 방법의 연구동향,” BRIC VIEW 2018-T06. Available from https://www.ibric.org/myboard/read.php?Board=report&id=2911 (Feb 20, 2018)

이혜진･강영옥, 2020, “토픽모델링과 LSTM기반 텍스트 분석을 통한 부산방문 외국인 관광객의 선호관광지 및 관광매력요인 분석,” 한국도시지리학회지 23(3): 61-70. 10.21189/JKUGS.23.3.5

이혜진･윤지영･조나혜･이주윤･박소연･강영옥, 2019, “텍스트마이닝과 딥러닝 기술을 활용한 외국인 관광객의 국내 지역별 이미지 비교,” 한국지형공간정보학회 학술대회 논문집 27-30.

임화진･박성현, 2015, “빅데이터를 이용한 지역미래전략 수립에 관한 시론적 연구,” 한국지적정보학회지 17(1): 75-90.

정연식･엄기종, 2014, “소셜미디어 기반 주민참여형 교통안전 개선 프로그램 사례분석,” 한국ITS학회 학술대회 2014(5): 322-325.

정의석･김병석･황조혜, 2020, “언어네트워크 분석을 활용한 핫플레이스 이미지 연구 -서울특별시 지역별 맛집을 중심으로-,” 관광학연구 44(6): 9-31. 10.17086/JTS.2020.44.6.9.31

차지은, 2019, SNS 데이터를 활용한 공간 소비의 특징 분석: 익선동을 중심으로, 서울시립대학교 석사학위논문.

최유연, 2021, 소셜미디어에 표출된 관광자의 관광경험 공유와 경험적 가치, 경기대학교 박사학위논문.

허대겸, 2021, 빅데이터 분석을 통한 도시공원 이용특성 분석, 계명대학교 석사학위논문.

황혜진, 2016, 사용자 위치 기반 데이터를 활용한 패턴분석 및 장소 분류에 관한 연구, 아주대학교 석사학위논문.

국토지리학회지 ISSN:1225-3766(Print) THE GEOGRAPHICAL JOURNAL OF KOREA