Linux에서 복잡한 데이터를 시각화하는 방법

03/07 2021
목차
  1. 설치
  2. 일부 데이터 가져오기
그래핀 분자
(이미지: © Shutterstock.com / Production Perig)

Elasticsearch (새 탭에서 열림) 에 대해 들어보셨을 것입니다 . Elasticsearch(새 탭에서 열림)는 데이터를 인덱싱한 다음 신속하게 검색할 수 있는 검색 엔진입니다. Elasticsearch용 GUI인 Kibana에서 세련된 인터페이스를 통해 길을 가리키고 클릭하여 몇 가지 시각화를 생성했을 수 있습니다. 

사용하지 않았을 수도 있는 것은 Timelion ( 새 탭에서 열림) 이라는 덜 알려진 시각화 ( 새 탭에서 열림 ) 플러그인 입니다 .

Timelion은 간단하고 강력한 표현 언어로 쿼리를 작성하여 그래프를 표시할 수 있는 환상적인 시각화 생성 도구입니다. 인구 증가 또는 웹사이트 조회수 (새 탭에서 열림) 와 같은 시계열 데이터를 표시하는 데 사용됩니다 . 

이 기사에 대해

이 기사는 2020년 11월에 발행된 Linux Format Magazine, Issue #269에 처음 실렸습니다.

Timelion을 사용하면 이동 평균을 계산하고 지난주와 오늘 데이터의 차이를 표시하고 몇 가지 기본적인 이상 감지를 수행할 수 있습니다. 작업 방법을 알 수 있는 유용한 도구입니다. 시작하자.

설치

일반 Linux 형식 리더인 경우 LXF261에서 클러스터를 설정하기 위한  docker (새 탭에서 열림) 작성 예제 가 있습니다 .

그렇지 않으면 Elasticsearch와 Kibana를 설치하는 것이 비교적 간단합니다. 유일한 요구 사항은 이미 설치했을 수 있는 Java입니다. 

단순한 sudo apt install default-jre가 아닌 경우 Debian 기반 배포판 (새 탭에서 열림) 에 설치하거나 sudo dnf install java가 Red Hat 배포판 제품군에 대해 동일한 작업을 수행해야 합니다.

그런 다음 원하는 운영 체제에 맞는 Elasticsearch 및 Kibana의  최신 버전 (새 탭에서 열림) 을 다운로드하기 만 하면 됩니다 .

작성 당시 최신 버전은 kibana-7.8.1-linux-x86_64.tar.gz 입니다 . 

tar -xvzf kibana-7.8.1-linux-x86_64.tar.gz 로 추출 하고 추출된 디렉토리로 변경한 다음 ./bin/kibana & 를 실행하여 Kibana 인스턴스를 시작할 수 있습니다. 

Elasticsearch를 설정하기 위해 'kibana'를 'elasticsearch'로 대체하여 정확히 동일한 단계를 수행하면 즐겨 사용하는 브라우저에서 http://localhost:5601 로 이동하여 반짝이는 새 Kibana 인터페이스를 볼 수 있어야 합니다. 주위에. 

패키지 관리자를 사용하여 패키지를 설치하려는 경우 이전과 동일한 링크에 시스템에 Elastic 저장소를 추가하고 그런 방식으로 Kibana 및 Elasticsearch 패키지를 설치하는 방법에 대한 정보가 있습니다.

Timelion의 스크린샷

일부 데이터 가져오기

최신 버전의 Kibana를 사용하면 스크립트나 Logstash 구성을 생성할 필요 없이 Data Visualizer를 사용하여 자동으로 데이터 세트를 클러스터에 수집할 수 있습니다. JSON 또는 CSV 형식의 데이터 세트와 Apache 로그와 같은 일부 표준 로그 파일을 처리할 수 있습니다. 유일한 제한은 크기가 100MB 미만이라는 것입니다. 이것은 우리의 목적에 충분합니다. 

EU Open Data Portal (새 탭에서 열림) 의 전 세계 Covid-19 사례 데이터 세트를 사용할 것입니다 . 페이지의 리소스 섹션에서 CSV 파일을 다운로드했습니다. 

문제가 있는 경우 대신 Excel .xlsx 버전을 다운로드하고 LibreOffice Calc로 열고 텍스트 CSV(.csv) 형식으로 저장할 수 있습니다. 대안으로 사용할 수 있는 다운로드용 JSON 버전도 있습니다.

Kibana의 Data Visualizer로 이동하려면 왼쪽 상단의 햄버거 아이콘을 클릭한 다음 Machine Learning, Data Visualizer를 차례로 클릭합니다. 데이터 가져오기 상자 내에서 파일 업로드를 클릭한 다음 파일을 선택하거나 드래그 앤 드롭하고 수집할 csv 파일을 선택합니다. 

간단한 분석 후 CSV 파일의 처음 1,000줄에서 발견된 일부 통계를 표시합니다. 이것은 텍스트, 날짜 또는 숫자와 같이 각 필드가 있다고 생각하는 형식이며 필드에서 찾은 상위 값을 강조 표시합니다.

일반적으로 우리를 위해 이것을 알아내는 것이 좋습니다. 조정이 필요한 경우 재정의 설정을 클릭하여 수정할 수 있습니다. 예를 들어 Elasticsearch에서 설정할 필드의 이름입니다. 

재정의해야 하는 필드 이름 중 하나는 데이터세트에서 계산된 수치의 날짜를 나타내는 dateRep 입니다. Timelion은 기본적으로 이것을 시간 필드로 사용하는 방법을 알지 못하므로 나중에 이 필드의 이름을 인식할 수 있는 이름으로 변경하여 나중에 작업을 단순화할 수 있습니다. 

좋은 후보는 timestamp 입니다 . 적용을 클릭하여 설정합니다. 나머지 모양이 만족스러우면 하단에서 가져오기를 클릭하고 색인에 이름을 지정한 다음(covid를 선택함) 가져오기를 다시 클릭하여 데이터를 클러스터로 가져옵니다.