Google과 같은 주류 검색 엔진은 그들이 하는 일에 꽤 능숙하지만 많은 사람들이 개인 정보 보호 문제 때문에 사용하지 않기로 선택합니다 . 그런 다음 작성자가 검색 엔진 최적화(SEO) 에 대한 모범 사례를 따르지 않았기 때문에 콘텐츠가 크랙을 통해 떨어지는 것에 대해 우려하는 사람들이 있습니다 .
오픈 소스 분산 검색 엔진인 YaCy (새 탭에서 열림) 는주류 경쟁 검색 엔진과 매우 유사하게 작동하지만 어떤 문제도 겪지 않습니다. YaCy는 P2P(Peer-to-Peer) 네트워크를 사용하므로 검색 엔진 인스턴스를 실행하는 모든 사용자가 인터넷 색인 생성에 참여합니다. 인덱스는 모든 YaCy 사용자에게 분산되고 중복됩니다.
개인 정보 자격 증명을 더욱 강화하기 위해 YaCy는 본질적으로 모든 검색을 기능적으로 익명으로 만들어 누가 어떤 단어를 검색했는지 알 수 없도록 합니다.
YaCy는 공개적으로 액세스할 수 있고 비밀번호로 보호되지 않은 페이지만 인덱싱합니다. 또한 이를 웹사이트 의 검색 엔진으로 사용하거나 인트라넷의 페이지 색인을 생성하는 데 사용할 수 있습니다. 이렇게 하면 네트워크 외부의 사람이 액세스할 수 없습니다.
설치
YaCy는 Java로 작성되었으며 Windows , macOS 및 Linux 에서 실행됩니다 . 검색 엔진은 복잡한 짐승이지만 YaCy의 분산 특성 덕분에 YaCy 클라이언트를 실행하기 위해 빠른 시스템이나 많은 공간이 필요하지 않습니다.
Installation is fairly simple. Before you begin, ensure you have Java installed on the machine. Windows and macOS users can obtain pre-built binaries from Adoptium (opens in new tab), while Linux users can pull it from their official repositories.
For instance, Debian users can use sudo apt install default-jdk, while Fedora users can search for the available versions with sudo dnf search openjdk, before installing the latest version with sudo dnf install <openjdk-package-name>.
Java를 설치했으면 플랫폼용 YaCy 실행 파일 (새 탭에서 열림) 을 다운로드하고 압축을 풉니다. 예를 들어 sudo tar --extract --file yacy_*z --directory /opt -v 명령은 Linux의 /opt 디렉터리 아래에 설치 프로그램을 추출합니다. 이제 추출된 디렉토리로 변경하고 YaCy를 시작하기만 하면 됩니다.
# cd /opt/yacy
# ./startYACY.sh
YaCy는 이제 컴퓨터의 포트 8090에서 실행 중입니다. 웹 브라우저를 실행하고 http://localhost:8090 으로 이동하여 YaCy 인스턴스에 액세스합니다. 이제 일반 검색 엔진을 사용하는 것처럼 인터넷을 검색할 수 있습니다.
인터넷 크롤링
수동적으로 검색하는 것보다 YaCy 검색 엔진으로 할 수 있는 일이 훨씬 더 많습니다. 예를 들어 P2P 인덱싱은 사용자 중심이므로 YaCy에게 모든 웹사이트를 크롤링하도록 요청할 수 있습니다.
검색 엔진의 고급 관리 컨트롤에 액세스하려면 오른쪽 상단 모서리에 있는 관리 버튼을 클릭합니다. 이렇게 하면 관리자 패널이 나타나며 무엇보다도 YaCy 인스턴스가 네트워크의 다른 YaCy 클라이언트와 상호 작용하는 방식을 조정할 수 있습니다.
수동 웹 크롤링을 시작하려면 첫 번째 단계 메뉴에서 웹 페이지 로드, 크롤러 옵션 으로 이동합니다 . 제공된 공간에 URL을 입력하고 Start New Crawl(새 크롤링 시작)을 누르십시오 . 크롤러가 진행되면 크롤링에 대한 모든 종류의 통계가 표시되기 시작하며 아래로 스크롤하여 스크롤된 웹사이트의 구조를 그래픽으로 볼 수 있습니다.
크롤링을 시작한 후 모니터링 > 색인 브라우저 로 이동하여 인덱싱된 페이지 수를 확인하고 페이지 이름 및 아웃바운드 링크 수와 같은 기타 세부 정보를 확인합니다.
지금은 기본 옵션을 사용하고 YaCy에 익숙해지면 크롤러 제한과 같은 다른 옵션을 탐색할 수 있습니다. 검색 엔진은 동시에 여러 크롤링을 실행할 수 있으며 첫 번째 단계 섹션에서 순차적으로 시작하거나 프로덕션 > 고급 크롤러 로 이동하여 동시에 여러 웹사이트를 크롤링할 수 있습니다.
크롤링 작업이 시작되면 YaCy는 사용자가 입력한 URL을 인덱싱하고 로컬 시스템에 인덱스를 저장합니다. 전 세계 YaCy 사용자가 인덱스를 사용할 수 있도록 하려면 YaCy의 P2P 네트워크에 가입해야 합니다.
이를 위해 라우터의 방화벽에서 포트 8090을 열어야 합니다. 라우터의 관리 페이지에 로그인하고 방화벽 또는 포트 포워딩을 제어하는 구성 패널을 찾습니다 .
라우터의 방화벽에 대한 기본 설정을 찾으면 화이트리스트에 포트 8090을 추가합니다. 라우터가 포트 전달을 수행하는 경우 동일한 포트를 사용하여 들어오는 트래픽을 컴퓨터의 IP 주소로 전달해야 합니다.
YaCy 네트워크에 가입한 후 Advanced Crawler 아래에서 Do remote indexing 옵션을 토글할 수 있습니다 . 이렇게 하면 클라이언트가 인덱싱 중인 URL을 브로드캐스트할 수 있으며 요청을 수락하기로 선택한 네트워크의 다른 클라이언트가 크롤링을 수행하는 데 도움을 줄 수 있습니다.
나만의 Google
웹을 검색하는 대신 YaCy를 사용하여 자신의 데이터를 검색하거나 회사 인트라넷 내부의 로컬 파일 공유에 대한 검색 시스템을 구현할 수 있습니다.
이를 위해서는 YaCy를 내부 인덱서로 실행해야 합니다. 이 모드에서는 로컬 네트워크에 있는 사람만 YaCy의 개인화된 인스턴스를 사용하여 공유 파일을 찾을 수 있으며 데이터는 네트워크 외부의 사용자와 공유되지 않습니다.
관리 > 첫 번째 단계 > 사용 사례 및 계정으로 이동 합니다 . 여기에서 YaCy 인터페이스의 언어와 같은 기본 세부 정보를 지정할 수 있습니다.
여기에서 YaCy 인스턴스의 동작을 변경할 수도 있습니다. 기본 옵션은 클라이언트를 YaCy의 글로벌 P2P 네트워크의 일부로 사용하여 웹 크롤링 및 인덱싱을 지원하는 것입니다.
자신의 웹 사이트에 대한 검색 포털을 만들려면 자신의 웹 페이지에 대한 검색 포털 옵션 을 선택해야 합니다 . 그런 다음 아래로 스크롤하여 구성 설정 버튼을 누릅니다 . 다음으로 도메인을 크롤링하여 검색 도구를 통해 사용할 수 있는 콘텐츠를 생성해야 합니다.
검색을 웹 사이트에 통합하려면 왼쪽 열을 아래로 스크롤하여 검색 포털 통합 섹션으로 이동하십시오. YaCy의 모양을 회사 브랜딩으로 사용자 지정하여 웹 사이트에 혼합할 수 있는 포털 구성 페이지 로 이동합니다 . 완료되면 검색 페이지 변경 버튼을 누르십시오. 이제 생성된 iframe 코드 스니펫을 사용하여 YaCy 기반 맞춤형 검색을 웹사이트에 통합할 수 있습니다.
마찬가지로 YaCy를 사용하여 로컬 네트워크를 인덱싱하려면 첫 번째 단계 섹션 에서 세 번째 옵션을 선택해야 합니다 . 그런 다음 고급 크롤러를 사용하여 인트라넷을 크롤링 할 수 있습니다 .
결론
YaCy로 할 수 있는 일이 훨씬 더 많습니다. 이 프로젝트는 검색 엔진의 모든 기능을 다루기에 충분한 문서를 제공하지 않습니다. 그러나 프로젝트는 매우 직관적이며 인터페이스는 올바른 옵션을 전환하는 데 도움이 될 만큼 장황합니다.
모든 것을 고려할 때 YaCy는 편파적이지 않고 광고가 없으며 개인 정보를 존중하는 익명의 웹 검색 엔진을 원하는 사용자를 위한 최상의 옵션 중 하나이며 사용자가 웹 사이트 또는 인트라넷 내에서 비공개로 콘텐츠를 검색하는 데 사용할 수도 있습니다.