시맨틱 웹

From The Hidden Wiki
Jump to navigationJump to search

시맨틱 웹(Semantic Web)은 '의미론적인 웹'이라는 뜻으로, 현재의 인터넷과 같은 분산환경에서 리소스(웹 문서, 각종 화일, 서비스 등)에 대한 정보와 자원 사이의 관계-의미 정보(Semanteme)를 기계(컴퓨터)가 처리할 수 있는 온톨로지형태로 표현하고, 이를 자동화된 기계(컴퓨터)가 처리하도록 하는 프레임워크이자 기술이다. 웹의 창시자인 팀 버너스 리1998년 제안했고 현재 W3C에 의해 표준화 작업이 진행 중이다.

시맨틱 웹과 현재 웹의 차이

기존의 HTML로 작성된 문서는 컴퓨터가 의미정보를 해석할 수 있는 메타데이터보다는 사람의 눈으로 보기에 용이한 시각정보에 대한 메타데이터와 자연어로 기술된 문장으로 가득 차 있다. 예를 들어 <em>바나나</em>는 <em>노란색</em>이다. 라는 예에서 볼 수 있듯 <em>이라는 태그는 단지 바나나노란색이라는 단어를 강조하기 위해 사용된다. 이 HTML을 받아서 처리하는 기계(컴퓨터)는 바나나라는 개념과 노란색이라는 개념이 어떤 관계를 가지는지 해석할 수 없다. 단지 <em> 태그로 둘러싸인 구절을 다르게 표시하여 시각적으로 강조를 할 뿐이다. 게다가 바나나가 노란색이라는 것을 서술하는 예의 문장은 자연어로 작성되었으며 기계는 단순한 문자열로 해석하여 화면에 표시한다.

시맨틱 웹은 XML에 기반한 시맨틱 마크업 언어를 기반으로 한다. 가장 단순한 형태인 RDF는 <Subject, Predicate, Object>의 트리플 형태로 개념을 표현한다. 위의 예를 트리플로 표현하면 <urn:바나나, urn:색, urn:노랑>과 같이 표현할 수 있다. 이렇게 표현된 트리플을 컴퓨터가 해석하여 urn:바나나 라는 개념은 urn:노랑 이라는 urn:색을 가지고 있다는 개념을 해석하고 처리할 수 있게 된다. 보다 구체적인 예로 네이버가 NHN 소유임을 나타내는 트리플은 <https://naver.com, urn:wikipedia-ko:소유, https://nhncorp.com> 과 같이 된다. 시맨틱 웹은 이러한 트리플 구조에 기반하여 그래프 형태로 의미정보인 온톨로지를 표현한다.

HTML5에서의 시맨틱 웹

HTML5에서는 시맨틱 웹을 쉽게 구성할수 있도록 만들어주는 요소들이 추가되었는데, 기존에

<div id="header"> 내용 </div>

로만 나타낼수 있던 머리 부분을

<header> 내용 </header>

로 쉽게 더 의미론적으로 나타낼수 있게 되었다.이는 div와 id=header 모두 읽었던 예전 XHTML이나 HTML4보다 훨씬 효율적이라고 볼수 있다.

시맨틱 웹의 개념

웹 기술은 정보표현과 전달에 간편한 방법을 제공하여 인터넷이 실생활까지 확산되는 기폭제 역할을 하였다. 그러나, 웹상에 축적된 정보가 방대해 짐에 따라 많은 문제에 봉착하게 되었다. 웹 기술은 축적된 방대한 데이터에 대하여 키워드(keyword)에 의한 정보 접근만을 허용하고 있어, 정보 검색시 무수히 많은 불필요한 정보가 돌출하여 정보 홍수를 가중시키고 있다. 또한, 컴퓨터가 필요한 정보를 추출, 해석, 가공할 수 있는 방법이 없어, 모든 정보를 사용자가 직접 개입해서 처리하여야 하는 문제가 있다. 이러한 문제들의 근본원인은 컴퓨터가 정보자원의 의미를 이해하지 못하는데 원인이 있다. 이러한 웹 기술은 팀 버너스리가 초창기에 구상하였던 웹과도 거리가 있다.

2001년 팀 버너스리등에 의해 웹 기술의 비전으로 시맨틱 웹이 제시되었다. 시맨틱 웹은 기존 웹을 확장하여 컴퓨터가 이해할 수 있는 잘 정의된 의미를 기반으로 의미적 상호운용성(semantic interoperability)을 실현하여, 다양한 정보자원의 처리 자동화, 데이터의 통합 및 재사용등을 컴퓨터가 스스로 수행하여, 인간과 컴퓨터 모두 잘 이해할수 있는 웹을 만드는 것이 목표이다.

의미적으로 주석화된 웹

온톨로지로 주석화된 웹(semantically annotated Web) 정보 자원은 일종의 지식베이스를 형성한다. 시맨틱 웹에서는 온톨로지의 의미적 상호 운용성을 기반으로 인터넷의 분산 정보 자원을 의미적으로 통합한 거대한 지식 베이스를 구축할 수 있다.

에이전트

Template:참고 인간(사용자)를 대신하여 정보 자원을 수집, 검색하고 추론하여, 온톨로지를 이용해서 다른 에이전트와 상호 정보 교환등의 일을 수행하는 지능형 에이전트(agent)이다. 지능형 에이전트는 시맨틱 웹 기반 응용 서비스의 핵심 요소라 할 수 있다..

시맨틱 웹 언어

시맨틱 웹에서 Subject, Predicate, Object는 XML의 URI 형태로 표현되며, 이는 웹 환경에 산재한 자원에 대한 온톨로지를 기술하는 데 목적이 있다. 현재 시맨틱 웹 온톨로지를 기술하는 표준 언어로 W3C에서 제안한 RDF, OWL 그리고 ISO에서 제안한 TopicMaps 등이 있으나 국지적으로는 N3, N-Triple 또는 인공지능 분야에서 예전부터 쓰이던 KIF 형태로도 온톨로지가 작성된다.

시맨틱 웹 기술과 표준

시맨틱 웹은 다음과 같은 기술들로 구성되어 있다.

  • 명시적 메타데이터(explicit metadata)는 메타데이터와 추론에 필요한 규칙 등을 XML(eXtensible Markup Language), RDF(Resource Description framework)와 같은 언어 기술을 통해 표현한다.
  • 온톨로지(ontologies)라는 지식 표현 기술을 이용하여 데이터의 의미와 관계 정보를 체계적으로 표현한다.
  • 논리적 추론(logical reasoning)은 온톨로지와 함께 결합된 관계 정보들로부터 새로운 정보를 도출해 내는 것을 가능하게 한다.

W3C는 시맨틱 웹 액티비티 그룹 산하의 워킹그룹을 통하여 다음과 같은 관련 표준을 개발하였다.

  • RDF (Resource Description Framework)
  • GRDDL (Gleaning Resource Descriptions from Dialects of Languages)
  • RDFa in XHTML
  • SPARQL Query Language for RDF:
  • OWL (Ontology Web Language)

frame|시맨틱 웹 기술 계층 구조<ref>W3C, 2007</ref>

시맨틱 웹의 기술 계층 구조는 다음과 같다.

  • URI (Uniform Resource Identifier):웹 상의 자원을 식별하기 위한 객체의 명칭, 위치 등의 표현이다.
  • IRI (International Resource Identifier with UNICODE)
  • XML (eXtensible Markup Language): 메타 정보 표현 언어인 XML, XML 상에서의 동일한 요소나 속성을 구분하기 위해 쓰이는 이름인 Namespace, XML 문서의 마크업 방식에 대한 정의인 XML Schema 등과 같은 다양한 표준을 의미한다.
  • RDF (Resource Description Framework): RDF는 정보 자원이나 자원의 구조를 표현하는 언어이다.
  • RDFS: RDF의 Schema 정보로 경량의 온톨로지를 표현한다.
  • SPARQL: RDF 질의를 위한 언어이다.
  • RIF (Rule Interchange Format): 규칙의 정의와 교환을 위한 계층이다.
  • OWL: 특정 도메인에 대한 공유되는 일반적인 이해와 개념, 개념과의 관계를 표현하기 위한 언어이다.
  • 로직(Logic): 기존에 정의된 정보들을 바탕으로 새로운 결론을 도출하는 추론 기능 등을 의미한다.
  • 증거 / 신뢰(Proof / Trust): 웹의 정보에 대한 신뢰를 말한다.

시맨틱 웹의 이상(理想)

지금과 같이 사람만이 웹에 산재한 정보의 의미를 파악하는 것이 아닌, 자동화된 기계가 해석할 수 있는 일종의 표준 의미정보 교환의 수단 이 되는 것이 시맨틱 웹의 목적이다. 시맨틱 웹의 이상향은, 인터넷에 방대한 양의 온톨로지가 산재하고, 이를 자동으로 해석하여 처리할 수 있는 에이전트 소프트웨어에 사람 또는 에이전트가 질의를 하면, 컴퓨터가 자동으로 분산된 온톨로지를 탐색하고 추론하여 원하는 결과를 돌려주는 것이다.

시맨틱 웹에 대한 오해

  1. 현재 통용되는 웹 2.0이라는 용어는 오라일리 미디어(O'Reilly Media)에 의해 만들어졌으며 XML, AJAX, 시맨틱 웹과 같은 특정 기술을 지칭하는 말이 아닌, 현재 인터넷 업계의 신기술이 지향하는 경향을 일컫는 말이다. 1998년에 팀 버너스 리가 시맨틱 웹을 제안했을 때 "차세대 웹"이라는 표현을 사용하여 많은 사람들이 웹 2.0과 혼동한다.
  2. 시맨틱 웹을 통한 인터넷에 존재하는 모든 지식을 공유한다는 말과 같은 표현은 시맨틱 웹을 지나치게 확대 해석하는 전형적인 예이다. A 온톨로지와 B 온톨로지에 같은 개념에 대해서 서로 상충하는 관계를 가지는 경우는 얼마든지 일어날 수 있다. 시맨틱 웹의 온톨로지는 해당 분야(Domain)에 대해서만 유효하면 된다. 예를 들어 관공서 온톨로지에 개의 사체는 음식물 폐기물로 분류되어 쓰레기 봉투에 넣어야 하는 폐기대상이 될 수 있지만 동물병원 온톨로지에는 동물전용 화장터로 보내서 화장을 해야 하는 대상으로 분류될 수 있다. 따라서 해당 분야에 적합한 온톨로지를 선별하여 활용해야 한다.
  3. “시맨틱 기술은 오직 웹만을 위한 것이다.”라는 생각이다. 이것이 시맨틱 기술에 관한 가장 일반적이고 보편적인 오류일 것이다. 하지만 실제는 그렇지 않다. 시맨틱 기술은 내부 시스템들에서도 활용할 수 있다. 시맨틱 기술은 웹에서의 응용뿐만 아니라 내부 정보의 활용과 웹 기반이 아닌 외부 정보의 활용까지도 가능하다. 즉 시맨틱 기술은 대규모 데이터 통합을 해결하기 위하여 사용될 수 있다.
  4. “시맨틱 기술은 우리가 지금 사용하는 것으로부터 분리될 것이다.”라는 생각이다. 하지만 실제로 시맨틱 웹은 처음부터 새롭고 분리된 웹의 창조를 의도하지 않고 있다. 오히려 우리가 쉽게 볼 수 없는 것들을 찾아서 볼 수 있는 구조를 제공함으로써 오늘날 우리가 사용하는 문서들의 질적 향상을 꾀하는 것이 목적이라고 할 수 있다.
  5. “시맨틱 웹 기술은 실제적으로 구조화된 데이터 접근만을 위한 것이다.”라는 생각이다. 많은 논문들이 현재 데이터베이스에 숨겨진 정보들을 온라인 접속을 통하여 어떻게 접근할 것인가에 초점을 맞추고 있다. 하지만 그것은 반쪽의 진실에 불과하다. 시맨틱 기술은 오히려 통합을 훨씬 더 단순하게 만들 수 있으며 구조화되지 않은 데이터를 위해서도 활용될 수 있다.
  6. “시맨틱 웹은 공유하기를 원하지 않는 정보까지도 모든 사람이 사용할 수 있도록 만들 것이다.”라는 생각이다. 실제로 기업들은 때때로 웹 기술들이 통제의 결함을 지니고 있다는 문제에 직면하게 된다. 하지만 기업들이 웹에서 진정한 이득을 얻으려고 한다면 몇몇 데이터만 통제하면 된다. 불필요한 정보의 통제보다는 통제된 환경을 제한시키는 것이 더 필요할 것이다.
  7. “시맨틱 웹이 새로운 존재를 만들어내기 위해 많은 투자를 요구하게 될 것이다.”라는 생각이다. 하지만 실제로 다른 사람들의 작업을 활용한다면 반드시 그런 것만은 아니다. 예를 들어, musicontology.com 혹은 DBpedia와 같은 것들을 필요에 맞추어서 더 구체적으로 변형하여 활용한다면 좋은 결과를 얻어낼 수 있을 것이다.
  8. “시맨틱 웹 기술은 모두가 이론일 뿐이지, 아무도 실제로 시맨틱 웹을 가지고 무엇을 하고 있지 않다.”는 생각이다. 하지만 그렇지 않다. 이미 야후나 구글에서도 많은 시맨틱 웹 관련 검색 도구들이 개발되어서 사용되고 있으며, 이런 것들이 시맨틱 기술을 위해 새롭고 중요한 전환점이 될 것이다.
  9. 시맨틱 웹 기술은 단지 검색 엔진만을 위한 것은 아니다. 시맨틱 웹 기술은 암 치료의 증진에도 기여할 수 있고, 석유가스 산업에도 응용될 수 있으며, 많은 일반 기업들에서도 활용될 수 있다.

이런 오해들을 짚어보면 의미 있는 시맨틱 기술이 회사들과 여러 기관들의 데이터를 관리하고 통합하는 방법”을 보여주고 있다는 사실을 알 수 있다.

그리고 결론적으로, 시맨틱 웹은 HTML로 대표되는 현존 웹을 대체하는 것이 목적이 아니라는 것이다. 기존 웹과 함께 의미정보를 포함하는 메타데이터를 기술하는 시맨틱 웹이 공존하며 정보에 대한 자동화된 접근성을 높이려는 데 목적이 있다.

시맨틱 웹의 응용

대중적으로 가장 널리 알려진 시맨틱 웹의 활용 예는 RSS이다. RSS(RDF Site Summary) 첫 버전인 0.9와 1.0은 바로 RDF로 작성되어 있다. 이후 버전에서는 RDF를 사용하지 않으며 이름도 Really Simple Syndication 또는 Rich Site Summary로 혼재되어 사용되고 있다. 현재 시맨틱 웹에 대한 시도는 의미적 메타데이터 체계를 구축하고 이를 활용하고자 하는 다양한 분야에서 활발하게 진행되고 있다.

  • 커뮤니티, 블로그
  • 데이터 통합
  • 포탈 및 검색
  • 시맨틱 웹 서비스
  • 기업 소프트웨어
  • 지식 관리
  • 비즈니스 인텔리전스
  • 가상 공동체에 대한 연결
  • 멀티미디어 데이터 관리
  • 콘텐츠 어댑테이션 및 명명

시맨틱 웹의 전망

시맨틱 웹은 이제 더 이상 연구를 위한 기술이 아니라, 상용화 단계로 발전하고 있다. eClassOWL, BioPAX와 같은 다양한 온톨로지, AllegroGraph, TopBraid와 같은 상용도구가 개발되었고, 노키아 S60 포털, Haper 온라인 매거진, Yahoo!Food등 수많은 사이트들에서 시맨틱 웹 기술이 활용되고 있다. 이미 인터넷 상에는 107 시맨틱 웹 문서가 존재하는 것으로 알려지고 있다. Garlik, Radar Networks, Joost, Ontology Works 등 수많은 시맨틱 웹 기업이 활발한 제품 개발과 비즈니스 활동을 전개하고 있다.

분산된 정보자원을 의미적 상호 운용성으로 통합하여 거대한 지식 베이스를 구축한 시맨틱 웹은, 웹서비스에도 의미적 상호운용성을 실현하여, 궁극적으로 시맨틱 웹 서비스(Semantic Web Service)로 진화하여 갈 것이다. 온톨로지 언어 OWL 개발과 동시에 서비스 온톨로지인 OWL-S가 개발되었고, W3C의 SWSI나 유럽의 WSMO/L/X 연구등에서 알 수 있는 바와 같이, 시맨틱 웹은 지식을 넘어서 지식 서비스로 나아가고 있다.

현재는 서로 독립적이며 자발적으로 발전되어 온 웹2.0과 시맨틱 웹은 자신의 영역을 더욱 확대하기 위하여 상존하고 있지만, 궁극적으로는 자연스럽게 통합되어 차세대 웹 기술로 나타날 것이다. 이미, 마이크로포맷, RDFa, GRDDL, RSS 등에서 상호 협력이 진행되고 있고, 인간 중심의 RIA 인터페이스와 컴퓨터 중심의 시맨틱 비즈니스 프로세스를 기반으로 하는 새로운 엔터프라이즈 시스템의 개발이 가속화되고 있다. 웹2.0과 시맨틱 웹은 경계가 분명한 경쟁기술이 아니라, 그림2처럼 차세대 웹 기술 발전 추세에서 보는 바와 같이 차세대 웹을 향한 진행 과정의 기술로 가까운 시일 내에 서로를 감싸게 될 것이다.

같이 보기

주석

<references />

참고 문헌 및 외부 링크

  1. Tim Berners-Lee, James Hendler, Ora Lassila The Semantic Web, Scientific American, May 2001
  2. Nigel Shadbolt, Wendy Hall, Tim Berners-Lee, The Semantic Web Revisited, IEEE Intelligent Systems, 2007
  3. Semantic Web Best Practices and Deployment Working Group
  4. James Hendler, Ora Lassila, SemWeb@5: Current Status and Future Promise of the Semantic Web, Semantic Technology Conference, March, 2006
  5. Anupriya Ankolekar et al, The TwoCultures: Mashing up Web 2.0 and the Semantic Web, WWW2007, May, 2007
  6. Tim Berners-Lee, Wendy Hall, James Hendler, Nigel Shadbolt, Daniel J. Weitzner, Creating a Science of the Web, Science, August, 2006
  7. Tim Berners-Lee et al, A Framework for Web Science, Foudations and Trends in Web Science, Vol.1, No.1, 2006
  8. 전양승 외, 시맨틱 웹 서비스 기술 연구 동향, 정보과학회지, 2006년 4월
  9. 전종홍 외, 시맨틱웹, TTA Journal, No 107, 2006년, 10월
  10. Loraine Lawson, Loraine Lawson, https://www.itbusinessedge.com/cm/blogs/lawson/myths-about-semantic-technology-part-i/?cs=33168, 2009
  11. knol - 시맨틱웹

분류:인터넷 분류:인공지능 분류:컴퓨터 과학 분류:월드 와이드 웹 분류:문헌정보학