'Archive/SummaryProject'에 해당되는 글 1건

  1. 2013.11.28 요약 API작동 방법
2013. 11. 28. 19:36

안녕하세요.

오늘은 교내 공학경진대회에 출품했던 WSummary 중 요약 API의 작동 원리에 대해 말씀드리겠습니다.


먼저 요약 할 본문이 필요하겠죠?


내년부터 수입·국산차 66개 모델의 자차보험료가 오르고, 국산차 60개 모델은 싸진다.

보험개발원은 상한등급을 올린 ‘차량모델등급제도 개선안’을 최근 금융감독원에 신고했다고 27일 밝혔다. 차량모델등급제도란, 자가용 승용차의 ‘자기차량손해담보’(자차보험)에 대해 모델별로 등급을 정해 보험료를 매기는 제도다. 부품값이 비싼 고급차나 단독 수리가 어려운 경우 자차보험료가 더 많이 책정된다.

보험개발원은 개선안에서 기존 21등급에 상위 등급을 5개 신설해 26개 등급으로 늘렸다. 최고적용율도 중간등급 기준 최고 150%에서 200%로 높아진다. 예컨대, 16등급(기존 11등급) 기준으로 자차보험료를 10만원 냈다면, 1등급 차량은 두 배인 20만원을 내야 한다는 이야기다. 또 수입차는 브랜드 단위로 차종을 세분화했다. 기존엔 수입차는 제작사 기준으로 분류해, 고급 브랜드인 렉서스가 일반 도요타 차량과 요율이 같았다.

이에 따라 수입차 34종 가운데 32종의 자차보험료가 인상되며, 국산차는 172종 가운데 34종이 오른다. 보험료가 오르는 모델은, 1600㏄미만 소형급에선 스파크, 올뉴모닝, 올뉴프라이드, 벨로스터, K3, 쏘울 등이다. 중형급(1600~2000㏄)에선 YF쏘나타, 제네시스쿠페, i40, 크루즈 등이다. 3000㏄이상 대형에서는 뉴체어맨, 올뉴SM7 등이, 다인승 차량은 무쏘, 카렌스Ⅱ, 렉스턴, 싼타페(DM) 등이다. 특히 수입차 중에서는 크라이슬러, 푸조, 인피니트, 폭스바겐 골프 등이 5등급씩 대폭 올랐다. 이들 차량은 자차보험료가 최대 33% 인상될 것으로 보인다.

반면 인하 모델은 뉴마티즈, 마티즈2, 모닝, 아반떼(신형), 쏘나타(신형), 뉴그랜저XG, 뉴에쿠스, 제네시스, 스타렉스 등이다. 그 외 모델명은 손해보험협회 누리집에서 확인 가능하다.

변경된 제도에 따라 손해율이 높은 외제차의 자차보험료는 평균 11.3%, 국산차의 자차보험료는 평균 2.9%가 인하된다. 자동차보험의 전체원수보험료 가운데 자차보험료가 차지하는 비율은 지난해 기준 24%다.


-한겨례신문에서 발췌

http://www.hani.co.kr/arti/economy/economy_general/613049.html


 STEP1

 이러한 본문은 하나의 String이 되서 요약 API에게 가게 됩니다.




STEP2  

이 후 직접 문장 구별법으로 문장을 나누고,

형태소 분석기를 이용하여 단어들만 추출합니다.

추출한 단어들은 전체 단어장에 개수와 함께 저장합니다.

(밑에 보기는 제가 보여드리기 위해 ppt로 임의로 만든겁니다. 실제 결과와는 다릅니다.)


문장 구별은 제가 직접 구했습니다. 

처음에는 '.'에 관하선 나누다가 ".hwp"라는 단어가 나오면 꼬이더군요 그런부분 수정하고,

-이에 나돌라는 "이건 아니지 않냐."라고 말했다.

같이 인용구도 구분 못하길래 전부 구별 할 수 있도록 수정했습니다.


형태소 분석기는

ShineWare님의 Komoran 형태소분석기를 사용했습니다.

링크는 아래주소로

http://shineware.tistory.com/entry/KOMORAN-ver-112-%EC%9E%90%EB%B0%94-%ED%95%9C%EA%B8%80-%ED%98%95%ED%83%9C%EC%86%8C-%EB%B6%84%EC%84%9D%EA%B8%B0

원래 Kaist에서 개발한 한나눔 형태소 분석기를 처음에 사용 했었는데,

이게 전부 닫혀있어서 신조어는 새로 추가 시킬 수 없어서

추가 가능한 Komoran을 사용했습니다.



STEP3

전체 단어들과 현재문장의 단어들, 그리고 문장의 길이 등을 고려하여

각 문장의 가중치를 구합니다.

이론을 바탕으로 전부 직접 구현입니다.

(임의의 표현이여서 실제와 다릅니다.)

이부분에서 Google페이지랭크라던가 통상적인 알고리즘들도 많이 봤지만,

실제적으로 거의 적용 시킨 논문은 통계적 요약 알고리즘이였습니다.

http://m.riss.kr/search/detail/DetailView.do?p_mat_type=be54d9b8bc7cdb09&control_no=9edf8efd93e9161c

그 외로

http://semanticweb.kaist.ac.kr/home/images/1/15/Sentence_Summarization_of_News_Articles.pdf

도 좀 봤었습니다.



STEP4

뉴스는 두괄식이라는 이론에 따라

 앞문장에 있을 수록 가중치 분배를 달리 해줍니다.




STEP5

이제 가장 높은 가중치의 문장들만을 추출합니다.

추출할 문장의 개수는 본문의 길이에 따라 다르게 설정했습니다.

여기서는 임의로 두개를 추출한다 하면



STEP6

이 후 접속사같은 것들을 제거하고,

문장들을 return합니다.







Posted by 나돌라