[과제]SE-COCOMO | Q&A | 2006.10.11 21:09 | |||
| ||||
|
'IT' 카테고리의 다른 글
[IPv6 강좌] IPv6 프로토콜 구조와 IPv4와의 비교 (0) | 2007.08.20 |
---|---|
컴퓨터 조립 내 손으로 완벽 가이드 (2) | 2007.08.12 |
화일시스템 (0) | 2007.05.29 |
키워드 (0) | 2007.05.18 |
PMP자격증.. (0) | 2007.05.07 |
[과제]SE-COCOMO | Q&A | 2006.10.11 21:09 | |||
| ||||
|
[IPv6 강좌] IPv6 프로토콜 구조와 IPv4와의 비교 (0) | 2007.08.20 |
---|---|
컴퓨터 조립 내 손으로 완벽 가이드 (2) | 2007.08.12 |
화일시스템 (0) | 2007.05.29 |
키워드 (0) | 2007.05.18 |
PMP자격증.. (0) | 2007.05.07 |
http://blog.naver.com/captainship/20034019894
화일시스템관련 글인데 ... 복사가 안되네요..ㅠㅠ
탐구시간:디스크의 헤드를 필요한 실린더(또는 트랙번호)로 이동시키는 과정
회전지연시간:디스크 헤드가 지정된 실린더에 도착한 후 지정된 섹터가 헤드 아래에
도착할 때까지 기다리는 시간
전송시간:디스크 주소상의 표면 번호에 따라 해당 섹터를 읽어 전송하거나 전송된 데이터를 해당 섹터에
기록하는 시간.
데이터 접근 시간(data access time) : 위의 3가지 시간을 모두 더한 시간
따라서 비중은 탐구시간>회전 지연시간>전송시간
출처: http://blog.naver.com/abk3737
1주차 학습내용
순번 | Topic | 주요내용 |
1 | 메모리 계층 구조 | 계층 구조, 메모리 인터리빙, RAM의 종류, 메모리 속도 향상 |
2 | 캐쉬 메모리 | 직접사상, 완전연관, 세트연관, 세트사상, 구역성, 일관성 |
3 | 가상 메모리 | 분할기법, 주소 Mapping기법, 관리정책, Page 교체 기법 |
4 | 메모리 할당 | Thrashing, Swaping, Demand Paging |
5 | 입출력장치 | 입출력 기법(Channel,DMA,Polling,Interrupt,Buffering) |
6 | DMA | Cycle Stealing |
7 | Interrupt | Interrupt 종류, 처리 |
8 | 컴퓨터 성능평가 | 성능평가 기법(MIPS, SPEC, TPC Benchmark 등) |
9 | RISC/CISC/EPIC | 유형별 특징, 상호 비교 |
10 | 병렬컴퓨터 | 분류, SMP/MPP/UMA/NUMA/COMA, 강결합/약결합 |
11 | Pipelining | 개념, 슈퍼스칼라, 슈퍼파이프라인, VLIW |
12 | 결함허용컴퓨터/RAID | RAID종류 및 특징, 선정시 고려사항 |
13 | Cluster | 개념, 종류, 사용이유, 활용사례, 고가용성 |
14 | 미들웨어 | 종류(RPC, TP-Monitor, CORBA), 사용이유 |
15 | Thread/Multithread | Thread개념, Multi-Thread 적용 사례 |
2주차 학습내용
순번 | Topic | 주요내용 |
16 | Bus | ISA, EISA, MCA, VLB, PCI |
17 | Kernel | 종류(Micro / Monolithic Kernel), 상호 비교 |
18 | 언어변환기 | Compiler, Interpreter, Macro, Linker, Loader |
19 | 교착상태(Deadlock) | 요구조건, 해결방법 |
20 | 프로세스 동기화 | Semaphore, Eventcount, Sequence |
21 | CPU 스케쥴링 | 프로세스 상태, 스케쥴링 단계, 스케쥴링 기법 |
22 | OS | UNIX/LINUX/Window XP 구조, 특징, 상호 비교 |
23 | Embedded Linux | Embedded System, 해결 과제 |
24 | .NET/J2EE | 웹 서비스, .NET/J2EE 상호 비교 |
25 | Thin Client | 특징, NC/ASP와의 비교, 장단점 |
26 | DAS/NAS/SAN | 특징, 장단점, 상호 비교, NDMP |
27 | 자료구조(Tree) | B/B+/B* tree, Binary Search, Indexed, Hashed file |
28 | Hashing | Dynamic/Extensible Hashing, Collision 해결방법 |
29 | 정보검색, Inverted file | 내용기반/감성기반/주석기반/자연어 기반 검색, Thesaurus |
30 | Z39.50 | 개념, 지원 서비스 기능, 문제점, 운용사례, 전자도서관 |
3주차 학습내용
순번 | Topic | 주요내용 |
31 | 스키마(Schema) | ANSI/SPARC 구조, Star/Snowflake Schema |
32 | DBMS | DBMS 분류, 차세대 DB(MMDB, 멀티미디어 DB) |
33 | 트랜잭션 특성 | ACID, 2단계 Locking, 2Phase Commit |
34 | 트랜잭션 처리 | 동시성 제어, 회복, Timestamp, Checkpoint |
35 | 데이터베이스 보안 | DB 보안모델, DB 보안단계 |
36 | 분산 DB | 분산DB 설계시 고려사항, 문제점, 해결방안 |
37 | OSI 7 Layer | |
38 | 인터네트워킹 장비 | Repeater, Bridge, Hub, Switch, Router, Gateway |
39 | 무선 LAN(Wi-Fi) | 특징,표준화 기술,작동방식, Bluetooth/IrDA/SWAP과의 비교 |
40 | 고속 LAN | ATM, Fast/Gigabit/10 Gigabit/Metro Ethernet, VLAN |
41 | xDSL | ADSL / CATV / 위성 /WLL 유형별 특징, 동향 |
42 | 무선가입자망 | WLL(Wireless Local Loop)/BWLL |
43 | IMT-2000 | 동기식/비동기식, 서비스, 표준화, MBS, GPRS |
44 | HDR (High Data Rate) | IS95C와의 비교 |
45 | 위성방송/인터넷 방송 | 적용기술, 당면과제, 발전방향, Push |
4주차 학습내용
순번 | Topic | 주요내용 |
46 | 망 관리시스템(NMS) | NMS, SNMP |
47 | VPN/Tunneling/IPSec | 특징, 요소기술, VPN의 tunneling 기술, MPLS |
48 | MBONE | Multimedia Backbone |
49 | Datagram/Virtual Circuit | 개념, Datagram/Virtual Circuit 상호 비교, 장단점 |
50 | IPv6 /Mobile IP | IPv4와의 비교, 주소체계, 라우팅, IPv4->IPv6 전환기술 |
51 | CDN/Cache Server | 요소기술, 특징, 도입효과 |
52 | SDLC | 모델의 특징, 장단점 비교(Waterfall, Spiral 등) |
53 | 모듈화 | Coupling, Cohesion, Reuse |
54 | 객체지향개념 | 추상화, 상속, 다형성, 캡슐화, 정보은닉, Overriding/roading |
55 | 테스트기법 | White/Black, Stub/Driver, Validation/Verification, 동적/정적 |
56 | 형상관리 | 형상관리 방안, 개념,절차, 필요성, 효과, Baseline |
57 | 프로젝트 관리 | 프로젝트 관리의 3대요소, 관리범위, PM의 역할 |
58 | 프로젝트 실무 | 프로젝트 계획서/제안서/RFP 작성 방법, 사례 |
59 | Outsourcing | 절차, 전략, 미진한 이유, 해결방안, 4가지유형, 문제점 |
60 | S/W 규모산정 | FP, Delphi, Cocomo, Loc |
5주차 학습내용
순번 | Topic | 주요내용 |
61 | 소프트웨어 유지보수 | 중요성, 종류, 유지보수용이성, 문제점, 해결방안 |
62 | CASE | CASE Tool의 종류, 장단점, 도입시 준비사항, 평가항목 |
63 | Design Pattern | 사용목적, 분류 |
64 | 정보시스템감리 | 감리유형, 절차, 감리보고서, 필요성 , 발전방향 |
65 | BPR / ISP / ITA | 추진 절차, 작성 사례 |
66 | IT 전문 인력 양성 | IT 인력 고용창출 및 전문인력 양성방안 |
67 | 컨텐츠산업 활성화방안 | 컨텐츠 및 국내 게임소프트웨어 산업의 발전방향 |
68 | Groupware | 요구기능, CSCW/Workflow와 비교, EDMS |
69 | MIS/(G)DSS/EIS/SIS | 개념, 차이점, 사례, DSS 구축전략과 요소기술 |
70 | KM/KMS | 필요성, 요소기술, 고려사항, 타 시스템과 연계방안 |
71 | Data Warehouse | Data Warehouse, Data Mart, ETT, Meta Data |
72 | OLAP | 종류(ROLAP/MOLAP/HOLAP/DOLAP), 기능, 제품 |
73 | Data Mining | 4가지 기법, OLAP비교, 척도, CRM적용 |
74 | ERP/XRP/ERPⅡ | 구축방법, 구축절차, 발전방향, 상호비교 |
75 | SCM/e-SCM | 요소기술,필요성, 특징, ERP와 비교 |
6주차 학습내용
순번 | Topic | 주요내용 |
76 | SEM | 구성요소(VBM,ABC,BSC), 특징, 전망 |
77 | BSC | 주요 성과 지표, 구성요소, 구축 프로세스, 전망 |
78 | ASP / xSP / MSP | 개념 및 종류, 활성화 방안, 적용전략, 선정시 고려사항 |
79 | IDC / Web Hosting | 특징, 기능, 장단점 |
80 | CTI(ITI) / UMS | 개념, 특징, 구성도 |
81 | SLA / SLM | SLA필요성, 종류, 타당성, SOW(statement of work) |
82 | CIO | CIO / CKO / eCEO / CPO / CSO |
83 | 정보화역기능 / 불법복제 | 정보보호개념,범죄유형,방지대책,불법음란물 대응방안 |
84 | 통합보안모델(ESM) | 등장배경, 구성도, 도입시 고려사항 |
85 | BS7799/ISO17799 | ISMS(정보보안관리시스템)인증 |
86 | 기업내부/외부 통합 | EP(EIP,EKP), EAI, eAI, B2Bi |
87 | CRM | Data Mining 적용절차, eCRM,PRM,mCRM,gCRM,ERMS |
88 | 해킹 | 종류(스니퍼/스푸딩, DOS 등), 분석기법, 분석도구, 대응방안 |
89 | 바이러스 | 종류, 바이러스에 의한 위험관리 방안, 위험분석 절차 |
90 | 암호화 | 개인키, 공개키, DES/AES/RSA/ECC/SEED |
7주차 학습내용
순번 | Topic | 주요내용 |
91 | 시스템 보안 | Firewall, IDS, IPS |
92 | 전자정부 | 구현방안, 문제점, 해결책 |
93 | RBAC / CKM | RBAC, CKM(Constructive Key Management) |
94 | 전자서명 | 전자서명 절차, 해쉬함수, Message Digest |
95 | 인증 | 인증 종류, X.509, Kerberous |
96 | PKI | PKI 구성요소, 구성도, 특징, PMI, WPKI |
97 | 디렉토리서비스(X.500) | X.500 / LDAP 의 특징, 장단점 |
98 | 비즈니스 모델(BM) | 유형 및 BM 특허, 협업 컴퓨팅 |
99 | EC | 유형(B2B, B2C 등), 활성화방안, 발전단계 |
100 | P2P | 구현방법, 문제점, 발전방향 |
101 | e-Marketplace | 구성도, 구성요소, 특징, 고려사항, 문제점, M2M/MRO |
102 | e-Procurement | 구성요소, 프로세스 절차, Marketplace과의 차이점 |
103 | T / M-Commerce | TV / Mobile Commerce 유형 및 전망 |
104 | 가상기업, C-Commerce | 문제점 해결방안, 발전방향 |
105 | e-Catalog | 개념 및 특징 |
8주차 학습내용
순번 | Topic | 주요내용 |
106 | 전자지불 시스템 | 전자지불 유형, 전자지갑, 전자화폐 |
107 | 보안 프로토콜 | SSL, SET, S-HTTP, 웹 보안 |
108 | E-mail 프로토콜 | MIME, SMTP, POP3 |
109 | EDI | 전통적EDI, Web/EDI, XML/EDI |
110 | Agent | 전자상거래 Agent, 이동/멀티 Agent, 활용현황 |
111 | Rich Media | 장단점, 문제점, 해결방안 |
112 | VoIP | 유형, 구현방식, 인터넷 폰/TV |
113 | 스마트 카드 | USIM |
114 | 인터넷 기반 언어 | HTML,xHTML,DHTML,SGML,PDF |
115 | XML | 구조(DTD,Schema,DOM,SAX,프로토콜 종류) |
116 | ebXML/VoXML | 표준화 내용, 거래절차, 유사기술(Rossetanet 등)과의 비교 |
117 | SOAP / UDDI / WSDL | 특징, 전망 |
118 | PDA | POST PC, Window-CE, Palm OS, EPOC |
119 | SMIL | 등장배경, 주요기능, 활용사례 |
120 | 멀티미디어 데이터 | PHIGS, JPEG, MPEG, MHEG, MPEG-1/2/4/7/21, MP3 |
9주차 학습내용
순번 | Topic | 주요내용 |
121 | VRML | VRML / VR / Argument Reality |
122 | HCI | Neural Network, 생체인식 / 지문인식 / 음성인식 |
123 | GPS/GIS/Web GIS/UIS | Vector/Raster, UIS(Urban Information System),LBS |
124 | ITS | |
125 | Wearable Computer | 활용사례 |
126 | KIOSK | 유형, 문제점, 해결방안 |
127 | SSO(Single Sign On) | SSSO(Secured SSO) |
128 | Streaming | Download 방식과 차이점 |
129 | 인터넷 빌링(EBPP) | 구성요소, 장단점, 향후전망 |
130 | 아바타 | 개념, 특징, Autonomous Agent 와의 차이 |
131 | 무선인터넷 | WAP / BREW / MS Platform |
132 | C# | 주요특징, JAVA와의 비교 |
133 | Web과 DB 연동 | 연동방식, 특징, ASP, PHP, Perl, CGI, JSP 의 특징 |
134 | WAS | Web Application Server 기능, 종류, 도입배경, 이점 |
135 | e-Book | 요소기술과 해결해야 할 문제점, 기능적 요구사항 |
10주차 학습내용
순번 | Topic | 주요내용 |
136 | Telematics | Car Navigation, 서비스 내용, 지원기술 |
137 | BioInfomatics(BI) | 핵심 IT 기술(XML, Data Mining, 인공지능, Grid), 향후 전망 |
138 | e-Learning | e-Learning 산업 육성 방안, SCORM, 가상대학, 가상연수원 |
139 | Java | JSP, Java Script, Applet, AWT, Swing, JavaBeans, EJB |
140 | CMS | 정의, 장점, 핵심기술, KMS와의 비교 |
141 | Open Source | GNU의 GPL 규약 |
142 | 광 인터넷 | 핵심기술, 시스템 구조 |
143 | 디지털 컨버전스 | |
144 | Ubiquitous Computing | 특징, 업체 동향, 실현 Flow |
145 | 사이버 테러 | 유형, 대응방안 |
146 | 정보격차 | 정보격차 해소방안 |
147 | 스팸메일 | 차단방안, 온라인 우표제, 개인정보 보호방안 |
148 | 전자선거 | 구현기술, 문제점, 발전방향 |
첫번째 심화학습
순번 | Topic | 주요내용 |
1 | DB 설계 | DB 설계 단계, 산출물, ER 모델링, EER |
2 | DB 정규화 | DB 정규화 절차, Anomaly, 연결함정, 무결성 |
3 | 품질관리 | 품질관리 (QM/QA), ISO12207, ISO9000, CMM(I), SPICE, Walkthrough / Inspection |
4 | UML | 구성요소, 9가지 Diagram 그리기 |
5 | 개발방법론 | 구조적, 정보공학, 객체지향, CBD, RAD/JAD RUP, Method/1 |
두번째 심화학습
순번 | Topic | 주요내용 |
6 | 분산객체기술 | 분산객체기술 (EJB / COM / DCOM / COM+ / CORBA) |
7 | 저작권 보호기술 | 저작권 보호기술(Watermark, DOI, INDECS, DRM), 정보공유와의 조화 방안 |
8 | 홈네트워크, 정보가전 | 정보가전, VOD/STB, IEEE1394, PLC, USB, Jini, HAVi, UPnP, IPHN |
9 | 초고속 인터넷, 차세대 인터넷, GRID | 초고속 인터넷, 차세대 인터넷, GRID |
10 | DRS(Disaster Recovery System) | 재난복구 방법, BRS, BCP |
http://blog.naver.com/cinemany/100015851748
PMP란? | PMP(Project Management Professional) PMP는 Project Management Professional의 약자이고 "피엠피"라고 읽는다. 우리말로 굳이 번역하자면 "프로젝트관리 전문가" 또는 "프로젝트관리 기술사"에 해당한다. PMP의 시작 ....PMP는 1984년부터 미국의 PMI(Project Management Institute)가 시행하는 자격 ....제도이다. PMP인증제도는 PMBOK(Project Management Body of.Knowledge) ....의 발간과 더불어 자타가 공인하는 PMI의 2대 업적 중 하나이다. PMP인증제도의 ....기본 취지는 프로젝트관리의 전문성을 배양하고 프로젝트관리에 종사하는 사람들 ....에게 체계적인 PM기법을 갖추도록하는것이다. PMP의 출현 ....첫 번째 PMP시험은 1984년 10월 미국의 필라델피아에서 시행되었으며 56명이 응 ....시하여 43명이합격했다. PMP가 아니면 PM이 될 수 없는가? ....PM(Project Manager)의 자격을 PMP자격 소유로 가름하는 것은 말도 안된다. 또 ....한 PMI가 임의단체이므로 엄격한 의미에서 PMP는 어느 국가의 자격제도도 아니 ....다. 그러나 최근 5년내에 PMP가 국제적으로 인지도가 높아졌으며, 그 숫자도 급격 ....히 늘고 있다. 숫자의 증가와 경영층의 요구가 서로 상승적으로 작용하여 PMP에 ....대한 수요는 지속적으로 증가할 것으로 추측되며 PMP는 점차 세계적으로 공인되 ....는 자격으로 인식되고있다. PMP가 자격이라고는 하나 프로젝트관리가 "관리 ....(Management and Control)"의 한 영역이어서 자격증의 소지여부와 관리능력을 ....비교한다는 것은 말이 되지 않는다. 그러나 동시에 그것이 관리 영역에 속하기 때 ....문에 효과적인 프로젝트관리에 필요한 기본적이고 체계적인 PM기술을 확보하고 ....새로운 기법을 연마하기 위한 지속적인 활동 또한필요한것이다. PMP의 공신력 ....1987년 이후 미국과 캐나다에서는 PMP시험을 장려하거나 PMBOK을 회사 규준으 ....로 삼는 기업들이 많이 나타났다. Asea Brown Boveri (ABB), AT&T, Electronic ....Data Systems (EDS), General Motors Corp., ICP Kaiser Engineering, PECo ....Energy, USAA, US West Communications, Niagara Mohawk, CRS Sirrine, ....NCR, 캐나다 국방부, Citibank, World Bank등이다. 몇몇 기업의 사장들은 PM을 ....임명할 때 PMP를 우선적으로 임명하고 프로젝트관리 관련 부서에서 진급을 하려 ....면 PMP자격을 취득하여야 한다는 조건을 내세우고 있는 실정이다. 국내에서의 PMP 공신력 ....1995년 PMP시험을 국내에 유치한 후 현재 국내 PMP자격 소지자는 1400명정도 ....(2003.03. 현재)에 이르고 있으며, 매년 급증하는추세이다. ....이와같이 급증세의 이유로추측되는것은 ..... IMF이후 외국 자격증에대한관심고조 PMP의 처우 ...."PMP의 공신력"에서 언급한 대로 외국에서는 프로젝트 책임자의 자질판단 기준으 ....로 삼는 경향을 보이고 있고, 국내 선도 기업들은 PMP 수당을 지급하거나, 응시료 ....지원, 교육비 지원, PMP 자격취득자에 대한 미국 PMI Symposium 참가기회 부여 ....등으로 간접적인 독려 및 처우를하고 있다. ....PMP 수당은 아직 기술사수당보다 적은 편이어서 월 6만원 내지 월 20만원 지급하 ....고있는실정이다. PMP 자격응시 및 취득에 따른 이득 ....PMP 시험준비에 투자하는 시간을 응시원서 제출과 동시에 수험준비를 하여 최소 ....200시간이라는 것이 중론이고, 응시원서제출과 동시에 수험준비를 시작하여 400여 ....시간을 투입하고 1999년도 시험에 합격한사례도있다. .... 수험자 입장에서의 이득 .... 경영자 입장에서의 이득 PMP가 되는 절차 .... PMP응시 제출서류 .......자격심사는 학력 및 프로젝트 관리 실무경력에 대해 각자 제출한 서류를 미국PMI가 .......엄격한 서류 전형으로 심사하고 유효기간은 6개월이며, 자격심사 합격자에 한하여 .......시험허가서 (Eligibility Letter)를 개별송부한다. .......(총 소요기간 5~6주) 자격심사 합격자는 시험 허가서에 기재된 Voucher Number를 .......가지고 Prometric Testing Center에서 응시. .... PMP응시자는 준비한 응시서류를 시험 주관기관인미국의 PMI에송부한다 .... 미국의 PMI에서는 응시자격을 심사하여 자격심사결과 시험허가서(Eligibility .......Letter) 또는 서류에 대한 보완요구를 응시자에게 직접통지한다. .... 시험 .......시험은 서울의 컴퓨터센터에서 수시 시행되며, 4지 선다형 문제 200개를 4시간 .......내에 푼다. 응지자는 시험허가서에 기재되어 있는 Voucher Number를 가지고 .......컴퓨터 센터에 개별신청하여 응시희망 날짜를 선택한다. .... 합격기준 : 200점 만점기준으로 137점(절대평가 방식) .......PMI 기준에 따르면 70%가 정답으로 추산됨. 시험종료후 그 자리에서 시험결과 .......를 알 수 있다. .... 합격통지 : 시험종료후 컴퓨터를 통하여 현장에서 시험결과를 알 수 있으며, 인 ...................... 증서 등은 PMI가 공식문서로 응시자에게 개인적으로 직접 통지. | |||||||||||||||||||||||||||||||
[자료 출처 :PMI, 한국 프로젝트 관리기술회 홈페이지] |
화일시스템 (0) | 2007.05.29 |
---|---|
키워드 (0) | 2007.05.18 |
L4/L7 스위치 (0) | 2007.05.07 |
BCP의 개요 및 개발 과정 (1) | 2007.05.07 |
S/MIME의 개요 (0) | 2007.05.07 |
<표1> OSI 주요 계층에 쓰이는 프로토콜 | |
OSI 참고모델의 주요 계층 | 널리 쓰이는 프로토콜 |
레이어 2 | 이더넷Ⅱ, IEEE802.3/802.2 SNAP, 네트웨어, 802.3 Raw |
레이어 3 | IP, ARP, IPX, Non IP/IPX, IPv6 |
레이어 4 | TCP, UDP, ICMP |
레이어5~7 | HTTP, SNMP, 텔넷, FTP, RTSP |
bps = (pps) x (패킷 사이즈) x (8)
<표2> 패킷 사이즈에 따른 PPS 계산 | |||||
64바이트 | 128바이트 | 512바이트 | 1024바이트 | 1500B바이트 | |
100Mbps | 204.8K | 102.4K | 25.6K | 12.8K | 8.7K |
1Gbps | 2048K | 1024K | 256K | 128K | 87.3K |
<표1> SLB 분류 | |||
기준 | 세부 방식 | ||
네트워크 설정 | 브리지(bridge mode) 방식 | ||
라우팅(routing mode) 방식 | |||
포트 연결 | 외팔(one-armed) 방식 | ||
양팔(two-armed) 방식 |
<표2> NLB를 이용한 회선 고장율의 개선 | ||||
구분 | 고장율 | 비고 | ||
NLB 적용 전(E1만 사용) | 1/30 | 한달에 한번 고장발생 | ||
NLB 적용 후(E1+1×ADSL) | 1/300 | 1년에 한번 고장발생 | ||
NLB 적용 후(E1+3×ADSL) | 1/30000 | 82년에 한번 고자발생 |
키워드 (0) | 2007.05.18 |
---|---|
PMP자격증.. (0) | 2007.05.07 |
BCP의 개요 및 개발 과정 (1) | 2007.05.07 |
S/MIME의 개요 (0) | 2007.05.07 |
데이터마이닝 기법 : 연관규칙의 탐사 (0) | 2007.04.22 |
BCP의 개요 및 개발 과정
BCP는 기업 프로세스의 한 축으로 개선되어야
2회에 걸쳐 BCP(Business Continuity Planning - 사업연속성 계획) 칼럼을 쓰게 되었는데, 첫 번째에서는 BCP의 개요와 개발 과정을 설명하고, 다음 호에서는 BCP 성숙도 및 BCP/DRS 유지 관리 프로세스 및 데이터센터 아웃소싱, 바젤 II, Sarbanes Oxley와 BCP의 관계 등에 대한 이야기를 하고자 한다. 이번 칼럼을 통하여 간략한 개요만을 설명할 수밖에 없는 점을 양해 바란다.
지금은 BCP 하면 그리 생소하게 들리지 않지만 몇 년 전 세계무역센터 9.11 사태 전까지는 우리나라에서는 IT를 하는 사람에게서도 아주 생소한 단어였다. 그것은 우리가 BCP를 전혀 하지 않아서라기보다 BCP가 체계화되어 소개되지 않았기 때문이다.
BCP 중에서 IT에 해당되는 DRS (Disaster Recovery System)는 IT업계를 통하여 강력하게 추천되고 또 많은 발달을 가져왔는데 이에는 IT 기업 운영의 기여도 및 의존도의 증가에도 원인이 있지만 한편으로는 이를 통한 IT 영업, 특히 HP, IBM, EMC 등 중대형시스템 제작사의 판매에 직접적인 영향을 주었기 때문이다. 이의 문제점이라 하면 기업 전반으로 이루어져야 할 BCP가 IT 중심적으로 변해간 것이라 하겠다.
미국에서 발행된 법규에 의하면 이 BCP는 이미 10여년 전부터 시작하였으며, 관련 법규는 계속 보완 정비되고 다른 규범 및 절차(Sarbanes Oxley, Basel II)에도 이 BCP의 요소가 포함되어 있다.
미국의 BCP 범위 사례
BCP는 전사적으로 이루어져야 한다. 재난의 규모, 재난 기간의 범위에 따라 BCP의 범위도 바뀐다. 금융기관들, 즉 은행, 증권, 보험사의 경우 비즈니스의 오랜 중단은 기업의 흥망은 물론 직접, 간접 투자자에 영향을 주기 때문에 BCP의 범위가 회사 신뢰도에 직접적인 영향을 미친다.
주요 미국 증권사를 예로 들면 재난을 크게 세 종류로 나누어 영향을 분석하는데, 이에는 국지적 즉 빌딩에만 영향을 주는 경우, 지역적 즉 같은 동네, 지하철 역 하나 정도에 영향을 입는 경우, 광역적 즉 하나 또는 2개의 구 단위가 영향을 입는 경우에 대한 BCP가 계획되고 모든 경우 재난은 6개월을 지속할 수 있다는 가정 하에 계획이 세워진다.
이 같은 계획에는 외부기관과의 관계(Interface)가 영향을 받게 되는데 미국의 경우는 국가기관 및 산하기관의 재해시 운영, 협조체제의 네트워크 등이 이미 명시되어 있다(예: Federal Reserve System: Docket No: R-1128, Department of the Treasury of the Comptroller of the Currency: Docket No: 03-05, Securities and Exchange Commission: Release No: 34-47638; File No: S7-32-02).
이와 같이 재난의 범위가 결정되면 이에 따라 BCP 계획서를 작성하게 되는데 이 BCP 계획은 크게 셋으로 나눈다. 위험관리, 재해시 관리, 업무복구 계획이 그것이며, 위험관리에는 건물의 시설, 설비, 건물, 주위 상황, 등이 포함되며, 재해시 관리에는 사원 및 임원 관리, 비상 연락망, 미디어 콘트롤, 고객관리, 재해상황 관리 등이 포함되며, 업무복구 계획에는 타 업무 장소, 업무 인원 이동 및 수급계획, 재해시 업무 처리 계획, 그 외에 업무 진행 주요 서류 관리 등도 포함된다. 재해의 범위에서 우선 건물별(국지적 재난대비) BCP를 하게 되는데 광역적 재해는 이의 확장이라 볼 수 있다.
물론 이 범위을 결정하고 수행하는데 결정적인 역할을 하는 것은 BCP를 위한 투자 대비 효과의 분석(ROI) 인데 이를 고려한 정확한 분석, 방향 및 계획이 선행되는 것은 물론이다.
우리나라의 BCP 범위 사례
기업의 운영 관리를 위에 제시한 재난의 BCP 측면에서 고려하면 전체 기업 운영관리의 스펙트럼이 바뀌는데, 이는 현재 금감원의 요구사항이기도 한 IT 중심의 DRS를 위의 재해상황에 맞추어 시뮬레이션해보면 나타난다.
단순한 재해복구센터의 운영은 실질적인 재해시 운영의 한계를 느낄 것이고, 또한 데이터센터가 본점과 같은 건물을 사용할 경우 본점의 재해시 재해복구 및 업무의 재개를 위한 방안은 DR만으로 거의 불가능에 가까울 것이다. 이런 이유 때문에 대규모의 선진 기업은 데이터센터가 본점과 분리되어 있고, 데이터센터도 이중화되어 있고 대기업의 경우 본점 또한 분리되어 운영하고 있다.
그러나 현재 우리나라의 경우 BCP를 수행한 회사가 극소수이고 많은 경우 IT만을 위한 DR운영만 실행하고 있는데, 운영 관리되는 재해복구센터의 용량 및 업무별 기능을 보면 보통 하루정도의 업무만 수행하고 있는 실정이다. 만약 재난이 하루를 지나면 기능의 제한이 업무의 불편으로 오고, 또한 용량의 한계는 많은 고객을 만족시키지 못할 게 뻔하다. 이러 한 상태의 DR은 재난대비 시스템이라기보다 장애 대비로 보는 것이 타당하다. 이러한 재해복구센터는 투자대비 효과(ROI)가 극히 적고, 또한 이 재해복구 사이트에 관한 지식이 극히 소수에 국한되어 있기 때문에 실질적인 재해시의 운영 효과도 의심스럽다.
BCP를 위한 자료정리 및 BIA 완성
개발 프로세스에서 가장 중요한 사항은 업무영향분석(BIA: Business Impact Analysis)이라 할 수 있다. BIA는 핵심업무의 MAO(Maximum Acceptable Outage: 최대 허용 장애 기간)와 업무복구를 위한 업무의 순위와 인원을 결정한다.
이를 위한 과정은 표와 같이 분석 정리되는데, 이 분석을 통하여 다른 업무 부서, IT와 외부 업체와의 업무수행을 위한 프로세스 흐름이 정리 분석되고 완성된다.
BCP 전략 수립
이 과정을 통하여 업무별 RTO(Reco-very Time Objective)와 RPO(Recovery Point Objective)가 업무중단으로 인한 영향분석을 통하여 결정하게 되는데 업무영향은 정성적(Qualitative Analysis), 정량적 분석(Quantitative Analysis)을 통하여 이루어진다. 이는 보통 <그림7>과 같은 차트를 형성한다. 이의 분석을 통하여 전략적인 BCP 범위가 정해진다. 물론 이 분석에는 IT 재해복구에 소요될 투자 금액 및 IT에서의 요구사항 즉 DRS의 요구조건이 도출된다.
BCP 조직
BCP 조직은 이 BCP의 수행 및 유지 관리를 위한 조직으로 적은 인원의 BCP 상설조직과 각각의 부서에 겸직인 BCP 코디네이터, 그리고 재해발생시의 임원 조직으로 크게 나뉘어 있는데 예는 <그림8>과 같다.
BCP 팀은 기업 내의 프로세스, 인원 및 업무, 새로운 상품, 인원 재배치 등 모든 주요 업무를 BCP 정책에 준하여 리뷰 및 추천(Recommendation)하며, 타 부서의 영향을 주는 경우 이를 코디네이트하고 BCP의 변경사항(BIA 포함)을 항상 업데이트한다. 재해발생시 직원 및 스토리지 업체와의 긴밀한 협조를 통하여 재해의 영향을 최소화하고 업무의 재개를 신속하고 원활하게 하는데 목적이 있다.
재해 발생시 모든 직원의 상세한 업무 지침서가 포함되고 BCP 팀에서 관리, 유지, 보수되는데 여기에는 재해시의 CEO의 역할 또한 포함된다. 전에 우리나라에서 발생된 태풍 재해 발생시 대통령이나 국무총리의 행동은 어쩌면 국가적 BCP가 되어 있지 않았기 때문이 아닌가 생각이 든다.
출처 : Tong - 날으는오리님의 개발자통통
PMP자격증.. (0) | 2007.05.07 |
---|---|
L4/L7 스위치 (0) | 2007.05.07 |
S/MIME의 개요 (0) | 2007.05.07 |
데이터마이닝 기법 : 연관규칙의 탐사 (0) | 2007.04.22 |
데이터마이닝 기법중에 대표적인것 5가지 (0) | 2007.04.22 |
[정보보안][정보보안전문가]S/MIME의 개요
S/MIME(Secure/Multipurpose Internet Mail Extension)은 기존 전자우편 보안시스템의 문제점인 PEM 구현의 복잡성, PGP의 낮은 보안성과 기존 시스템과의 통합이 용이하지 않다는 점을 보완하기 위해 IETF의 작업 그룹에서 RSADSI(RSA Data Security Incorporation)의 기술을 기반으로 개발된 전자우편 보안시스템이다. 이러한 S/MIME이 달성하고자 하는 목표는 강력한 암호화, 디지털 서명, 사용의 용이성, 융통성, 상호운용성, 수출가능성 등이다.
S/MIME은 네트워크를 통해 주고받는 메시지에 대해 송수신자에게 전자우편 보안서비스를 제공할 뿐만 아니라 MIME 객체를 전송할 수 있는 모든 프로토콜에서 보안 서비스를 이용할 수 있게 한다. 이러한 예로서 HTTP 프로토콜이 있다. HTTP 프로토콜은 MIME 객체를 전송할 수 있기 때문에 웹 보안을 위해 S/MIME을 사용할 수 있다.
S/MIME이 제공하는 보안 서비스에는 메시지에 대한 기밀성, 무결성, 사용자 인증, 송신 사실 부인방지가 포함된다. 표 4-4는 S/MIME에서 제공하는 보안 서비스와 보안 메커니즘에 사용되는 암호 알고리즘을 나타내고 있다.
표 4-4 S/MIME에서 제공하는 보안 서비스
보안 서비스 | 보안 메커니즘 | 암호 알고리즘 |
메시지 기밀성 | 암호화 | Triple-DES, Diffie-Hellman |
메시지 무결성 | 해쉬함수 | SHA-1 |
사용자 인증 | 인증서 | X.509v3 인증서 |
송신 부인방지 | 전자서명 | DSA |
S/MIME은 전자서명을 위해 디지털서명표준(DSS)을 사용하고 세션키를 암호화하기 위해 Diffie-Hellman 알고리즘을 사용한다. 또한 전자서명과 세션키 암호화 모두를 위해 사용할 수 있는 알고리즘으로 RSA 알고리즘을 사용한다. 그리고 전자서명을 생성하기 위한 해쉬함수로는 SHA-1과 MD5를 요구하고 3중 DES 알고리즘이 메시지 암호화를 위해 사용된다.
알고리즘 측면에서 S/MIME v3의 보안 특성은 다음과 같다.
- Signed receipts : 송신자의 전자 서명된 메시지를 수신한 후 수신자의 서명을 추가하여 수신자 측이 메시지를 수신했다는 사실을 제3자에게 증명할 수 있도록 함
- Security labels : Security labels은 S/MIME 캡슐화로 보호되는 내용의 기밀성에 관한 보안정보의 집합으로써 사용자에게 원본 메시지의 접근권한을 부여하기 위해 사용
- Secure mailing lists : 복수의 수신자에게 메시지를 전송할 경우 각 수신자의 공개키 사용을 포함하여 MLA (Mailing List Agent) 서비스를 사용함으로써 많은 양의 수신자별 처리가 가능
3. S/MIME의 메시지 구성과 동작
가. S/MIME의 메시지 구성
S/MIME v3의 관련 RFC 문서들은 다음과 같이 구성되어 있다.
- S/MIME v3 메시지 규격(Message Specification)
MIME 데이터에 암호화와 전자서명을 추가하여 S/MIME 메시지를 생성하는데 필요한 프로토콜로써 메시지에 대한 전자서명 및 암호화절차, application/pkcs7-mime과 application/pkcs7-signature MIME 타입을 정의한다.
- 암호학적 메시지 신택스(Cryptographic Message Syntax)
임의의 메시지에 대해 전자서명, 암호화, 메시지 인증을 추가하여 생성되는 암호문의 형태를 정의한다.
- S/MIME v3 인증서 취급(Certificate Handling)
S/MIME 인증서에 포함된 키를 추출하고 키를 생성하는 방법이 정의된다. 또한 추출한 키를 통해 메시지의 유효성을 검증하는 메커니즘이 포함된다.
- 향상된 보안 서비스(Enhanced Security Services for S/MIME)
S/MIME에서 보다 향상된 보안서비스를 제공할 수 있도록 수신자의 전자서명을 통해 부인방지를 할 수 있도록 하거나 그룹 메일에서 보안서비스를 이용할 수 있는 방법을 기술한다.
S/MIME의 메시지 구성은 다음과 같다.
- 봉인된 데이터(Enveloped data) : 암호화된 콘텐트 타입과 한 명 이상의 수신자들을 위한 암호화된 암호화-콘텐트 암호키(encrypted-content encryption key)로 구성되어 있다.
- 서명된 데이터(Signed data) : 메시지 다이제스트 값을 서명자의 개인키로 암호화하여 형성된 디지털서명으로 콘텐트와 그 디지털 서명은 base64로 부호화된다.
- 클리어 서명 데이터(Clear-signed data) : 서명된 데이터와 콘텐트의 디지털서명으로 구성된다. 여기서 콘텐트의 디지털 서명만 base64로 부호화된다.
- 서명 및 봉인된 데이터(Signed and enveloped data) : signed-only과 encrypted-only 엔티티가 중첩될 수 있다. 즉, 암호화된 데이터는 서명되어질 수 있고 서명된 데이터나 클리어 서명 데이터는 암호화될 수 있다.
나. S/MIME의 동작
S/MIME의 동작에 대해 설명한다. 우선, 사용자는 수신자에게 보낼 메시지를 작성한다. 이 메시지는 RFC 822에 정의되어 있는 MIME 형태로 작성된다. 사용자는 전자우편을 보내기 전에 메시지에 대해 전자서명을 할 것인지, 암호화를 할 것인지 또는 전자서명과 암호화를 같이 할 것인지를 선택한다.
이후 S/MIME 어플리케이션은 MIME 헤더와 바디로 구성되는 MIME형태의 메시지를 S/MIME 메시지로 변환한다. 즉 보안 메커니즘을 적용하여 S/MIME 메시지의 형태로 변환함으로써 전자서명과 메시지의 암호화가 이루어지게 된다. 그림 4-11
마지막으로 사용자는 메시지 보내기를 선택하면 메일 클라이언트는 전자우편 서버에 메일을 전송하고, 수신자의 메일 서버에 메시지가 전송되어 수신자는 S/MIME 클라이언트를 이용해 메시지를 받게 된다. 이때 보안 기능이 없는 SMTP 프로토콜이 사용되지만 이미 메시지에 암호화 또는 전자서명을 했기 때문에 네트워크로 전송되는 도중에 메시지의 도청 및 변조 등의 위험으로부터 안전하다.
그림 4-11 S/MIME의 동작
L4/L7 스위치 (0) | 2007.05.07 |
---|---|
BCP의 개요 및 개발 과정 (1) | 2007.05.07 |
데이터마이닝 기법 : 연관규칙의 탐사 (0) | 2007.04.22 |
데이터마이닝 기법중에 대표적인것 5가지 (0) | 2007.04.22 |
데이터마이닝 개론 (0) | 2007.04.22 |
데이터마이닝 기법 : 연관규칙의 탐사
전치혁 포항공과대학교 산업공학과 교수 |
1. 서언
연관규칙(association rule)이란 간단히 말하면 데이터의 항목들 간의 조건-결과 식으로 표현되는 유용한 패턴을 말한다. 연관규칙의 탐사는 기업의 활동, 특히 마케팅에서 가장 널리 사용되고 있다. 예를 들면, 미국의 슈퍼마켓에서 목요일 기저귀를 사는 고객은 맥주도 동시에 구매한다는 연관성을 알아냈다고 한다. 이때, 조건은 ‘목요일, 기저귀’이며 결과는 ‘맥주’라 할 수 있다. 이와 같은 연관규칙의 탐사가 가능하게 된 것은 컴퓨터기술의 발전을 들 수 있겠다. 한 고객이 슈퍼마켓의 계산대에서 계산할 때 쇼핑카트에 담긴 물품들이 바코드를 통하여 컴퓨터에 데이터베이스 형태로 입력되고 이로부터 고객들의 구매행태를 분석할 수 있게 되었다.
위에서 언급한 데이터의 형태는 소위 바스켓(basket) 데이터라 한다. 이 때 한 고객, 즉 한 바스켓의 정보를 하나의 트랜잭션(transaction)이라 한다. 바스켓 형태의 데이터에서는 주로 트랜잭션 내의 연관성을 살펴보고자 하는 것으로, 수많은 트랜잭션을 분석하여 빈번히 나타나는 규칙을 찾아내는 것이다. 이렇게 찾아낸 규칙은 마케팅에 활용된다. 예를 들어, 위의 기저귀-맥주의 규칙을 활용하여 기저귀와 맥주를 가까운 곳에 진열함으로써 매출 신장을 기할 수 있다. 이와 같이 바스켓 데이터로부터 연관규칙을 탐사하는 것을 시장바구니분석(market basket analysis)이라 한다.
연관규칙의 탐사는 한 고객의 시간에 따른 구매정보를 활용하여 이루어지기도 한다. 예를 들면, 가전제품 대리점에서 고객별 시간별 구매제품의 데이터를 활용하여 ‘제품 A를 사는 고객은 추후에 제품 B도 구매한다’는 연관규칙을 이끌어낼 수 있을 것이다. 이와 같은 패턴을 얻어 제품 A를 구매하였으나 제품 B를 구매하지 않은 고객에게 판매활동을 할 수 있다. 이런 시간에 따른 고객데이터를 시퀀스(sequence) 데이터라 한다.
당연한 사실이지만 탐사에서 도출된 연관규칙은 분명하고 유용한 것이어야 한다. 유용하다(useful)는 것은 새롭고도 실행가능하며 설명할 수 있는 것을 말한다고 하겠다. 이에 비해 사소한(trivial) 규칙이란 이미 잘 알려진 사실을 말한다. 예를 들면, ‘페인트를 사면 페인트 붓을 산다’ 는 규칙 같은 것이다. 또한, 설명할 수 없는 규칙은 데이터의 오류일 가능성도 있으며 마케팅에 활용할 수 없기 때문에 역시 유용하다고 볼 수 없다.
2. 연관규칙의 정의 및 성능척도
데이터베이스가 총 n개의 트랜잭션 데이터로 구성되며 전체 m개의 항목으로 구성된다고 하고 이를 I 라 하자. 연관규칙 R은 조건부와 결과부로 구성되며 항목집합인 X와 Y에 대하여 ‘X가 일어나면 Y 도 일어난다’는 의미로 다음과 같이 표현할 수 있다.
R : X ⇒ Y
여기서 X,Y⊆I 이고, X∩Y=Φ이어야 한다. 따라서 연관규칙을 탐사함은 적절한 항목집합 X와 Y를 선택하는 문제로 볼 수 있으며 이를 위해 몇 가지 척도를 고려하고 있다. 우선, 항목집합 X 및 규칙 R에 대한 지지도(support)는 각각 다음과 같이 정의된다.
supp(X) = 집합 X의 항목을 동시에 포함하는 트랜잭션 수의 전체 수(n)에 대한 비율
supp(R) = supp(X∪Y)
즉, 규칙 R에 대한 지지도는 집합 X 또는 집합 Y에 있는 항목을 동시에 포함하는 트랜잭션수의 비율을 나타낸다.
예 1. 다음과 같은 5개의 트랜잭션을 고려해 보자.
트랜잭션 | 항목 |
1 | b, c, g |
2 | a, b, d, e, f |
3 | a, b, c, g |
4 | b, c, e, f |
5 | b, c, e, f, g |
이때 전체 항목집합 I는 I = {a, b, c, d, e, f, g} 이다. 몇 가지 항목집합에 대한 지지도를 구하면 다음과 같다.
supp({a}) = 2/5 = 0.4, supp({b, c}) = 4/5 = 0.8
다음과 같은 규칙을 고려해 보자.
R: “항목 b와 항목 c가 일어나면, 항목 g도 일어난다”
이 때 규칙 R에 해당하는 항목집합 X와 Y는 다음과 같다.
X={b, c}, Y={g}.
이 경우 X 및 규칙 R에 대한 지지도는 각각 아래와 같이 산출된다.
supp(X) = supp({b, c}) = 0.8
supp(R) = supp({b, c, g}) = 3/5 = 0.6
연관규칙 R의 가치를 평가할 때 통상 다음과 같이 정의되는 신뢰도(confidence)를 사용한다.
conf(R)= supp(X∪Y)/supp(X)
이 신뢰도는 조건부 확률의 개념으로 집합 X(조건)가 발생한다고 할 때 집합 Y(결과)도 동시에 발생할 확률을 의미한다. 즉, 트랜잭션에 X의 항목들을 포함하는 경우 Y의 항목들도 동시에 포함할 확률을 나타내며, 신뢰도가 큰 규칙일수록 의미가 크다고 하겠다.
또한, 신뢰도 이외에 연관규칙의 개선도(lift or improvement)를 함께 사용하는데, 이는 결과가 단독으로 발생할 빈도에 대한 조건과 연계하여 결과가 발생할 가능성의 빈도의 비로 정의된다.
개선도가 1이 됨은 가 성립하므로 항목 집합 X와 Y의 발생이 독립임을 의미한다고 하겠다. 그리고 개선도가 1 전후의 값에 따라 다음과 같은 해석을 할 수 있다.
- lift(R) > 1인 경우, X와 Y의 발생이 양의 상관관계
- lift(R) < 1인 경우, X와 Y의 발생이 음의 상관관계
따라서 개선도가 1보다 큰 규칙이야말로 우연한(랜덤한) 관계가 아닌 필연적 관계를 나타낸다고 하겠다.
3. 연관규칙의 탐사
연관규칙의 탐사는 결국 신뢰도 또는 개선도가 높은 규칙 R을 트랜잭션 데이터로부터 도출하는 과정이다. 따라서 규칙이 R : X ⇒ Y의 형태일 때 적절한 항목집합 X와 Y를 찾는 것이라 할 수 있겠다. 그러나 모든 항목의 조합을 고려하여 성능이 좋은 규칙을 찾는 일은 쉬운 것이 아니므로 이를 위한 효율적인 알고리즘이 요구된다. 예로써 예 1.의 7개 항목으로 구성된 5건의 트랜잭션 데이터에 대하여 집합 X의 후보가 되는 경우수를 볼 때, 1개 항목으로 구성되는 경우가 7가지, 2개의 항목으로 구성되는 경우가 21가지, 3개의 항목으로 구성되는 경우가 35가지 등이 될 것이다.
연관규칙의 탐사를 위한 알고리즘으로 기본적이며 가장 널리 사용되는 것은 1994년에 Agrawal 및 Srikant가 발표한 Apriori 알고리즘으로 다음의 두 단계로 구성된다.
단계 1. 미리 결정된 최소지지도 smin 이상의 지지도를 갖는 모든 빈발 항목집합들(large itemsets)을 찾는다.
단계 2. 빈발 항목집합 L에 대한 부분집합 A를 고려한다. 미리 결정된 최소신뢰도 cmin에 대하여 supp(L)/supp(A) ≥ cmin 이면, R: A ⇒ (L-A) 형태의 규칙을 출력한다. 즉, 이 규칙의 지지도는 supp(R)=supp(L)이며, 신뢰도는 conf(R)=supp(L)/supp(A) 가 된다.
3.1. 빈발 항목집합 생성
빈발 항목집합을 도출하기 위하여 우선 하나의 항목으로 이루어지는 후보집합군(C1)을 형성하고 최소지지도 이상을 갖는 집합군(L1)을 생성한다. 다음으로 L1으로부터 두개의 항목으로 이루어지는 후보집합군(C2)를 만들고 최소지지도 이상을 갖는 집합군(L2)을 생성하며, 다시 L2로부터 세 항목으로 이루어지는 후보집합군(C3)과 빈발 항목집합군 L3를 만드는 등 이러한 과정을 더 이상 새로운 집합이 생성되지 않을 때까지 반복한다.
로부터 를 생성할 때 접합(join)연산자(*)를 사용한다. L1으로부터 C2를 만드는 경우에는 L1의 한 항목에 대한 모든 조합이 2-항목 집합인 C2가 될 것이다. 그러나 L2에서 두 집합의 조합은 최대 4개의 항목을 포함할 수 있으므로 C3를 형성할 때 L2의 집합 중 하나의 항목이 동일한 것들만 대상으로 하여야 한다. 마찬가지로 L3로부터 C4를 형성할 때는 L3의 집합 중 두개의 항목이 동일할 때 가능하게 된다. 예로써, L2=[{a,b}, {a,c}, {b,d}]라 할 때 {a,b,c}와 {a,b,d}가 3-항목 집합의 후보가 될 것이다. 그러나, C3를 구성할 때 {a,b,c}는 제외된다. 왜냐하면, {a,b,c}의 지지도는 {b,c}의 지지도 이하인데 {b,c}가 L2에 포함되지 않았다는 것은 이의 지지도가 최소지지도 미만이라는 것을 나타내기 때문이다. 이러한 과정은 Apriori 알고리즘 중 'apriori-gen' 함수에 의하여 수행된다.
예 2. (예 1.의 계속). 예 1.의 트랜잭션 데이터를 바탕으로 빈발 항목집합을 만들어보자. 우선, C1은 다음과 같다.
C1=[{a}, {b}, {c}, {d}, {e}, {f}, {g}]
최소 지지도를 0.4(5개의 트랜잭션 중 2개)라 하면 1-항목으로 이루어지는 빈발 항목집합군은 다음과 같다.
L1=[{a}, {b}, {c}, {e}, {f}, {g}]
2-항목 빈발집합의 후보 C2에 다시 최소지지도 0.4를 적용하면 L2는 다음과 같다.
L2=[{a,b}, {b,c}, {b,e}, {b,f}, {b,g}, {c,e}, {c,f}, {c,g}, {e,f}]
C3를 구성하기 위하여 L2의 집합에 접합연산자를 적용하면 다음과 같다.
C3=[{b,c,e}, {b,c,f}, {b,c,g}, {b,e,f}, {c,e,f}]
이 때 {a,b,c} 는 {a,c}가 L2에 포함되지 않았으므로 C3에 포함될 수 없음을 볼 수 있다.
C3의 모든 집합은 최소지지도 이상이므로 L3는 C3와 동일하다.
Apriori 알고리즘을 단계별로 정리하면 다음과 같다.
단계 0. 최소지지도 smin을 정한다.
k=1
C₁=[{i₁},{i₂},...,{im}]
L₁={c∈C₁| supp(c) ≥ smin
단계 1. k=k+1
Lk-1로부터 Ck 형성 (apriori-gen 함수)
단계 1-1. (join) Lk-1의 집합들을 접합하여 k- 항목 집합군을 형성한다.C= Lk-1 * Lk-1
단계 1-2. (prune) C의 (k-1)- 항목 부분집합이 Lk-1에 속하지 않을 때 이를 모두 제거한 후 Ck를 형성한다. Ck=Φ이면 Stop.
단계 2. Ck의 집합 중 지지도가 최소지지도 이상인 것을 모아 Lk를 생성한다.
Lk={c∈Ck | supp(c) ≥ smin}
3.2. 규칙의 탐사
앞에서 언급한 바와 같이 규칙의 탐사를 위하여 우선 도출된 빈발 항목집합 L 각각에 대한 부분집합 A를 고려한다. 여기서 L은 위의 L2, L3 등을 포함한다. 그리고, 미리 결정된 최소신뢰도 cmin에 대하여 supp(L)/supp(A) ≥ cmin 이면, R: A ⇒ (L-A) 형태의 규칙을 출력한다. 즉, 이 규칙의 신뢰도 conf(R)=supp(L)/supp(A) 가 cmin 이상 되도록 하는 것이다.
현실의 경우 결과부에 하나의 항목만을 포함시키는 규칙을 도출하는 것이 이의 적용성 때문에 널리 사용되나, Agrawal & Srikant (1994)의 알고리즘에는 모든 가능한 규칙을 보다 효율적으로 탐사하는 방법이 소개되고 있다.
예 3. 예 1.의 트랜젝션 데이터에 대하여 예 2.에서 구해진 빈발 항목집합군 중 집합 L={b,c,g}을 고려해 보자. 이 때 결과부에 1-항목을 포함하는 규칙의 후보와 이에 대응되는 신뢰도는 다음과 같다.
R1: {b,c}⇒{g} conf(R1)=0.6/0.8 = 0.75
R2: {b,g}⇒{c} conf(R2)=0.6/0.6 = 1
R3: {c,g}⇒{b} conf(R3)=0.6/0.6 = 1
따라서 최소신뢰도를 0.7이라 하면 R1, R2, R3 모두 최소신뢰도 이상이 된다.
4. 결언
서언에서 언급한 시퀀스 데이터에 대하여도 유사한 알고리즘이 적용되고 있으나 여기서는 생략한다.
한편, 분석할 트랜잭션 데이터에 어떤 항목들을 포함시킬 것인가는 분석에 앞서 결정하여야 할 중요한 문제 중 하나라 하겠다. 통상 슈퍼마켓 등에서 취급하는 제품 수는 수만 가지가 넘기 때문에 이러한 제품 하나하나를 모두 항목으로 선정하기에는 여러 어려움이 있다. 따라서 제품을 계층적으로 분류하여 적절한 계층에 속하는 것들을 항목으로 선정하는 방안을 사용한다. 제품분류에서 상위수준으로 갈수록 보다 포괄적인 항목(generalized item)이 사용된다.
항목이 너무 세분화되어 많은 경우 공통 항목의 트랜잭션 수가 적어 유용한 규칙을 도출하기 어려울 수 있으며, 반대로 항목이 너무 작은 경우에는 도출된 규칙이 쓸모없을 수 있기 때문에 항목의 선정이 중요하다 하겠다. 또한, 항목이 증가함에 따라 규칙탐사에 소요되는 계산시간이 급속도로 증가하기 때문에 원하는 계산복잡도에 알맞은 항목수를 결정할 필요가 있다. 항목을 선정하는데 있어 하나의 가이드라인은, 트랜잭션 데이터에 드물게 나타나는 것은 제품의 계층적 분류에서 보다 상위 수준의 항목을 사용하고, 자주 나타나는 경우에는 보다 하위 수준의 항목을 사용하여 결과적으로 트랜잭션 데이터에 빈도수가 비슷하게 되도록 하라는 것이다.
BCP의 개요 및 개발 과정 (1) | 2007.05.07 |
---|---|
S/MIME의 개요 (0) | 2007.05.07 |
데이터마이닝 기법중에 대표적인것 5가지 (0) | 2007.04.22 |
데이터마이닝 개론 (0) | 2007.04.22 |
데이터 저장 기술 (0) | 2007.04.22 |