컴퓨터 구조
1. 기본 구조
하드웨어와 소프트웨어가 합쳐진 형태.
하드웨어 : 전자 회로 및 기계 장치로 되어있음. 입출력 장치, 중앙처리장치(CPU), 기억장치 등으로 구성됨.
소프트웨어 : 하드웨어 위에서 하드웨어를 제어하며 작업을 수행하는 프로그램.
1) 컴퓨터의 기본 구성 요소
- 입력 장치
- 컴퓨터가 처리할 수 있는 형태로 데이터와 명령을 받아들이는 물리적인 장치
- 키보드, 마우스, 스캐너, 타블렛, 조이콘 등이 예시.
- 컴퓨터에 연결하여 무언가를 입력할 수 있다면 그것은 입력장치로 볼 수 있음
- 출력 장치
- 처리된 데이터를 사람이 이해할 수 있는 형태로 출력하는 물리적인 장치
- 모니터, 프린터 등
- 중앙처리장치(CPU)
- 산술/논리 연산장치(ALU), 제어장치, 레지스터로 구성됨
- 산술 - 덧셈 수행
- 제어장치 - 프로그램에 따라 명령과 제어 신호를 생성해 각종 장치의 동작 제어
- 레지스터 - CPU의 내부 메모리. CPU에서 사용하는 데이터를 일시적으로 저장함
- 저장 장치
- 주 기억 장치(Memory)
- 데이터나 프로그램을 보관하기 위한 일차 기억 장치
- 주로 정보를 저장해 두었다가 필요할때 읽어들이는 저장소로 사용
- 프로그램 수행을 위해 필요한 정보에 비해 CPU 내에 구비된 레지스터의 용량이 너무 작기때문
- 종류로는 RAM과 ROM이 있음
- 보조 기억 장치
- 주 기억 장치를 보조하기 위한 보조 장치
- 읽는 속도는 느리지만 대용량의 기억이 가능함
- 현재 사용하지 않는 프로그램은 보조 기억장치에 저장됨
- 자기 디스크 - 플로피 디스크, 하드 디스크
- 광 디스크 - CD, DVD
- 플래쉬 메모리 - USB, SSD
- 주 기억 장치(Memory)
2. CPU와 Memory
1) CPU
폰 노이만 구조 : 중앙처리장치(CPU)를 통해 연산을 수행하는 구조.
CPU는 각종 연산을 수행하고 기억장치에 기억된 명령어들을 수행하는 컴퓨터 시스템을 이루는 핵심 부품.
(1) CPU의 구조
산술/논리 연산 장치(Arithmetic Logic Unit, ALU)
- 산술적인 연산과 논리적인 연산을 담당하는 장치.
- 가산기, 보수기, 누산기, 기억 레지스터, 데이터 레지스터 등으로 구성
- 레지스터에 저장된 데이터를 이용해 덧셈, 곱셈 등과 같은 산술 연산을 수행함
- 부동소숫연산장치(FPU), 정수 연산장치, 논리연산(AND, OR 등) 장치 등이 있음
레지스터(Register)
- 중앙처리장치(CPU) 내부에 잇는 기억장치
- 범용 레지스터(General-Purpose Register : 산술 연산 논리장치에 의해 사용)와 전용 레지스터(Dedicated-Purpose Register : PC 등 특수 목적에 사용)로 구분
- 레지스터의 종류
- IR(Instruction Register) : 현재 수행중에 있는 명령어 부호를 저장하고 있는 레지스터
- PC(Program Counter) : 명령이 저장된 메모리의 주소를 가리키는 레지스터
- AC(Accumulator) : 산술 및 논리 연산의 결과를 임시로 기억하는 레지스터
제어장치(Control Unit, CU)
- CPU가 자신 및 주변 기기들을 컨트롤하는 장치
- 프로그램 계수기(Program Counter : 프로그램의 수행 순서 제어), 명령 레지스터(Instruction Register : 현재 수행중인 명렁어의 내용을 임시 기억), 명령해독기(Instruction Decoder : 명령 레지스터에 수록된 명령을 해독해 수행될 장치에 제어신호를 보냄)로 구성됨
- 고정 배선 제어(Hardwired)와 Micro Program 두가지 방식의 구현 방식이 있음
✅ 고정 배선 제어(Hardwired)와 Micro Program
고정 배선 제어(Hardwired) | Micro Program |
제어신호가 Hardwired Circuit에 의해서 생성되도록 하드웨어로 구성. 상태 계수기와 PLA(Programmable Logic Array) 회로로 구성됨 | 발생 가능한 제어 신호들의 조합을 미리 구성하여 ROM에 저장했다가 필요시 신호를 발생시키는 Software 방식 |
고속처리, 고가 | 하드웨어 방식에 비해 속도도 낮고 가격도 저렴 |
RISC 시스템에 적용 | CISC에 적용 |
2) CPU의 기능
명령어
- 시스템이 특정 동작을 수행시키는 단위.
- 동작코드와 오프랜드로 구성
- 동작코드(Op-code) : 각 명령어의 실행 동작을 구분하여 표현
- 오퍼랜드(Operand) : 명령어의 실행에 필요한 자료나 실제 자료의 저장 위치를 의미
명령어 수행 과정
- 읽기(Fetch Instruction, FI) : 메모리에서 명령 가져오기
- 해석(Decode Instruction, DI) : 명령 해석
- 실행(Execute Instruction, EI) : 명령 수행
- 기록(Write Back, WB) : 수행 결과 기록
명령어 처리방식
- CISC(Complex Instruction Set Computer) : 하나의 기능에 해당하는 하나의 명령이 있음
- 여러 사이클로 명령어를 처리
- 많은 명령어가 메모리를 참조하는 처리 방식
- 파이프라이닝의 사용이 어려움
- 복잡한 마이크로 프로그램 구조를 갖고 있음
- RISC(Reduced Instruction Set Computer) : 컴퓨터 내부적으로 사용하는 명령어 세트를 단순화 시켜서 처리. 단순한 명령을 조합해 하나의 기능을 수행한다.
- 하나의 사이클로 명령어를 처리
- 메모리 Load / Store 명령만 처리하는 방식
- 파이프라이닝, 슈퍼스칼라 사용 가능
- 복잡한 컴파일러 구조를 갖고 있음
2) Memory
컴퓨터의 메모리는 기억소자(=반도체)를 의미한다. 반도체는 특성상 전류를 흐르게하거나 흐르지 않게 하는데, 이를 이용해 임시적인 내용들을 기억하게 하는 것이다 .
분류별 특성
- 메모리와 보조기억 장치의 차이 : 휘발성
- 메모리 - 시스템이 활성화된 상태에서 값을 기억하고 있지만 시스템이 꺼지면(ShutDown) 지워지게 됨
- 보조기억장치 - 시스템이 꺼져도 기억하고 있는 값이 휘발되지 않음
성능
메모리의 속도는 메모리가 CPU와 데이터를 주고받는 시간을 말함(=액세스).
단위는 ns(nano second, 10억분의 1초)가 메모리 속도의 기준이 됨. 속도가 빠를수록 성능이 좋다.
- 리프레시 시간
- 메모리에서 한번 읽고 나서 다시 읽을 수 있는 사이 시간
- 메모리는 일정시간마다 재충전을 해주지 않으면 정보가 사라지고, 이 일정 기간이 리프레시 시간
- 메모리 액세스 시간
- 데이터를 읽어오라는 명령을 받고 데이터를 읽기 시작하기까지의 시간
- CPU에서 명령어를 처리할때 명령어가 갖는 주소를 보내고 그 주소에 해당하는 값을 가져오는데 걸리는 시간이 액세스 시간
- 사이클 시간(리프레시 시간 + 메모리 액세스 시간)
- 메모리 작업 완료와 동시에 대기 신호를 내놓은 후 다음 신호를 받을 준비가 되었다는 신호를 주기까지의 시간을 의미
- 사이클 시간 = 리프레시 시간 + 메모리 액세스 시간
종류
- 주기억장치
- RAM(Random Access Memory)
- 전원이 끊어지면 내용이 휘발됨. => 보조 저장장치 반드시 필요!
- 크기가 프로그램의 수행 속도에 영향을 줌
- CPU에서 직접 접근이 가능한 유일한 저장장치
- 종류
- SRAM : 리프레쉬 필요업음 / 전력소모 적음 / 비쌈
- DRAM : 리프레쉬 필요함 / 저가 / 많이 사용됨
- ROM(Read Only Memory)
- 대부분 읽기만 가능한 장치로 구성
- 전원이 끊겨도 내용이 보존됨
- RAM(Random Access Memory)
- 보조기억장치
- 자기 디스크
- 원판 표면의 철 입자의 방향(N/S극)으로 0과 1을 표현
- 디스크 드라이브는 자기 디스크로 데이터를 읽는 주변 장치를 의미
- 플로피디스크(FDD)와 하드 디스크(HDD)가 예시
- 광 디스크(Optical Disc, OD)
- 빛의 반사를 이용해 자료을 읽어냄
- 1세대 CD / 2세대 DVD / 3세대 블루레이 디스크
- 차세대로는 테라디스크나 HVD등이 존재
- 플래시 메모리
- 전자적으로 데이터를 지우고 쓸 수 있는 비휘발성 메모리
- 충격에 강하여 휴대용 기기로 많이 쓰임
- USB, SSD가 예시
- SSD는 HDD와 달리 디스크, 헤더와 같은 기계적 장치는 빠졌지만 저전력, 저소음, 저중량이 특징
- 자기 디스크
(1) 캐시 메모리(Cache Memory)
CPU 내 또는 외에 존재하는 메모리. 메인 메모리와 CPU 간의 데이터 속도 향상을 위한 중간 버퍼 역할.
'Cache'는 보관이나 저장의 의미로서 캐시 메모리는 이 역할을 하는 물리적 장치를 말하며, CPU 내에 존재할 수도 있고 역할이나 성능에 따라서는 CPU 밖에 존재할 수도 있음.
또한 CPU의 빠른 처리속도와 상대적으로 느린 메인 메모리의 속도 차이를 극복하는 완충역할을 한다.
쉽게 말하자면 CPU는 빠르게 일을 진행하는데 비해 메인메모리가 데이터를 가져오고 가져가는게 느려서 캐시 메모리가 중간에 미리 CPU에 전달될 데이터를 들고 서 있는 형태.
캐시 메모리의 성능 결정 요소
캐시 메모리는 메인 메모리의 일정 블록 사이즈의 데이터를 담아 두었다가 CPU에 워드 사이즈만큼의 데이터를 전송함.
이때 이 사이즈들이 캐시의 성능에 영향을 미치는데, 블록 사이즈나 워드 사이즈가 상대적으로 크다면 그만큼 캐시의 Hit Ratio율이 높아진다.
Cache Hit : CPU가 필요한 데이터가 캐시 메모리 내에 들어와 있을 경우. 이 경우의 확률이 HIt Ratio.
Cache Miss : CPU가 접근하고자 하는 데이터가 없을 경우
요소 | 내용 |
Cache 크기 | Cache Memory의 Size의 크기가 크면 Hit Ratio율과 반비례 관계 |
인출 방식(Fetch Algorithm) | 요구 인출(Demand Fetch) : 필요시 요구하여 인출하는 방식 선 인출(Pre-Fetch) : 예상되는 데이터를 미리 인출하는 방식 |
쓰기 정책(Write Policy) | Write-Through : 주기억장치와 캐시에 동시에 쓰는 방식. 캐시와 메모리의 내용이 항상 일치하며 구성방법이 단순함 Write-Back : 데이터 변경만 캐시에 기록하는 방식. 구성방법이 복잡함 |
교체(Replace) 알고리즘 | Cache Miss 발생시 기존 메모리와 교체하는 방식. FIFO, LRU, LFU, Random, Optimal Belady's MIN(향후 가장 참조되지 않을 블록을 교체) 등이 있음 |
사상(Mapping) 기법 | 주기억장치의 블록을 적재할 캐시 내의 위치를 지정하는 방법. 직접 매핑(direct mapping), 어소시에이티브 매핑(associative mapping), 셋 어소시에이티브 매핑(set associative mapping) 등이 있음 |
2. 운영체제(OS)
1) 운영체제
목적 및 기능
- 목적
- 처리능력 향상
- 사용 가능도 향상
- 신뢰도 향상
- 반환 시간 단축
- 기능
- 프로세서, 기억장치, 입출력장치, 파일 및 정보 등의 자원 관리
- 자원을 효율적으로 관리하기 위한 자원의 스케줄링 기능 지원
- 어떤 자원을 누가, 언제, 어떤 방식으로 사용할지 결정해줌
- 사용자와 시스템간의 편리한 인터페이스 제공
- 시스템의 각종 하드웨어와 네트워크 관리 및 제어
운영체제의 시스템 자원 관리
운영체제는 하드웨어를 구성하는 일을 하는 CPU, 자료를 저장하는 RAM, 디스크 등의 시스템 자원을 관리하는 주체.
또한 응용프로그램이 하드웨어를 통해 다양한 작업을 할 수 있도록 도와준다.
- 프로세스 관리(CPU)
- 메모리 관리
- I/O(입출력) 관리 (디스크, 네트워크 등)
응용프로그램 관리
모든 응용프로그램이 시스템의 자원을 마음대로 사용할 경우, 악의적인 목적의 프로그램이 디스크의 모든 민감한 정보에 접근하거나, 스마트폰의 특정 앱이 카메라를 아무때나 실행해서 촬영할 수도 있다. => 권한에 대한 관리 필요함
또한 여러 사람이 하나의 기기를 사용하는 경우가 있을 수 있다. => 사용자에 대한 관리 필요함
=> 응용프로그램이 실행될때 시스템 자원을 사용할 수 있도록 권한과 사용자를 관리한다.
응용프로그램 - 운영체제를 통해 컴퓨터에게 일을 시킴
응용 프로그램은 컴퓨터를 조작할 수 있는 권한을 운영체제로부터 부여받아야 하고, 응용프로그램이 운영체제와 소통하기 위해서는 운영체제가 응용 프로그램을 위해 인터페이스(API)를 제공해야한다.
=> 시스템 콜(System call) : 응용 프로그램이 시스템 자원을 사용할 수 있도록 운영체제 차원에서 다양한 함수를 제공하는것
2) 프로세스
프로그램이 실행중인 상태로 특정 메모리 공간에 프로그램의 코드가 적재되고 CPU가 해당 명령어를 하나씩 수행하고 있는 상태. 운영체제에서는 프로세스를 사용해 프로그램을 수행할때, 실행중인 하나의 애플리케이션을 프로세스라고 부른다.
정리하자면 사용자가 애플리케이션을 실행했을때, 운영체제로부터 실행에 필요한 메모리를 할당받아 애플리케이션의 코드가 실행되고, 이때 실행되는 애플리케이션을 프로세스 라고 부른다. 예를 들어 크롬 브라우저를 두개 실행하면 두개의 프로세스가 만들어지는 것이다. 이렇게 하나의 애플리케이션이 여러 프로세스(다중 프로세스)를 만들기도 한다.
구성 요소
- 유저 메모리 영역 관리(Virtual Address Descriptors)
- 프로세스 별로 독립된 영역을 가짐
- 커널 메모리 공간의 경우 모든 프로세스가 공유하여 사용함
- 프로세스 별로 독립적인 유저 메모리 영역을 관리하기 위해서 VAD(Virtual Address Descriptors)라는 관리 테이블이 존재함
- 프로세스 단위로 관리되는 자원 중 가장 중요한 구별점은 가상메모리인데, 페이징 기법을 이용하여 프로세스마다 별도의 고유한 메모리를 사용할 수 있게 한다(윈도우의 경우).
- 핸들 테이블(Handle Table)
- 프로세스에서 사용하는 모든 핸들에 대한 커널 객체 포인터 정보를 배열 형태로 가지고 있는 공간
- 프로세스 종료시 핸들 테이블의 정보를 참고하여 해당 프로세서에서 사용하고 있는 모든 커널 객체를 자동으로 반환함
특징
- 자원 소유의 단위
- 각각의 프로세스는 자신의 실행 이미지 로드와 실행에 필요한 추가적인 메모리 공간을 갖고 있어야 한다
- 각 프로세스마다 구별되어야 하며 해당 프로세스가 접근하고자 하는 파일, I/O 장치들에 대해서도 프로세서 단위로 할당받아 관리되어야함
- 디스패칭의 단위 = 스레드
- 프로세스 - 하나의 프로그램이 운영체제로부터 CPU의 자원을 일정 기간 동안 할당 받아 명령어를 실행하는 것
- 운영체제 - 여러개의 프로세스가 병렬적으로 실행되게하기 위해서 CPU의 사용시간을 각각의 프로세스에 나눠줌
- 하나의 프로세스에서 여러개의 디스패칭 단위가 실행될 수 있음
상태
- 실행(Run) : 프로세스가 프로세서를 차지하여 서비스를 받고 있는 상태
- 준비(Ready) : 실행될 수 있도록 준비되는 상태
- 대기(Waiting) : CPU의 사용이 아니라 입출력의 사건을 기다리는 상태
🤷♀️ 프로세서? 프로세스?
프로세서 ≠ 프로세스
프로세서(Processor)
- 하드웨어에서 : 컴퓨터 내에서 프로그램을 수행하는 하드웨어 유닛. CPU를 의미하며 적어도 하나 이상의 ALU와 레지스터가 내장됨
- 소프트웨어에서 : 데이터 포맷을 변환하는 역할을 수행하는 데이터 처리 시스템. ex) 워드 프로세서, 컴파일러
프로세스(Process)
특정 목적을 수행하기 위해 나열된 작업의 목록. 메모리에 적재되어 프로세서에 의해 실행중인 프로그램이 프로세스이다.
3) 스레드(Thread)
명령어가 CPU를 통해서 수행되는 객체의 단위. 하나의 프로세스 내에는 반드시 1개 이상의 스레드가 존재하고, 이 스레드는 같은 프로세스에 있는 자원과 상태를 공유한다.
같은 프로세스 내의 스레드는 같은 주소 공간에 존재하며 동일한 데이터에 접근할 수 있다.
또한 하나의 스레드가 수정한 메모리는 같은 메모리를 참조하는 스레드에 영향을 미치게 된다.
ex) 하나의 스레드에서 오픈한 파일을 다른 스레드가 사용할 수 있음.
프로세스가 종료되면 해당 프로세스에 속해있는 스레드도 함께 종료된다.
스레드의 필요성
여러개의 작업 단위로 구성된 프로그램에서 요청을 동시에 처리하기 위함.
ex) 워드프로세서에서 사용자로부터 키보드를 입력받고, 그래픽이나 UI를 그리고 문법 오류를 체크하는 등 여러 요청들을 동시에 처리해야할때 => 스레드가 필요함!
구성요소
- 가상 CPU : 인터프리터, 컴파일러에 의해 내부적으로 처리되는 가상 코드
- 수행 코드 : Thread Class에 구현되어 있는 run() Method 코드
- 처리 데이터 : Thread에서 처리하는 데이터
특징
- 프로세스 내에서 실행되는 흐름의 단위. 하나의 스레드는 시작해서 종료할 때까지 한번에 하나씩 명령들을 수행함
- 각 스레드마다 call stack(실행중인 서브루틴을 저장하는 자료구조)이 존재한다.
- 나머지 Code, Data, Heap 영역은 스레드끼리 공유한다. (반면 프로세스는 다른 프로세스 메모리에 직접 접근할수 X)
- 한 스레드는 다른 스레드와 독립적으로 동작한다.
- 두개 이상의 스레드가 동작되는 경우, 두개 이상의 스레드의 실행 및 종료순서는 예측할 수 없다.(독립적으로 동작하기 때문)
싱글 스레드와 멀티 스레드
싱글 스레드(Single-Thread)
프로세스가 단일 스레드로 동작하는 방식. 일련의 처리를 단일 스레드만으로 직렬 처리하는 프로그래밍 방법.
하나의 레지스터, 스택으로 표현되고 자바스크립트가 가장 대표적인 싱글 스레드 언어이다.
- 장점
- 자원 접근에 대한 동기화를 신경쓰지 않아도 된다.
- 여러개의 스레드가 프로세스의 자원을 공유할 경우, 각 스레드가 원하는 결과를 얻게 하려면 공용 자원에 대한 접근을 제어해야한다. 모든 스레드가 특정 자원에 동시에 접근하거나 똑같은 작업을 실행할 경우 에러가 발생하거나 원하는 값이 나오지 않는다.
=> 스레드들이 동시에 같은 자원에 접근하지 못하도록 제어해줘야 함.
싱글 스레드는 스레드가 하나임으로 이 부분은 신경쓰지 않아도 된다.
- 여러개의 스레드가 프로세스의 자원을 공유할 경우, 각 스레드가 원하는 결과를 얻게 하려면 공용 자원에 대한 접근을 제어해야한다. 모든 스레드가 특정 자원에 동시에 접근하거나 똑같은 작업을 실행할 경우 에러가 발생하거나 원하는 값이 나오지 않는다.
- 문맥 교환(context switch) 작업을 요구하지 않는다.
- 문맥 교환(Context switch) : 여러개의 프로세스가 하나의 프로세서를 공유할때 발생하는 작업. 많은 비용이든다.
- 프로그래밍 난이도가 쉽고, CPU 메모리를 적게 사용한다.
- 자원 접근에 대한 동기화를 신경쓰지 않아도 된다.
- 단점
- 여러개의 CPU를 활용하지 못한다.
- 싱글 스레드는 하나의 물리적 코어밖에 사용하지 못하기 때문에 멀티 코어 머신에서 CPU 사용을 최적화 할 수 없다.
- 최적화를 위해서 Cluster 모듈을 이용해 여러 프로세스를 사용할 수 있지만, 앞서 프로세스끼리의 자원 공유가 어렵기때문에 Redis와 같은 부가 인프라가 필요하다.
- 연산량이 많은 작업을 하는 경우 해당 작업이 완료되어야 다른 작업을 수행할 수 있다.
- 에러 처리를 못하는 경우 멈춰버리게 된다 .
- 여러개의 CPU를 활용하지 못한다.
멀티 스레드(Multi-Thread)
하나의 프로세스 내에서 둘 이상의 스레드가 동시에 작업을 수행하는 것.
멀티 프로세스(Multi Process)는 여러개의 CPU를 사용하여 여러 프로세스를 동시에 수행하는 것을 의미한다.
시스템 자원의 활용 극대화 및 처리량을 증대할 수 있어 단일 프로세스 시스템의 효율성을 높일 수 있다 .
- 장점
- 작업을 분리해서 수행함으로 실시간으로 사용자에게 응답이 가능하다.
- 한 프로세스를 여러 프로세서에서 수행할 수 있으므로 훨씬 효율적이다.
- 단점
- 주의깊은 설계가 필요하며 디버깅이 까다롭다.
- 단일 프로세스 시스템의 경우 효과를 기대하기 어렵고, 다른 프로세스에서 스레를 제어할 수 없다.
= 프로세스 밖에서 스레드 각각을 제어할 수 없다. - 자원 공유의 문제가 발생한다. 하나의 스레드에 문제가 발생할 경우 전체 프로세스가 영향을 받게 된다.
- 문맥 교환 작업을 요구한다. CPU에서 여러 프로세스를 돌아가면서 작업을 처리할때 다른 태스크(프로세스, 스레드)가 시작할 수 있도록 이미 실행중인 태스크를 멈추는 것을 말한다.
동시성과 병렬성의 차이
시분할 : 동시에 돌릴 수 있는 스레드 수는 컴퓨터의 코어 개수로 제한되는데, 운영체제(또는 가상머신)은 각 스레드를 시간에 따라 분할하여 여러 스레드가 일정 시간마나 돌아가면서 실행되도록 한다.
- Concurrency(동시성, 병행성) : 여러개의 스레드가 시분할 방식으로 동시에 수행되는 것처럼 착각을 불러일으킴
- Parallelism(병렬성) : 멀티코어 환경에서 여러개의 스레드가 실제로 동시에 수행됨
3. 문자열과 그래픽
1) 문자열
유니코드(Unicode)
유니코드 협회(Unicode Consortium)가 제정하는 전세계의 모든 문자를 컴퓨터에서 일관되게 표현하고 다룰 수 있도록 설계된 산업 표준. ISO 10646 문자집합, 문자 인코딩, 문자 정보 데이터베이스, 문자를 다루기 위한 알고리즘 등을 포함하고 있음.
유니코드 이전에는 같은 언어가 적힌 텍스트 파일이더라도 표현하는 방법이 제각각이어서, 지원하지 않는 다른 인코딩 형식으로 저장되어 있는 경우에는 파일을 제대로 불러올 수 없었다. 유니코드의 목적은 현존하는 문자 인코딩 방법을 모두 유니코드로 교체하는 것이다.
✋ 인코딩(부호화)이란?
어떤 문자나 기호를 컴퓨터가 이용할 수 있는 신호로 만드는 것. 신호를 입력하는 인코딩과 문자를 해독하는 디코딩을 하기 위해서는 미리 정해진 기준을 바탕으로 입력과 해독이 처리되어야한다. 이러한 인코딩과 디코딩의 기준을 문자열 세트 또는 문자셋(charaset)이라고 하며, 이 문자셋의 국제 표준이 유니코드이다.
ASCII 문자
영문 알파벳을 사용하는 대표적인 문자 인코딩. 7비트로 모든 영어 알파벳을 표현할 수 있다. 52개의 영문 알파벳 대소문자와 10개의 숫자, 32개의 특수 문자, 그리고 하나의 공백문자를 포함한다. 유니코드는 ASCII를 확장한 형태이다.
UTF-8과 UTF-16의 차이점
결론적으로는 인코딩 방식의 차이이다.
UTF : Universal Coded Character Set + Transformation Format 의 약자. UTF- 뒤의 숫자는 비트(bit).
UTF-8 : 가변 길이 인코딩
UTF-8은 1byte에서 4byte까지의 가변길이를 가지는 인코딩 방식. 사용된 문자에 따라 더 작은 크기의 문자열을 표현할 수 있기 때문에 네트워크를 통해 전송되는 텍스트는 주로 UTF-8로 인코딩됨.
ASCII 코드의 경우 1byte, 크게 영어 외의 글자는 2byte, 3byte, 보조 글자는 4byte를 차지한다. 이모지의 경우 보조 글자에 해당하기 때문에 4byte가 필요하다.
또한 UTF-16에 비해 바이트 순서를 따지지 않고 순서가 정해져 있다.
UTF-16 : 코드 그대로 바이트로 표현 가능, 바이트 순서가 다양함
유니코드 대부분(U+0000부터 U+FFFF; BMP)를 16bits로 표현한다.
대부분에 속하지 않는 기타 문자는 32bit(=4bytes)로 표현하므로 가변길이라고 할 수 있지만, 대부분은 2바이트로 표현한다. 코드를 그대로 이진법으로 변환하고 해당 문자를 16bits 그대로 사용하며 바이트 순서(엔디언)에 따라 종류도 달라진다.
한글의 경우 UTF-8에서는 3byte, UTF-16에서는 2byte를 차지한다.
2) 그래픽
비트맵(Bitmap)
- 웹상에서 디지털 이미지를 저장하는데 가장 많이 쓰이는 이미지 파일 포맷 형식. 래스터 그래픽(점 방식)이라고 함.
- 이미지의 각 점들을 격자형의 픽셀 단위로 구성하며 한 지역을 차지하는 셀을 위치에 따라 다른 값을 가짐
- 사각의 픽셀 형태이기때문에 확대하면 '계단현상' '깨짐 현상'이 발생하고 경계가 뚜렷하지 않음
- 픽셀단위로 이미지를 표현하기때문에 컴퓨터에게 부담을 덜 주는 구조임
- 픽셀 하나당 모두 색상 값을 갖고 있음
- 이미지의 사이즈가 클 수록 용량도 커짐
벡터(Vector)
- 점과 점, 선과 선을 연결해 이미지를 수학적인 원리로 표현함
- 아무리 확대해도 '계단현상'이나 '깨짐현상'이 발생하지 않음
- 비트맵에 비해 컴퓨터에게 부담을 가하는 방식
- 주로 도형, 글자 등을 그릴때 사용됨
- 수학적 연산으로 만들어진 이미지이기때문에 사이즈를 키워도 용량에는 변화가 없음
비트맵 vs 벡터
비트맵(래스터) | 벡터 | |
기반 기술 | 픽셀 기반 | 수학적으로 계산된 Shape 기반 |
특징 | 사진과 같이 색상의 조합이 다양한 이미지에 적합 | 로고, 일러스트와 같이 제품에 적용되는 이미지에 적합 |
확대 | 확대에 적합하지 않음. 보다 큰 사이즈의 이미지가 필요할때 사용하려는 크기 이상으로 생성하거나 스캔해야함 |
품질 저하 없이 모든 크기로 확대 가능하며 해상도의 영향을 받지 않음 |
크기(dimension)에 따른 파일 용량 | 큰 크기의 이미지는 큰 파일 사이즈를 가짐 | 큰 크기의 벡터 그래픽은 작은 파일 사이즈를 유지할 수 있음 |
상호 변환 | 이미지의 복잡도에 따라 벡터로 변환하는 것에 오랜 시간이 걸림 | 쉽게 래스터 이미지로 변환 가능 |
대표적인 파일 포맷 | jpg, gif, png, bmp, psd | svg, ai |
웹에서의 사용성 | jpg, gif, png 등이 널리 쓰임 | svg 포맷은 현대의 브라우저에서 대부분 지원 |
4. 가비지 컬렉션(Garbage Collection)
프로그램에서 더이상 사용하지 않는 메모리를 자동으로 정리하는것. 가비지 컬렉션을 가진 언어나 엔진은 자바, C#, 자바스크립트 등이 있다. C언어와 같은 저수준 언어에서는 메모리 관리를 위해 개발자가 스스로 메모리를 할당하고 해제해야하지만, 자바스크립트와같은 고수준 언어에서는 객체가 생성되었을때 자동으로 메모리를 할당하고 필요하지 않다면 자동으로 해제하는 가비지 컬렉션이 내장되어있다. 개발자가 직접 메모리를 할당하고 해제해야하는 부분을 가비지 컬렉션이 도와주지만, 그렇다고 해서 개발자가 메모리 관리에 대해 고민할 필요가 없는 것은 아니다.
✅ 고수준 언어와 저수준 언어
프로그래밍 언어가 인간에게 친화적인지, 기계에게 친화적인지에 따라서 나뉜다.
- 저수준 언어
- 기계 친화적인 언어
- 레지스터 및 메모리와 직접 상호작용 할 수 있음 => 전반적으로 빠르게 실행되는 응용 프로그램을 빌드하는데 사용
- 컴파일러나 인터프리터가 필요하지 않으므로 고수준 언어보다 빠른 편
- 고수준 언어
- 인간 친화적인 언어
- 인간이 이해하기 쉽고 다양한 작업을 수행하는 프로그램을 개발할 수 있다
- 영어와 유사한 구문이 있기 때문에 컴파일러 또는 인터프리터를 사용하여 컴퓨터가 읽을 수 있는 기계어 코드로 변환해야하며, 하드웨어와 직접 상호작용하지는 않는다.
메모리 생존주기
프로그래밍 언어에 관계없이 비슷하다.
- 필요할때 개발자가 할당
- 할당된 메모리를 사용(Read and Write)
- 자바스크립트의 경우, 개발자가 변수를 선언해 값을 할당하여 사용되는 부분
- 메모리가 더이상 필요하지 않으면 해제
2번의 경우, 모든 언어에서 명시적으로 사용되는 부분이다.
그러나 1번과 3번은 C언어와 같은 기계 친화적인 저수준 언어에서는 명시적이고, 자바스크립트와 같은 고수준 언어에서는 암묵적으로 작동한다.
메모리 할당
- 자바스크립트는 개발자 대신 값 선언시 자동으로 메모리를 할당함
- 정수, 문자열, 함수, 객체, 배열 등을 선언하고 값을 할당하면 자바스크립트가 알아서 자료형에 따른 메모리 크기 할당을 알아서 진행함
할당된 메모리 사용(값 사용)
기본적으로 할당된 메모리를 읽고 쓰는 것. 변수나 객체 속성의 값을 읽고 쓰거나 함수 호출시 함수에 인수를 전달하여 수행하는 방식으로 방생함.
메모리 해제
할당된 메모리가 더이상 필요없다면 해제해야 앱의 성능을 저하시키지 않는다.
- 저수준 언어
- 개발자가 직접 결정하고 메모리를 해제하는 방식을 사용한다.
- 개발자가 직접 관여하므로 개발자의 제어정도가 매우 높다.
- 고수준 언어
- 자동메모리 관리 방법이 내장되어있음(=가비지 컬렉션)
- 가비지컬렉션은 메모리 할당을 추적, 할당된 메모리 블록이 더이상 필요하지 않게 되었는지 스스로 판단하여 필요하지 않다고 판단되면 해당 메모리를 해제함
- 하지만 언어 스스로 메모리의 필요여부를 판단하는것은 비결정적인 영역임
=> 고수준 언어에 내장된 가비지 컬렉터들은 제한적인 해결책을 구현한다.
가비지 컬렉션의 알고리즘
아래의 알고리즘들은 참조(reference) 개념에 의존한다.
✅ 참조(reference)
명시적이거나 암묵적으로 메모리 관리 관점에서 어떤 객체가 다른 객체에 접근할 수 있다면 다른 객체를 참조한다고 말한다. 일례로 자바스크립트 객체의 경우, 자신의 프로토타입에 암묵적인 참조를 갖고 있고, 자신의 속성값에 대해 명시적 참조도 갖고 있다.
객체 참조의 경우, 협의적 개념으로 일반적인 자바스크립트 객체를 의미하지만 광의적 개념으로 함수 스코프나 글로벌 렉시컬 스포크까지도 포함한다. (렉시컬 스코핑(lexical scoping) : 변수 이름이 중첩된 함수에서 해석되는 방식을 정의하는것. 중첩되어있는 더 안쪽의 함수는 부모 함수가 값을 반환한 다음에도 부모 함수의 스코프를 포함하고 있다.)
- 레퍼런스 카운팅(참조 횟수 계산)
- 한 객체를 참조하는 변수의 수를 추적하는 방법. 가장 단순한 형태의 가비지 컬렉션 알고리즘.
- 객체를 참조하는 변수는 처음에는 특정 메모리에 대해 레퍼런스가 하나뿐이지만, 복사될때마다 레퍼런스 카운트가 늘어난다.
- 객체를 참조하고 있던 변수의 값이 바뀌거나 변수 스코프를 벗어나면 레퍼런스 카운트는 줄어든다.
- 레퍼런스 카운트가 0이 될 경우, 그 객체와 관련된 메모리는 비울 수 있다. 즉, 아무것도 해당 객체에 대한 레퍼런스를 가지고 있지 않다는 것이다.
- 단점으로는, 순환 참조로 인한 문제가 생길 가능성이 높다.
- 아래 코드에서는 두 객체가 생성되고 서로를 참조하는 형태이기 때문에 순환참조가 발생한다.
이 객체들은 함수 호출 뒤에는 스코프를 벗어나게 되므로 실질적으로 쓸모가 없다. 그래서 이 객체들이 차지하던 메모리는 반환될 수 있지만, 레퍼런스 카운팅 알고리즘에서는 두 객체가 적어도 한번은 참조한 것으로 간주되기 때문에 둘다 가비지 컬렉션이 될 수 없게 된다.
- 트레이싱
- 한 객체에 flag를 두고, 가비지 컬렉션 사이클 마다 flag에 표시 후 삭제하는 mark and sweep 방법
- 객체에 in-used flag를 두고, 사이클마다 메모리 관리자가 모든 객체를 추적해서 사용중인지 아닌지를 표시(mark)함. 이후 표시되지 않은 객체를 삭제(sweep)하는 단계를 통해 메모리를 해제한다.
- 현재 대부분의 가비지 컬렉션이 mark and sweep 알고리즘을 이용한 가비지 컬렉터를 장착하고 있다.
- mark and sweep 알고리즘은 객체가 필요한지 결정히기 위해 해당 객체에 닿을 수 있는지(reachable) 판단함. 그리고 다음의 3단계를 거친다.
- 루트(Roots) : 일반적으로 루트는 코드에서 참조되는 전역 변수. 자바스크립트의 경우는 window 객체이다. Node.js에서 이와 동일한 객체는 global이다. 가비지 컬렉터는 모든 루트의 완전한 목록을 만들어낸다.
- 모든 루트와 그 자식들을 검사해서 활성화 여부를 표시한다.(활성상태이면 가비지가 아니다)
루트가 닿을 수 없다면 가비지로 표시한다. - 가비지 컬렉터가 활성으로 표시되지 않은 모든 메모리를 OS에 반환한다.
- 참조받지 않는 객체는 닿을수 없는 객체임으로 가비지 컬렉션을 통해 메모리를 해제할 수 있다.
메모리 누수
- 주요 원인 : 예상치 못한 참조
- 개발자가 더이상 사용되지 않을거라고 생각했지만, 어떤 이유로 활성화 상태인 루트 트리 안에 존재하는 메모리 조각들
- 메모리 누수의 주요 형태
- 우발적으로 생성된 전역변수
- DOM 외부에서의 참조
- 클로저의 잘못된 사용
프로그래밍 언어의 메모리 관리 시스템이 특정 메모리의 실제적인 사용여부를 완벽히 구분하는것은 사실상 불가능에 가깝다. 오직 해당 코드를 작성한 개발자만이 해당 메모리 조각의 반화여부를 명확히 알 수 있기 때문에 해당 부분들을 잘 확인하여 메모리누수가 일어나는 부분을 막을 줄 알아야 한다.
'study > TIL' 카테고리의 다른 글
TDD 방법론 (0) | 2023.03.29 |
---|---|
GraphQL (0) | 2023.03.28 |
React Hooks(feat. useMemo, useCallback, Custom Hooks) (0) | 2023.03.22 |
리액트의 동작 방식(feat. Virtual DOM, React Diffing Algorithm) (0) | 2023.03.22 |
번들링과 웹팩(feat. 리액트) (0) | 2023.03.21 |