Forensic analysis of deduplicated file systems

Deduplication 이란?

데이터의 중복되는 부분을 하나로 처리하고, 인덱싱을 통해서 연결하는 기술. 파일 레벨에서도 이루어질 수 있고, 블록 단위로도 이루어질 수 있다. 파일이 저장된 다음에 이루어진다는 점에서 후처리 과정이다. (post - process)
장점
Storage 의 활용도가 높아지며, 용량에 있어서 효율적이다.
단점
중복제거된 장치는 복구가 매우 힘들다, 어떻게 동작하는지에 대한 이해도가 높아야 한다.
오픈 소스 deduplication 이 있음
ex. Opendedup
주로 Windows Server, ZFS 같은 서버 파일시스템에서 많이 사용
현재 주어진 디지털 포렌식 도구들로는 이를 분석하는데 한계가 있음 → 실제로 덤프 떠서 보면 그냥 0으로 채워진 파일로 나옴.
Microsoft 에서는 자주 사용되는 청크들을 저장해놓는다. OpenDedup을 사용하기 때문에 이는 SDFS라는 파일 시스템을 사용한다. 이는 나중에 다뤄봐야겠다.
sdfs
opendedup
청크들은 고정된 사이즈를 가진다. 32KB에서 128KB 의 크기를 가지는 것 같은데, 실제로 테스트를 해보니 작은 파일들은 하나의 청크안에 다 할당되는 현상을 확인할 수 있었다. → 이를 통해서 해시값(fingerprints)을 계산할 때 시간적 이점을 얻을 수 있음 → 알고리즘은 Rabin fingerprints 알고리즘 사용함

Analysis

파일의 위치에 대한 분석은 가능하나, 추출하여 파일 자체를 분석하는 것은 불가능. → 상용 도구들에서 분석하기 힘듦
SDFS 에서의 구조는 생략
→ 원 목표가 윈도우 서버였다는 점에서 분석하는데 의미 부여 x
복구 방법에 대해서도 다른 논문이 더 자세한 내용을 다루기 때문에 생략

Conclusion

deduplication 이 어떤 알고리즘을 사용하는지, 어떤 방식으로 동작하는지에 대한 간단한 지식을 얻을 수 있었다
왜 윈도우에서는 사용 안하는지가 궁금한 내용이다.