SQL 쿼리 필수 기술: 데이터 필터링, 집계, 테이블 연결

SQL(Structured Query Language)은 관계형 데이터베이스에서 데이터를 추출하고 관리하는 핵심 언어입니다. 단순히 데이터를 조회하는 것을 넘어, 복잡한 비즈니스 요구사항을 정확한 쿼리로 구현하는 능력은 모든 데이터 전문가의 시작점이라고 할 수 있어요. 이 글은 SQL 데이터 추출 쿼리 예시를 중심으로, 불필요한 내용은 배제하고 실무에서 가장 자주 사용되는 쿼리 패턴을 설명하여 여러분의 SQL 활용 능력을 향상시키는 데 도움을 드리고자 합니다.

목차정보

데이터 추출의 시작점, SELECT와 WHERE

SQL의 핵심은 바로 데이터 추출입니다. 이 추출 작업의 가장 기본이 되는 도구는 SELECT와 FROM 절이죠. SELECT는 마치 ‘어떤 정보를 보여줄까?’ 하고 묻는 것과 같아요. 예를 들어, SELECT * FROM users;는 ‘users’ 테이블에 있는 모든 열(*)을 보여달라는 의미입니다. 반면에 SELECT id, name FROM users;는 수많은 정보 중 ‘id’와 ‘name’ 열만 콕 집어 보여달라는 요청이죠. 이처럼 원하는 데이터만 골라내는 과정은 매우 중요합니다.

-- 'users' 테이블에서 모든 데이터 추출SELECT * FROM users;-- 'users' 테이블에서 'id', 'name' 열만 추출SELECT id, name FROM users;

조건에 따른 정교한 데이터 필터링: WHERE 절

데이터 추출을 더욱 정교하게 만들어 주는 것이 바로 WHERE 절입니다. WHERE 절은 특정 조건을 만족하는 데이터, 즉 원하는 행(row)만 추출하는 필터 역할을 합니다. 이때 =, >, < 등의 비교 연산자와 AND, OR, NOT 같은 논리 연산자를 사용해 조건을 조합할 수 있습니다.

-- 'users' 테이블에서 나이가 30세 이상인 사용자의 이름만 추출SELECT name FROM users WHERE age >= 30;-- 'employees' 테이블에서 직위가 '팀장'이고 연봉이 5000만 원 이상인 직원 정보 추출SELECT * FROM employees WHERE position = '팀장' AND salary >= 50000000;

데이터 분석의 첫걸음은 무작정 데이터를 가져오는 것이 아니라, 필요한 데이터만 정확히 선별하는 것에서 시작됩니다. WHERE 절을 활용하면 수많은 데이터 속에서 보석 같은 정보를 찾아낼 수 있어요.

‘SQL데이터추출쿼리예시’를 활용한 실습

아래 쿼리들은 실제 데이터베이스에서 사용되는 데이터 추출의 예시입니다. WHERE 절을 활용해 다양한 조건으로 데이터를 필터링하는 방법을 익혀보세요.

특정 기간 내의 거래 내역: SELECT * FROM transactions WHERE transaction_date BETWEEN '2023-01-01' AND '2023-03-31';
특정 카테고리의 상품: SELECT product_name, price FROM products WHERE category = '전자제품' ORDER BY price DESC;
이름에 ‘김’이 포함된 사용자: SELECT name FROM users WHERE name LIKE '김%';

이러한 기본적인 쿼리들은 데이터베이스 탐색의 시작점이자, 방대한 데이터 속에서 의미 있는 정보를 발견하는 데 필수적입니다.

WHERE 절 심화 학습하기

데이터 집계 및 요약: GROUP BY와 집계 함수

데이터 추출의 기본을 다졌다면, 이제 방대한 데이터를 의미 있는 정보로 요약해볼 차례입니다. SQL은 COUNT(), SUM(), AVG(), MIN(), MAX()와 같은 집계 함수를 제공하여 이를 가능하게 해요. 이 함수들은 특정 열의 값을 계산해 단일 값을 반환합니다. 더 나아가, GROUP BY 절을 함께 사용하면 지정된 열의 값에 따라 데이터를 그룹화하고 각 그룹별로 집계 결과를 계산할 수 있습니다. 예를 들어, 부서별 직원 수나 상품 카테고리별 총 판매액 등을 계산할 때 유용하죠.

-- 'products' 테이블의 총 상품 개수 계산SELECT COUNT(*) FROM products;-- 'orders' 테이블에서 각 고객별 총 주문 금액 계산SELECT customer_id, SUM(amount) AS total_salesFROM ordersGROUP BY customer_id;

HAVING 절을 사용한 그룹 필터링

GROUP BY로 그룹화된 결과에 추가적인 조건을 적용하고 싶다면 HAVING 절을 사용합니다. 이는 일반적인 행을 필터링하는 WHERE 절과 달리, 집계된 결과에 대한 조건을 지정하는 데 사용됩니다.

중요: WHERE는 개별 행을 필터링하고, HAVING은 그룹에 대한 조건을 지정합니다. HAVING 절은 반드시 GROUP BY 절 뒤에 위치해야 합니다.

-- 'SQL데이터추출쿼리예시'를 활용하여-- 총 판매량이 1000개를 초과하는 상품 카테고리별-- 평균 판매 가격과 총 판매량 계산SELECT category, AVG(price) AS average_price, SUM(quantity) AS total_quantityFROM salesGROUP BY categoryHAVING SUM(quantity) > 1000ORDER BY total_quantity DESC;

이처럼 집계 함수와 GROUP BY, HAVING을 조합하면 원시 데이터의 숨겨진 패턴과 인사이트를 효율적으로 발견하여 비즈니스 의사결정에 중요한 정보를 도출할 수 있습니다.

GROUP BY & HAVING 자세히 알아보기

여러 테이블 연결하기: JOIN의 심층 활용

단일 테이블의 정보를 넘어, 여러 테이블에 분산된 데이터를 연결하는 방법도 알아봅시다. 현대의 데이터베이스는 효율성과 데이터 무결성을 위해 정규화되어 있어, 관련된 정보가 여러 테이블에 나뉘어 저장됩니다. 이 분산된 데이터를 하나의 의미 있는 집합으로 결합하는 핵심 기술이 바로 JOIN 절입니다. JOIN은 공통된 열(키)을 기준으로 서로 다른 테이블의 행을 연결하여 새로운 결과 집합을 만듭니다. 이 기술을 얼마나 능숙하게 다루느냐에 따라 데이터 분석의 깊이가 달라집니다.

JOIN은 단순한 테이블 병합을 넘어, 흩어져 있는 정보 조각들을 연결하여 비즈니스 인사이트를 도출하는 가장 강력한 도구입니다.

가장 기본적이면서도 중요한 JOIN 유형은 INNER JOIN과 LEFT JOIN입니다.

INNER JOIN: 양쪽 테이블에 모두 일치하는 행만 반환합니다. 정확히 일치하는 데이터 쌍을 찾을 때 유용합니다.
LEFT JOIN: 왼쪽 테이블의 모든 행을 포함하고, 오른쪽 테이블에서는 일치하는 행만 가져옵니다. 왼쪽 테이블의 데이터는 모두 유지하면서 관련 정보를 추가하고 싶을 때 사용됩니다.

-- 'orders'와 'customers' 테이블을 연결하여 주문과 고객 정보를 함께 추출-- 고객 정보가 없는 주문은 제외됨SELECT o.order_id, c.customer_name, c.customer_cityFROM orders AS oINNER JOIN customers AS c ON o.customer_id = c.customer_id; -- 'employees'와 'departments' 테이블을 연결하여 직원과 부서 정보를 함께 추출-- 부서 정보가 없는 직원도 모두 포함SELECT e.employee_name, d.department_nameFROM employees AS eLEFT JOIN departments AS d ON e.employee_id = d.employee_id;

JOIN은 한 번에 두 테이블만 연결하는 것이 아니라, 여러 개의 JOIN 절을 연속적으로 사용하여 3개 이상의 테이블을 연결할 수 있습니다. 예를 들어, 주문, 고객, 그리고 상품 정보까지 모두 결합하여 종합적인 분석 리포트를 만들 수 있습니다. 복잡한 비즈니스 로직을 구현하고 깊이 있는 분석을 수행하는 데 있어 가장 중요한 기술 중 하나입니다.

여러분은 어떤 복잡한 비즈니스 요구사항을 쿼리로 구현하고 싶으신가요? JOIN을 활용하면 어떤 새로운 인사이트를 발견할 수 있을까요?

SQL JOIN 더 알아보기

SQL 데이터 추출, 그 핵심 정리

SQL은 단순한 데이터 조회를 넘어, 데이터를 의미 있는 정보로 변환하는 강력한 도구입니다. SELECT와 WHERE를 사용한 조건부 필터링은 마치 필요한 재료만 골라내는 것과 같으며, 이는 데이터 추출의 기본이자 가장 중요한 단계입니다. 예를 들어, 특정 고객의 주문 기록만 빠르게 찾아내는 데 필수적이죠.

쿼리 최적화의 중요성

단순한 쿼리도 데이터 양이 많아지면 성능에 큰 영향을 미칩니다. 인덱스를 활용한 쿼리는 수백만 건의 데이터 속에서 특정 정보를 신속하게 찾아내며, 이는 곧 분석 속도와 직결됩니다.

또한, 집계 함수(SUM, AVG, COUNT)와 GROUP BY를 활용한 요약은 방대한 데이터 속에서 패턴과 추세를 발견하게 합니다. 이 조합을 통해 우리는 각 상품별 총 판매량, 월별 평균 매출 등 핵심적인 비즈니스 인사이트를 얻을 수 있습니다.

데이터 추출은 정보를 정확히 요약하고 연결하는 과정입니다. JOIN을 통한 테이블 결합은 서로 다른 테이블에 분산된 정보를 하나로 모아 완전한 그림을 완성하는 데 필수적입니다.

궁극적으로 SQL 데이터 추출의 완성은 이 모든 것을 유연하게 조합하여 어떤 형태의 요구사항에도 효율적으로 대처하는 능력에 달려 있습니다. 이 핵심 원리들을 숙달함으로써 우리는 단순한 데이터 접근자를 넘어, 진정한 데이터 분석 전문가로 성장할 수 있습니다.

자주 묻는 질문(FAQ)

Q: WHERE와 HAVING의 차이점은 무엇인가요?

개념과 사용 시점의 명확한 구분

WHERE 절은 FROM 절에서 가져온 개별 행에 조건을 적용하여 결과를 필터링합니다. 이는 GROUP BY 절이 실행되기 전에 처리되므로, 집계 함수를 사용할 수 없습니다. 반면에 HAVING 절은 GROUP BY로 그룹화된 결과 집합에 조건을 적용합니다. 따라서 SUM(), COUNT()와 같은 집계 함수의 결과에 대해 조건을 지정할 때 사용됩니다. 두 절의 처리 순서가 다르기 때문에, 같은 집계 함수가 있더라도 사용 위치에 따라 쿼리 동작이 달라집니다.

예시:

SELECT user_id, COUNT(order_id) FROM orders GROUP BY user_id HAVING COUNT(order_id) > 5;

이 쿼리는 ‘5개 초과’의 주문을 한 사용자만 필터링합니다.

Q: 쿼리 결과를 정렬하려면 어떻게 해야 하나요?

ORDER BY 절의 심화 활용

쿼리 결과를 정렬하려면 ORDER BY 절을 사용합니다. ORDER BY column_name DESC는 내림차순, ORDER BY column_name ASC는 오름차순으로 결과를 정렬합니다. ASC는 생략이 가능합니다. 여러 개의 컬럼을 기준으로 정렬할 수도 있으며, 정렬 순서에 따라 결과가 크게 달라질 수 있습니다. 예를 들어, ‘지역’을 기준으로 1차 정렬하고 ‘나이’를 기준으로 2차 정렬할 수 있습니다. 데이터를 명확하게 분류하고 시각화할 때 매우 유용합니다.

복합 정렬 예시

다음은 지역별로 나이가 어린 순서대로 정렬하는 예시입니다.

SELECT name, age, city FROM users ORDER BY city ASC, age ASC;

쿼리 성능 향상을 위해 ORDER BY 절에 인덱스가 설정된 컬럼을 사용하는 것이 좋습니다. 이는 데이터베이스가 정렬 작업을 더 빠르게 수행하도록 돕습니다.

Q: 대용량 데이터에서 쿼리 속도를 높이는 팁이 있나요?

성능 최적화를 위한 실질적인 전략

대용량 데이터베이스에서는 쿼리 최적화가 필수적입니다. 가장 효과적인 방법은 쿼리 조건에 자주 사용되는 열에 인덱스(index)를 생성하는 것입니다. 인덱스는 책의 목차와 같아서 데이터 탐색 시간을 획기적으로 줄여줍니다. 또한, SELECT * 대신 필요한 열만 지정하면 네트워크 부하와 I/O(입출력) 비용을 줄일 수 있습니다. 서브쿼리를 조인(JOIN)으로 바꾸거나, WHERE 절에 연산을 피하는 것도 좋은 습관입니다. 예를 들어, WHERE YEAR(date_column) = 2023 대신 WHERE date_column BETWEEN '2023-01-01' AND '2023-12-31'을 사용하는 것이 더 효율적입니다.

최적화 핵심 체크리스트

인덱스 활용: WHERE, JOIN, ORDER BY에 사용되는 컬럼에 인덱스를 생성하세요.
필요한 열만 선택: SELECT * 대신 SELECT column1, column2를 사용하세요.
WHERE 절 최적화: WHERE 절에 함수나 복잡한 연산을 사용하지 마세요.
JOIN 최적화: 테이블의 크기가 클 경우, JOIN 순서를 최적화하고, 불필요한 서브쿼리를 제거하세요.
LIMIT 사용: 대량의 데이터 중 일부만 필요할 경우, LIMIT를 사용해 불필요한 처리를 줄이세요.