6 lỗi thường gặp khi chọn mẫu thống kê và cách khắc phục

Giới thiệu

Trong thống kê, “mẫu” (sample) là một nhóm đại diện cho tổng thể (population) (tức tất cả những người/vật mà bạn muốn nghiên cứu). Nếu chọn sai mẫu – tức là khảo sát không đúng người, không đủ người, hoặc không đúng cách – thì dù phân tích đúng kỹ thuật, kết quả vẫn sẽ bị lệch và không đáng tin cậy.

Hãy cùng FES tìm hiểu các lỗi thường gặp khi chọn mẫu thống kê sau để tránh mắc phải khi làm việc với dữ liệu nhé!

Lỗi về cỡ mẫu

Cỡ mẫu hay kích thước mẫu là số quan sát mà bạn đưa vào mẫu để nghiên cứu. Khi kích thước mẫu quá lớn hoặc quá nhỏ đều sẽ ảnh hưởng đến kết quả kiểm định.

Một mẫu quá nhỏ sẽ không đủ sức phản ánh đúng toàn bộ tổng thể và gây thiếu dữ liệu để xác định xu hướng hoặc các tác động của dữ liệu. Đây là lỗi rất thường gặp khi người làm khảo sát không biết cần bao nhiêu người là “đủ”.

Lỗi về cỡ mẫu

Một mẫu quá lớn sẽ gây ra những tổn thất về thời gian, tiền bạc và cả công sức khi thu thập và xử lý. Ngoài ra, mẫu quá lớn còn tăng khả năng gây ra hiện tượng quá khớp (overfitting) của dữ liệu.

Một cách khắc phục đơn giản của vấn đề này là tham khảo các tài liệu thống kê hoặc các bài nghiên cứu trước đó để “áng chừng” độ lớn phù hợp cho mẫu.

Thiên lệch chọn mẫu (Sampling Bias)

Lỗi này xảy ra khi nhóm đối tượng bạn khảo sát không có những đặc điểm giống với nhóm bạn nghiên cứu. Nguyên nhân dẫn đến lỗi này thường là mẫu không đủ lớn hoặc hạn chế về cách lấy mẫu (ví dụ bạn muộn nghiên cứu về sự yêu thích bóng đá của người dân Việt Nam nhưng chỉ khảo sát được ở Hồ Chí Minh).

Để khắc phục thì trước khi chọn mẫu, hãy xác định rõ ai là đối tượng bạn muốn tìm hiểu, và đảm bảo mẫu có sự đa dạng về độ tuổi, giới tính, khu vực… tương tự như tổng thể. Bên cạnh đó, hãy tính đến khả năng thu thập dữ liệu để chọn hướng nghiên cứu sao cho giảm thiểu tình trạng lỗi này.

Thiên lệch chọn mẫu (Sampling Bias)

Không có khung chọn mẫu rõ ràng (Sampling Frame Error)

Khung chọn mẫu là danh sách đặc điểm của các đối tượng mà bạn muốn quan sát. Khung chọn mẫu không chính xác, hoặc quá cũ, lỗi thời có thể dẫn đến khảo sát sai đối tượng, sai lệch trong kết quả phân tích.

Ví dụ: Bạn muốn khảo sát người tiêu dùng cho cửa hàng và sử dụng danh sách số điện thoại khách đã mua hàng của cửa hàng. Tuy nhiên, dữ liệu này sẽ bao gồm cả những khách hàng đã đổi số điện thoại, đổi nơi ở, không còn mua hàng dẫn đến sai lệch trong kết quả. 

Không có khung chọn mẫu rõ ràng (Sampling Frame Error)

Để khắc phục vấn đề này, người khảo sát cần hiểu mục tiêu khảo sát là ai và xây một khung khảo sát chặt chẽ hơn. Như trong ví dụ trên, người khảo sát có thể cập nhật danh sách, loại bỏ những khách hàng 3 năm gần đây không mua hàng tại cửa hàng nhắm vào đúng đối tượng.

Sử dụng phương pháp “Lấy mẫu thuận tiện” (Convenience Sampling)

Phương pháp “lấy mẫu thuận tiện” có thể hiểu đơn giản là tiện cho người đi khảo sát. Ví dụ bạn là giảng viên tại trường X, bạn có thể khảo sát sinh viên trong trường, đó là sự thuận tiện. Phương pháp này có rất nhiều ưu điểm như tiết kiệm thời gian, chi phí, nhưng cũng có nhiều hạn chế.

Nếu tổng thể mà chúng ta nhắm đến lớn hơn và có nhiều đặc điểm hơn thì phương pháp này gây ra thiên lệch trong mẫu. 

Sử dụng phương pháp “Lấy mẫu thuận tiện” (Convenience Sampling)

Ví dụ nếu tổng thể là sinh viên các trường đại học tại Thành phố Hồ Chí Minh, thì việc chỉ khảo sát sinh viên trường X sẽ không phản ánh đủ tính chất mẫu, vì mỗi trường đại học có văn hóa riêng và tập trung đào tạo các ngành khác nhau nên sẽ dẫn đến sai lệch trong kết quả phân tích sau này.

Lỗi này thường xảy ra khi mẫu nhỏ và kinh phí nghiên cứu eo hẹp.

Không chú ý đến chất lượng dữ liệu (Sampling Quality)

Khi khảo sát để thu thập dữ liệu mẫu, việc bạn rải 1000 đơn và nhận về chỉ tầm 1 nửa số đó là rất bình thường. Tuy nhiên, nếu số lượng người không phản hồi quá cao thì dữ liệu bạn thu thập được còn thiếu thông tin, chưa đủ tin cậy để đưa ra kết quả phân tích.

Ngoài ra, sẽ có những đơn khảo sát điền “đại”, gây sự không nhất quán trong dữ liệu (đặc biệt đối với việc khảo sát hành vi). Người nghiên cứu cũng cần chú ý, thiết kế thêm những câu hỏi mang tính chất đối chiếu để lọc các đơn phản hồi không đáng tin cậy này.

Không chú ý đến chất lượng dữ liệu (Sampling Quality)

Lạm dụng chọn ngẫu nhiên đơn giản (Overusing Simple Random Sampling)

Ngẫu nhiên là tốt, nhưng không phải lúc nào cũng là cách hiệu quả nhất.

Ví dụ: Khảo sát người dân trên toàn nước. Nếu lấy mẫu ngẫu nhiên trong trường hợp này sẽ tốn rất nhiều thời gian. Ngoài ra, nếu có sự chênh lệch lớn giữa dân thành thị và nông thôn, ví dụ 80% dân số là người thành thị, thì xác suất khảo sát được 1 người dân thành thị cao hơn rất nhiều, gây chênh lệch trong mẫu.

Trong các trường hợp này, có thể xem xét các phương pháp lấy mẫu ngẫu nhiên khác như: lấy mẫu phân tổ (stratified sampling) hay lấy mẫu hệ thống (systematic sampling).

Lạm dụng chọn ngẫu nhiên đơn giản (Overusing Simple Random Sampling)

Lời kết

Chọn mẫu là bước nền tảng trong mọi nghiên cứu thống kê, nếu làm sai từ đầu, bạn có thể “lạc đường” dù dùng công cụ phân tích chuẩn xác đến đâu. Hiểu và tránh 6 lỗi phổ biến trên sẽ giúp bạn có được dữ liệu đáng tin cậy, kết quả đúng thực tế, và từ đó đưa ra quyết định chính xác hơn.

Xem thêm các bài viết: Thông tin CFATin tức thị trườngTổng hợp công thức CFAĐăng ký thi CFA