Tăng tốc hành trình học AI với 60 câu hỏi trắc nghiệm về Big Data & Python

Là một sinh viên Thạc sĩ ngành Khoa học AI, việc nắm vững nền tảng Phân tích Dữ liệu Lớn (Big Data Analytics)Python là điều không thể thiếu. Trong hành trình học tập, mình đã hệ thống lại 60 câu hỏi trắc nghiệm đi kèm giải thích song ngữ Anh – Việt để ôn luyện nhanh, hiệu quả.

✅ Nội dung bao gồm:

  • Kiến thức về Pandas, Dask, Polars, KDE plot, DataFrame, và các phương pháp xử lý dữ liệu

  • Ứng dụng của Cluster Analysis, ABC-XYZ, IQR, df.dropna(), interpolation,…

  • Hiểu đúng về structured, semi-structured, unstructured data

  • Phân biệt các loại biểu đồ và cách trực quan hóa hiệu quả

  • Áp dụng thực tế như phát hiện dịch bệnh, phân khúc khách hàng, quản lý tồn kho thông minh,…

💡 Lợi ích:

  • Rút gọn kiến thức lý thuyết khô khan thành từng câu dễ nhớ

  • Học nhanh mọi lúc mọi nơi

  • Phù hợp cho sinh viên, người mới học hoặc ôn thi

Big Data & Python Quiz Summary (English – Vietnamese)

  1. What is the use of standard deviation?
    Answer: b. Showing data spread around mean
    Câu hỏi: Ý nghĩa của độ lệch chuẩn là gì?
    Đáp án: b. Thể hiện mức độ phân tán quanh giá trị trung bình
  2. Which method provides multiple aggregation metrics at once?
    Answer: a. describe()
    Câu hỏi: Phương thức nào cung cấp nhiều chỉ số tổng hợp cùng lúc?
    Đáp án: a. describe() cung cấp nhiều chỉ số thống kê
  3. Which statistical measure is most affected by outliers?
    Answer: a. Mean
    Câu hỏi: Chỉ số thống kê nào bị ảnh hưởng nhiều nhất bởi giá trị ngoại lai?
    Đáp án: a. Trung bình (Mean)
  4. Which of these sources represents semi-structured data?
    Answer: b. MongoDB
    Câu hỏi: Nguồn dữ liệu nào sau đây là dữ liệu bán cấu trúc?
    Đáp án: b. MongoDB
  5. Which environment supports running Dask?
    Answer: c. Laptops, clusters, and cloud platforms
    Câu hỏi: Môi trường nào hỗ trợ chạy Dask?
    Đáp án: c. Laptop, cụm máy và nền tảng đám mây
  6. What type of index can be used in Pandas?
    Answer: b. Custom labels or numbers
    Câu hỏi: Pandas hỗ trợ loại chỉ mục nào?
    Đáp án: b. Nhãn tùy chỉnh hoặc số
  7. Which clustering method groups customers by behaviour?
    Answer: b. Cluster Analysis
    Câu hỏi: Phương pháp phân cụm nào nhóm khách hàng theo hành vi?
    Đáp án: b. Phân tích cụm
  8. Which data type represents Yes/No responses?
    Answer: c. Boolean
    Câu hỏi: Kiểu dữ liệu nào thể hiện phản hồi Có/Không?
    Đáp án: c. Boolean (kiểu đúng/sai)
  9. What kind of tasks is Python well-suited for?
    Answer: c. Automation and scripting
    Câu hỏi: Python phù hợp với loại tác vụ nào?
    Đáp án: c. Tự động hóa và viết script
  10. What helps combine multiple metrics in a single chart?
    Answer: d. Grouped bar or area chart
    Câu hỏi: Gì giúp kết hợp nhiều chỉ số trong một biểu đồ?
    Đáp án: d. Biểu đồ cột nhóm hoặc biểu đồ khu vực
  11. What is an example of structured data?
    Answer: d. CRM system data
    Câu hỏi: Ví dụ nào là dữ liệu có cấu trúc?
    Đáp án: d. Dữ liệu hệ thống CRM

  1. Which type of data is Pandas designed to handle?
    Answer: b. Tabular, time series, and matrix data
    Câu hỏi: Pandas được thiết kế để xử lý loại dữ liệu nào?
    Đáp án: b. Dữ liệu dạng bảng, chuỗi thời gian và ma trận
  2. Which classification method best suits market research segmentation?
    Answer: d. Cluster analysis
    Câu hỏi: Phương pháp phân loại nào phù hợp nhất với phân khúc nghiên cứu thị trường?
    Đáp án: d. Phân tích cụm
  3. What defines the ‘velocity’ of Big Data?
    Answer: d. Speed at which data is generated and processed
    Câu hỏi: Yếu tố nào định nghĩa “tốc độ” của Dữ liệu Lớn?
    Đáp án: d. Tốc độ tạo và xử lý dữ liệu
  4. When should outliers be kept?
    Answer: d. When they are valid rare events
    Câu hỏi: Khi nào nên giữ lại giá trị ngoại lai?
    Đáp án: d. Khi chúng là các sự kiện hiếm nhưng hợp lệ
  5. Which method removes rows with missing values?
    Answer: b. df.dropna()
    Câu hỏi: Phương thức nào loại bỏ các hàng có giá trị bị thiếu?
    Đáp án: b. df.dropna()
  6. Why are Jupyter Notebooks suitable for Pandas?
    Answer: c. Interactive analysis and visualisation
    Câu hỏi: Tại sao Jupyter Notebook phù hợp với Pandas?
    Đáp án: c. Phân tích và trực quan hóa tương tác
  7. When should you keep outliers?
    Answer: b. When they are valid rare events
    Câu hỏi: Khi nào bạn nên giữ lại outliers?
    Đáp án: b. Khi chúng là sự kiện hợp lệ, hiếm gặp
  8. What is a typical use of a KDE plot?
    Answer: a. Showing probabilities and distribution trends
    Câu hỏi: Mục đích điển hình của biểu đồ KDE là gì?
    Đáp án: a. Thể hiện xác suất và xu hướng phân phối
  9. What are duplicates in a dataset?
    Answer: b. Repeated rows
    Câu hỏi: Dữ liệu trùng lặp trong tập dữ liệu là gì?
    Đáp án: b. Các hàng bị lặp lại
  10. Why track changes during cleaning?
    Answer: b. For reproducibility
    Câu hỏi: Tại sao cần theo dõi các thay đổi trong quá trình làm sạch dữ liệu?
    Đáp án: b. Để đảm bảo tính tái lập
  11. Which command installs the full Dask suite?
    Answer: b. pip install “dask[complete]”
    Câu hỏi: Lệnh nào cài đặt đầy đủ Dask suite?
    Đáp án: b. pip install “dask[complete]”
  12. Which data format supports nested key-value pairs?
    Answer: d. JSON
    Câu hỏi: Định dạng dữ liệu nào hỗ trợ cặp key-value lồng nhau?
    Đáp án: d. JSON
  13. What is a use case for Polars?
    Answer: b. Fast transformations in ETL pipelines
    Câu hỏi: Ứng dụng nào phù hợp với Polars?
    Đáp án: b. Biến đổi dữ liệu nhanh trong quy trình ETL
  14. Which of the following is not part of EDA steps?
    Answer: a. Encrypting data
    Câu hỏi: Điều nào sau đây không phải là bước của EDA?
    Đáp án: a. Mã hóa dữ liệu
  15. What does Pareto Analysis focus on?
    Answer: b. Identifying key contributing factors
    Câu hỏi: Phân tích Pareto tập trung vào điều gì?
    Đáp án: b. Xác định các yếu tố chính đóng góp
  16. What makes Dask familiar to pandas users?
    Answer: a. Pandas-like APIs
    Câu hỏi: Điều gì khiến Dask quen thuộc với người dùng pandas?
    Đáp án: a. Giao diện API giống pandas
  17. What does df.groupby([‘region’, ‘category’]).sum() do?
    Answer: a. Groups by region and category, then sums
    Câu hỏi: Lệnh df.groupby([‘region’, ‘category’]).sum() thực hiện điều gì?
    Đáp án: a. Nhóm theo vùng và loại, sau đó tính tổng
  18. What can be derived from clickstream logs?
    Answer: b. User browsing behaviour
    Câu hỏi: Dữ liệu nào có thể được rút ra từ clickstream logs?
    Đáp án: b. Hành vi duyệt web của người dùng
  19. Which ecosystem integrates easily with Polars?
    Answer: d. Arrow
    Câu hỏi: Hệ sinh thái nào dễ tích hợp với Polars?
    Đáp án: d. Arrow
  20. Why handle outliers in data analysis?
    Answer: a. They affect statistical accuracy
    Câu hỏi: Tại sao cần xử lý outliers trong phân tích dữ liệu?
    Đáp án: a. Vì chúng ảnh hưởng đến độ chính xác thống kê
  21. Which plot is a smoothed alternative to a histogram?
    Answer: d. KDE plot
    Câu hỏi: Biểu đồ nào là dạng mượt thay thế cho histogram?
    Đáp án: d. Biểu đồ KDE
  22. What type of language is Python?
    Answer: c. Interpreted and object-oriented
    Câu hỏi: Python là ngôn ngữ loại gì?
    Đáp án: c. Ngôn ngữ thông dịch và hướng đối tượng
  23. Which industry uses Big Data to detect disease outbreaks early?
    Answer: a. Healthcare
    Câu hỏi: Ngành nào sử dụng Big Data để phát hiện sớm dịch bệnh?
    Đáp án: a. Y tế
  24. What type of data can a Series hold?
    Answer: c. Any data type
    Câu hỏi: Một Series có thể chứa loại dữ liệu nào?
    Đáp án: c. Bất kỳ kiểu dữ liệu nào
  25. What would “frequent buyers” be classified as in cluster analysis?
    Answer: a. A cluster
    Câu hỏi: “Người mua thường xuyên” được phân loại là gì trong phân tích cụm?
    Đáp án: a. Một cụm (cluster)
  26. Which type of outlier is acceptable to keep?
    Answer: d. Rare but valid events
    Câu hỏi: Loại outlier nào có thể giữ lại?
    Đáp án: d. Sự kiện hiếm nhưng hợp lệ
  27. What kind of data is typically stored in relational databases or spreadsheets?
    Answer: a. Structured
    Câu hỏi: Dữ liệu nào thường được lưu trữ trong cơ sở dữ liệu quan hệ hoặc bảng tính?
    Đáp án: a. Dữ liệu có cấu trúc
  28. How can you open a notebook in Google Colab?
    Answer: a. From Google Drive, GitHub, or local upload
    Câu hỏi: Làm sao để mở notebook trong Google Colab?
    Đáp án: a. Từ Google Drive, GitHub hoặc tải từ máy tính
  29. What does the principle of “Accuracy” in visualisation refer to?
    Answer: b. Representing data truthfully
    Câu hỏi: Nguyên tắc “Độ chính xác” trong trực quan hóa đề cập đến điều gì?
    Đáp án: b. Thể hiện dữ liệu một cách trung thực
  30. Which strategy fills missing values using nearest rows?
    Answer: d. Interpolation
    Câu hỏi: Chiến lược nào điền giá trị thiếu dựa trên các hàng gần nhất?
    Đáp án: d. Nội suy (interpolation)
  31. Which function is ideal for fast I/O in Polars?
    Answer: d. read_parquet()
    Câu hỏi: Hàm nào lý tưởng để đọc/ghi nhanh trong Polars?
    Đáp án: d. read_parquet()
  32. Which category in XYZ has stable demand?
    Answer: b. X
    Câu hỏi: Nhóm nào trong phân tích XYZ có nhu cầu ổn định?
    Đáp án: b. X
  33. Which of the following methods is based on similarity patterns?
    Answer: d. Cluster
    Câu hỏi: Phương pháp nào dựa trên mẫu tương đồng?
    Đáp án: d. Phân cụm (cluster)
  34. Which scripting environment supports Polars out of the box?
    Answer: c. Jupyter
    Câu hỏi: Môi trường nào hỗ trợ Polars ngay lập tức?
    Đáp án: c. Jupyter
  35. Which of the following is a deep learning library in Python?
    Answer: b. TensorFlow
    Câu hỏi: Thư viện nào là thư viện học sâu trong Python?
    Đáp án: b. TensorFlow
  36. How does Python support modularity?
    Answer: c. Via modules and packages
    Câu hỏi: Python hỗ trợ tính mô-đun bằng cách nào?
    Đáp án: c. Thông qua module và package
  37. What is the “whisker” in a boxplot?
    Answer: a. Max data range excluding outliers
    Câu hỏi: “Whisker” trong biểu đồ hộp là gì?
    Đáp án: a. Phạm vi dữ liệu tối đa không bao gồm outliers
  38. Which combined method supports better stock forecasting and planning?
    Answer: a. ABC-XYZ
    Câu hỏi: Phương pháp kết hợp nào hỗ trợ dự báo và lập kế hoạch hàng tồn kho tốt hơn?
    Đáp án: a. ABC-XYZ
  39. How does Dask treat a single dataframe?
    Answer: c. A collection of smaller pandas dataframes
    Câu hỏi: Dask xử lý một dataframe như thế nào?
    Đáp án: c. Tập hợp các dataframe nhỏ của pandas
  40. Which method removes rows with extreme values?
    Answer: c. Drop outliers
    Câu hỏi: Phương pháp nào loại bỏ hàng có giá trị cực đoan?
    Đáp án: c. Loại bỏ outliers
  41. Which step helps uncover subgroup relationships?
    Answer: a. Aggregation
    Câu hỏi: Bước nào giúp khám phá mối quan hệ trong nhóm con?
    Đáp án: a. Tổng hợp dữ liệu (aggregation)
  42. Why is Dask preferred for ETL on large files?
    Answer: b. It handles CSV/Parquet efficiently
    Câu hỏi: Tại sao Dask được ưu tiên cho ETL trên file lớn?
    Đáp án: b. Vì xử lý tốt file CSV/Parquet
  43. Which of these is not a common use of Python?
    Answer: a. DNA sequencing
    Câu hỏi: Cái nào không phải là ứng dụng phổ biến của Python?
    Đáp án: a. Giải trình tự DNA (quá trình sinh học)
  44. What is the main benefit of Big Data Analytics in decision-making?
    Answer: d. Discovering insights and trends
    Câu hỏi: Lợi ích chính của phân tích Big Data trong ra quyết định là gì?
    Đáp án: d. Khám phá thông tin chuyên sâu và xu hướng
  45. What is XYZ Analysis based on?
    Answer: d. Demand variability
    Câu hỏi: Phân tích XYZ dựa trên yếu tố nào?
    Đáp án: d. Độ biến động của nhu cầu
  46. What is a DataFrame?
    Answer: a. A two-dimensional labeled data structure
    Câu hỏi: DataFrame là gì?
    Đáp án: a. Cấu trúc dữ liệu hai chiều có nhãn
  47. How is IQR calculated?
    Answer: d. Q3 – Q1
    Câu hỏi: IQR được tính như thế nào?
    Đáp án: d. Q3 – Q1
  48. Which inventory class in XYZ requires stable stock management?
    Answer: d. X
    Câu hỏi: Nhóm tồn kho nào trong XYZ cần quản lý ổn định?
    Đáp án: d. X
  49. What is an example of structured data?
    Answer: d. CRM system data
    Câu hỏi: Ví dụ nào là dữ liệu có cấu trúc?
    Đáp án: d. Dữ liệu hệ thống CRM

Vina Aspire AI


Bài viết liên quan

About Us

Learn More

Vina Aspire is a premier provider of Cyber Security, Artificial Intelligence & IT solutions and services.

Backed by a team of top-tier experts, seasoned collaborators, and trusted international partners and investors, Vina Aspire delivers innovation, reliability, and excellence across every project.
Our people are intelligent, driven, and passionate about creating cutting-edge technologies that empower businesses, protect digital assets, and generate lasting value for our clients and society.

At Vina Aspire, we don’t just deliver solutions — we build trust, lead transformation, and inspire the future of technology.

may ao thun Kem sữa chua May o thun May o thun đồng phục Định cư Canada Dịch vụ kế ton trọn gi sản xuất đồ bộ
Translate »