Vina Aspire > Technical Corner | Góc kỹ thuật > MSc Artificial Intelligence - Master of AI - MSc AI > Tăng tốc hành trình học AI với 60 câu hỏi trắc nghiệm về Big Data & Python

Tăng tốc hành trình học AI với 60 câu hỏi trắc nghiệm về Big Data & Python

Là một sinh viên Thạc sĩ ngành Khoa học AI, việc nắm vững nền tảng Phân tích Dữ liệu Lớn (Big Data Analytics) và Python là điều không thể thiếu. Trong hành trình học tập, mình đã hệ thống lại 60 câu hỏi trắc nghiệm đi kèm giải thích song ngữ Anh – Việt để ôn luyện nhanh, hiệu quả.

✅ Nội dung bao gồm:

Kiến thức về Pandas, Dask, Polars, KDE plot, DataFrame, và các phương pháp xử lý dữ liệu
Ứng dụng của Cluster Analysis, ABC-XYZ, IQR, df.dropna(), interpolation,…
Hiểu đúng về structured, semi-structured, unstructured data
Phân biệt các loại biểu đồ và cách trực quan hóa hiệu quả
Áp dụng thực tế như phát hiện dịch bệnh, phân khúc khách hàng, quản lý tồn kho thông minh,…

💡 Lợi ích:

Rút gọn kiến thức lý thuyết khô khan thành từng câu dễ nhớ
Học nhanh mọi lúc mọi nơi
Phù hợp cho sinh viên, người mới học hoặc ôn thi

Big Data & Python Quiz Summary (English – Vietnamese)

What is the use of standard deviation?
Answer: b. Showing data spread around mean
Câu hỏi: Ý nghĩa của độ lệch chuẩn là gì?
Đáp án: b. Thể hiện mức độ phân tán quanh giá trị trung bình
Which method provides multiple aggregation metrics at once?
Answer: a. describe()
Câu hỏi: Phương thức nào cung cấp nhiều chỉ số tổng hợp cùng lúc?
Đáp án: a. describe() cung cấp nhiều chỉ số thống kê
Which statistical measure is most affected by outliers?
Answer: a. Mean
Câu hỏi: Chỉ số thống kê nào bị ảnh hưởng nhiều nhất bởi giá trị ngoại lai?
Đáp án: a. Trung bình (Mean)
Which of these sources represents semi-structured data?
Answer: b. MongoDB
Câu hỏi: Nguồn dữ liệu nào sau đây là dữ liệu bán cấu trúc?
Đáp án: b. MongoDB
Which environment supports running Dask?
Answer: c. Laptops, clusters, and cloud platforms
Câu hỏi: Môi trường nào hỗ trợ chạy Dask?
Đáp án: c. Laptop, cụm máy và nền tảng đám mây
What type of index can be used in Pandas?
Answer: b. Custom labels or numbers
Câu hỏi: Pandas hỗ trợ loại chỉ mục nào?
Đáp án: b. Nhãn tùy chỉnh hoặc số
Which clustering method groups customers by behaviour?
Answer: b. Cluster Analysis
Câu hỏi: Phương pháp phân cụm nào nhóm khách hàng theo hành vi?
Đáp án: b. Phân tích cụm
Which data type represents Yes/No responses?
Answer: c. Boolean
Câu hỏi: Kiểu dữ liệu nào thể hiện phản hồi Có/Không?
Đáp án: c. Boolean (kiểu đúng/sai)
What kind of tasks is Python well-suited for?
Answer: c. Automation and scripting
Câu hỏi: Python phù hợp với loại tác vụ nào?
Đáp án: c. Tự động hóa và viết script
What helps combine multiple metrics in a single chart?
Answer: d. Grouped bar or area chart
Câu hỏi: Gì giúp kết hợp nhiều chỉ số trong một biểu đồ?
Đáp án: d. Biểu đồ cột nhóm hoặc biểu đồ khu vực
What is an example of structured data?
Answer: d. CRM system data
Câu hỏi: Ví dụ nào là dữ liệu có cấu trúc?
Đáp án: d. Dữ liệu hệ thống CRM

Which type of data is Pandas designed to handle?
Answer: b. Tabular, time series, and matrix data
Câu hỏi: Pandas được thiết kế để xử lý loại dữ liệu nào?
Đáp án: b. Dữ liệu dạng bảng, chuỗi thời gian và ma trận
Which classification method best suits market research segmentation?
Answer: d. Cluster analysis
Câu hỏi: Phương pháp phân loại nào phù hợp nhất với phân khúc nghiên cứu thị trường?
Đáp án: d. Phân tích cụm
What defines the ‘velocity’ of Big Data?
Answer: d. Speed at which data is generated and processed
Câu hỏi: Yếu tố nào định nghĩa “tốc độ” của Dữ liệu Lớn?
Đáp án: d. Tốc độ tạo và xử lý dữ liệu
When should outliers be kept?
Answer: d. When they are valid rare events
Câu hỏi: Khi nào nên giữ lại giá trị ngoại lai?
Đáp án: d. Khi chúng là các sự kiện hiếm nhưng hợp lệ
Which method removes rows with missing values?
Answer: b. df.dropna()
Câu hỏi: Phương thức nào loại bỏ các hàng có giá trị bị thiếu?
Đáp án: b. df.dropna()
Why are Jupyter Notebooks suitable for Pandas?
Answer: c. Interactive analysis and visualisation
Câu hỏi: Tại sao Jupyter Notebook phù hợp với Pandas?
Đáp án: c. Phân tích và trực quan hóa tương tác
When should you keep outliers?
Answer: b. When they are valid rare events
Câu hỏi: Khi nào bạn nên giữ lại outliers?
Đáp án: b. Khi chúng là sự kiện hợp lệ, hiếm gặp
What is a typical use of a KDE plot?
Answer: a. Showing probabilities and distribution trends
Câu hỏi: Mục đích điển hình của biểu đồ KDE là gì?
Đáp án: a. Thể hiện xác suất và xu hướng phân phối
What are duplicates in a dataset?
Answer: b. Repeated rows
Câu hỏi: Dữ liệu trùng lặp trong tập dữ liệu là gì?
Đáp án: b. Các hàng bị lặp lại
Why track changes during cleaning?
Answer: b. For reproducibility
Câu hỏi: Tại sao cần theo dõi các thay đổi trong quá trình làm sạch dữ liệu?
Đáp án: b. Để đảm bảo tính tái lập
Which command installs the full Dask suite?
Answer: b. pip install “dask[complete]”
Câu hỏi: Lệnh nào cài đặt đầy đủ Dask suite?
Đáp án: b. pip install “dask[complete]”
Which data format supports nested key-value pairs?
Answer: d. JSON
Câu hỏi: Định dạng dữ liệu nào hỗ trợ cặp key-value lồng nhau?
Đáp án: d. JSON
What is a use case for Polars?
Answer: b. Fast transformations in ETL pipelines
Câu hỏi: Ứng dụng nào phù hợp với Polars?
Đáp án: b. Biến đổi dữ liệu nhanh trong quy trình ETL
Which of the following is not part of EDA steps?
Answer: a. Encrypting data
Câu hỏi: Điều nào sau đây không phải là bước của EDA?
Đáp án: a. Mã hóa dữ liệu
What does Pareto Analysis focus on?
Answer: b. Identifying key contributing factors
Câu hỏi: Phân tích Pareto tập trung vào điều gì?
Đáp án: b. Xác định các yếu tố chính đóng góp
What makes Dask familiar to pandas users?
Answer: a. Pandas-like APIs
Câu hỏi: Điều gì khiến Dask quen thuộc với người dùng pandas?
Đáp án: a. Giao diện API giống pandas
What does df.groupby([‘region’, ‘category’]).sum() do?
Answer: a. Groups by region and category, then sums
Câu hỏi: Lệnh df.groupby([‘region’, ‘category’]).sum() thực hiện điều gì?
Đáp án: a. Nhóm theo vùng và loại, sau đó tính tổng
What can be derived from clickstream logs?
Answer: b. User browsing behaviour
Câu hỏi: Dữ liệu nào có thể được rút ra từ clickstream logs?
Đáp án: b. Hành vi duyệt web của người dùng
Which ecosystem integrates easily with Polars?
Answer: d. Arrow
Câu hỏi: Hệ sinh thái nào dễ tích hợp với Polars?
Đáp án: d. Arrow
Why handle outliers in data analysis?
Answer: a. They affect statistical accuracy
Câu hỏi: Tại sao cần xử lý outliers trong phân tích dữ liệu?
Đáp án: a. Vì chúng ảnh hưởng đến độ chính xác thống kê
Which plot is a smoothed alternative to a histogram?
Answer: d. KDE plot
Câu hỏi: Biểu đồ nào là dạng mượt thay thế cho histogram?
Đáp án: d. Biểu đồ KDE
What type of language is Python?
Answer: c. Interpreted and object-oriented
Câu hỏi: Python là ngôn ngữ loại gì?
Đáp án: c. Ngôn ngữ thông dịch và hướng đối tượng
Which industry uses Big Data to detect disease outbreaks early?
Answer: a. Healthcare
Câu hỏi: Ngành nào sử dụng Big Data để phát hiện sớm dịch bệnh?
Đáp án: a. Y tế
What type of data can a Series hold?
Answer: c. Any data type
Câu hỏi: Một Series có thể chứa loại dữ liệu nào?
Đáp án: c. Bất kỳ kiểu dữ liệu nào
What would “frequent buyers” be classified as in cluster analysis?
Answer: a. A cluster
Câu hỏi: “Người mua thường xuyên” được phân loại là gì trong phân tích cụm?
Đáp án: a. Một cụm (cluster)
Which type of outlier is acceptable to keep?
Answer: d. Rare but valid events
Câu hỏi: Loại outlier nào có thể giữ lại?
Đáp án: d. Sự kiện hiếm nhưng hợp lệ
What kind of data is typically stored in relational databases or spreadsheets?
Answer: a. Structured
Câu hỏi: Dữ liệu nào thường được lưu trữ trong cơ sở dữ liệu quan hệ hoặc bảng tính?
Đáp án: a. Dữ liệu có cấu trúc
How can you open a notebook in Google Colab?
Answer: a. From Google Drive, GitHub, or local upload
Câu hỏi: Làm sao để mở notebook trong Google Colab?
Đáp án: a. Từ Google Drive, GitHub hoặc tải từ máy tính
What does the principle of “Accuracy” in visualisation refer to?
Answer: b. Representing data truthfully
Câu hỏi: Nguyên tắc “Độ chính xác” trong trực quan hóa đề cập đến điều gì?
Đáp án: b. Thể hiện dữ liệu một cách trung thực
Which strategy fills missing values using nearest rows?
Answer: d. Interpolation
Câu hỏi: Chiến lược nào điền giá trị thiếu dựa trên các hàng gần nhất?
Đáp án: d. Nội suy (interpolation)
Which function is ideal for fast I/O in Polars?
Answer: d. read_parquet()
Câu hỏi: Hàm nào lý tưởng để đọc/ghi nhanh trong Polars?
Đáp án: d. read_parquet()
Which category in XYZ has stable demand?
Answer: b. X
Câu hỏi: Nhóm nào trong phân tích XYZ có nhu cầu ổn định?
Đáp án: b. X
Which of the following methods is based on similarity patterns?
Answer: d. Cluster
Câu hỏi: Phương pháp nào dựa trên mẫu tương đồng?
Đáp án: d. Phân cụm (cluster)
Which scripting environment supports Polars out of the box?
Answer: c. Jupyter
Câu hỏi: Môi trường nào hỗ trợ Polars ngay lập tức?
Đáp án: c. Jupyter
Which of the following is a deep learning library in Python?
Answer: b. TensorFlow
Câu hỏi: Thư viện nào là thư viện học sâu trong Python?
Đáp án: b. TensorFlow
How does Python support modularity?
Answer: c. Via modules and packages
Câu hỏi: Python hỗ trợ tính mô-đun bằng cách nào?
Đáp án: c. Thông qua module và package
What is the “whisker” in a boxplot?
Answer: a. Max data range excluding outliers
Câu hỏi: “Whisker” trong biểu đồ hộp là gì?
Đáp án: a. Phạm vi dữ liệu tối đa không bao gồm outliers
Which combined method supports better stock forecasting and planning?
Answer: a. ABC-XYZ
Câu hỏi: Phương pháp kết hợp nào hỗ trợ dự báo và lập kế hoạch hàng tồn kho tốt hơn?
Đáp án: a. ABC-XYZ
How does Dask treat a single dataframe?
Answer: c. A collection of smaller pandas dataframes
Câu hỏi: Dask xử lý một dataframe như thế nào?
Đáp án: c. Tập hợp các dataframe nhỏ của pandas
Which method removes rows with extreme values?
Answer: c. Drop outliers
Câu hỏi: Phương pháp nào loại bỏ hàng có giá trị cực đoan?
Đáp án: c. Loại bỏ outliers
Which step helps uncover subgroup relationships?
Answer: a. Aggregation
Câu hỏi: Bước nào giúp khám phá mối quan hệ trong nhóm con?
Đáp án: a. Tổng hợp dữ liệu (aggregation)
Why is Dask preferred for ETL on large files?
Answer: b. It handles CSV/Parquet efficiently
Câu hỏi: Tại sao Dask được ưu tiên cho ETL trên file lớn?
Đáp án: b. Vì xử lý tốt file CSV/Parquet
Which of these is not a common use of Python?
Answer: a. DNA sequencing
Câu hỏi: Cái nào không phải là ứng dụng phổ biến của Python?
Đáp án: a. Giải trình tự DNA (quá trình sinh học)
What is the main benefit of Big Data Analytics in decision-making?
Answer: d. Discovering insights and trends
Câu hỏi: Lợi ích chính của phân tích Big Data trong ra quyết định là gì?
Đáp án: d. Khám phá thông tin chuyên sâu và xu hướng
What is XYZ Analysis based on?
Answer: d. Demand variability
Câu hỏi: Phân tích XYZ dựa trên yếu tố nào?
Đáp án: d. Độ biến động của nhu cầu
What is a DataFrame?
Answer: a. A two-dimensional labeled data structure
Câu hỏi: DataFrame là gì?
Đáp án: a. Cấu trúc dữ liệu hai chiều có nhãn
How is IQR calculated?
Answer: d. Q3 – Q1
Câu hỏi: IQR được tính như thế nào?
Đáp án: d. Q3 – Q1
Which inventory class in XYZ requires stable stock management?
Answer: d. X
Câu hỏi: Nhóm tồn kho nào trong XYZ cần quản lý ổn định?
Đáp án: d. X
What is an example of structured data?
Answer: d. CRM system data
Câu hỏi: Ví dụ nào là dữ liệu có cấu trúc?
Đáp án: d. Dữ liệu hệ thống CRM

Vina Aspire AI

Facebook

Twitter

Bài viết liên quan

Research Methodology – Phương pháp Nghiên cứu dành cho Bậc Sau Đại học

Từ tư duy khoa học đến thiết kế, thực hiện và trình bày nghiên cứu học thuật Nghiên cứu khoa học không chỉ là quá trình thu thập dữ liệu…
AI Innovation and Entrepreneurship – Đổi mới Sáng tạo và Khởi nghiệp trong Kỷ nguyên Trí tuệ Nhân tạo (AI)

Từ ý tưởng đến xây dựng doanh nghiệp AI có khả năng tạo giá trị và tăng trưởng bền vững Trí tuệ nhân tạo (AI) đang tạo ra cuộc chuyển…
Future Trends and Capstone Project – Xu hướng Tương lai của AI và Dự án Tốt nghiệp

Trí tuệ nhân tạo (AI) đang bước vào một giai đoạn phát triển mới với tốc độ chưa từng có. Những gì chúng ta chứng kiến ngày hôm nay chỉ…
Funding, Legal and Ethical Considerations – Gọi vốn, Pháp lý và Đạo đức trong Kỷ nguyên AI

Trí tuệ nhân tạo (AI) đang thu hút dòng vốn đầu tư lớn chưa từng có trên toàn cầu. Tuy nhiên, xây dựng một doanh nghiệp AI thành công không…
Building and Scaling AI Products -Xây dựng và Mở rộng Sản phẩm AI

Trí tuệ nhân tạo (AI) đang mở ra những cơ hội chưa từng có cho doanh nghiệp. Tuy nhiên, việc xây dựng một mô hình AI thành công trong phòng…
AI Business Models and Monetisation Strategies – Mô hình Kinh doanh và Chiến lược Kiếm tiền từ AI

Trí tuệ nhân tạo (AI) đang thay đổi cách doanh nghiệp tạo ra giá trị, cạnh tranh và tăng trưởng. Tuy nhiên, công nghệ tiên tiến không tự động mang…
Opportunity Identification and Market Analysis – Nhận diện Cơ hội và Phân tích Thị trường trong Kỷ nguyên AI

Trí tuệ nhân tạo (AI) đang tạo ra một làn sóng đổi mới chưa từng có, mở ra những cơ hội kinh doanh mới trên hầu hết các ngành nghề….
Foundations of AI Innovation and Entrepreneurship – Nền tảng của Đổi mới Sáng tạo và Khởi nghiệp trong Kỷ nguyên AI

Trí tuệ nhân tạo (AI) không còn chỉ là một xu hướng công nghệ mà đã trở thành động lực quan trọng thúc đẩy đổi mới sáng tạo, tăng trưởng…
Reinforcement Learning & AI Optimization

Khi trí tuệ nhân tạo học cách ra quyết định và tối ưu thế giới Trong làn sóng phát triển mạnh mẽ của trí tuệ nhân tạo (AI), chúng ta…
Học tăng cường (Reinforcement Learning) là gì?

Học tăng cường (Reinforcement Learning) – Khi máy học cách “tự trưởng thành” Bạn đã bao giờ tự hỏi làm thế nào một chiếc xe tự lái biết khi nào…
Big Data Analytics – Lộ trình toàn diện từ nền tảng đến ứng dụng

“Bạn đang sống trong một thế giới nơi mỗi cú click chuột, mỗi bước chân, và mỗi giao dịch đều để lại dấu vết dữ liệu. Những dấu vết này…
Cluster trong AI: Cách Trí tuệ nhân tạo khám phá cấu trúc dữ liệu ẩn

Khi nhắc đến “Cluster” trong AI, nhiều người sẽ nghĩ ngay đến các nhóm dữ liệu đơn thuần. Nhưng với trí tuệ nhân tạo, Cluster không chỉ là kết quả…
Khơi mở tri thức – Khám phá AI qua từng câu hỏi

Không chỉ đơn giản là kiểm tra kiến thức, mỗi câu hỏi dưới đây về Trí tuệ Nhân tạo & học máy (Artificial Intelligence and Machine Learning) là một cánh…
Những điều mà người học Thạc sĩ AI cần nắm/nhớ khi học môn Artificial Intelligence and Machine Learning (AI & ML)

Dưới đây là một tổng quan chi tiết về những điều mà người học Thạc sĩ AI cần nắm/nhớ khi học môn Artificial Intelligence and Machine Learning (AI & ML):…
Những điều mà người học Thạc sĩ AI cần nắm/nhớ khi học môn Artificial Intelligence and Machine Learning (AI & ML)

Dưới đây là một tổng quan chi tiết về những điều mà người học Thạc sĩ AI cần nắm/nhớ khi học môn Artificial Intelligence and Machine Learning (AI & ML)…
Một số kênh học Python chất lượng

Một số kênh tự học: https://campus.datacamp.com/courses/intro-to-python-for-data-science/chapter-1-python-basics?ex=1 https://www.w3schools.com/python/ https://pythontutor.com/visualize.html#mode=edit Updating … Dưới đây là danh sách các kênh học Python chất lượng kèm link trực tiếp, giúp bạn dễ truy…
4 yếu tố cốt lõi để triển khai AI hiệu quả

AI không chỉ là công nghệ. Để triển khai AI hiệu quả trong doanh nghiệp, cần một chiến lược toàn diện, đồng bộ và thực tế. Bỏ qua những yếu…
Thụy Sĩ – “Người khổng lồ thầm lặng” trong đào tạo nhân lực AI toàn cầu

Khi nói về những trung tâm đào tạo công nghệ đỉnh cao, Mỹ thường được nhắc tên đầu tiên. Nhưng nếu nhìn sâu hơn vào các bảng xếp hạng và…
Hiểu đúng về Trí tuệ nhân tạo (AI) và Máy học (ML)

Trong thời đại số, hai thuật ngữ Artificial Intelligence (AI) và Machine Learning (ML) xuất hiện dày đặc trên báo chí, mạng xã hội, hội nghị công nghệ… Tuy nhiên,…
Chuyên Gia AI: Tiêu Chuẩn và Lộ Trình Để Vươn Tới Đỉnh Cao Nghề Nghiệp

Trong kỷ nguyên số, trí tuệ nhân tạo (AI) đang trở thành động lực cốt lõi thúc đẩy đổi mới, cạnh tranh và phát triển ở mọi ngành nghề. Cùng…
Tìm Hiểu Về Machine Learning: Định Nghĩa Và Ứng Dụng

Machine Learning là một dạng của trí tuệ nhân tạo mà máy tính có khả năng học hỏi từ dữ liệu mà không cần phải được lập trình cụ thể….
Giới thiệu Machine Learning: Nền tảng bước vào kỷ nguyên AI

Trong thời đại dữ liệu bùng nổ và tự động hóa lan tỏa mạnh mẽ, Machine Learning (ML) – Học máy đã trở thành một trong những công nghệ nền…
Deep Learning – Nền Tảng Lý Thuyết Các Mô Hình Học Sâu

Thế giới đang bước vào kỷ nguyên của Trí tuệ nhân tạo (AI), nơi học sâu (Deep Learning) đóng vai trò như nền móng vững chắc, kiến tạo những đột…
Tự học Lập Trình Python trong 10 phút – Siêu Dễ Hiểu

Hôm nay tụi mình sẽ học cấp tốc ngôn ngữ lập trình Python trong 10 phút nha. Sau khi học xong, các bạn sẽ viết được 1 chương trình Python…
Cách thực hành với Exercise Files của khóa học Python

🎯 Mục tiêu: Học song song lý thuyết & thực hành, dùng Exercise Files và Manuals để củng cố. 🔷 Bước 1 – Tải & mở Exercise Files 1️⃣ Vào…
Cách học khóa Python cơ bản & trung cấp với Exercise Files & Manuals

Dưới đây là hướng dẫn cách làm – step by step – để học khóa Python này hiệu quả với tài nguyên kèm theo: 🎯 Mục tiêu khóa học: ✅…
Python Basics Full Course Tutorial (3+ Hours)

This course is for Python beginners or intermediate users looking for a refresher on the intricacies of the programming language. Python is a popular programming language used to develop web…
Vì sao Python lại là “vua” trong AI & Data Science?

🐍 Vì sao Python lại là “vua” trong AI & Data Science? 1️⃣ Thư viện mạnh mẽ, phong phú 📦 Python có hệ sinh thái thư viện chuyên biệt cực…
Thông tin hệ thống giáo dục các nước trên thế giới

Cơ sở GDĐH được công nhận sau đây để tham khảo (không có nghĩa là văn bằng được công nhận). Văn bằng được công nhận phải tuân thủ theo điều…

Xem thêm ...

Tăng tốc hành trình học AI với 60 câu hỏi trắc nghiệm về Big Data & Python

✅ Nội dung bao gồm:

💡 Lợi ích:

Bài viết liên quan

About Us