rm(list=ls())
# (1)
library(ISLR)
# data is a 64 by 6830 matrix of the expression values while labs is a vector listing the cancer
# types for the 64 cell lines. 6830 genes. So 1 gene has 64 cell lines.
ncidata <- NCI60$data
dim(ncidata)
# 64 x 6830
str(ncidata)
labs <- NCI60$labs
# length(labs) = 64.
labs
# [1] "CNS"       "CNS"       "CNS"       "RENAL"    "BREAST"    "CNS"       "CNS"       "BREAST"    "NSCLC"
# [10] "NSCLC"    "RENAL"    "RENAL"    "RENAL"    "RENAL"    "RENAL"    "RENAL"    "RENAL"    "BREAST"
# [19] "NSCLC"    "RENAL"    "UNKNOWN" "OVARIAN" "MELANOMA" "PROSTATE" "OVARIAN" "OVARIAN" "OVARIAN"
# [28] "OVARIAN" "OVARIAN" "PROSTATE" "NSCLC"    "NSCLC"    "NSCLC"    "LEUKEMIA" "K562B-repro" "K562A-repro"
# [37] "LEUKEMIA" "LEUKEMIA" "LEUKEMIA" "LEUKEMIA" "LEUKEMIA" "COLON"    "COLON"    "COLON"    "COLON"
# [46] "COLON"    "COLON"    "COLON"    "MCF7A-repro" "BREAST"    "MCF7D-repro" "BREAST"    "NSCLC"    "NSCLC"
# [55] "NSCLC"    "MELANOMA" "BREAST"    "BREAST"    "MELANOMA" "MELANOMA" "MELANOMA" "MELANOMA" "MELANOMA"
# [64] "MELANOMA"
table(labs)>2
cancer.types <- names(table(labs))[ table(labs)>2]
cancer.types
# [1] "BREAST" "CNS"    "COLON" "LEUKEMIA" "MELANOMA" "NSCLC" "OVARIAN" "RENAL"
idx <- which( labs %in% cancer.types)
labs <- labs[idx]
ncidata <- ncidata[idx,]

1. Most manufacturing processes create defective items. Often these...