ESGB Nearest Neighbor Methods
ESGB Nearest Neighbor Methods
ESGB Nearest Neighbor Methods
1 General idea
3 Summary
2 / 14
Batch-mode Supervised Learning (Notations)
Outputs: y i = y(oi) ∀i = 1, . . . , N.
LS Table
3 / 14
Nearest neighbor methods
Intuition: similar objects should have similar output values.
Ø NB: all inputs are numerical scalars
Ø Define distance measure in the input space:
Ø Nearest neighbor:
4 / 14
Nearest neighbor methods: illustration
Qu (Mvars)
3000 learning states
1000.
Zoom around state 4984
° °°° ••
° °°°°°°° ° °° °°° ° ° ° ° ° ° ° ° ••
°° °° °°°°°°°°°°°°° ° °° ° °°°°°°°°°°° °°°°°°°°° °°°°°° ° °°°°° °°° °°°°°° °°°°° ° °°°°°° °°°°°°° ° °°° • •
°°° ° ° °°° ° °° °°°° °°°°°°°°°°°°°°° °°°° °°°°°°°° °°°° ° ° ° °° °°° °° ° °°° ° °°°°°° ° °°° °°
°°° °°°°°° ° ° ° ° °° °°°°° ° °°° °°°°° °°° °°°° °° ° °°° ° °°°° °°°° °° ° °° °°° °° °° °°° •••
° °°°°°°°°°°° °°°°° °°° ° °° ° °°°°°° °°° °°°° ° °°° °°°° °°° °°°°° ° °°°°°° °° °° ° ° •• •••
750. ° ° °°°° °°°°°° °°°° °° °° °°° °°° ° °°°°° °° °° °°°°° ° °° ° °°° °°°°°° °°°° °°°° ° °°°°° °°° ° • •••• ••
°°° ° °°°°°°° ° °°° °° °° ° °°°°°° °°°°°°°°°°° °°°°° ° ° °°°°°°°°°° °°°° °° °°° °°° °°°°°° ° °° °° ••• ••
° °° ° °° ° °° °° ° ° ° ° °
° °° °°° ° ° °° °° °° °° ° ° °°° ° ° ° °°°°° °°°° °°° °°° °°°°°°° °°°° °° °°°° °°° • • •• ••
° °°°° °°°° °° °°° °°°°°°°° ° °°°°° °° °°°°
°°°° °° °°°°°° ° °°° °°•••••••
• ••• • •• •
° ° °°+° ••
° °° °°°° ° °° ° ° °° ° °° °° ° ° ° ° • •• •
° °° °° ° ° °° °° ° °°° ° ° °°°°°° °° ° °°°°°° °°°°° °° °°° °°°° °°°°° ° °°°°°° °° °° •• • ••••••••• •
500. ° °°° °° ° °°° °° ° ° °°° ° °°° ° °°° °° ° ° °°°° ° ° ° °° • • • • •••••
° °°
° °°° °°°° °°
°°°° ° ° °
° °° °° °°° °°°°°°°
° ° ° °° °°°° ° ° °°° ° ••••• •••• •
°°°° ° °° °°° °°°°°°°° °°°° °° °°° ° ° ° °° ° °°°°°
°°°°°°°°°° °°°°°°°°°°°°°°°°°°° ° °°°° °° °° ° °° °°°••
° °°°°°°° °°°° ° °°°°°°° °•• •••• • • ••••
° °°°°°°° °° °°°°°°°° °°° °° ° ° ° ° °°°°°°° °°°°°°°°°°° ° °
°° ° °°°°
°
°° °°
°°° °°°°°° °° °°°°°°°° °°°°°°° °° •••••••• •••• ••• • •• •
•
° °° ° °° ° ° ° ° °°°° ° ° °°°°° °°° ° °° °° °°°° •• ••••• •• •
° °°°° °° ° ° °°°°°° °°° °°°°° °° °°° °°°°°°°°°°°°°°° °°°°° ° °°°° °°°°°° ° °°°°°°°°°°°°°°°°°°•° •••••• •••• •• •• •••••••••
° ° °°• •
250. °°°°°
°°°°° °°°°° °°°° °° °° °°°° °°° °° ° ° ° °°°°°°°°°°° °°° °° ° °°°°°°°°°°°•° •••• •••• ••••••• •••
°° ° °°° °°°°°°°°°°°°°°°° ° °° ° °° ° ° °°°°° ° ° °° °
°°°°° °°° °°°° °° ° °°° ° °•• •• • ••
°° • •••• •• • •• •• •
° °°°°°
° ° °°°° °°°°° °°°°°°° °°°° °°°°°°°°°°
° ° ° °° ° ° ° °°°°° ° °° °°°°°° °° °° ° •• ••• •••••••••••
••••••• •
°°°°° °° ° °°°°°° ° ° ° ° ° ° °°°°° °° °°° °°° ° °° ° ° °° °°° °° °•••••• •• •• ••• •••••
°°°°° ° ° ° ° °°°° °° °°°°° °°° °° °° ° ° °° °° ••• ••• ••• • • •••• ••
°°° ° °°° ° °°°° °°° °° ° °° °°°° °° ° °° °°°°°°°° °°°°°°°°° °° °°°°° • •••• •••••• ••• • •••••
Qu=-20Mvar 0.0 ° ° °°°°°
°°° °° °°°° °°°°°°
°
°°° °° °° °°° °
° ° ° °° °° ° °° °°°°°°°
° °°°° ° °° °°° ° ° ° °°°°
°° ° °°° °°°°°°°° °° °°
°°°° ° ° ° °°°°° °° ° °°
°°°°°° °
°° °°°°°°
° ° °° ° °°
°°° ° °°°°°+°••• •••
°°
•••
••
••
° °° °°° ° ° °° °°°• °°• • •• •••••••• •••
•••
••
• • • •
• •
•
• •••• ••••
•
• •• •• •• •• •• ••
° •
° •• ••
°••
° ° ° ° ° ° °° ° ° ° • • • •• ••••••• ••• • •• ••• • • ••
-250. ° °°° °°°°°° °°°°°°° °° °°°°° °° °°°° °° °°°°°°°° °°°°° ° °°°°°° °°° • •••• •••••••• • •••• • •• •••
°°° ° ° ° °° ° °° °°° ° °°°°° ° °°°° °°° °° ° °°°° °••• ••••• ••
° °°°° ° ° °°°°°°° ° ° °°° °° ° °°°°°°°°°°°° °°°° °°° °°°°° ° ° ••• •• ••••••• •••••••• ••• ••••••••••••••••••••• ••
° °° ° ° ° °° ° °° °° ° ° ° °°°°° °°°°°•• •• •••• • • •• ••• • • ••• ••• • •
°°°°°°°° °° °°°° °° °° °°°° °°° ° ° ° °°°°°°° °°° °°° ° ••
• •• ••••• •• ••• ••• •• • • •• •• ••••••• • • •
••
°°° ° ° °° °° °°° °°°°°°°° ° °°° ° °°°°°°° °° ••• •••••• • • •• • •
-500. °° ° ° ° °°° °° ° ° °°° ° °°°°° ° ° • ••••• ••••• •• • •• • ••• •• •• • ••••••• ••
°° °° ° °° °°°°° °°°°° °° °°° °° °°°°°° °°°°°° °°••°••••• •••• •• • • • •• • ••••• •• •• ••• •• ••
°°°° °°°
° °°°°° ° °°°°° ° ° ° °° • •• •• •• ••••••••• • •• • •• ••• • •• •• ••• •
°° ° °° °°°°° °°° °°°°
° °°°° °° °°°° •••• ••• ••••••••• • • ••••• •• •• •••••• •••••••• • • •••• •
°° °°°° ••• • •• • • • • •••••• •
°°°° ° °°°°°° ° °° °° °°°°°°° °°°°°°° ° °° ° °°• • ••• •• • •• •• •• •• • •••••••• ••••••••• •••••••• ••••• ••••••
° °° ° °°
Pu (MW)
700. 800. 900. 1000. 1100. 1200. 1300.
5 / 14
1-Nearest Neighbor (1-NN)
(prototype based method, instance based learning, non-parametric
method)
Ø One of the simplest learning algorithm:
ü outputs as a prediction the output associated to the sample
which is the closest to the test object
M1 M2 Y
1 0.32 0.81 Healthy
2 0.15 0.38 Disease
3 0.39 0.34 Healthy
4 0.62 0.11 Disease
? 5 0.92 0.43 ?
7
Effect of k on the error
Error
Under-fitting Over-fitting
CV error
LS error
Optimal k k
8
Properties of the NN method
Computational
> Training: storage of the LS (n × N )
> Testing: N distance computations ⇒ N × n
computations
Accuracy
> Asymptotically (N → ∞): suboptimal
(except if problem is deterministic)
> Strong dependence on choice of attributes
⇒ weighting of attributes
or attribute selection...
9 / 14
Refinements of the NN method
1. The k-NN method:
Ø Instead of using only the nearest neighbor, one uses
the k (a number to be determined) nearest neighbors:
12 / 14
k-NN
ü Advantages:
§ very simple
§ can be adapted to any data type by changing the distance
measure
ü Drawbacks:
§ choosing a good distance measure is a hard problem
§ very sensitive to the presence of noisy variables
§ slow for testing
13
Frequently asked questions
14 / 14