一个在text mining最经常用到的metric是cosine similarity,我们一般这么定义它:
Under Euclidean space, assuming column vectors $x$, $y$:
$$cos(x, y) = \frac{x^T y}{\|{x}\|_2\|{y}\|_2} = \left(\frac{x}{\|x\|_2}\right)^T\left(\frac{y}{\|y\|_2}\right)$$
那么一般来说,我们的cosine similarity distance可以被这么定义
$$cosine\_similarity\_dist(x,y) = 1 – cos(x,y)$$
回过头来再看看l2 norm是怎么做的,我们这里取 squared of l2 norm,
$$\begin{eqnarray}\|x – y\|_2^2 &=& (x-y)^T (x-y)\\&=&\|x\|_2^2+\|y\|_2^2-2x^Ty\end{eqnarray}$$
如果我们假设$x,y$均是normalized的vectors,即 $\|x\|_2 = \|y\|_2 = 1$,
那么我们又会有,
$$\begin{eqnarray}\|x – y\|_2^2 &=&2 – 2x^Ty\\&=&2 – 2cos(x,y)\end{eqnarray}$$
也就是说,在normalized的vector上,应该要满足squared Euclidean distance is proportional to the cosine similarity distance.