ぐれっぐのことば日記・改

引越ししてみました

zvika2

コサカさんに内容について確認されたこともあって、また考えてみた。

考えてみたら、実は複数のpartitionというものが曲者で、
partition間にわたるsimilarityというものも必要で (そうでないと
partition間にわたるclusterを作ることができない)、そうなると
NLP的な応用では単一言語の文書の複数のドメインをpartitionと
捉えるくらいしかないような気もする。

彼の主張としては、cross-partition clusteringは全ての文書を
一つのpartitionに属するものとし、単純にclusteringをするのよりも
精度がいいと言うものであろうが、ある意味当り前だ。

彼の方法は文書が属するpartitionがあらかじめ決まっていることが
前提となっているが、そっちもclustering algorithm (EMのような)を
使って両方のscoring functionなりを最適化しようとする"Double Clustering"
なるpaperを最近目にした気がする。

どんなapproachを取っても、結局は人手の介入をどこに置くか(どれだけ減らせるか)
というところに帰結してしまうんだろう。この場合は、文書のpartition/clustering
というところで。