基于K-Means的文本聚类算法

dato0123

浏览: 913497 次

最近访客更多访客>>

u012363178

spirit5800

hksy

fengyunbo

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1706)

社区版块

存档分类

源代码下载：TDIDF_Demo.rar

声明：本文代码思路完全来自蛙蛙池塘的博客，只为技术交流用途，无其他目的

昨天有幸拜读了蛙蛙池塘的《蛙蛙推荐：蛙蛙教你文本聚类》这篇文章，受益匪浅，于是今天就动手尝试照着他的C#代码，用C++和STL标准库重新实现一遍，因此就有了这篇文章。本文将重新温习蛙蛙池塘那篇文章，并且加入我个人在用C++重写这份代码过程中学到的一些知识。

TF-IDF（term frequency–inverse document frequency）

这是一种用于信息检索的一种常用加权技术。它是一种统计方法，用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

假如一篇文件的总词语数是100个，而词语“母牛”出现了3次，那么“母牛”一词在该文件中的词频就是 0.03 (3/100)。一个计算文件频率 (DF) 的方法是测定有多少份文件出现过“母牛”一词，然后除以文件集里包含的文件总数。所以，如果“母牛”一词在1,000份文件出现过，而文件总数是 10,000,000份的话，其文件频率就是 0.0001 (1000/10,000,000)。最后，TF-IDF分数就可以由计算词频除以文件频率而得到。以上面的例子来说，“母牛”一词在该文件集的TF- IDF分数会是 300 (0.03/0.0001)。这条公式的另一个形式是将文件频率取对数。

具体的计算原理，请参考维基百科tf–idf条目。下面简单介绍下基本的计算步骤：

1,文档预处理:1）文档分词；2）移除停用词；3）单词正规化处理

2，分出的单词就作为索引项（或单词表），它们代表的就是向量空间的项向量

3，计算项权值：这包括要计算1）词频 ; 2)倒排文件频率；3）TF-IDF权值

4,计算文档之间的相似度，一般用余弦相似度(cosine similarity)一同使用于向量空间模型中，用以判断两份文件之间的相似性

#include"ITokeniser.h"
#include<map>
classTFIDFMeasure
{
private:
StrVec_docs;//文档集合，每一行字符串代表一份文档
int_numDocs;//文档数目
int_numTerms;//单词数目
StrVec_terms;//单词集合
Int2DVec_termFreq;//每个单词出现在每份文档中的频率
Double2DVec_termWeight;//每个单词在每份文档的权重
IntVec_maxTermFreq;//记录每一份文档的最大词频
IntVec_docFreq;//出现单词的文档频率
ITokeniser*_tokenizer;//分词器
map<string,int>_wordsIndex;//单词映射表，保存每一个单词及其对应的下标
public:
TFIDFMeasure(constStrVec&documents,ITokeniser*tokeniser);
public:
~TFIDFMeasure(void);
protected:
voidInit();//初始化TF-IDF计算器
voidGenerateTerms(constStrVec&docs,StrVec&terms);//分词处理
voidGenerateTermFrequency();//计算词频
voidGenerateTermWeight();//计算词的权重
voidGetWordFrequency(string&input,map<string,int>&freq);//实际统计词频函数
intCountWords(string&word,constStrVec&words);//统计词数
intGetTermIndex(conststring&term);//查询词语对应的下标
doubleComputeTermWeight(intterm,intdoc);//计算词语在指定文档中的权重值
doubleGetTermFrequency(intterm,intdoc);//获取词语在指定文档的词频
doubleGetInverseDocumentFrequency(intterm);//计算倒排文件频率
public:
inlineintNumTerms()const
{
returnthis->_numTerms;
}
voidGetTermVector(intdoc,DoubleVec&vec);//获取项向量
};

TF-IDF具体实现代码

分词算法

为了便于使用不同的分词算法，我们定义一个抽象的分词算法接口，具体的分词算法由用户自行实现

classITokeniser
{
public:
virtualvoidPartition(stringinput,StrVec&retWords)=0;//分词算法
};

这里只实现了一个最简单的空格符分词算法：

#include"Tokeniser.h"
#include"StopWordsHandler.h"

Tokeniser::Tokeniser(void)
{
}
Tokeniser::~Tokeniser(void)
{
}
voidTokeniser::Partition(stringinput,StrVec&retWords)
{//分词算法，input为输入串,retWords为处理后所分开的单词,这里就简单化处理了，以空格符为分隔符进行分词
transform(input.begin(),input.end(),input.begin(),tolower);
string::iterator start = input.begin();
string::iterator end = input.end();
StopWordsHandlerstopHandler;
do
{
stringtemp;
pos=find(start,input.end(),'');//找到分隔符
copy(start,end,back_inserter(temp));
if(!stopHandler.IsStopWord(temp))
{//不是停用词则保存
retWords.push_back(temp);//保存分出的单词
}
if(end == input.end())
{//最后一个单词了
break;
}
start = ++end;
}while(end != input.end());
}

停用词处理

去掉文档中无意思的词语也是必须的一项工作,这里简单的定义了一些常见的停用词，并根据这些常用停用词在分词时进行判断

#include"StopWordsHandler.h"
stringstopWordsList[]={"的","我们","要","自己","之","将","“","”","，","（","）","后","应","到","某","后",
"个","是","位","新","一","两","在","中","或","有","更","好",""};//常用停用词
intstopWordsLen=sizeof(stopWordsList)/sizeof(stopWordsList[0]);

StopWordsHandler::StopWordsHandler(void)
{
for(inti=0;i<stopWordsLen;++i)
{
stopWords.push_back(stopWordsList[i]);
}
}
StopWordsHandler::~StopWordsHandler(void)
{
}
boolStopWordsHandler::IsStopWord(string&str)
{//是否是停用词
transform(str.begin(),str.end(),str.begin(),tolower);//确保小写化
returnfind(stopWords.begin(),stopWords.end(),str)!=stopWords.end();
}

K-Means算法

k-means 算法接受输入量 k ；然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

k-means 算法的工作过程说明如下：首先从n个数据对象任意选择 k 个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。

#include"Common.h"

classCluster;

classKMeans
{
public:
vector<Cluster*>_clusters;//聚类
private:
int_coordCount;//数据的数量
Double2DVec_coordinates;//原始数据
int_k;//聚类的数量
//定义一个变量用于记录和跟踪每个资料点属于哪个群聚类
//_clusterAssignments[j]=i;表示第j个资料点对象属于第i个群聚类
IntVec_clusterAssignments;
//定义一个变量用于记录和跟踪每个资料点离聚类最近
IntVec_nearestCluster;
///定义一个变量，来表示资料点到中心点的距离,
///其中—_distanceCache[i][j]表示第i个资料点到第j个群聚对象中心点的距离；
Double2DVec_distanceCache;
voidInitRandom();
staticdoublegetDistance(constDoubleVec&coord,constDoubleVec&center);
intNearestCluster(intndx);

public:
KMeans(Double2DVec&data,intK);
voidStart();
public:
~KMeans(void);
};

K-Means算法具体实现