Tag Archives › quanteda
[R語言專題] 運用R語言玩轉文字探勘 – 分詞篇
在現今的資訊時代,文字資料無所不在,從社交媒體、新聞報導到學術研究,文字都是我們最主要的資訊來源。然而,要讓電腦能夠理解並處理這些文字資料,我們首先必須將其分割成更小、更結構化的單位,這就是所謂的「分詞」。
為什麼要分詞呢?因為單純的文字通常是非常不結構化的,而這對於資料分析或是電腦處理來說,是個巨大的挑戰。這時,分詞的角色就變得尤為重要。
[R語言專題] 運用R語言玩轉文字探勘 – 套件篇
開發者們打造許多套件,替人們處理文字探勘。有些針對特定任務,例如在主題模型章節中我會介紹stm、LDA,在詞向量章節中則以gensim、word2vec為範例;也有些套件能夠貫穿整個文字探勘流程,例如這篇文章將要介紹的tidytext和quanteda。