Tag Archives › text mining

[數據文章] 歷任總統國慶演說圖表解析》蔡英文與馬英九,在國慶演說講了什麼?

[數據文章] 歷任總統國慶演說圖表解析》蔡英文與馬英九,在國慶演說講了什麼?

回顧1997年至2023年四位民選總統的國慶演說,從中能夠發現幾個重點:(一)總統們最常使用的詞彙中,相似比分歧的多;特色詞彙則反映出各自任內課題(二)馬英九演說中,更強調兩岸關係,並提到貿易協議與經濟,蔡英文則多次提及區域穩定的挑戰,並重申民主與自由(三)陳水扁在2007年卸任前提到近百次「台灣」,為歷年最多;「中國民國」則以馬英九在2011年(民國百年)提到近40次最多。中國(大陸)也是歷任總統都會提到的重點。(四)蔡英文相較馬英九在「台灣」和「中國民國」的使用的確有消長

[R語言專題] 運用R語言玩轉文字探勘 – 分詞篇

[R語言專題] 運用R語言玩轉文字探勘 – 分詞篇

在現今的資訊時代,文字資料無所不在,從社交媒體、新聞報導到學術研究,文字都是我們最主要的資訊來源。然而,要讓電腦能夠理解並處理這些文字資料,我們首先必須將其分割成更小、更結構化的單位,這就是所謂的「分詞」。

為什麼要分詞呢?因為單純的文字通常是非常不結構化的,而這對於資料分析或是電腦處理來說,是個巨大的挑戰。這時,分詞的角色就變得尤為重要。

[R語言專題] 運用R語言玩轉文字探勘 – 編碼亂碼與文字檔案的匯入匯出

[R語言專題] 運用R語言玩轉文字探勘 – 編碼亂碼與文字檔案的匯入匯出

前面文章「總統演說」的範例中,能看到R語言中常見的文字資料格式,要不是儲存在dataframe中,每筆資料都是文章、段落、句子,或者是用list將文章存在每一個元素中。不過,在R語言中處理文字資料會遇到很多路障,這篇文章就是要帶你克服。

[R語言專題] 運用R語言玩轉文字探勘 – 字串處理

[R語言專題] 運用R語言玩轉文字探勘 – 字串處理

若我們想分析歷屆台灣總統的演講稿,在事前我們可能要先做這些準備:保留講稿中「台灣」和「臺灣」其中一種用法、刪除原文中的換行符號、整理民國與西元日期格式、消除空格例如以前可能會出現挪抬等。上述提到的小任務,全部都是字串處理的範疇。當然,你可能會想說,你手上的資料已經非常乾淨,根本沒必要走過這些步驟!其實,就算不是文字探勘、就算資料已經足夠乾淨,但字串處理的使用情境非常生活化,它仍然能夠在意想不到的地方幫上你。這些任務,全都可以交給stringr套件解決。

[R語言專題] 運用R語言玩轉文字探勘 – 正規表達式

[R語言專題] 運用R語言玩轉文字探勘 – 正規表達式

就我的經驗來說,平常若打交道的以數值資料為主,確實是這個比例;但如果是文字資料,恐怕比例會更極端到清資料就要花上9成時間。在清理文字資料的過程中,一定會用上一個神兵利器:「正規表達式」(regular expression,簡稱為 regex 或 regexp)。底下,我們就來介紹正規表達式的用途與用法。