Tag Archives › stringr
[R語言專題] 運用R語言玩轉文字探勘 – 編碼亂碼與文字檔案的匯入匯出
![[R語言專題] 運用R語言玩轉文字探勘 – 編碼亂碼與文字檔案的匯入匯出](https://i0.wp.com/r-lover.com/wp-content/uploads/2023/10/R%E8%AA%9E%E8%A8%80%E4%BA%82%E7%A2%BC-screenshot.png?fit=240%2C109&ssl=1)
前面文章「總統演說」的範例中,能看到R語言中常見的文字資料格式,要不是儲存在dataframe中,每筆資料都是文章、段落、句子,或者是用list將文章存在每一個元素中。不過,在R語言中處理文字資料會遇到很多路障,這篇文章就是要帶你克服。
[R語言專題] 運用R語言玩轉文字探勘 – 字串處理
![[R語言專題] 運用R語言玩轉文字探勘 – 字串處理](https://i0.wp.com/r-lover.com/wp-content/uploads/2023/10/stringr-screenshot.png?fit=240%2C71&ssl=1)
若我們想分析歷屆台灣總統的演講稿,在事前我們可能要先做這些準備:保留講稿中「台灣」和「臺灣」其中一種用法、刪除原文中的換行符號、整理民國與西元日期格式、消除空格例如以前可能會出現挪抬等。上述提到的小任務,全部都是字串處理的範疇。當然,你可能會想說,你手上的資料已經非常乾淨,根本沒必要走過這些步驟!其實,就算不是文字探勘、就算資料已經足夠乾淨,但字串處理的使用情境非常生活化,它仍然能夠在意想不到的地方幫上你。這些任務,全都可以交給stringr套件解決。
[R語言專題] 運用R語言玩轉文字探勘 – 正規表達式
![[R語言專題] 運用R語言玩轉文字探勘 – 正規表達式](https://i0.wp.com/r-lover.com/wp-content/uploads/2023/10/regex-example.png?fit=240%2C148&ssl=1)
就我的經驗來說,平常若打交道的以數值資料為主,確實是這個比例;但如果是文字資料,恐怕比例會更極端到清資料就要花上9成時間。在清理文字資料的過程中,一定會用上一個神兵利器:「正規表達式」(regular expression,簡稱為 regex 或 regexp)。底下,我們就來介紹正規表達式的用途與用法。