Archives › R語言專題

[R語言專題] 利用R語言爬蟲抓取網路資料:觀念篇

[R語言專題] 利用R語言爬蟲抓取網路資料:觀念篇

在這篇文章中,我們探討了網頁爬蟲的基本概念,介紹了什麼是網頁爬蟲,以及它們如何像網絡探險家一樣在互聯網的每個角落收集和整理資訊。我們分析了靜態與動態網頁的差異,並解釋了爬蟲的資訊為何具有價值,特別是在商業分析、政治議題探測和社會變化趨勢方面。此外,我們還強調了進行網頁爬蟲時需要考慮的法律和道德問題,並探討了R語言在爬蟲過程中的應用,包括 httr、rvest、RSelenium 和 jsonlite 等套件的使用。

[R語言專題]用ggplot畫地圖 – 基礎篇

[R語言專題]用ggplot畫地圖 – 基礎篇

在這篇文章中,我們利用R語言中的sf與ggplot2套件,畫了一張地圖(map),在此之前,我們認識了空間資料格式,包含vector與raster,另外也介紹空間資料型態,如GeoJSON和shapefile,最後則是談到空間資料結構,包含simple feature與raster。

[R語言專題] 運用R語言玩轉文字探勘 – 分詞篇

[R語言專題] 運用R語言玩轉文字探勘 – 分詞篇

在現今的資訊時代,文字資料無所不在,從社交媒體、新聞報導到學術研究,文字都是我們最主要的資訊來源。然而,要讓電腦能夠理解並處理這些文字資料,我們首先必須將其分割成更小、更結構化的單位,這就是所謂的「分詞」。

為什麼要分詞呢?因為單純的文字通常是非常不結構化的,而這對於資料分析或是電腦處理來說,是個巨大的挑戰。這時,分詞的角色就變得尤為重要。

[R語言專題] 運用R語言玩轉文字探勘 – 編碼亂碼與文字檔案的匯入匯出

[R語言專題] 運用R語言玩轉文字探勘 – 編碼亂碼與文字檔案的匯入匯出

前面文章「總統演說」的範例中,能看到R語言中常見的文字資料格式,要不是儲存在dataframe中,每筆資料都是文章、段落、句子,或者是用list將文章存在每一個元素中。不過,在R語言中處理文字資料會遇到很多路障,這篇文章就是要帶你克服。

[R語言專題] 運用R語言玩轉文字探勘 – 字串處理

[R語言專題] 運用R語言玩轉文字探勘 – 字串處理

若我們想分析歷屆台灣總統的演講稿,在事前我們可能要先做這些準備:保留講稿中「台灣」和「臺灣」其中一種用法、刪除原文中的換行符號、整理民國與西元日期格式、消除空格例如以前可能會出現挪抬等。上述提到的小任務,全部都是字串處理的範疇。當然,你可能會想說,你手上的資料已經非常乾淨,根本沒必要走過這些步驟!其實,就算不是文字探勘、就算資料已經足夠乾淨,但字串處理的使用情境非常生活化,它仍然能夠在意想不到的地方幫上你。這些任務,全都可以交給stringr套件解決。