在清理文字資料的過程中,一定會用上一個神兵利器:「正規表達式」(regular expression,簡稱為 regex 或 regexp)。
在利用文字探勘技術,完成讓人看完眼睛為之一亮的分析之前,我們要先確保資料集的品質足夠優異,否則只會應驗時常聽到的名言:「garbage in, garbage out」。
若我們以網路媒體文章,或者擷取社群媒體與論壇上的內容,當成文字探勘標的,一定要清理/洗原始資料(data cleaning/cleansing),之後才會開始分析。大家常說資料分析師的工作中,清理資料時間占8成、分析資料時間占2成。
就我的經驗來說,平常若打交道的以數值資料為主,確實是這個比例;但如果是文字資料,恐怕比例會更極端到清資料就要花上9成時間。在清理文字資料的過程中,一定會用上一個神兵利器:「正規表達式」(regular expression,簡稱為 regex 或 regexp)。底下,我們就來介紹正規表達式的用途與用法。
Continue reading →2023年10月最新資料顯示,賴清德領先、侯友宜和柯文哲緊密糾纏,郭台銘穩定落後。
2024總統大選倒數不到四個月,這次不只是三國演義,已經演變成賴清德、侯友宜、柯文哲、郭台銘四方稱霸,現在情勢到底如何?有做民調的至少有美麗島電子報、台灣民意基金會、TVBS等,你知道要看哪一間才對嗎?本文整理三家民調機構最新總統選舉民調資料,還把原始資料都放上來給你參考!
Continue reading →天下雜誌和天下文化是不同公司,天下雜誌和遠見雜誌也是不同公司。
你是否曾經困惑於天下雜誌與天下文化的差異?遠見雜誌和天下雜誌又有什麼關係?每次新聞報導縣市長調查的時候,若你對結果不滿意想罵人,有罵對人嗎?這兩家雜誌,其實有著重疊的創辦人,只是現在已經分家!兩間有關係本文帶你釐清,到底天下雜誌和遠見天下文化有什麼不同!
Continue reading →本文告訴你吳恩達的生平與成就。
人工智慧領域大師吳恩達(Andrew Ng)下週(2023/9/25)將造訪台灣,分享他對AI前景的最新解讀,公開演講門票迅速索取一空。

重要性
- 吳恩達的產學經歷完整。他曾任教於史丹佛大學資工系,並領導該校人工智慧實驗室,現在則為客座教授。他曾和Google研究員共同在Google X實驗室開啟Google Brain專案,接著進入百度擔任首席科學家,離職後則接續創辦Landing AI、DeepLearning.AI、AI Fund,同時還是Coursea的共同創辦人。
- 吳恩達的學術成就備受肯定。學術著作被引用次數超過23萬、h-index達到141;他很早就開始提倡應該應用GPU於深度學習訓練,影響深度學習領域共同奪下圖靈獎三巨頭之一的辛頓(Geoffrey Hinton);研究領域橫跨機器人學、機器學習、深度學習等,和其他大師齊名。
- 吳恩達將人工智慧教育普及。他共同創辦Coursera,開設一系列機器學習與深度學習課程,其中Machine Learning專項課程有超過27萬人註冊,給所有人的人工智慧課程更超過100萬人註冊,而且大部分課程都可以免費取得。
