2021年3月10日 星期三

數據謊言與真相-讀書心得與筆記

數據謊言與真相讀書心得

這是一本討論大數據的書
在這個時代每個人都脫離不了大數據
打開網路,不管是使用google 找資料,用FB,用IG,用LINE
只要我們在網路上留下的足跡
這些數據都被收集下來並推算出我們有何購物傾向
接著被精準傳送廣告資料......
透過這本書了解一下數據代表什麼真相或是謊言
有助於我們更了解這門新興的科學
並改善我們的生活

對我來說印象最深的幾個點

  • 搜尋資訊本身就是一種資訊
  • 政治理念不同的人還是會造訪相同網站
  • 臉書完美生活背後的真相
  • 分身的預測
  • 大數據的限制

搜尋資訊本身就是一種資訊

書中有一段談到失業率與色情網站的關聯性
失業率越高的時候,就會有越多人搜尋色情網站
失業會想找工作,導致求職網站的搜尋率上升
這是很直觀的理解
但是色情網站的搜尋量也上升?
這是一種不是非常直接的聯想
不過好像也滿合理的

更進一步思考
如果我是色情網站業者
當我們知道失業率高的時候,我可以做什麼促銷活動?
畢竟更多的瀏覽代表更多可能的曝光跟可能的消費

社會越來越複雜
判斷事情的時候無法單純用一對一的因果關係去衡量
而在一對多或是多對一的因果關係中
大數據可以幫助我們跳脫思維的限制
把看似不相關的兩件事情連結起來
我覺得這會是很有趣的一件事
也有可能出乎意料的能幫忙人類解決一些問題
因為很有可能當我們在處理一些問題時
一開始就走錯了方向,找不到根本原因

甚至書中提到的單單在臉書按讚
也會透露出你的智商高低
因為大數據可以根據你追蹤的粉絲頁和按讚的文章
去分析你的個性,喜好,能力等等有太多訊息可以分析
也難怪有很多人說臉書會比家人跟伴侶更了解你......
這些蒐集資訊本身就是一種資訊,而且無法騙人

政治理念不同的人還是會造訪相同網站

在書中看到這一段的時候我滿震驚的
之前看過一些心理學的書都有提到人性當中會有思考盲點
會有所謂的確認偏誤的存在
也傾向只看自己喜歡看到的資訊
也因此才有所謂的同溫層效應
還有FB跟IG都會根據使用者的喜好
推送大數據演算出來會被喜歡的圖文

結果作者說
根據他研究的結果
政治理念不同的人還是會造訪相同網站
我覺得這是滿好的一件事
一個平台需要有不一樣的聲音才有機會更好
如果大部分的人都不會受到確認偏誤的影響
而願意試著聽聽不一樣的聲音
這真的是一種很大的進步

當然,更進一步的解析
造訪相同網站最多只能代表不同理念的人都看了相同的資訊
不能引申為他們看完資料並理解或是能夠因此而同理其他人
但是至少這會是一個好的開始

臉書完美生活的真相

其實已經很多人提過這個議題
實際上人生不是所有事情都一帆風順
起起伏伏的人生才是正常的狀況
但是我們並不會將所有的事情都放在臉書上
一般來說臉書最常見的就是各種炫耀文
美食旅遊曬恩愛曬小孩
很少有人會在臉書不停的抱怨人生遇到的挫折

但是當我們看到其他人在臉書上的各種分享及炫耀文
很難把比較的心情放下
除了比圖片比內容
還要比按讚數跟留言數

臉書當然有它的功能
但是臉書是被刻意經營的片面真相
而不是全部的人生
用臉書來解釋數據的謊言與真相
應該是最容易理解的

以我自己的經驗來說
PO美食或放小孩照片的按讚跟留言通常都數倍於學習心得
而且我也從來不PO遇到困難的訊息
會有這種情況當然是大多數人玩臉書就是想要輕鬆
大家通常都報喜不報憂
也多多少少帶著炫耀的想法
會有這種現象是再自然不過的事情

可惜的是就算心裡知道是這樣
在臉書上看到別人的炫耀文心裡還是會過不去
但轉念一想
正因為這樣才要繼續修練自己的內心
讓自己能更平靜地去觀察這一切
也只有在心平氣和的狀況下
才能好好解讀判斷在這個時代所出現的大數據
背後到底代表了什麼意義
而我們又能如何運用這些數據

分身的預測

作者以他自己的經驗分析
為什麼他跟他的弟弟喜歡的球隊不一樣
理論上兩個人的成長背景都一樣
應該要喜歡同一個球隊
但後來他研究發現
小男孩在成長到8歲左右開始要選擇自己喜歡的球隊時
如果球隊在這個時間點得到冠軍
小孩就會有更高的機率變成這個球隊的球迷

書中的另外一個例子是紅襪隊的老爹歐提斯
以他的年紀本來成績應該要退化了
結果應用資料比較分析之後
發現一些客觀條件跟他差不多的人並沒有退化
果然後來老爹還是打出很棒的成績

其實這部分的應用有點像是在找成功的要素
符合哪些條件之後
有更高的機率變成我們期待的成果
但說穿了,也僅僅是有更高的機率而已,並非必然

我自己的想法是
既然這種因果關係不是這麼直觀
要透過大數據的演算才能知道
那是否也代表這種因果關係的關聯性的連結比較弱?
這些相關的資訊當然都可以參考
但現階段要做為決策的重要因子
我想還是有一定的難度
不過
如果這種大數據的技術再繼續演進下去
搞不好到了某一天把數據輸入之後
就會直接把那些因素影響多少百分比的結果
成功率是多少等等全部都計算出來
人類只要照表操課就可以達成目標
但是如果真的變成這樣
好像人生就有點無趣了

大數據的限制

書中提供了很多大數據相關故事
但作者其實也同意這是一門新的社會科學
還是有很多未知及不確定
最直接的就是蒐集大數據是不是侵犯隱私權?
這些數據與結果之間的因果關係是否真的正確?
還是說被過度解讀了?
人性思考上有一些盲點
比方說有確認偏誤以及過度推論偏誤
有沒有可能先確定結果了
再去找配合結果的數據來驗證?
如果是這樣就整個走錯了......




數據謊言與真相



數據謊言與真相筆記

大數據大垃圾,越多數據代表越多問題
本書描述的大數據意味者
用更便宜的價格取得更大量更誠實的樣本

但是現象不等於真相
更不等於理解原因

過濾氣泡 filter bubble
搜尋資訊本身就是一種資訊

大數據本身就是攏統的概念

多大的數據才算大?
比起大數據我們更需要正確的數據
GOOGLE不是靠搜尋出更多數據成為龍頭
而是藉由找到更好的數據才能脫穎而出

大數據的四種力量

  • 提供新類型的數據,就是大數據擁有的第一種力量
  • 提供誠實的數據,就是大數據的第二種力量
  • 允許我們把焦點放在人口中的小子集,就是大數據擁有的第三種力量
  • 允許我們進行許多因果關係的實驗,就是大數據擁有的第四種力量

預測球員未來的表現

找一個我的分身
類似的身材打擊數據守備位置打球經歷
很有可能有類似的生涯成績表現

教育與人生

美國還是機會之地嗎
根據大數據,教育好的地方更有機會脫離貧困

學生因為考試寫錯一兩題
導致分別進入第一志願跟第二志願的學校
到底對未來有無影響?
書中的蒐集到的資料認為並無影響

這本書的結論

社會科學正在成為一門真正的科學
而這門或真價值的新科學將有助改善我們的生活

沒有留言:

張貼留言