乾明 整理編譯自 Medium
量子位 報導 | 公眾號 QbitAI
作為AI產品的產品經理,該怎麽寫好一個產品需求文檔( PRD )?
對於大多數人來說可能還沒有清晰的概念。到底該怎辦呢?
莫慌!既然你已經點進來了,不會讓你空手而歸。
最近,谷歌機器學習X 和TensorFlow X團隊的產品長官者Clemens Mewald在Medium上發表了一篇文章,詳細介紹在開發涉及到機器學習的產品時,產品經理寫PRD怎麽處理數據相關的問題。
乾貨滿滿,請收下慢慢消化~
在開始之前,先看看Clemens Mewald給出的一個聲明:
機器學習不是必需的。我看到,有的產品經理在PRD中將“使用強化學習來優化對用戶的獎勵”作為一項需求。這通常是一個危險信號。在大多數情況下,機器學習是滿足用戶需求的一種方式,而不是需求本身。
為什麽產品經理需要考慮數據問題
你可能會問,為什麽我寫個PRD,還需要寫一堆關於數據的要求?
答案很簡單,如何收集和使用數據將會對產品產生重大影響,更何況這還是一個與人工智能有關的產品。
首先,你必須搞清楚你要預測什麽,也就是你機器學習模型的輸出,以及是否有與輸出相關的必要反饋機制。
假設你的目標是向用戶提供與他/她最相關的通知。你如何知道通知是相關的呢?
你可以提供一種機制,允許用戶“滑掉”通知。
但是,這種反饋是否能告訴你,他們是因為通知很煩而關掉它,還是說這個通知是有用的,他們只是“完成”了它呢?
在確定如何定義這種反饋之前,你可能需要做一些用戶體驗研究。
其次,你必須要想清楚,把哪些關於通知的數據輸入到機器學習模型中,來幫助訓練模型。
哪些特徵可能有用?可以考慮下通知的性質,是提供資訊,還是敦促用戶采取行動?或者是通知送達的時間。
這不過是拋磚引玉罷了,我相信有了一些相關的知識之後,你可以想出更多。
此外,要想成為一名有遠見的AI產品經理,不僅需要仔細琢磨一下機器學習模型需要輸入和輸出什麽數據,還要確定這些數據是能夠使用的。
數據使機器學習成為可能
找出產品或特定功能所需要的數據是確定數據需求的第一步,也是最重要的一步。
說起來也很簡單,機器學習模型隻不過是一個數學函數,輸入一些帶有特徵的數據,輸出預測結果。然後再進行學習,把預測結果與從訓練數據中觀察到的模式匹配起來。
這樣說可能有點難以理解,是時候再舉個例子了。下面這張圖,是灣區正在出售的5套住房的實際情況。
為了避免混淆,我們把房屋的已知屬性稱為特徵,將要預測的值稱為標簽。
值得注意的是,你可以選擇各種值來當做標簽,比如說房子的大小、臥室、浴室和房價等等,甚至是郵編。
借助這個例子,給大家第一個重要提醒:你需要找到有標簽的數據,用於監督式的機器學習。
假設有一套房子,我們知道它的特徵和標簽,這意味著你已經給數據貼了標簽。
另外有一棟我們不知道價格的房子。給定已知的特徵,我們可以使用我們訓練的機器學習模型來預測這個值。
在開頭那個關於通知的例子中,標簽是用戶在拒絕通知時提供的反饋。如果他們表示通知是有用的,那就是肯定的標簽。
在許多產品用例中,都有一個有標簽數據的來源:日誌。
在我之前的部落格文章中,我介紹了一個來自Google Forms的例子,它主要是基於問題的提示,自動為問題選擇類型。
之前,用戶會提供問題提示,然後手動選擇合適的問題類型。問題提示就是特徵,手動選擇的問題類型就是標簽。
數據采集需要一種策略
你需要什麽樣的數據或者特徵?
在某些情況下,產品經理或開發人員的想象力都會被數據限制住。
通常情況下,你可以使用其他數據源的特徵來豐富這些數據。不管可行性或成本如何,可以先進行頭腦風暴,列出可能對自己的機器學習任務有幫助的潛在特徵。
假設你試圖預測房價,但你只有大小、臥室、浴室和郵政編碼等特徵。你能想出其他的特徵嗎?條件是,對這個任務有幫助,而且你也能拿得到。
舉兩個例子:
房子的年齡?這可以從公共記錄中獲得。
離最近的雜貨店的距離?可以使用公共地圖數據計算。
一旦你能夠找到其他的特徵,你可以按可用性、有無困難和成本來排定優先級。與此對應的問題是:這些數據存在嗎?有授權嗎?收集這些數據的成本有多高?
你需要多少數據?
“需要多少數據”,這個問題的答案可以寫成一本教科書。但與開發團隊進行對接的時候,產品經理需要把握一些重點:
1、在大多數情況下,數據越多越好。
2、如果數據很少或沒有數據可用,遷移學習可能會有所幫助,從一項任務中獲取數據或者模型,並將它們應用到其他的任務中,比如將一個給狗分類的模型用到給汽車分類上。
3、在獲取標記數據需要花費金錢和時間的情況下,需要在模型的品質和性能方面定一個目標,並對花費的錢和時間有清晰的預算。
4、在某些情況下,更多的數據不會有幫助。
這部分表述可能不太清晰。為了讓大家更好地理解,可以看看下面這張圖。直觀地展示了獲取更多數據可能有用也可能沒用的情況。
大多數機器學習問題都在曲線的上方,即獲取更多數據將會帶來更好的性能。
然而,在一些情況下,大量標注的訓練數據已經存在,回報可能會減少。也就是說,更多的數據並不能提高模型品質。
你的數據品質是否足夠好?
數據在特徵和標簽的品質上,也可能會有很大差異。
如果你正在通過整理日誌獲取數據,很可能你會獲得一些異常的訓練數據。
這可能本身沒有問題,比如說在Google Forms的例子中,用戶對一些問題歸到一個類型中有不同的看法。
在其他的一些情況下,可能是因為不同格式的特徵值或語義。比如說一些房價以千美元計,另一些以百萬美元計。
就算你可以訪問這些數據,並且可以通過抽查來發現有問題的案例。但在寫PRD的時候,你對此也無能為力。
但不管怎樣,要告訴開發團隊應該關注什麽,這樣他們就可以集中精力調查數據品質。
此外,如果你對數據的品質有所擔心,你應該在PRD中提出警告,表示這可能會降低機器學習模型的品質。
關於隱私和安全
如何存儲和處理這些數據也非常重要。在開始收集數據之前,最好谘詢隱私和安全方面的專家,弄清楚你能做什麽和不能做什麽。
就算有了這些限制,也要從用戶的角度來考慮,什麽是應該做的,什麽是不應該做的。
此外,還要花時間考慮一下,你的用戶從中獲得了什麽好處,確定這需要用到的數據。當然,也要讓用戶認可這些好處,不能只是你自己的想法。
數據需求清單
下面是一些具體問題清單。不管你是在構思一個新產品,還是向既有的產品中添加新的功能,都可以作為參考:
數據要求
需要什麽數據?
哪些特徵是已知的,將是有用的?等等。
這些特徵可用嗎?如果不可用,獲取成本是多少?
數據采集策略
上述數據來自哪裡?
現有數據是否存在品質問題?
你認為需要多少數據?
隱私與安全
數據存儲和處理的方式是否安全?
你有收集/使用數據的權限嗎?
從用戶的角度來看,新功能或產品的好處是否能超過他們在提供數據時的擔憂?
—完—
加入社群
量子位AI社群28群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字“交流群”,獲取入群方式;
此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。
進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字“專業群”,獲取入群方式。(專業群審核較嚴,敬請諒解)
誠摯招聘
量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。