每日最新頭條.有趣資訊

搞AI的產品經理該怎麽寫PRD?谷歌的導師教你

乾明 整理編譯自 Medium

量子位 報導 | 公眾號 QbitAI

作為AI產品的產品經理,該怎麽寫好一個產品需求文檔( PRD )?

對於大多數人來說可能還沒有清晰的概念。到底該怎辦呢?

莫慌!既然你已經點進來了,不會讓你空手而歸。

最近,谷歌機器學習X 和TensorFlow X團隊的產品長官者Clemens Mewald在Medium上發表了一篇文章,詳細介紹在開發涉及到機器學習的產品時,產品經理寫PRD怎麽處理數據相關的問題。

乾貨滿滿,請收下慢慢消化~

在開始之前,先看看Clemens Mewald給出的一個聲明:

機器學習不是必需的。我看到,有的產品經理在PRD中將“使用強化學習來優化對用戶的獎勵”作為一項需求。這通常是一個危險信號。在大多數情況下,機器學習是滿足用戶需求的一種方式,而不是需求本身。

為什麽產品經理需要考慮數據問題

你可能會問,為什麽我寫個PRD,還需要寫一堆關於數據的要求?

答案很簡單,如何收集和使用數據將會對產品產生重大影響,更何況這還是一個與人工智能有關的產品。

首先,你必須搞清楚你要預測什麽,也就是你機器學習模型的輸出,以及是否有與輸出相關的必要反饋機制。

假設你的目標是向用戶提供與他/她最相關的通知。你如何知道通知是相關的呢?

你可以提供一種機制,允許用戶“滑掉”通知。

但是,這種反饋是否能告訴你,他們是因為通知很煩而關掉它,還是說這個通知是有用的,他們只是“完成”了它呢?

在確定如何定義這種反饋之前,你可能需要做一些用戶體驗研究。

其次,你必須要想清楚,把哪些關於通知的數據輸入到機器學習模型中,來幫助訓練模型。

哪些特徵可能有用?可以考慮下通知的性質,是提供資訊,還是敦促用戶采取行動?或者是通知送達的時間。

這不過是拋磚引玉罷了,我相信有了一些相關的知識之後,你可以想出更多。

此外,要想成為一名有遠見的AI產品經理,不僅需要仔細琢磨一下機器學習模型需要輸入和輸出什麽數據,還要確定這些數據是能夠使用的。

數據使機器學習成為可能

找出產品或特定功能所需要的數據是確定數據需求的第一步,也是最重要的一步。

說起來也很簡單,機器學習模型隻不過是一個數學函數,輸入一些帶有特徵的數據,輸出預測結果。然後再進行學習,把預測結果與從訓練數據中觀察到的模式匹配起來。

這樣說可能有點難以理解,是時候再舉個例子了。下面這張圖,是灣區正在出售的5套住房的實際情況。

為了避免混淆,我們把房屋的已知屬性稱為特徵,將要預測的值稱為標簽。

值得注意的是,你可以選擇各種值來當做標簽,比如說房子的大小、臥室、浴室和房價等等,甚至是郵編。

借助這個例子,給大家第一個重要提醒:你需要找到有標簽的數據,用於監督式的機器學習。

假設有一套房子,我們知道它的特徵和標簽,這意味著你已經給數據貼了標簽。

另外有一棟我們不知道價格的房子。給定已知的特徵,我們可以使用我們訓練的機器學習模型來預測這個值。

在開頭那個關於通知的例子中,標簽是用戶在拒絕通知時提供的反饋。如果他們表示通知是有用的,那就是肯定的標簽。

在許多產品用例中,都有一個有標簽數據的來源:日誌。

在我之前的部落格文章中,我介紹了一個來自Google Forms的例子,它主要是基於問題的提示,自動為問題選擇類型。

之前,用戶會提供問題提示,然後手動選擇合適的問題類型。問題提示就是特徵,手動選擇的問題類型就是標簽。

數據采集需要一種策略

你需要什麽樣的數據或者特徵?

在某些情況下,產品經理或開發人員的想象力都會被數據限制住。

通常情況下,你可以使用其他數據源的特徵來豐富這些數據。不管可行性或成本如何,可以先進行頭腦風暴,列出可能對自己的機器學習任務有幫助的潛在特徵。

假設你試圖預測房價,但你只有大小、臥室、浴室和郵政編碼等特徵。你能想出其他的特徵嗎?條件是,對這個任務有幫助,而且你也能拿得到。

舉兩個例子:

房子的年齡?這可以從公共記錄中獲得。

離最近的雜貨店的距離?可以使用公共地圖數據計算。

一旦你能夠找到其他的特徵,你可以按可用性、有無困難和成本來排定優先級。與此對應的問題是:這些數據存在嗎?有授權嗎?收集這些數據的成本有多高?

你需要多少數據?

“需要多少數據”,這個問題的答案可以寫成一本教科書。但與開發團隊進行對接的時候,產品經理需要把握一些重點:

1、在大多數情況下,數據越多越好。

2、如果數據很少或沒有數據可用,遷移學習可能會有所幫助,從一項任務中獲取數據或者模型,並將它們應用到其他的任務中,比如將一個給狗分類的模型用到給汽車分類上。

3、在獲取標記數據需要花費金錢和時間的情況下,需要在模型的品質和性能方面定一個目標,並對花費的錢和時間有清晰的預算。

4、在某些情況下,更多的數據不會有幫助。

這部分表述可能不太清晰。為了讓大家更好地理解,可以看看下面這張圖。直觀地展示了獲取更多數據可能有用也可能沒用的情況。

大多數機器學習問題都在曲線的上方,即獲取更多數據將會帶來更好的性能。

然而,在一些情況下,大量標注的訓練數據已經存在,回報可能會減少。也就是說,更多的數據並不能提高模型品質。

你的數據品質是否足夠好?

數據在特徵和標簽的品質上,也可能會有很大差異。

如果你正在通過整理日誌獲取數據,很可能你會獲得一些異常的訓練數據。

這可能本身沒有問題,比如說在Google Forms的例子中,用戶對一些問題歸到一個類型中有不同的看法。

在其他的一些情況下,可能是因為不同格式的特徵值或語義。比如說一些房價以千美元計,另一些以百萬美元計。

就算你可以訪問這些數據,並且可以通過抽查來發現有問題的案例。但在寫PRD的時候,你對此也無能為力。

但不管怎樣,要告訴開發團隊應該關注什麽,這樣他們就可以集中精力調查數據品質。

此外,如果你對數據的品質有所擔心,你應該在PRD中提出警告,表示這可能會降低機器學習模型的品質。

關於隱私和安全

如何存儲和處理這些數據也非常重要。在開始收集數據之前,最好谘詢隱私和安全方面的專家,弄清楚你能做什麽和不能做什麽。

就算有了這些限制,也要從用戶的角度來考慮,什麽是應該做的,什麽是不應該做的。

此外,還要花時間考慮一下,你的用戶從中獲得了什麽好處,確定這需要用到的數據。當然,也要讓用戶認可這些好處,不能只是你自己的想法。

數據需求清單

下面是一些具體問題清單。不管你是在構思一個新產品,還是向既有的產品中添加新的功能,都可以作為參考:

數據要求

需要什麽數據?

哪些特徵是已知的,將是有用的?等等。

這些特徵可用嗎?如果不可用,獲取成本是多少?

數據采集策略

上述數據來自哪裡?

現有數據是否存在品質問題?

你認為需要多少數據?

隱私與安全

數據存儲和處理的方式是否安全?

你有收集/使用數據的權限嗎?

從用戶的角度來看,新功能或產品的好處是否能超過他們在提供數據時的擔憂?

加入社群

量子位AI社群28群開始招募啦,歡迎對AI感興趣的同學,在量子位公眾號(QbitAI)對話界面回復關鍵字“交流群”,獲取入群方式;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號(QbitAI)對話界面回復關鍵字“專業群”,獲取入群方式。(專業群審核較嚴,敬請諒解)

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。

獲得更多的PTT最新消息
按讚加入粉絲團