乾明整理編譯自 Medium

量子位報導 | 公眾號 QbitAI

作為AI產品的產品經理，該怎麽寫好一個產品需求文檔( PRD )？

對於大多數人來說可能還沒有清晰的概念。到底該怎辦呢？

莫慌！既然你已經點進來了，不會讓你空手而歸。

最近，谷歌機器學習X 和TensorFlow X團隊的產品長官者Clemens Mewald在Medium上發表了一篇文章，詳細介紹在開發涉及到機器學習的產品時，產品經理寫PRD怎麽處理數據相關的問題。

乾貨滿滿，請收下慢慢消化~

在開始之前，先看看Clemens Mewald給出的一個聲明：

機器學習不是必需的。我看到，有的產品經理在PRD中將“使用強化學習來優化對用戶的獎勵”作為一項需求。這通常是一個危險信號。在大多數情況下，機器學習是滿足用戶需求的一種方式，而不是需求本身。

為什麽產品經理需要考慮數據問題

你可能會問，為什麽我寫個PRD，還需要寫一堆關於數據的要求？

答案很簡單，如何收集和使用數據將會對產品產生重大影響，更何況這還是一個與人工智能有關的產品。

首先，你必須搞清楚你要預測什麽，也就是你機器學習模型的輸出，以及是否有與輸出相關的必要反饋機制。

假設你的目標是向用戶提供與他/她最相關的通知。你如何知道通知是相關的呢？

你可以提供一種機制，允許用戶“滑掉”通知。

但是，這種反饋是否能告訴你，他們是因為通知很煩而關掉它，還是說這個通知是有用的，他們只是“完成”了它呢？

在確定如何定義這種反饋之前，你可能需要做一些用戶體驗研究。

其次，你必須要想清楚，把哪些關於通知的數據輸入到機器學習模型中，來幫助訓練模型。

哪些特徵可能有用？可以考慮下通知的性質，是提供資訊，還是敦促用戶采取行動？或者是通知送達的時間。

這不過是拋磚引玉罷了，我相信有了一些相關的知識之後，你可以想出更多。

此外，要想成為一名有遠見的AI產品經理，不僅需要仔細琢磨一下機器學習模型需要輸入和輸出什麽數據，還要確定這些數據是能夠使用的。

數據使機器學習成為可能

找出產品或特定功能所需要的數據是確定數據需求的第一步，也是最重要的一步。

說起來也很簡單，機器學習模型隻不過是一個數學函數，輸入一些帶有特徵的數據，輸出預測結果。然後再進行學習，把預測結果與從訓練數據中觀察到的模式匹配起來。

這樣說可能有點難以理解，是時候再舉個例子了。下面這張圖，是灣區正在出售的5套住房的實際情況。

為了避免混淆，我們把房屋的已知屬性稱為特徵，將要預測的值稱為標簽。

值得注意的是，你可以選擇各種值來當做標簽，比如說房子的大小、臥室、浴室和房價等等，甚至是郵編。

借助這個例子，給大家第一個重要提醒：你需要找到有標簽的數據，用於監督式的機器學習。

假設有一套房子，我們知道它的特徵和標簽，這意味著你已經給數據貼了標簽。

另外有一棟我們不知道價格的房子。給定已知的特徵，我們可以使用我們訓練的機器學習模型來預測這個值。

在開頭那個關於通知的例子中，標簽是用戶在拒絕通知時提供的反饋。如果他們表示通知是有用的，那就是肯定的標簽。

在許多產品用例中，都有一個有標簽數據的來源：日誌。

在我之前的部落格文章中，我介紹了一個來自Google Forms的例子，它主要是基於問題的提示，自動為問題選擇類型。

之前，用戶會提供問題提示，然後手動選擇合適的問題類型。問題提示就是特徵，手動選擇的問題類型就是標簽。

數據采集需要一種策略

你需要什麽樣的數據或者特徵？

在某些情況下，產品經理或開發人員的想象力都會被數據限制住。

通常情況下，你可以使用其他數據源的特徵來豐富這些數據。不管可行性或成本如何，可以先進行頭腦風暴，列出可能對自己的機器學習任務有幫助的潛在特徵。

假設你試圖預測房價，但你只有大小、臥室、浴室和郵政編碼等特徵。你能想出其他的特徵嗎？條件是，對這個任務有幫助，而且你也能拿得到。

舉兩個例子：

房子的年齡？這可以從公共記錄中獲得。

離最近的雜貨店的距離？可以使用公共地圖數據計算。

一旦你能夠找到其他的特徵，你可以按可用性、有無困難和成本來排定優先級。與此對應的問題是：這些數據存在嗎？有授權嗎？收集這些數據的成本有多高？

你需要多少數據？

“需要多少數據”，這個問題的答案可以寫成一本教科書。但與開發團隊進行對接的時候，產品經理需要把握一些重點：

1、在大多數情況下，數據越多越好。

2、如果數據很少或沒有數據可用，遷移學習可能會有所幫助，從一項任務中獲取數據或者模型，並將它們應用到其他的任務中，比如將一個給狗分類的模型用到給汽車分類上。

3、在獲取標記數據需要花費金錢和時間的情況下，需要在模型的品質和性能方面定一個目標，並對花費的錢和時間有清晰的預算。

4、在某些情況下，更多的數據不會有幫助。

這部分表述可能不太清晰。為了讓大家更好地理解，可以看看下面這張圖。直觀地展示了獲取更多數據可能有用也可能沒用的情況。

大多數機器學習問題都在曲線的上方，即獲取更多數據將會帶來更好的性能。

然而，在一些情況下，大量標注的訓練數據已經存在，回報可能會減少。也就是說，更多的數據並不能提高模型品質。

你的數據品質是否足夠好？

數據在特徵和標簽的品質上，也可能會有很大差異。

如果你正在通過整理日誌獲取數據，很可能你會獲得一些異常的訓練數據。

這可能本身沒有問題，比如說在Google Forms的例子中，用戶對一些問題歸到一個類型中有不同的看法。

在其他的一些情況下，可能是因為不同格式的特徵值或語義。比如說一些房價以千美元計，另一些以百萬美元計。

就算你可以訪問這些數據，並且可以通過抽查來發現有問題的案例。但在寫PRD的時候，你對此也無能為力。

但不管怎樣，要告訴開發團隊應該關注什麽，這樣他們就可以集中精力調查數據品質。

此外，如果你對數據的品質有所擔心，你應該在PRD中提出警告，表示這可能會降低機器學習模型的品質。

關於隱私和安全

如何存儲和處理這些數據也非常重要。在開始收集數據之前，最好谘詢隱私和安全方面的專家，弄清楚你能做什麽和不能做什麽。

就算有了這些限制，也要從用戶的角度來考慮，什麽是應該做的，什麽是不應該做的。

此外，還要花時間考慮一下，你的用戶從中獲得了什麽好處，確定這需要用到的數據。當然，也要讓用戶認可這些好處，不能只是你自己的想法。

數據需求清單

下面是一些具體問題清單。不管你是在構思一個新產品，還是向既有的產品中添加新的功能，都可以作為參考：

數據要求

需要什麽數據？

哪些特徵是已知的，將是有用的？等等。

這些特徵可用嗎？如果不可用，獲取成本是多少？

數據采集策略

上述數據來自哪裡？

現有數據是否存在品質問題？

你認為需要多少數據？

隱私與安全

數據存儲和處理的方式是否安全？

你有收集/使用數據的權限嗎？

從用戶的角度來看，新功能或產品的好處是否能超過他們在提供數據時的擔憂？

—完—

加入社群

量子位AI社群28群開始招募啦，歡迎對AI感興趣的同學，在量子位公眾號（QbitAI）對話界面回復關鍵字“交流群”，獲取入群方式；

此外，量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募，面向正在從事相關領域的工程師及研究人員。

進專業群請在量子位公眾號（QbitAI）對話界面回復關鍵字“專業群”，獲取入群方式。（專業群審核較嚴，敬請諒解）

誠摯招聘