一種基于rnn的圖片描述自動生成方法

文(wen)檔序號：9866192閱讀(du)：1239來源：國知局

一種基于rnn的圖片描述自動生成方法
【技術領域】
[0001] 本發明設及人工智能領域，特別設及一種基于的圖片描述自動生成方法。
【背景技術】
[0002] 自動圖像內容描述是人工智能圖像識別近年興起的新技術。其目的在于通過算法，自動把一個圖像的內容信息，用自然語言表達出來。Show and Tell :A化ural Image Caption Generato;r，0;riol Vinyals 2014,通過先使用深度網絡提取圖像特征，再使用RNN 模型將圖像特征轉化為文字描述，提取出圖像的語義信息。但其是對整個圖像進行整體處理，不能很好地利用圖像中的空間位置的信息。Show,Attend and Tell :Neural Image (^iptionGeneration with Visual Attention,Kelvin Xu 2015,在其之上加入了顯著性檢測，對圖像的空間信息有一定的利用，但其也只利用了簡單的RN飾莫型，語義的表達力較弱。

【發明內容】

[0003] 為了克服現有技術的上述缺點與不足，本發明的目的在于提供一種基于的圖片描述自動生成方法，可W自動識別，理解用戶上傳的數碼圖像，并生成人類能理解的自然句子。
[0004] 本發明的目的通過W下技術方案實現：
[0005] -種基于的圖片描述自動生成方法，包括W下步驟：
[0006] S1在計算機上進行訓練過程：
[0007] S1.1采集數據集:采集日常生活中各類場景里面的圖像作為訓練圖像，每張訓練圖像帶上一句或多句描述該圖像內容的句子；
[000引S1.2使用深度學習網絡，對訓練集的每一張圖片提取圖像特征；
[0009] S1.3詞性篩選:收集四、六級英語單詞的詞匯表，W及每個單詞的詞性；
[0010] 對于每張訓練圖像對應的一個或多個句子進行詞性篩選:對于句子中的每個單詞，如果單詞在四、六級詞匯表中排第一的詞性是名詞或者動詞，該單詞留下，否則，把該單詞去掉;使用篩選之后剩下的單詞組成句子作為數據庫；
[0011] S1.4將詞語數據轉換成特征向量:統計出S1.3中的數據庫中所有句子中出現的不同單詞的數目，加上一個自定義的END字符，句子的總字符數為η;并對單詞按字母順序進行排序，每個單詞在序列中的位置作為該單詞的索引位置；由此把每個單詞表示為一個η維的單詞特征向量，該向量只有在該單詞的索引位置上為1，其他全為零;η為正整數；
[0012 ] S1.5將單詞特征向量和圖像特征向量統一映射到同一維度k的向量;k為正整數； [OOK] S1.6使用LSTM網絡進行訓練:每個訓練樣例為一張訓練圖像和該訓練圖像所對應的經S1.3篩選的句子;每次隨機選擇一張訓練圖像和一個對應的參考句子；
[0014] S1.7將LSTM網絡的輸入和輸出都設為k維向量，在時刻0，把k維的圖像特征向量傳入LSTM網絡，網絡輸出一個k維向量;然后將輸出的k維向量左乘一個n*k維的矩陣，得到一個η維向量;向量上第i維的值代表了索引值為i的單詞的可能性;i為正整數；
[001引SI.8使用SI.7得到的η維向量和SI.6中輸入的參考句子的η維向量進行比較，計算兩個向量的歐式距離，作為LSTM網絡的誤差，使用反向誤差傳播算法，更新網絡參數；
[0016] S2自動生成圖像描述：
[0017] S2.1在互聯網上捜集自然語言的句子，形成語料庫；
[0018] S2.2對于測試圖像，先使用深度學習網絡對測試圖像提取圖像特征，再使用S1.7 的方法得到η維的可能性單詞向量;根據η維向量上每一維值的大小，選出可能性最大的單詞；
[0019] S2.3將步驟S2.2得到的單詞向量再次輸入LSTM網絡中，得到更新后的輸出單詞可能性向量;不斷重復此過程，直到入LSTM網絡輸出END單詞；
[0020] S2.4將S2.2和S2.3過程中輸出的單詞，按順序組合成一個句子；使用該句子在 S2.1的語料庫中進行匹配，捜索最相近的句子并輸出，生成測試圖像的描述。
[0021 ]步驟S1.5所述將單詞特征向量和圖像特征向量統一映射到同一維度k的向量，具體為：
[0022 ] 對η維的單詞向量特征左乘W -個k*n的矩陣，對于m維的圖像特征向量，乘W-個 k*m維的矩陣；由此把單詞特征和圖像特征統一到k維;m為正整數。
[0023] S1.8所述使用S1.7得到的η維向量和S1.6中輸入的參考句子的η維向量進行比較，計算兩個向量的歐式距離作為LSTM網絡的誤差，使用反向誤差傳播算法，更新網絡參數，具體為：
[0024] 在輸入第t個單詞時，t小于句子長度1，使用S1.7的方法，向LSTM網絡輸入參考句子中的第t個單詞，得到η維的可能性向量;使用參考句子中的第t+1個單詞作為參考，t+1個單詞在η維可能性向量的負數作為誤差，使用反向誤差傳播算法，更新網絡參數;t為正整數，1為正整數；
[0025] 在輸入第1個單詞時，使用S1.7的方法，向LSTM網絡輸入參考句子中的第1個單詞，得到η維的可能性向量;使用S1.4中加入的END單詞作為參考，END單詞在η維可能性向量的負數作為誤差，使用反向誤差傳播算法，更新網絡參數。
[0026] 與現有技術相比，本發明具有W下優點和有益效果：
[0027] (1)本發明很好地融合圖像特征和文字特征，放在統一的框架下進行學習和理解，使圖像信息和文字信息產生互補。
[0028] (2)本發明充分考慮到自動文字描述圖片的困難性。采用了把句子中的名詞和動詞保留，去除其他詞性詞語的方法。保留了原來句子的主干部分(名詞和動詞），去掉其他可能帶來很大干擾的部分，降低了學習的復雜度，得到了較好的效果。
[0029] (3)本發明通過不斷增加訓練數據庫中的圖像和句子，本發明的性能可W不斷得到提高，而不需要重新訓練。
[0030] (4)本發明中使用了互聯網上的海量信息作為我們的語料庫，使算法可W輸出更貼近日常語言的話語。
【附圖說明】
[0031] 圖1為本發明的實施例的基于的圖片描述自動生成方法的流程圖。
【具體實施方式】
[0032]下面結合實施例，對本發明作進一步地詳細說明，但本發明的實施方式不限于此。 [00削實施例
[0034] 本實施例的一種基于的圖片描述自動生成方法，如圖1所示，包括W下步驟：
[0035] S1在計算機上進行訓練過程：
[0036] S1.1采集數據集:從ht化://mscoco.org/網站上下載mscoco數據庫，該數據庫包含30萬張圖片，每張圖片帶有5個描述圖像內容的句子；
[0037] S1 . 2使用深度學習網絡（參照論文ImageNet Classif ication wi th Deep Convolutional Neural Networks ,Alex Krizhevsky, Ilya Sutskever,Geoffrey E Hinton,NIPS 2012.)，對訓練集的每一張圖片提取圖像特征;本實施例選用網絡結構的最后一個全連接層的輸出m = 4096維向量FiER^96作為圖像的特征向量；
[0038] S1.3詞性篩選:收集四、六級英語單詞的詞匯表，W及每個單詞的詞性；
[0039] 對于每張訓練圖像對應的一個或多個句子進行詞性篩選:對于句子中的每個單詞，如果在四、六級詞匯表中排第一的詞性是名詞或者動詞，該單詞留下，否則，把該單詞去掉;使用篩選之后剩下的單詞組成句子，

完(wan)整全部詳細(xi)技術資(zi)料下(xia)載

當前第1頁1 2

該(gai)技(ji)術(shu)已(yi)申請(qing)專利。僅供學習(xi)研究(jiu)，如用于商業用途，請(qing)聯系技(ji)術(shu)所(suo)有人。
技術(shu)研發人員：郭禮華(hua);廖啟俊;
技術(shu)所有人：華南理工(gong)大學;
我是此專利的發明人

上一篇：一種多層稀疏編碼特征的鳥類圖像識別方法
上一篇(pian)：顯示圖片的方法及裝置的制造方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

_{^{<dd id='gj73q'><tbody id='gj73q'><td id='gj73q'><optgroup id='gj73q'><strong id='gj73q'></strong></optgroup><address id='gj73q'><ul id='gj73q'></ul></address><big id='gj73q'></big></td><table id='gj73q'></table></tbody><pre id='gj73q'></pre></dd><span id='gj73q'><b id='gj73q'></b></span>}}


<dfn id='gj73q'><optgroup id='gj73q'></optgroup></dfn><tfoot id='gj73q'><bdo id='gj73q'><div id='gj73q'></div><i id='gj73q'><dt id='gj73q'></dt></i></bdo></tfoot>

_{<fieldset id='gj73q'></fieldset>}

中文字幕无码日韩视频无码三区

一種基于rnn的圖片描述自動生成方法