基于支持向量機(jī)的燃?xì)舛唐谪?fù)荷預(yù)測(cè)

摘 要

摘要:介紹支持向量機(jī)的原理和支持向量回歸模型,提出支持向量回歸(SVR)模型的城市燃?xì)舛唐谪?fù)荷預(yù)測(cè)方法。探討輸入樣本數(shù)據(jù)的選擇和預(yù)處理方法、核函數(shù)和支持向量機(jī)參數(shù)的選擇,

摘要:介紹支持向量機(jī)的原理和支持向量回歸模型,提出支持向量回歸(SVR)模型的城市燃?xì)舛唐谪?fù)荷預(yù)測(cè)方法。探討輸入樣本數(shù)據(jù)的選擇和預(yù)處理方法、核函數(shù)和支持向量機(jī)參數(shù)的選擇,結(jié)合某城市燃?xì)馊肇?fù)荷數(shù)據(jù)進(jìn)行燃?xì)舛唐谪?fù)荷預(yù)測(cè)。與BP神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)方法相比,支持向量回歸模型預(yù)測(cè)方法用于小樣本情況下的燃?xì)舛唐谪?fù)荷預(yù)測(cè)精度略高。

關(guān)鍵詞:燃?xì)庳?fù)荷預(yù)測(cè);  短期負(fù)荷;  支持向量機(jī);  BP神經(jīng)網(wǎng)絡(luò);  支持向量回歸模型

Short-term Gas Load Forecast Based on Support Vector Machine

Abstract: The principle of support vector machine and the support vector regression model are introduced. A short-term city gas load forecast method based on support vector regression model is proposed. The selection and pretreatment method of input sample data and the selection of kernel function support vector machine parameters are discussed. The short-term gas load forecast is conducted with the daily gas load data of a city. For small sample datathe forecast method based on support vector regression model has higher short-term city gas load forecast precision than the forecast method based on BP neural network.

Key words: gas load forecast;short-term load; support vector machineBP neural network;support vector regression model

1 概述

國(guó)內(nèi)外對(duì)燃?xì)庳?fù)荷預(yù)測(cè)的研究[1-7]主要開始于20世紀(jì)后期,隨著技術(shù)進(jìn)步和計(jì)算機(jī)的廣泛應(yīng)用,各種新理論和方法相繼被應(yīng)用于燃?xì)庳?fù)荷預(yù)測(cè)。早期常用的方法是基于統(tǒng)計(jì)學(xué)的回歸分析和時(shí)間序列分析,但是由于負(fù)荷預(yù)測(cè)問題的高度非線性和不確定性,傳統(tǒng)方法往往難以建立精確的數(shù)學(xué)模型,為解決這一問題,我們引入了灰色理論、人工神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)等理論方法。本文利用支持向量回歸模型進(jìn)行燃?xì)舛唐谪?fù)荷預(yù)測(cè)研究,為建立城鎮(zhèn)燃?xì)舛唐谪?fù)荷預(yù)測(cè)模型提供一條新途徑。

2 支持向量機(jī)的原理和支持向量回歸模型

支持向量機(jī)(Support Vector Machine)簡(jiǎn)稱SVM[8],是一種監(jiān)督式學(xué)習(xí)的方法,廣泛應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中,其算法見圖1。支持向量機(jī)首先通過內(nèi)積核函數(shù)K(X)定義的非線性變換將輸入空間X變換到一個(gè)高維空間,然后在這個(gè)空間中求最優(yōu)分類面,其輸出Y是中間節(jié)點(diǎn)的線性組合,每個(gè)中間節(jié)點(diǎn)對(duì)應(yīng)一個(gè)輸入樣本與一個(gè)支持向量的內(nèi)積,因此也被稱為支持向量網(wǎng)絡(luò)。研究表明[9-10],相對(duì)于神經(jīng)網(wǎng)絡(luò)而言,支持向量回歸模型不存在局部極小值問題,對(duì)于解決模糊、隨機(jī)、不確定性、樣本數(shù)有限和非線性的復(fù)雜問題具有明顯優(yōu)勢(shì)。支持向量機(jī)從結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則出發(fā),為機(jī)器學(xué)習(xí)提供了一個(gè)嶄新的方法,被認(rèn)為是小樣本學(xué)習(xí)中一種很好的機(jī)器學(xué)習(xí)算法。

 

SVM常用的學(xué)習(xí)算法有Chunking算法、分解算法、序列最小優(yōu)化SM0法、最近點(diǎn)快速迭代(NPA)算法和最小二乘法等。SVM方法在建模過程中,核函數(shù)及其參數(shù)對(duì)模型預(yù)測(cè)的執(zhí)行效率和推廣預(yù)測(cè)能力影響較大,對(duì)于SVM參數(shù)的優(yōu)化選取,目前尚未有統(tǒng)一的最佳方案,常用的方法就是使參數(shù)在一定范圍內(nèi)取值,采用試算方法來選取最優(yōu)的一組參數(shù)。為避免試算的盲目性,除常規(guī)的網(wǎng)格劃分方法外,目前常用的啟發(fā)式參數(shù)尋優(yōu)方法還有遺傳算法(GA)和粒子群優(yōu)化算法(PSO)等。  

2.1 基本原理

假設(shè)樣本(xi,yi),i=1,n,xi∈Rnyi∈R(Rnn維的實(shí)數(shù)空間,R為實(shí)數(shù)),支持向量機(jī)的基本原理就是將學(xué)習(xí)樣本(xi,yi)通過映射函數(shù)ø映射到一個(gè)高維特征空間,然后選擇適當(dāng)?shù)暮撕瘮?shù)K(X)和懲罰參數(shù)C,通過求解二次優(yōu)化問題可得到松弛變量δi和參數(shù)b。

優(yōu)化的目標(biāo)函數(shù)為F=wTw,目標(biāo)函數(shù)F可以保證分類的最優(yōu)性,約束條件(2)則保證分類的正確性。為了消除異常樣本的影響,引入松弛變量δi,相應(yīng)的目標(biāo)函數(shù)可以表示為:

 

式中 w——超平面的權(quán)值向量

     C——懲罰參數(shù),對(duì)錯(cuò)誤分類起懲罰作用

    δi——松弛變量,其作用是衡量對(duì)樣本(xiyi)的誤分類程度

     b——參數(shù)

向量xi通過函數(shù)ø (x)被映射到高維空間,K(xi,yi)=ø(xiT)ø(xj)為核函數(shù)。支持向量機(jī)通過將輸入空間映射到一個(gè)高維內(nèi)積空間,解一個(gè)線性約束的二次規(guī)劃問題得到全局最優(yōu)解,從而有效避免了“維數(shù)災(zāi)難”,保證了收斂速度。在最優(yōu)分類面中選擇適當(dāng)?shù)暮撕瘮?shù),可以實(shí)現(xiàn)某一非線性變換后的線性分類,且不增加其計(jì)算的復(fù)雜性。

SVM中最常用的幾種核函數(shù)見式(3)(6),其中線性核函數(shù)可以看作是多項(xiàng)式核函數(shù)的一種特殊情況。

 

2.2支持向量回歸模型(SVR)

1996年國(guó)外相關(guān)學(xué)者提出了一種利用支持向量機(jī)進(jìn)行回歸的計(jì)算方法。該方法需要解決的問題與式(1)類似,通常被稱為支持向量回歸(SVR)模型。假設(shè)待回歸的函數(shù)為f(x)=wx+P,樣本數(shù)據(jù)(xi,yi),i=1,,n,xi∈Rnyi∈R,按照支持向量機(jī)理論,其擬合函數(shù)為:

 

 

式中 αi,α'i,p——參數(shù)

(7)中的參數(shù)αi,α'i,p通過解下面的二次優(yōu)化問題獲得,優(yōu)化的目標(biāo)函數(shù)為:

 

約束條件為:

 

式中 μ——預(yù)測(cè)誤差

     C1——懲罰因子,表示對(duì)超出誤差μ的樣本的懲罰程度

3 燃?xì)庳?fù)荷預(yù)測(cè)的支持向量回歸模型

燃?xì)庳?fù)荷是由數(shù)量眾多的各類用戶用氣所形成,由于影響負(fù)荷的各種自然、社會(huì)和經(jīng)濟(jì)條件不斷變化,以及終端用戶的使用情況影響,導(dǎo)致燃?xì)庳?fù)荷處于一個(gè)動(dòng)態(tài)的變化過程。燃?xì)庳?fù)荷具有時(shí)變性,對(duì)于短期負(fù)荷預(yù)測(cè)而言,最重要的影響因素是星期幾、溫度、天氣、是否節(jié)假日等特殊日等。

假設(shè)已有多日的燃?xì)庳?fù)荷實(shí)際數(shù)據(jù)(xiyi),i=1,2,m,其中xi為第i天燃?xì)庳?fù)荷的影響因素,yi為第i天的燃?xì)庳?fù)荷實(shí)測(cè)值。利用支持向量回歸模型進(jìn)行燃?xì)庳?fù)荷預(yù)測(cè),即建立每天燃?xì)庳?fù)荷影響因素xi與燃?xì)庳?fù)荷yi之間的非線性函數(shù)關(guān)系,即:

 

根據(jù)支持向理機(jī)理論,該非線性函數(shù)關(guān)系可以用支持向量機(jī)對(duì)前i-1天實(shí)測(cè)數(shù)據(jù)的學(xué)習(xí)來獲得,其回歸計(jì)算公式為:

 

3.1 確定輸入輸出

燃?xì)庳?fù)荷預(yù)測(cè)支持向量回歸模型的輸入因素通常為溫度(包括最高、最低和平均溫度)、日期和天氣情況,輸出值則為當(dāng)日的燃?xì)庳?fù)荷。支持向量回歸模型只能處理非模糊的定量數(shù)據(jù),采用較多的負(fù)荷相關(guān)因素作為輸入可以提高預(yù)測(cè)的精度,輸入的影響因素越多,網(wǎng)絡(luò)運(yùn)算的精度越高,樣本訓(xùn)練所需的時(shí)間也會(huì)越多,因此在實(shí)際應(yīng)用時(shí)應(yīng)根據(jù)已有資料選擇適當(dāng)數(shù)量的輸入因素。

燃?xì)庳?fù)荷處于一個(gè)隨機(jī)非平穩(wěn)的過程,由于受到各種因素的影響,其歷史數(shù)據(jù)常常包含部分不良數(shù)據(jù),因此通常在使用前要進(jìn)行預(yù)處理,例如采用低通濾波法去除分散或連續(xù)出現(xiàn)的不大的尖峰擾動(dòng),使樣本數(shù)據(jù)更具有實(shí)際意義。在樣本選擇和優(yōu)化處理過程中,如果數(shù)據(jù)源中有大量未經(jīng)處理或者虛假的數(shù)據(jù),將會(huì)妨礙對(duì)網(wǎng)絡(luò)的正確訓(xùn)練,因此剔除或使用正常數(shù)據(jù)置換那些不符合實(shí)際的異常樣本數(shù)據(jù),確定出數(shù)據(jù)的合適數(shù)目。

3.2 參數(shù)的優(yōu)選

支持向量機(jī)參數(shù)的優(yōu)選主要包括兩部分內(nèi)容,一是核函數(shù)的選擇,二是參數(shù)的優(yōu)選。通常情況下,我們優(yōu)先選擇RBF核函數(shù),與其他核函數(shù)相比,它在數(shù)值計(jì)算上具有一定優(yōu)勢(shì),而線性核函數(shù)和Sigmoid核函數(shù)如果選擇適合的參數(shù)都可以轉(zhuǎn)變?yōu)?span lang="EN-US">RBF核函數(shù)。對(duì)于支持向量機(jī)參數(shù)的優(yōu)選,目前最常用的方法是采用網(wǎng)格劃分與交叉檢驗(yàn)相結(jié)合的方法。

4 預(yù)測(cè)實(shí)例

4.1 預(yù)測(cè)流程

利用支持向量機(jī)進(jìn)行燃?xì)舛唐谪?fù)荷預(yù)測(cè)的基本流程見圖2。

 

4.2 預(yù)測(cè)實(shí)例

選擇某城市21天的燃?xì)庳?fù)荷數(shù)據(jù),初始訓(xùn)練樣本為前7天的負(fù)荷數(shù)據(jù)(見表l),利用SVR預(yù)測(cè)第8天的燃?xì)庳?fù)荷,然后將第8天的實(shí)測(cè)負(fù)荷并入初始訓(xùn)練樣本,再利用SVR預(yù)測(cè)第9天的燃?xì)庳?fù)荷,以此類推,可以得到第8天至第21天的燃?xì)庳?fù)荷預(yù)測(cè)值及相對(duì)誤差(見表2)。

 

 

以星期幾、平均溫度、最高溫度、最低溫度、天氣情況作為SVR模型的輸入?yún)?shù),模型輸出為當(dāng)日的燃?xì)庳?fù)荷。由于各影響因素差別較大,為方便支持向量機(jī)的訓(xùn)練和學(xué)習(xí),需要將學(xué)習(xí)樣本和預(yù)測(cè)樣本數(shù)據(jù)進(jìn)行歸一化處理,通常將樣本數(shù)據(jù)調(diào)整為[0,1][-1,1],分別用支持向量回歸模型和BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練和預(yù)測(cè),數(shù)據(jù)對(duì)比見表2。其中支持向量回歸模型選擇RBF函數(shù)作為核函數(shù),參數(shù)的選擇采用網(wǎng)格劃分和交叉檢驗(yàn)來確定;BP神經(jīng)網(wǎng)絡(luò)包括1個(gè)隱含層,根據(jù)試算結(jié)果選擇9個(gè)節(jié)點(diǎn)。

由表2可以看出,對(duì)于燃?xì)舛唐谪?fù)荷的預(yù)測(cè),SVR模型和BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)這兩種預(yù)測(cè)方法,除個(gè)別點(diǎn)外,相對(duì)誤差基本都在5%以內(nèi),預(yù)測(cè)值與實(shí)測(cè)值吻合良好。樣本數(shù)量較少時(shí),SVR模型預(yù)測(cè)方法較BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)精度更高,隨著樣本數(shù)量的增大,兩者的預(yù)測(cè)相對(duì)誤差都呈下降趨勢(shì)。綜上所述,利用SVR模型預(yù)測(cè)燃?xì)舛唐谪?fù)荷可行,并且對(duì)于小樣本數(shù)據(jù),其預(yù)測(cè)準(zhǔn)確度略高于BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)。

5 結(jié)論

燃?xì)舛唐谪?fù)荷與其影響因素之間的關(guān)系是復(fù)雜的非線性關(guān)系,用傳統(tǒng)的數(shù)學(xué)模型很難處理。本文將支持向量機(jī)應(yīng)用于城市燃?xì)舛唐谪?fù)荷預(yù)測(cè),建立星期幾、平均溫度、最高溫度、最低溫度、天氣情況與燃?xì)庳?fù)荷的支持向量回歸模型,對(duì)某城市燃?xì)庳?fù)荷進(jìn)行預(yù)測(cè),與BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果對(duì)比后顯示,SVR預(yù)測(cè)方法準(zhǔn)確度略高,具有很高的實(shí)用價(jià)值,并且在解決小樣本、非線性及高維模式識(shí)別問題中具有特有的優(yōu)勢(shì)。

 

參考文獻(xiàn):

[1] 楊愛萍,鄧連杰,劉鳳國(guó).城市燃?xì)庳?fù)荷預(yù)測(cè)技術(shù)應(yīng)用分析[J].煤氣與熱力,2011,31(9)A39-A41.

[2] 焦文玲,金佳賓,廉樂明,等.時(shí)間序列分析在城市天然氣短期負(fù)荷預(yù)測(cè)中的應(yīng)用[J].哈爾濱建筑大學(xué)學(xué)報(bào),2001,34(4)79-83.

[3] 焦文玲,朱寶成,馮玉剛.基于BP神經(jīng)網(wǎng)絡(luò)城市燃?xì)舛唐谪?fù)荷預(yù)測(cè)[J].煤氣與熱力,200626(12)12-15.

[4] 劉燕,張應(yīng)輝,杜學(xué)平.基于同歸分析的北京市天然氣供應(yīng)規(guī)模預(yù)測(cè)[J].煤氣與熱力,201030(6)A26-A29.

[5] 嚴(yán)銘卿,廉樂明,焦文玲,等.燃?xì)庳?fù)荷及其預(yù)測(cè)模型[J].煤氣與熱力,2003,23(5)259-262.

[6] 焦文玲,鄒濤,鞏曉峰,等.燃?xì)馊肇?fù)荷影響因素的相關(guān)分析和偏相關(guān)分析[J].煤氣與熱力,2010,30(5)Bol-1705.

[7] 姚健,周偉國(guó),張中秀.人工神經(jīng)網(wǎng)絡(luò)法燃?xì)馊肇?fù)荷預(yù)測(cè)輸入變量選取[J].煤氣與熱力,2010,30(1)A28-A30.

[8] 浦星材,沈曉風(fēng),張清揚(yáng),等.基于偏最小二乘法的支持向量機(jī)短期負(fù)荷預(yù)測(cè)[J].電網(wǎng)與清潔能源,2011,27(10)32-35.

[9] 馬文濤.參數(shù)優(yōu)化LSSVM的巷道圍巖松動(dòng)圈預(yù)測(cè)研究[J].巖土力學(xué),2007,28(s1)460-464.

[10] 趙洪波.支持向量機(jī)在隧道圍巖變形預(yù)測(cè)中的應(yīng)用[J].巖石力學(xué)與工程學(xué)報(bào),2005,24(4)649-652.

 

本文作者:郭微 姜德義

作者單位:重慶大學(xué)煤礦災(zāi)害動(dòng)力學(xué)與控制國(guó)家重點(diǎn)實(shí)驗(yàn)室