Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- \documentclass[uplatex, dvipdfmx]{jsarticle}
- %
- % ヘッダ類
- % 日付は自動的につける
- %
- \title{直線探索に関するノート} % タイトル
- \author{竹内 弘史} % 著者
- %
- % パッケージ
- %
- \usepackage{amssymb, bm, amsthm}
- \usepackage{newtxtext, newtxmath}
- \usepackage{algorithm, algorithmic}
- \usepackage{color}
- \usepackage{mathrsfs}
- \usepackage{booktabs}
- \usepackage{enumerate}
- \usepackage{listings, jlisting}
- \usepackage{tikz}
- \usetikzlibrary{decorations.pathreplacing, shadows}
- % \usepackage{refcheck} % 参照確認用
- %
- % 定理環境
- % sectionを親にして連番とする
- %
- \theoremstyle{definition}
- \newtheorem{thm}{Theorem}[section]
- \newtheorem{dfn}[thm]{Definition}
- \newtheorem{prop}[thm]{Proposition}
- \newtheorem{cor}[thm]{Corollary}
- \newtheorem{prob}[thm]{Problem}
- \newtheorem{lem}[thm]{Lemma}
- \newtheorem{note}[thm]{Note}
- \newtheorem{claim}{Claim}
- %
- % 数学記号系の定義
- %
- \newcommand{\Alert}[1]{\textbf{\color{red}#1}}
- \newcommand{\Structure}[1]{\textbf{\color{blue}#1}}
- %
- % 数学記号系の定義
- %
- \renewcommand{\le}{\leqslant} % 不等号再定義(デザイン変更)
- \renewcommand{\ge}{\geqslant} % 不等号再定義(デザイン変更)
- \renewcommand{\implies}{\Rightarrow} % 含意再定義(デザイン変更)
- \renewcommand{\iff}{\Leftrightarrow} % 同値再定義(デザイン変更)
- % 数式中の改ページを許す
- \allowdisplaybreaks[4]
- % jsarticleのための付録の表示調整
- %
- % 付録は以下のように書く
- % > \section{ ...通常の節... }
- % > ......
- % > \section{ ...通常の節... }
- % >
- % > % 付録開始
- % > \appendix
- % > \AppendixSection{ ...付録の節... }
- % > ......
- % > \AppendixSection{ ...付録の節... }
- \newcommand{\AppendixSection}[1]{
- \def\thesection{付録\Alph{section}} %
- \section{#1} %
- \def\thesection{\Alph{section}}}
- % listings言語設定
- \lstdefinelanguage{Python}{
- % キーワード
- morekeywords = [1]{def, if, else, elif, for, return, raise,
- in, range, try, except, import, as, lambda},
- % クラス
- morekeywords = [2]{Exception, str}
- }
- % listings設定
- \lstset{%
- language={Python},%
- basicstyle={\footnotesize\ttfamily},%
- commentstyle={\footnotesize\ttfamily},%
- keywordstyle={\footnotesize\bfseries},%
- frame={single},%
- numbers=left,%
- showstringspaces=false,%
- numberstyle={\scriptsize},%
- lineskip=-1pt}
- \begin{document}
- \maketitle
- \section{はじめに}
- 無制約最適化問題では最急降下法をはじめとするいくつかの解法が知られている.
- 通常,これらの解法では,降下方向と呼ばれる目的関数の値を小さくする方向に,ステップ幅によって決まる大きさだけ近似値を逐次更新する方法がとられる.
- このステップ幅の調整は直線探索と呼ばれるが,最急降下法や非線形共役勾配法では,各更新におけるステップ幅がWolfe条件を満たせば,
- それら解法によって得られる近似解の列が,何らかの意味で最適解へ収束することが知られている.
- 本稿では,\cite{Nocedal1}をもとに,Wolfe条件を満たすステップ幅の求め方を中心にまとめる.
- 本稿の構成は以下のとおりである.
- 第2節では,無制約最適化問題の基礎事項についてまとめる.
- ただし,本稿で必要な範囲のみ述べる.
- 第3節では,Wolfe条件とそれに関連した事実についてまとめ,第4, 5節では具体的な直線探索のアルゴリズムについてまとめる.
- 付録ではPythonによる実装例を載せる.
- \section{無制約最適化問題の基礎事項}
- 本節では,最適化問題に関する基礎事項について述べる.
- ただし,本節で述べる内容は本稿で必要な範囲に限る.
- また,本稿を通して,解析学および数値解析で知られている基本的な事実は説明なく用いる.
- $f:\mathbb{R}^n\to\mathbb{R}$とする.
- $f$を最小化する$x\in\mathbb{R}^n$を求める問題を,\Alert{無制約最適化問題}と呼ぶ.
- 最適化問題の対象とする関数を\Alert{目的関数}と呼ぶ.
- 無制約最適化問題の解法として,反復法による数値計算が広く利用されている.
- 具体的には,$x_0\in\mathbb{R}^n$を初期点とし,
- \begin{align}
- x_{k+1}=x_k+\alpha_kp_k,\quad k=0,1,\dots\label{eq:update}
- \end{align}
- と近似解を更新する方法である.
- ただし,$\alpha_k\in\mathbb{R}$, $p_k\in\mathbb{R}^n$とする.
- \eqref{eq:update}における$p_k\in\mathbb{R}^n$は,近似解$x_k$を更新する方向を表すベクトルであるが,この方向は目的関数の値が小さくなるようにとることが望ましい.
- そこで,$p_k$は,
- \begin{align}
- \lim_{\lambda\to0}\frac{f(x_k+\lambda p_k)-f(x_k)}{\lambda}<0\label{eq:decent}
- \end{align}
- を満たす方向をとることを要求する.
- \eqref{eq:decent}の左辺は$f$の$x_k$における$p_k$に沿った方向微分と呼ばれ,$x_k$を$p_k$に微小変化させたときの,$x_k$の変化に対する$f$の変化の割合を表す.
- この値が負ならば,$x_k$を$p_k$の方向へ更新すると$f$の関数値が小さくなることが期待される.
- $f$が$x_k$において微分可能ならば,$f(x_k+\lambda p_k)=f(x_k)+\lambda\nabla f(x_k)^Tp_k+o(\lambda)$とTaylor展開できるため,
- \[ \lim_{\lambda\to0}\frac{f(x_k+\lambda p_k)-f(x_k)}{\lambda}=\nabla f(x_k)^Tp_k \]
- が成り立つ.
- ただし,$\nabla f(x)=(\partial f(x)/\partial x_1,\partial f(x)/\partial x_2,\dots,\partial f(x)/\partial x_n)^T$すなわち$f$の勾配を表し, $\cdot^T$は転置作用素を表す.
- したがって,更新\eqref{eq:update}において,$p_k$は$\nabla f(x_k)^Tp_k<0$を満たすようにとり,$\alpha_k$は$\alpha_k>0$の範囲で考えればよい.
- $\nabla f(x_k)^Tp_k<0$を満たす$p_k$は$x_k$における\Alert{降下方向}と呼ばれ,更新\eqref{eq:update}における$\alpha_k$は\Alert{ステップ幅}と呼ばれる.
- 具体的な降下方向のとり方としては,$p_k=-\nabla f(x_k)$ととる方法が考えられる.
- このとき,$\nabla f(x_k)^Tp_k=-\|\nabla f(x_k)\|<0$を満たすため$p_k$は降下方向である.
- $\|p\|=1$の条件で$\nabla f(x_k)^Tp$を最小にする$p$は$p=-\nabla f(x_k)/\|\nabla f(x_k)\|$となることから,$p_k=-\nabla f(x_k)$を$x_k$における\Alert{最急降下方向}と呼ぶ.
- 降下方向の具体的なとり方として最急降下方向をとればよいことを述べたが,ステップ幅の具体的なとり方については本節では言及していない.
- 次節以降で,近似解の列$\{x_k\}$が収束するためにステップ幅が満たすべき条件や,その具体的なとり方について述べる.
- 各反復における適切なステップ幅の探索を\Alert{直線探索}と呼ぶ.
- なお本稿では,簡単のため,$f_k=f(x_k)$, $\nabla f_k=\nabla f(x_k)$と略記することがある.
- \section{Wolfe条件}
- 本節では,\cite{Nocedal1}にしたがい,ステップ幅に関する条件であるWolfe条件およびそれに関連した事実についてまとめる.
- \begin{dfn}
- $0<c_1<c_2<1$とする.
- $\alpha_k$に関する以下の条件\eqref{eq:wolfe1}, \eqref{eq:wolfe2}を\Alert{Wolfe条件}という.
- 特に,\eqref{eq:wolfe1}を\Alert{十分な降下条件}, \eqref{eq:wolfe2}を\Alert{曲率条件}という.
- 十分な降下条件は\Alert{Armijo条件}として知られる.
- \begin{align}
- &f(x_k+\alpha_kp_k)\le f(x_k)+c_1\alpha_k\nabla f_k^Tp_k,\label{eq:wolfe1}\\
- &\nabla f(x_k+\alpha_kp_k)^Tp_k\ge c_2\nabla f_k^Tp_k\label{eq:wolfe2}
- \end{align}
- また,\eqref{eq:wolfe2}を
- \begin{align}
- |\nabla f(x_k+\alpha_kp_k)^Tp_k|\le c_2|\nabla f_k^Tp_k|\label{eq:wolfe3}
- \end{align}
- に取り替えた条件を\Alert{強いWolfe条件}という.
- \end{dfn}
- $x_k$, $p_k$を固定し,$\phi:\mathbb{R}_{>0}\to\mathbb{R}$を,
- \begin{align*}
- \phi(\alpha)=f(x_k+\alpha p_k)
- \end{align*}
- と定める.
- $y_k=x_k+\alpha p_k$とすると,
- \begin{align*}
- \phi'(\alpha)&=\sum_{i=1}^n\frac{\partial f}{\partial (y_k)_i}\frac{\partial (y_k)_i}{\partial\alpha}\\
- &=\sum_{i=1}^n\frac{\partial f}{\partial (y_k)_i}(p_k)_i\\
- &=\nabla f(x_k+\alpha p_k)^Tp_k
- \end{align*}
- である.
- $f(x_k)=\phi(0)$, $\nabla f(x_k)^Tp_k=\phi'(0)$なので,\eqref{eq:wolfe1}--\eqref{eq:wolfe3}は$\phi$を使って次のように書ける.
- \begin{align}
- &\phi(\alpha_k)\le \phi(0)+c_1\alpha_k\phi'(0),\label{eq:wolfe1_phi}\\
- &\phi'(\alpha_k)\ge c_2\phi'(0),\label{eq:wolfe2_phi}\\
- &|\phi'(\alpha_k)|\le-c_2\phi'(0).\label{eq:wolfe3_phi}
- \end{align}
- 特に$\phi'(0)=\nabla f(x_k)^Tp_k<0$である.
- 直線探索においては,$x_k$, $p_k$は固定して$\alpha$のみを考えるため,\eqref{eq:wolfe1_phi}--\eqref{eq:wolfe3_phi}の$\phi$による表現を多用する.
- 図\ref{fig:wolfe}に十分な降下条件,曲率条件,Wolfe条件を図示する.
- 以下,各条件の幾何的なイメージについて補足する.
- 十分な降下条件を満たすステップ幅$\alpha$の範囲は,$l(\alpha)=\phi(0)+c_1\alpha\phi'(0)$とすると,$\phi(\alpha)$が直線$l(\alpha)$より小さい値をとる$\alpha$の範囲である.
- $c_1$は$0<c_1<1$の範囲にとるので,$\alpha$が十分な降下条件を満たせば,$\phi(\alpha)=f(x_k+\alpha p_k)$の値が$f(x_k)$より十分小さくなるような$\alpha$がとれることが期待される.
- ただし,$\alpha\approx0$でも十分な降下条件を満たしてしまうため,十分な降下条件だけでは,近似解の更新が停滞してしまう可能性がある.
- そこで,ある程度の大きさのステップ幅をとることを要求するため,曲率条件を考える.
- 曲率条件を満たす$\alpha$の範囲は,接線の傾きが正か,接線の傾きが負の場合でも$c_2\phi'(0)$より緩やかな傾きとなる$\alpha$の範囲である.
- $c_2$は$0<c_1<c_2<1$の範囲にとり,$\phi'(0)<0$であることから,$\phi$の導関数が連続ならば,$\alpha=0$の近傍は曲率条件を満たさない.
- 十分な降下条件と曲率条件をあわせたものがWolfe条件である.
- 以上の議論より,Wolfe条件を満たす$\alpha$をとれば,目的関数の値が小さくなり,かつある程度の大きさのステップ幅がとれることが期待される.
- 本稿では,以降の節で,目的関数や降下方向に関する適当な仮定のもとで,Wolfe条件を満たすステップ幅がとれることや,
- Wolfe条件を満たすステップ幅をとりながら最適化問題を更新\eqref{eq:update}に基づく反復法で解いた場合,近似解の列$\{x_k\}$が収束することを示す.
- \begin{figure}[!t]
- \centering
- \begin{tikzpicture}[auto, samples=100, very thick, xscale=5.0, yscale=2.0]
- % 軸の明示
- \draw[thick, ->] (-0.25, 0)--(1.7, 0) node[right] {$\alpha$};
- \draw[thick, ->] (-0.01, -0.5)--(-0.01, 3.0) node[above] { };
- % φ(α) = 10α^4 - 30α^3 + (115/4)α^2 - (71/8)α + 1
- \draw[domain=-0.13:1.55] plot(\x, {5.0*((\x-0.75)*(\x-0.75)*(2*(\x-0.75)*(\x-0.75) - 1) + 0.1*(\x-0.75)) + 123.0/128.0}) node[above] {$\phi(\alpha)$};
- % l(α) = φ(0)+c_1φ'(0)α = 1 - (71/8)c_1α
- % c_1 = 3/142のとき,l(α) = 1 - (3/16)*α
- \draw[domain=-0.25:1.7, dashed, thin] plot(\x, {1.0 - 0.1875*\x});
- \node[above] at (0.4, 0.95) {$\quad l(\alpha)=\phi(0)+c_1\phi'(0)\alpha$};
- % Armijo条件を満たす範囲の座標
- \node (armijo1) at (0.66, 0.89) {};
- \node (armijo1_xaxis) at (0.66, -0.5) {};
- \node (armijo2) at (1.0, 0.82) {};
- \node (armijo2_xaxis) at (1.0, -0.5) {};
- \node (armijo3) at (1.35, 0.75153) {};
- \node (armijo3_xaxis) at (1.35, -0.5) {};
- % 垂線を下ろす
- \draw[thin, dotted] (armijo1) -- (armijo1_xaxis);
- \draw[thin, dotted] (armijo2) -- (armijo2_xaxis);
- \draw[thin, dotted] (armijo3) -- (armijo3_xaxis);
- % Armijo条件を満たす範囲
- \draw[thick, <->] (0.0, -0.4) -- (0.66, -0.4);
- \node at (0.35, -0.4) [below] {Armijo};
- \draw[thick, <->] (1.0, -0.4) -- (1.35, -0.4);
- \node at (1.19, -0.4) [below] {Armijo};
- % Wolfe条件を満たす範囲の座標
- \node (wolfe1) at (0.1, 0.6) {};
- \node (wolfe1_xaxis) at (0.1, -0.3) {};
- \draw[thin, dotted] (wolfe1) -- (wolfe1_xaxis);
- % 曲率条件における傾きの境界値
- \node at (-0.1, 1.6) [left] {$c_2\phi'(0)$};
- \draw[thin, dashed, domain=-0.15:0.1] plot(\x, {-71/8*0.4*(\x-0.01)+0.95});
- \draw[thin, dashed, domain=-0.05:0.2] plot(\x, {-71/8*0.4*(\x-0.1)+0.3});
- % 曲率条件を満たす範囲
- \draw[thick, <-] (0.1, 0.15) -- (1.68, 0.15);
- \node at (0.83, 0.15) [above] {Curvature};
- % Wolfe条件を満たす範囲
- \draw[thick, <->] (0.1, -0.1) -- (0.66, -0.1);
- \node at (0.37, -0.1) [below] {Wolfe};
- \draw[thick, <->] (1.0, -0.1) -- (1.35, -0.1);
- \node at (1.18, -0.1) [below] {Wolfe};
- \end{tikzpicture}
- \caption{十分な降下条件 (Armijo条件), 曲率条件,Wolfe条件の図.}
- \label{fig:wolfe}
- \end{figure}
- \begin{lem}\label{lem:wolfe_exists}
- $f:\mathbb{R}^n\to\mathbb{R}$を連続的微分可能な関数と仮定する.
- $p_k$を$x_k$における降下方向とし,$f$は$\{x_k+\alpha p_k\mid\alpha>0\}$において下に有界であるとする.
- $0<c_1<c_2<1$ならば,Wolfe条件および強いWolfe条件を満たすステップ幅$\alpha$の区間が存在する.
- \end{lem}
- \begin{proof}
- $\phi(\alpha)=f(x_k+\alpha p_k)$とおく.
- この$\phi$は$\alpha>0$において下に有界で,$0<c_1<1$より,直線$l(\alpha)=f(x_k)+\alpha c_1\nabla f_k^Tp_k$と共有点をもつ.
- $\alpha'>0$を,その共有点のうち最小のものとする.
- このとき,
- \begin{align}
- f(x_k+\alpha'p_k)=f(x_k)+\alpha'c_1\nabla f_k^Tp_k\label{eq:lem_wolfe_exists_1}
- \end{align}
- が成り立ち,$0<\alpha<\alpha'$は十分な降下条件を満たす.
- $f$は微分可能なので,平均値の定理から,
- \begin{align}
- f(x_k+\alpha'p_k)-f(x_k)=\alpha'\nabla f(x_k+\alpha''p_k)^Tp_k\label{eq:lem_wolfe_exists_2}
- \end{align}
- を満たす$0<\alpha''<a'$が存在する.
- \eqref{eq:lem_wolfe_exists_1}, \eqref{eq:lem_wolfe_exists_2}より,$c_1<c_2$かつ$\nabla f_k^Tp_k<0$なので,
- \[ \nabla f(x_k+\alpha''p_k)^Tp_k=c_1\nabla f_k^Tp_k>c_2\nabla f_k^Tp_k \]
- が成り立つ.
- $0<\alpha''<\alpha'$なので,$\alpha''$は十分な降下条件を満たし,$\nabla f(x_k+\alpha''p_k)^Tp_k>c_2\nabla f_k^Tp_k$より,$\alpha''$は曲率条件も満たす.
- また,$f$が連続的微分可能で,$\alpha''<\alpha'$なので,
- \[ f(x_k+\alpha_kp_k)<f(x_k)+c_1\alpha_k\nabla f_k^Tp_k \]
- となることから,$\alpha''-\delta<\alpha<\alpha''+\delta$において,
- \begin{align*}
- &f(x_k+\alpha_kp_k)\le f(x_k)+c_1\alpha_k\nabla f_k^Tp_k,\\
- &\nabla f(x_k+\alpha_kp_k)^Tp_k\ge c_2\nabla f_k^Tp_k
- \end{align*}
- を満たすような$\delta>0$が存在する.
- したがって,Wolfe条件を満たすステップ幅の区間$(\alpha''-\delta,\alpha''+\delta)$が存在することが示された.
- また,$\alpha'$の定め方より$f(x_k+\alpha'p_k)-f(x_k)<0$なので,\eqref{eq:lem_wolfe_exists_2}より$\nabla f(x_k+\alpha''p_k)^Tp_k<0$となり,
- $\nabla f(x_k+\alpha''p_k)^Tp_k>c_2\nabla f_k^Tp_k$ならば$|\nabla f(x_k+\alpha''p_k)^Tp_k|<c_2|\nabla f_k^Tp_k|$である.
- よって,強いWolfe条件を満たすステップ幅の区間も$(\alpha''-\delta,\alpha''+\delta)$である.
- \end{proof}
- Wolfe条件を満たすステップ幅を用いた,更新\eqref{eq:update}による最適化問題の反復解法の収束性について述べる.
- \begin{thm}
- 初期点$x_0$, 更新式\eqref{eq:update}による近似解の列$\{x_k\}$を考える.
- ただし,$p_k$は降下方向で,$\alpha_k$はWolfe条件を満たすと仮定する.
- $f$は下に有界で,レベル集合$\mathcal{L}:=\{x\mid f(x)\le f(x_0)\}$を含む開領域$\mathcal{N}$上で連続的微分可能とする.
- $\nabla f$は$\mathcal{N}$上でLipschitz連続であるとする.すなわち,
- 任意の$x$, $\tilde{x}\in\mathcal{N}$について,
- \[ \|\nabla f(x)-\nabla f(\tilde{x})\|\le L\|x-\tilde{x}\| \]
- を満たす定数$L>0$が存在すると仮定する.
- このとき,$\cos\theta_k=-\nabla f_k^Tp_k/(\|\nabla f_k\|\|p_k\|)$とおくと,
- \[ \sum_{k\ge0}\cos^2\theta_k\|\nabla f_k\|^2<\infty \]
- が成り立つ.
- \end{thm}
- \begin{proof}
- まず,曲率条件\eqref{eq:wolfe2}と近似解の更新式\eqref{eq:update}より,
- \[ c_2\nabla f(x_k)^Tp_k\le\nabla f(x_k+\alpha_kp_k)^Tp_k=\nabla f(x_{k+1})^Tp_k \]
- なので,両辺から$\nabla f(x_k)^Tp_k$を引くと,
- \[ (c_2-1)\nabla f(x_k)^Tp_k\le (\nabla f(x_{k+1})-\nabla f(x_k))^Tp_k \]
- となる.一方,$\nabla f$はLipschitz連続なので,Cauchy-Schwarzの不等式とあわせて,
- \begin{align*}
- (\nabla f(x_{k+1})-\nabla f(x_k))^Tp_k&\le\|\nabla f(x_{k+1})-\nabla f(x_k)\|\|p_k\|\\
- &\le L\|x_{k+1}-x_k\|\|p_k\|\\
- &=L\|(x_k+\alpha_kp_k)-x_k\|\|p_k\|\\
- &=\alpha_kL\|p_k\|^2
- \end{align*}
- を満たす定数$L>0$が存在する.したがって,
- \[ (c_2-1)\nabla f(x_k)^Tp_k\le\alpha_kL\|p_k\|^2 \]
- となり,整理すると,
- \[ \alpha_k\ge\frac{c_2-1}{L}\frac{\nabla f(x_k)^Tp_k}{\|p_k\|^2} \]
- となる.十分な降下条件\eqref{eq:wolfe1}より,$\nabla f(x_k)^Tp_k<0$とあわせて,
- \begin{align*}
- f(x_{k+1})&\le f(x_k)+c_1\alpha_k\nabla f(x_k)^Tp_k\\
- &\le f(x_k)+c_1\frac{c_2-1}{L}\frac{\nabla f(x_k)^Tp_k}{\|p_k\|^2}\cdot\nabla f(x_k)^Tp_k\\
- &=f(x_k)-c_1\frac{1-c_2}{L}\frac{(\nabla f(x_k)^Tp_k)^2}{\|p_k\|^2}
- \end{align*}
- が得られる.ここで,$\theta_k$の定義より,$c=c_1(1-c_2)/L$とおくと,
- \[ f(x_{k+1})\le f(x_k)-c\cos^2\theta_k\|\nabla f(x_k)\|^2 \]
- となるため,
- \[ f(x_{k+1})\le f(x_0)-c\sum_{j=0}^k\cos^2\theta_j\|\nabla f_j\|^2 \]
- が成り立つ.
- ここで,$f$は下に有界なので,任意の$k$に対して$(f(x_0)-f(x_{k+1}))/c<M$となる定数$M>0$が存在する.したがって,任意の$k$について,
- \[ \sum_{j=0}^k\cos^2\theta_j\|\nabla f(x_j)\|^2\le\frac{f(x_0)-f(x_{k+1})}{c}<M\]
- となるため,
- \[ \sum_{k=0}^{\infty}\cos^2\theta_k\|\nabla f(x_k)\|^2<\infty \]
- が成り立つ.
- \end{proof}
- \begin{dfn}
- 目的関数$f$, $x_k$を第$k$反復の近似解,$p_k$を第$k$反復の降下方向,$\alpha_k$を第$k$反復のステップ幅として,
- 点列$\{x_k\}$を\eqref{eq:update}によって生成するとき,$\cos\theta_k=-\nabla f_k^Tp_k/(\|\nabla f_k\|\|p_k\|)$に対して,
- \[ \sum_{k\ge0}\cos^2\theta_k\|\nabla f_k\|^2<\infty \]
- を満たすならば,点列$\{x_k\}$は\Alert{Zoutendijk条件}を満たすという.
- \end{dfn}
- \begin{cor}
- $\{x_k\}$がZoutendijk条件を満たし,かつ$\cos\theta_k=-\nabla f_k^Tp_k/(\|\nabla f_k\|\|p_k\|)\ge\delta$を満たす$\delta>0$が存在するならば,
- \begin{align}
- \lim_{k\to\infty}\|\nabla f_k\|=0\label{eq:conv}
- \end{align}
- を満たす.
- \end{cor}
- \begin{proof}
- $\{x_k\}$がZoutendijk条件を満たすならば,$\lim_{k\to\infty}\cos^2\theta_k\|\nabla f_k\|^2=0$である.$\cos\theta_k\ge\delta>0$より,\eqref{eq:conv}が成り立つ.
- \end{proof}
- \begin{cor}\label{cor:1}
- 初期点$x_0$, 更新式\eqref{eq:update}による近似解の列$\{x_k\}$を考える.
- $p_k$は降下方向で,$\alpha_k$はWolfe条件を満たすと仮定する.
- $f$は下に有界で,レベル集合$\mathcal{L}:=\{x\mid f(x)\le f(x_0)\}$を含む開領域$\mathcal{N}$上で連続的微分可能とする.
- $\nabla f$は$\mathcal{N}$上でLipschitz連続とする.
- $\cos\theta_k=-\nabla f_k^Tp_k/(\|\nabla f_k\|\|p_k\|)\ge\delta$を満たす$\delta>0$が存在するように$p_k$をとれば,\eqref{eq:conv}が成り立つ.
- \end{cor}
- \begin{proof}
- 以上の結果をまとめると得られる.
- \end{proof}
- $p_k$を最急降下方向,すなわち$p_k=-\nabla f_k$ととって\eqref{eq:update}によって近似解を逐次更新して最適化を求める方法を,\Alert{最急降下法}と呼ぶ.
- \begin{cor}
- $x_0$を初期点とする.
- $f$は下に有界で,レベル集合$\mathcal{L}:=\{x\mid f(x)\le f(x_0)\}$を含む開領域$\mathcal{N}$上で連続的微分可能とする.
- $\nabla f$は$\mathcal{N}$上でLipschitz連続とする.
- このとき最急降下法により生成された近似解の列$\{x_k\}$は\eqref{eq:conv}を満たす.
- \end{cor}
- \begin{proof}
- $\cos\theta_k=1>0$なので系\ref{cor:1}において$\delta=1$ととれるため成り立つ.
- \end{proof}
- Wolfe条件を満たすステップ幅をとれば,適当な仮定のもとで最急降下法が収束することが示された.
- また,これも適当な仮定のもとで,Wolfe条件を満たすステップ幅がとれることも示した.
- ただし,本節の議論では,Wolfe条件を満たすステップ幅をどのように求めるかについては述べていない.
- 具体的なステップ幅の探索については次節以降で述べる.
- \section{補間法による十分な降下条件を満たすステップ幅の探索}
- 本節では,\cite{Nocedal1}にしたがい,補間法による十分な降下条件を満たすステップ幅の具体的な求め方についてまとめる.
- ただし,\cite{Nocedal1}では省略されている議論も補足する.
- Wolfe条件を満たすステップ幅の探索については次節で述べる.
- まず,十分な降下条件\eqref{eq:wolfe1}を満たすステップ幅$\alpha_k$の選び方について述べる.
- $\alpha$の下付き添字は,更新\eqref{eq:update}における反復回数を表していたが,本節以降では$\alpha$の下付き添字を直線探索における反復回数を表すこととする.
- いま,初期推定値$\alpha_0$が与えられたと仮定する.
- もし,
- \[ \phi(\alpha_0)\le \phi(0)+c_1\alpha_0\phi'(0) \]
- であれば,このステップ幅は十分な降下条件を満たすので探索は終了する.
- そうでなければ,区間$[0,\alpha_0]$は十分な降下条件を満たすステップ幅を含む.
- \begin{prop}\label{prop:phi_q}
- 正の実数$\alpha_0$が,
- \begin{align}
- \phi(\alpha_0)>\phi(0)+c_1\alpha_0\phi'(0)\label{eq:not_wolfe1}
- \end{align}
- を満たすと仮定する.
- $\phi_q$を,
- \[ \phi_q(0)=\phi(0),\quad \phi_q'(0)=\phi'(0),\quad \phi(\alpha_0)=\phi(\alpha_0) \]
- を満たす2次関数とする.
- このとき,以下の性質が成り立つ.
- \begin{enumerate}
- \item $\phi_q$は,
- \begin{align}
- \phi_q(\alpha)=\left(\frac{\phi(\alpha_0)-\phi(0)-\alpha_0\phi'(0)}{\alpha_0^2}\right)\alpha^2+\phi'(0)\alpha+\phi(0)\label{eq:phi_q}
- \end{align}
- と表される.
- \item $\phi_q$は極小値をもつ.
- \item 極小値を与える$\alpha=\alpha_1$は
- \begin{align}
- \alpha_1=-\frac{\phi'(0)\alpha_0^2}{2(\phi(\alpha_0)-\phi(0)-\phi'(0)\alpha_0)}\label{eq:alpha_1}
- \end{align}
- で与えられる.
- \item $c_1\le 1/2$ならば,$0<\alpha_1<\alpha_0$が成り立つ.
- \end{enumerate}
- \end{prop}
- \begin{proof}
- まず1.を示す.
- $\phi_q$に関する初めの2つの条件から,$\phi_q$は実数$a$によって,
- \[ \phi_q(\alpha)=a\alpha^2+\phi'(0)\alpha+\phi(0) \]
- と表せるが,$\alpha=\alpha_0$を代入すれば,$a=(\phi_q(\alpha_0)-\phi'(0)\alpha_0-\phi(0))/\alpha_0^2=(\phi(\alpha_0)-\phi'(0)\alpha_0-\phi(0))/\alpha_0^2$となる.
- したがって,$\phi_q$は\eqref{eq:phi_q}と表される.
- よって1.が示された.
- 次に2.を示す.
- $\phi'(0)<0$と\eqref{eq:not_wolfe1}より,
- \[ a=\frac{\phi(\alpha_0)-\phi'(0)\alpha_0-\phi(0)}{\alpha_0^2}>\frac{\phi(\alpha_0)-c_1\phi'(0)\alpha_0-\phi(0)}{\alpha_0^2}>0 \]
- となり,最高次係数は0ではないので$\phi_q$は2次関数である.
- 特に最高次係数が正なので2次関数$\phi_q$は極小値をもつ.
- よって,2.が示された.
- 3.を示す.
- 極小値を与える$\alpha=\alpha_1$は,$\phi'(\alpha)=0$を満たす唯一の$\alpha$なので,$\phi'(\alpha)=2a\alpha+\phi'(0)$より,$\alpha_1=-\phi'(0)/(2a)$と表される.
- したがって,\eqref{eq:alpha_1}となり,3.が示された.
- 4.を示す.
- $\phi'(0)<0$より,\eqref{eq:phi_q}から,
- \[ \phi(\alpha_0)>\phi(0)+c_1\alpha_0\phi'(0)\ge\phi(0)+\frac{1}{2}\alpha_0\phi'(0) \]
- であるが,両辺から$\phi(0)+\phi'(0)\alpha$をひいてから2倍すると,
- \begin{align}
- 2(\phi(\alpha_0)-\phi(0)-\phi'(0)\alpha_0)>-\alpha_0\phi'(0)\label{eq:0_alpha1_alpha0_1}
- \end{align}
- である.
- $\phi'(0)<0$より\eqref{eq:0_alpha1_alpha0_1}の両辺とも正であるため,両辺を右辺で割ると,
- \[ 0<-\frac{\phi'(0)\alpha_0}{2(\phi(\alpha_0)-\phi(0)-\phi'(0)\alpha_0)}< 1\]
- が得られる.
- すべての辺を$\alpha_0\,(>0)$倍すれば,
- \[ 0<-\frac{\phi'(0)\alpha_0^2}{2(\phi(\alpha_0)-\phi(0)-\phi'(0)\alpha_0)}< \alpha_0 \]
- すなわち$0<\alpha_1<\alpha_0$が得られる.
- よって4.が示された.
- \end{proof}
- この$\alpha_1$が
- \[ \phi(\alpha_1)\le \phi(0)+c_1\alpha_1\phi'(0) \]
- であれば,このステップ幅は十分な降下条件を満たすので探索は終了する.
- そうでなければ,区間$[0,\alpha_1]$は十分降下条件を満たすステップ幅を含む.
- $\phi$を3次関数で近似することを考える.
- \begin{lem}\label{lem:phi_c}
- $\psi(x)=ax^3+bx^2+cx+d$, $a\not=0$, $c<0$とする.
- \begin{enumerate}
- \item このとき,
- \[ \gamma=\frac{-b+\sqrt{b^2-3ac}}{3a} \]
- は$\psi(x)$の極小点である.ただし,$b^2-3ac>0$とする.
- \item $a>0$または$b\ge0$ならば,$\gamma>0$である.
- \end{enumerate}
- \end{lem}
- \begin{proof}
- 1.を示す.
- \[ \psi'(x)=3ax^2+2bx+c,\quad \psi''(x)=6ax+2b \]
- であり,$\phi'(x)=0$を満たす$x$は,
- \[ x=\frac{-b\pm\sqrt{b^2-3ac}}{3a} \]
- で与えられる.
- まず,$a>0$の場合,$b^2-3ac\not=0$なので,
- \[ \frac{-b-\sqrt{b^2-3ac}}{3a}<\frac{-b+\sqrt{b^2-3ac}}{3a} \]
- である.また,$x>-b/(3a)$のとき$\psi''(x)>0$つまり凸となるので,$\gamma=(-b+\sqrt{b^2-3ac})/(3a)$ ($>-b/(3a)$) は極小点である.
- 次に,$a<0$の場合,$b^2-3ac>0$なので,
- \[ \frac{-b+\sqrt{b^2-3ac}}{3a}<\frac{-b-\sqrt{b^2-3ac}}{3a} \]
- である.
- また,$x<-b/(3a)$のとき$\psi''(x)>0$つまり凸となるので,$\gamma=(-b+\sqrt{b^2-3ac})/(3a)$ ($<-b/(3a)$) は極小点である.
- 以上より,1.が示された.
- 2.を示す.
- $a>0$のとき,$b^2-3ac>b^2$より,$b$の符号に関わらず$-b+\sqrt{b^2-3ac}>0$である.
- よって,$\gamma>0$である.
- 次に,$a<0$のとき仮定より$b\ge0$であり,$b^2-3ac<b^2$より$-b+\sqrt{b^2-3ac}<0$である.
- よって,$\gamma=(-b+\sqrt{b^2-3ac})/(3a)>0$である.
- 以上より2.が示された.
- \end{proof}
- \begin{prop}\label{prop:alpha_1}
- 正の実数$\alpha_0$が\eqref{eq:not_wolfe1}を満たし,\eqref{eq:alpha_1}で定まる$\alpha_1$が,
- \begin{align*}
- \phi(\alpha_1)>\phi(0)+c_1\alpha_1\phi'(0)
- \end{align*}
- を満たすと仮定する.
- $\phi_c$を,
- \[ \phi_c(0)=\phi(0),\quad \phi_c'(0)=\phi'(0),\quad \phi_c(\alpha_0)=\phi(\alpha_0),\quad \phi_c(\alpha_1)=\phi(\alpha_1) \]
- を満たす3次関数とする.
- このとき,以下の性質が成り立つ.
- \begin{enumerate}
- \item $\phi_c$は,
- \begin{align*}
- &\phi_c(\alpha)=a\alpha^3+b\alpha^2+\phi'(0)\alpha+\phi(0),\\
- &\begin{pmatrix}a\\b\end{pmatrix}=\frac{1}{\alpha_0^2\alpha_1^2(\alpha_1-\alpha_0)}\begin{pmatrix}\alpha_0^2&-\alpha_1^2\\-\alpha_0^3&\alpha_1^3\end{pmatrix}\begin{pmatrix}\phi(\alpha_1)-\alpha_1\phi'(0)-\phi(0)\\\phi(\alpha_0)-\alpha_0\phi'(0)-\phi(0)\end{pmatrix}
- \end{align*}
- と表される.
- \item $b^2-3a\phi'(0)>0$を満たすとき,$\phi_c$は極値をもち,
- \begin{align}
- \alpha_2=\frac{-b+\sqrt{b^2-3a\phi'(0)}}{3a}\label{eq:alpha_2}
- \end{align}
- は$\phi_c$の極小点となる.
- \item $a>0$または$b\ge 0$が成り立つ.特に$c_1\le 1/2$ならば,$a<0$かつ$b\ge 0$である.
- \item $\phi_c'(\alpha_1)>0$ならば$0<\alpha_2<\alpha_1$である.
- \item $\phi(0)<\phi(\alpha_1)$ならば$0<\alpha_2<\alpha_1$である.
- \item $c_1\le1/2$かつ$\phi_c'(\alpha_1)<0$ならば,$-b/(3a)<\alpha_1$であることと$0<\alpha_2<\alpha_1$は同値である.
- \end{enumerate}
- \end{prop}
- \begin{proof}
- 1.を示す.
- まず,初め2つの条件から
- \[ \phi_c(\alpha)=a\alpha^3+b\alpha^2+\phi'(0)\alpha+\phi(0) \]
- と表せるが,残り2つの条件より,
- \[ \begin{pmatrix}\alpha_1^3&\alpha_1^2\\\alpha_0^3&\alpha_0^2\end{pmatrix}\begin{pmatrix}a\\b\end{pmatrix}=\begin{pmatrix}\phi(\alpha_1)-\alpha_1\phi'(0)-\phi(0)\\\phi_c(\alpha_0)-\alpha_0\phi'(0)-\phi(0)\end{pmatrix} \]
- であるが,$\alpha_0\not=\alpha_1$より,
- \begin{align*}
- \begin{pmatrix}a\\b\end{pmatrix}&=\begin{pmatrix}\alpha_1^3&\alpha_1^2\\\alpha_0^3&\alpha_0^2\end{pmatrix}^{-1}\begin{pmatrix}\phi(\alpha_1)-\alpha_1\phi'(0)-\phi(0)\\\phi(\alpha_0)-\alpha_0\phi'(0)-\phi(0)\end{pmatrix}\\
- &=\frac{1}{\alpha_0^2\alpha_1^2(\alpha_1-\alpha_0)}\begin{pmatrix}\alpha_0^2&-\alpha_1^2\\-\alpha_0^3&\alpha_1^3\end{pmatrix}\begin{pmatrix}\phi(\alpha_1)-\alpha_1\phi'(0)-\phi(0)\\\phi(\alpha_0)-\alpha_0\phi'(0)-\phi(0)\end{pmatrix}
- \end{align*}
- である.
- 次に2.を示す.
- 補題\ref{lem:phi_c}.1より$c=\phi'(0)$を代入すればよい.
- 3.を示す.
- 仮定より$\phi_c(\alpha_0)=\phi_q(\alpha_0)$なので,$a\alpha_0+b=(\phi(\alpha_0)-\phi(0)-\alpha_0\phi'(0))/(\alpha_0^2)>0$であり,$\alpha_0>0$より$a>0$または$b\ge0$である.
- ここで,$c_1\le1/2$かつ$a>0$と仮定して矛盾を導く.
- 補題\ref{prop:phi_q}.4より,$c_1\ge1/2$ならば$\alpha_1<\alpha_0$と$a\alpha_0+b>0$より,$(a\alpha_1+b)/(a\alpha_0+b)<1$である.
- $\alpha_1>0$と$\alpha_1$は十分な降下条件を満たさないことを使うと,
- \begin{align*}
- \frac{1}{2}&\ge c_1\\
- &>\frac{\phi_c(\alpha_1)-\phi_c(0)}{\phi'(0)\alpha_1}\\
- &=\frac{a\alpha_1^3+b\alpha_1^2+\phi'(0)\alpha_1+\phi(0)-\phi(0)}{\phi'(0)\alpha_1}\\
- &=\frac{a\alpha_1^2+b\alpha_1+\phi'(0)}{\phi'(0)}\\
- &=\frac{\alpha_1(a\alpha_1+b)+\phi'(0)}{\phi'(0)}\\
- &=\frac{-\phi'(0)(a\alpha_1+b)/(2(a\alpha_0+b))+\phi'(0)}{\phi'(0)}\\
- &=-\frac{1}{2}\frac{a\alpha_1+b}{a\alpha_0+b}+1\\
- &>-\frac{1}{2}\cdot1+1\\
- &=\frac{1}{2}
- \end{align*}
- により矛盾.
- よって,$c_1\le1/2$ならば$a<0$である.
- 4.を示す.
- $\phi_c$は連続的微分可能なので$\phi_c'$は連続である.
- $\phi_c'(0)<0$, $\phi_c'(\alpha_1)>0$より中間値の定理から,$0<\alpha_2<\alpha_1$かつ$\phi_c'(\alpha_2)=0$を満たす$\alpha_2$が存在する.
- 5.を示す.
- $\phi_c'(\alpha_2)=0$を満たす$0<\alpha_2<\alpha_1$が存在しないと仮定する.
- $\phi_c'$の連続性から,$0<\alpha<\alpha_1$ならば$\phi_c'(\alpha)<0$である.
- したがって,$\phi(0)=\phi_c(0)>\phi_c(\alpha_1)=\phi(\alpha_1)$だが,これは$\phi(0)<\phi(\alpha_1)$に反する.
- 6.を示す.
- まず3.より$c_1\le1/2$より$a<0$, $b\ge0$である.
- このとき,補題\ref{lem:phi_c}.2より$\alpha_2>0$であり,$\alpha_2<-b/(3a)$なので,$-b/(3a)<\alpha_1$であることと$0<\alpha_2<\alpha_1$であることは同値である.
- \end{proof}
- 命題\ref{prop:alpha_1}より,いくつかの条件において$0<\alpha_2<\alpha_1$となることが期待されるが,必ずそれが満たされるとは限らない.
- 具体的には以下の場合が考えられる.
- \begin{description}
- \item[Case 1.] $0<c_1<1$が,特に$c_1\ge1/2$を満たすとき,以下の条件を同時に満たす場合,$\alpha_1<\alpha_2$となる可能性がある.
- \begin{enumerate}
- \item $a>0$
- \item $\phi_c'(\alpha_1)<0$
- \item $\phi_c(0)+c_1\alpha_1\phi'(0)<\phi_c(\alpha_1)<\phi_c(0)$
- \end{enumerate}
- \item[Case 2.] $0<c_1<1$が,特に$c_1<1/2$を満たすとき,以下の条件を同時に満たす場合,必ず$\alpha_1<\alpha_2$となる.
- \begin{enumerate}
- \item $\phi_c'(\alpha_1)<0$
- \item $\phi_c(0)+c_1\alpha_1\phi'(0)<\phi_c(\alpha_1)<\phi_c(0)$
- \item $-b/(3a)<\alpha_1$
- \end{enumerate}
- \end{description}
- また,$a<0$のとき$b^2-3a\phi'(0)>0$でなければ,そもそも$\phi_c$は極値をもたない.
- 以下の命題で,上記に対応する例を与える.
- 以下の命題の1.および2.と3.が上記のCase 1.およびCase 2.に対応する.
- \begin{prop}
- \begin{enumerate}
- \item $\phi(0)=1$, $\phi'(0)=-1$, $\phi(1)=5$, $\phi(1/10)=923/1000$を満たす関数$\phi$は,$c_1=4/5$, $\alpha_0=1$とすると,$\alpha_0$, $\alpha_1$は十分な降下条件を満たさず,$\alpha_1<\alpha_2$である.
- \item $63/144<c_1<1$に対して,
- \[ \max\{0,1-3c_1\}<\epsilon<\min\left\{\frac{-(7-16c_1)+\sqrt{144c_1-63}}{8(1-c_1)},\frac{1}{4}\right\} \]
- ととると,
- \[ \phi(0)=1,\quad\phi'(0)=-1,\quad\phi(1)=\frac{2+\epsilon}{3}, \quad\phi\left(\frac{3}{2(2+\epsilon)}\right)=\frac{8\epsilon^3+36\epsilon^2+75\epsilon+43}{8(2+\epsilon)^3} \]
- を満たす関数$\phi$は,$\alpha_0=1$とすると,$\alpha_0$, $\alpha_1$は十分な降下条件を満たさず,$\alpha_1<\alpha_2$である.
- \item $c_1=1/2$とすると,$\phi(0)=1$, $\phi'(0)=-1$, $\phi(1)=203/300$, $\phi(300/402)=202563/300763$を満たす関数$\phi$は,$\alpha_0=1$とすると,$\alpha_0$, $\alpha_1$は十分な降下条件を満たさず,$\alpha_1<\alpha_2$である.
- \end{enumerate}
- \end{prop}
- \begin{proof}
- 1.を示す.
- まず,$\phi(\alpha_0)=\phi(1)=5$, $\phi(0)+c_1\alpha_0\phi'(0)=1+(4/5)\cdot1\cdot(-1)=1/5$より,$\alpha_0$は十分な降下条件を満たさない.
- ここで,
- \begin{align*}
- \phi_q(\alpha)&=\left(\frac{\phi(\alpha_0)-\phi(0)-\alpha_0\phi'(0)}{\alpha_0^2}\right)\alpha^2+\phi'(0)\alpha+\phi(0)\\
- &=\frac{5-1-1\cdot(-1)}{1^2}\alpha^2-\alpha+1\\
- &=5\alpha^2-\alpha+1
- \end{align*}
- である.
- ここで,
- \[ \alpha_1=\frac{1}{10} \]
- であるが,
- \[ \phi(\alpha_1)=\phi\left(\frac{1}{10}\right)=\frac{923}{1000},\quad \phi(0)+c_1\alpha_1\phi'(0)=1+\frac{4}{5}\cdot\frac{1}{10}\cdot(-1)=\frac{920}{1000} \]
- なので,$\alpha_1$は十分な降下条件を満たさない.
- 最後に,
- \begin{align*}
- \begin{pmatrix}a\\b\end{pmatrix}&=\frac{1}{\alpha_0^2\alpha_1^2(\alpha_1-\alpha_0)}\begin{pmatrix}\alpha_0^2&-\alpha_1^2\\-\alpha_0^3&\alpha_1^3\end{pmatrix}\begin{pmatrix}\phi(\alpha_1)-\alpha_1\phi'(0)-\phi(0)\\\phi(\alpha_0)-\alpha_0\phi'(0)-\phi(0)\end{pmatrix}\\
- &=\frac{1}{1^2(1/10)^2(1/10-1)}\begin{pmatrix}1^2&-(1/10)^2\\-1^3&(1/10)^3\end{pmatrix}\begin{pmatrix}923/1000-(1/10)\cdot(-1)-1\\5-1\cdot(-1)-1\end{pmatrix}\\
- &=-\frac{1000}{9}\begin{pmatrix}1&-1/100\\-1&1/1000\end{pmatrix}\begin{pmatrix}23/1000\\5\end{pmatrix}\\
- &=-\frac{1000}{9}\begin{pmatrix}23/1000-(1/100)\cdot5\\-23/1000+(1/1000)\cdot5\end{pmatrix}\\
- &=-\frac{1000}{9}\begin{pmatrix}-27/1000\\-18/1000\end{pmatrix}\\
- &=\begin{pmatrix}3\\2\end{pmatrix}
- \end{align*}
- より,$\phi_c(\alpha)=3\alpha^3+2\alpha^2-\alpha+1$である.
- ここで,
- \[ \alpha_2=\frac{-b+\sqrt{b^2-3a\phi'(0)}}{3a}=\frac{-2+\sqrt{2^2-3\cdot 3\cdot(-1)}}{3\cdot3}=\frac{-2+\sqrt{11}}{9}>\frac{1}{9}>\frac{1}{10}=\alpha_1 \]
- となり,1.が示された.
- 次に2.の場合を示す.
- まず,$\phi(\alpha_0)=\phi(1)=(2+\epsilon)/3$である.
- $\phi(0)+c_1\alpha_0\phi'(0)=1+c_1\cdot1\cdot(-1)=1-c_1$であるが,
- \[ \phi(\alpha_0)-\phi(0)-c_1\alpha_0\phi'(0)=\frac{2+\epsilon}{3}-(1-c_1)=\frac{\epsilon-(1-3c_1)}{3}>0 \]
- より,$\alpha_0$は十分な降下条件を満たさない.
- ここで,
- \begin{align*}
- \phi_q(\alpha)&=\left(\frac{\phi(\alpha_0)-\phi(0)-\alpha_0\phi'(0)}{\alpha_0^2}\right)\alpha^2+\phi'(0)\alpha+\phi(0)\\
- &=\frac{(2+\epsilon)/3-1-1\cdot(-1)}{1^2}\alpha^2-\alpha+1\\
- &=\frac{2+\epsilon}{3}\alpha^2-\alpha+1
- \end{align*}
- であるが,ここで,
- \[ \alpha_1=\frac{3}{2(2+\epsilon)} \]
- であるが,
- \[ \phi(\alpha_1)=\phi\left(\frac{3}{2(2+\epsilon)}\right)=\frac{8\epsilon^3+36\epsilon^2+75\epsilon+43}{8(2+\epsilon)^3},\quad \phi(0)+c_1\alpha_1\phi'(0)=1+c_1\cdot\frac{3}{2(2+\epsilon)}\cdot(-1) \]
- である.
- いま,
- \begin{align*}
- \phi(\alpha_1)-\phi(0)-c_1\alpha_1\phi'(0)&=\frac{8\epsilon^3+36\epsilon^2+75\epsilon+43}{8(2+\epsilon)^3}-\left(1+c_1\cdot\frac{3}{2(2+\epsilon)}\cdot(-1)\right)\\
- &=\frac{8\epsilon^3+36\epsilon^2+75\epsilon+43}{8(2+\epsilon)^3}-1+c_1\cdot\frac{3}{2(2+\epsilon)}\\
- &=\frac{-3(4\epsilon^2+7\epsilon+7)}{8(2+\epsilon)^3}+c_1\cdot\frac{3}{2(2+\epsilon)}\\
- &=\frac{3}{2(2+\epsilon)}\left(c_1-\frac{4\epsilon^2+7\epsilon+7}{4(2+\epsilon)^2}\right)
- \end{align*}
- であるが,
- \[ \epsilon<\frac{-(7-16c_1)+\sqrt{144c_1-63}}{8(1-c_1)} \]
- より,
- \[ 4(1-c_1)\epsilon^2+(7-16c_1)\epsilon+(7-16c_1)<0 \]
- つまり,$4(2+\epsilon)^2c_1-(4\epsilon^2+7\epsilon+7)>0$が成り立つ.
- つまり,$\alpha_1$は十分な降下条件を満たさない.
- また,$c_1>63/144$であることを使った.
- ここで,
- \begin{align*}
- \begin{pmatrix}a\\b\end{pmatrix}&=\frac{1}{\alpha_0^2\alpha_1^2(\alpha_1-\alpha_0)}\begin{pmatrix}\alpha_0^2&-\alpha_1^2\\-\alpha_0^3&\alpha_1^3\end{pmatrix}\begin{pmatrix}\phi(\alpha_1)-\alpha_1\phi'(0)-\phi(0)\\\phi(\alpha_0)-\alpha_0\phi'(0)-\phi(0)\end{pmatrix}\\
- &=-\frac{8(2+\epsilon)^3}{9(2\epsilon+1)}\begin{pmatrix}1^2&-(3/(2(2+\epsilon)))^2\\-1^3&(3/(2(2+\epsilon)))^3\end{pmatrix}\begin{pmatrix}27(1+\epsilon)/(8(2+\epsilon)^3)\\(2+\epsilon)/3\end{pmatrix}\\
- &=-\frac{8(2+\epsilon)^3}{9(2\epsilon+1)}\begin{pmatrix}3(1-\epsilon)(2\epsilon+1)/(8(2+\epsilon)^3)\\-9(2\epsilon+1)/(8(2+\epsilon)^3)\end{pmatrix}\\
- &=\begin{pmatrix}-(1-\epsilon)/3\\1\end{pmatrix}
- \end{align*}
- なので,
- \[ \phi_c(\alpha)=-\frac{1-\epsilon}{3}\alpha^3+\alpha^2-\alpha+1 \]
- であり,
- \[ \alpha_2=\frac{-b+\sqrt{b^2-3a\phi'(0)}}{3a}=\frac{1}{1+\sqrt{\epsilon}} \]
- である.
- $\epsilon<1/4$より,$(4\epsilon-1)(\epsilon-1)=4\epsilon^2-5\epsilon+1>0$である.
- すなわち,$(4\epsilon^2+4\epsilon+1)/9>\epsilon$であり,両辺の平方根をとると$(1+2\epsilon)/3>\sqrt{\epsilon}$が成り立つ.
- 結局$1/(1+\sqrt{\epsilon})>3/(2(2+\epsilon))$であり,
- \[ \alpha_2-\alpha_1=\frac{1}{1+\sqrt{\epsilon}}-\frac{3}{2(2+\epsilon)}>0 \]
- となる.
- したがって,$\alpha_2>\alpha_1$が成り立つ.
- 3.は,2.において$c_1=1/2$とすると,
- \[ \max\left\{0,-\frac{1}{2}\right\}<\frac{1}{100}<\min\left\{1,\frac{1}{4}\right\} \]
- であるため,2.において$\epsilon=1/100$とおくと成り立つ.
- \end{proof}
- 最後に,$\alpha_i$, $\alpha_{i-1}$から新しいステップ幅の候補$\alpha_{i+1}$を求める,補間多項式を用いるもうひとつの方法について述べる.
- \begin{lem}
- $\alpha_i\not=\alpha_{i-1}$とする.
- 3次多項式$\psi(\alpha)$が
- \[ \psi(\alpha_i)=\phi(\alpha_i),\quad\psi'(\alpha_i)=\phi'(\alpha_i),\quad\psi(\alpha_{i-1})=\phi(\alpha_{i-1}),\quad\psi'(\alpha_{i-1})=\phi'(\alpha_{i-1}) \]
- を満たすとする.
- このとき,$\psi$は一意に定まり,$\psi$の極小点$\alpha_{i+1}$は,
- \begin{align}
- \alpha_{i+1}=\alpha_i-(\alpha_i-\alpha_{i-1})\left(\frac{\phi'(\alpha_i)+d_2-d_1}{\phi'(\alpha_i)-\phi'(\alpha_{i-1})+2d_2}\right).\label{eq:3.43}
- \end{align}
- と表される.
- ただし,
- \begin{align*}
- &d_1=\phi'(\alpha_i)+\phi'(\alpha_{i-1})-3\frac{\phi(\alpha_i)-\phi(\alpha_{i-1})}{\alpha_i-\alpha_{i-1}},\\
- &d_2=\sqrt{d_1^2-\phi'(\alpha_i)\phi'(\alpha_{i-1})}
- \end{align*}
- とする.
- \end{lem}
- \begin{proof}
- Hermite補間によって,$\alpha_i\not=\alpha_{i-1}$ならば,$\psi$は
- \[ \psi(\alpha)=\phi[\alpha_i]+(\alpha-\alpha_i)\phi[\alpha_i,\alpha_i]+(\alpha-\alpha_i)^2\phi[\alpha_i,\alpha_i,\alpha_{i-1}]+(\alpha-\alpha_i)^2(\alpha-\alpha_{i-1})\phi[\alpha_i,\alpha_i,\alpha_{i-1},\alpha_{i-1}] \]
- と一意に求まることが知られている.
- ただし,
- \begin{align*}
- &\phi[\alpha_i]=\alpha_i,\\
- &\phi[\alpha_i,\alpha_i]=\frac{\phi'(\alpha_i)}{1!},\quad\phi[\alpha_i,\alpha_{i-1}]=\frac{\phi(\alpha_i)-\phi(\alpha_{i-1})}{\alpha_i-\alpha_{i-1}},\quad\phi[\alpha_{i-1},\alpha_{i-1}]=\frac{\phi'(\alpha_{i-1})}{1!}\\
- &\phi[\alpha_i,\alpha_i,\alpha_{i-1}]=\frac{\phi[\alpha_i,\alpha_i]-\phi[\alpha_i,\alpha_{i-1}]}{\alpha_i-\alpha_{i-1}},\quad\phi[\alpha_i,\alpha_{i-1},\alpha_{i-1}]=\frac{\phi[\alpha_i,\alpha_{i-1}]-\phi[\alpha_{i-1},\alpha_{i-1}]}{\alpha_i-\alpha_{i-1}},\\
- &\phi[\alpha_i,\alpha_i,\alpha_{i-1},\alpha_{i-1}]=\frac{\phi[\alpha_i,\alpha_i,\alpha_{i-1}]-\phi[\alpha_i,\alpha_{i-1},\alpha_{i-1}]}{\alpha_i-\alpha_{i-1}}
- \end{align*}
- とする.
- これを整理すると,$\psi(\alpha)=a\alpha^3+b\alpha^2+c\alpha+d$において,
- \begin{align*}
- &a=\frac{\gamma}{(\Delta\alpha_i)^2},\\
- &b=\frac{\beta}{\Delta\alpha_i}-\frac{3\alpha_i-\Delta\alpha_i}{(\Delta\alpha_i)^2}\gamma,\\
- &c=\phi'(\alpha_i)-\frac{2\alpha_i}{\Delta\alpha_i}\beta+\frac{\alpha_i(3\alpha_{i-1}+\Delta\alpha_i)}{(\Delta\alpha_i)^2}\gamma
- \end{align*}
- となる.
- ただし,
- \begin{align*}
- &\beta=\phi'(\alpha_i)-\frac{\Delta\phi(\alpha_i)}{\Delta\alpha_i},\\
- &\gamma=\phi'(\alpha_i)+\phi'(\alpha_{i-1})-2\frac{\Delta\phi(\alpha_i)}{\Delta\alpha_i},\\
- &\Delta\alpha_i=\alpha_i-\alpha_{i-1},\\
- &\Delta\phi(\alpha_i)=\phi(\alpha_i)-\phi(\alpha_{i-1})
- \end{align*}
- とする.
- 補題\ref{lem:phi_c}により,$a$の正負によらず,
- \[ \alpha_{i+1}=\frac{-b+\sqrt{D}}{3a},\quad D=b^2-3ac \]
- と表されるが,これを整理すると,
- \[ \alpha_{i+1}=\alpha_i-\Delta\alpha_i\frac{\beta+\gamma-\sqrt{D}}{3\gamma},\quad D=(\beta+\gamma)^2-3\gamma\phi'(\alpha_i) \]
- となる.
- ここで,$d_1=\beta+\gamma-\phi'(\alpha_i)$, $d_2=\sqrt{D}$とおくと,
- \[ 3\gamma=2d_1+\phi'(\alpha_i)+\phi'(\alpha_{i-1}),\quad \beta+\gamma-\sqrt{D}=d_1-d_2+\phi'(\alpha_i) \]
- が成り立つ.
- これらをまとめると,
- \begin{align}
- &\alpha_{i+1}=\alpha_i-(\alpha_i-\alpha_{i-1})\frac{d_1-d_2+\phi'(\alpha_i)}{2d_1+\phi'(\alpha_i)+\phi'(\alpha_{i-1})},\label{eq:3.43_0}\\
- &d_1=\phi'(\alpha_i)+\phi'(\alpha_{i-1})-3\frac{\phi(\alpha_i)-\phi(\alpha_{i-1})}{\alpha_i-\alpha_{i-1}},\notag\\
- &d_2=\sqrt{d_1^2-\phi'(\alpha_i)\phi'(\alpha_{i-1})}\notag
- \end{align}
- となる.
- 最後に,\eqref{eq:3.43_0}と\eqref{eq:3.43}は等価で有ることを示す.
- \eqref{eq:3.43}の一番右の括弧内の分母を$(\phi'(\alpha_i)-\phi'(\alpha_{i-1})-2d_2)$倍すると,
- \begin{align*}
- &(\phi'(\alpha_i)-\phi'(\alpha_{i-1})+2d_2)(\phi'(\alpha_i)-\phi'(\alpha_{i-1})-2d_2)\\
- &\quad=(\phi'(\alpha_i)-\phi'(\alpha_{i-1}))^2-(2d_2)^2\\
- &\quad=\phi'(\alpha_i)^2-2\phi'(\alpha_i)\phi'(\alpha_{i-1})+\phi'(\alpha_{i-1})^2-4(d_1^2-\phi'(\alpha_{i-1})\phi'(\alpha_i))\\
- &\quad=\phi'(\alpha_i)^2+2\phi'(\alpha_i)\phi'(\alpha_{i-1})+\phi'(\alpha_{i-1})^2-4d_1^2\\
- &\quad=(\phi'(\alpha_i)+\phi'(\alpha_{i-1})+2d_1)(\phi'(\alpha_i)+\phi'(\alpha_{i-1})-2d_1)
- \end{align*}
- であり,
- \eqref{eq:3.43}の一番右の括弧内の分子を$(\phi'(\alpha_i)-\phi'(\alpha_{i-1})-2d_2)$倍すると,
- \begin{align*}
- &(\phi'(\alpha_i)+d_2-d_1)(\phi'(\alpha_i)-\phi'(\alpha_{i-1})-2d_2)\\
- &\quad=(\phi'(\alpha_i)-d_1)(\phi'(\alpha_i)-\phi'(\alpha_{i-1}))-(2(\phi'(\alpha_i)-d_1)-(\phi'(\alpha_i)-\phi'(\alpha_{i-1}))d_2-2d_2^2\\
- &\quad=(\phi'(\alpha_i)-d_1)(\phi'(\alpha_i)-\phi'(\alpha_{i-1}))-(\phi'(\alpha_i)+\phi'(\alpha_{i-1})-2d_1)d_2-2d_2^2\\
- &\quad=\phi'(\alpha_i)^2-\phi'(\alpha_i)\phi'(\alpha_{i-1})-d_1(\phi'(\alpha_i)-\phi'(\alpha_{i-1}))-(\phi'(\alpha_i)+\phi'(\alpha_{i-1})-2d_1)d_2-2(d_1^2-\phi'(\alpha_i)\phi'(\alpha_{i-1})\\
- &\quad=\phi'(\alpha_i)^2+\phi'(\alpha_i)\phi'(\alpha_{i-1})-d_1(\phi'(\alpha_i)-\phi'(\alpha_{i-1}))-2d_1^2-(\phi'(\alpha_i)+\phi'(\alpha_{i-1})-2d_1)d_2\\
- &\quad=(\phi'(\alpha_i)+\phi'(\alpha_{i-1})-2d_1)(\phi'(\alpha_i)+d_1)-(\phi'(\alpha_i)+\phi'(\alpha_{i-1})-2d_1)d_2\\
- &\quad=(\phi'(\alpha_i)+\phi'(\alpha_{i-1})-2d_1)(\phi'(\alpha_i)-d_2+d_1)
- \end{align*}
- となる.
- よって,\eqref{eq:3.43_0}と\eqref{eq:3.43}は等価であり,補題が示された.
- \end{proof}
- 以上より,補間法による十分な降下条件を満たすステップ幅の求め方は以下の手順となる.
- まず,ステップ幅の初期値$\alpha_0$をとる.
- この$\alpha_0$が十分な降下条件を満たせば探索は終了する.
- そうでない場合,\eqref{eq:alpha_1}によって$\alpha_1$を求める.
- この$\alpha_1$が十分な降下条件を満たせば探索は終了する.
- そうでない場合,十分な降下条件を満たすまで,\eqref{eq:alpha_2}または\eqref{eq:3.43}によって$\alpha_{i-1},\alpha_i$から$\alpha_{i+1}$を求める操作を繰り返す.
- ただし,$\alpha_i$が$\alpha_{i-1}$と近すぎたり,$\alpha_{i-1}$より小さすぎたりした場合は,$\alpha_i=\alpha_{i-1}/2$によってリセットすることも効果的である.
- \section{強いWolfe条件を満たすステップ幅の探索}
- 本節では,強いWolfe条件を満たすステップ幅の探索方法について述べる.
- ただし,目的関数$f$は連続的微分可能であるとする.
- \begin{lem}\label{lem:strong_wolfe_1}
- 第$k$反復におけるステップ幅の候補$\{\alpha_i\}$が$0<\alpha_i<\alpha_{\mathrm{max}}$かつ$\alpha_{i-1}<\alpha_i$を満たすとする.
- ただし,$\alpha_{\mathrm{max}}>0$とする.
- $j<i$ならば区間$(\alpha_{j-1},\alpha_j)$は強いWolfe条件を満たすステップ幅を含まないと仮定する.
- $\alpha_i$が以下の3つのうち少なくとも1つの条件を満たせば,$(\alpha_{i-1},\alpha_i)$は強いWolfe条件を満たすステップ幅を含む.
- \begin{enumerate}
- \item $\alpha_i$が十分な降下条件を満たさない
- \item $\phi(\alpha_i)\ge\phi(\alpha_{i-1})$
- \item $\phi'(\alpha_i)\ge0$
- \end{enumerate}
- \end{lem}
- \begin{proof}
- 以下を満たすと仮定して,補題が成り立つことを示す.
- \begin{enumerate}
- \item $j=1,2,\dots,i-1$について,$\alpha_j$は十分な降下条件を満たす
- \item $j=1,2,\dots,i-1$について,$\phi(\alpha_j)<\phi(\alpha_{j-1})$
- \item $j=1,2,\dots,i-1$について,$\phi'(\alpha_j)<0$
- \end{enumerate}
- まず,$\alpha_i$が十分な降下条件を満たさないと仮定する.このとき,
- \begin{align*}
- &\phi(\alpha_{i-1})\le\phi(0)+\alpha_{i-1}c_1\phi'(0),\\
- &\phi(\alpha_i)>\phi(0)+\alpha_ic_1\phi'(0)
- \end{align*}
- が成り立つ.
- したがって,$\phi(\alpha')=\phi(0)+\alpha c_1\phi'(0)$を満たす$\alpha'$が区間$(\alpha_{i-1},\alpha_i)$に存在する.
- 仮定より$0<\alpha<\alpha_{i-1}$は強いWolfe条件を満たすステップ幅を含まないため,補題\ref{lem:wolfe_exists}より,
- $(\alpha_{i-1},\alpha')\subset(\alpha_{i-1},\alpha_i)$は強いWolfe条件を満たすステップ幅を含む.
- 次に,$\phi(\alpha_i)\ge\phi(\alpha_{i-1})$と仮定する.
- $\phi'(\alpha_{i-1})<0$より$(\alpha_{i-1},\alpha_i)$において$\phi'(\alpha)<0$であれば$\phi(\alpha_i)<\phi(\alpha_{i-1})$となるため,
- $\phi'(\alpha)>0$を満たす$\alpha\in(\alpha_{i-1},\alpha_i)$が存在する.$\phi$は連続的微分可能なので,強いWolfe条件を満たす$\alpha$が区間$(\alpha_{i-1},\alpha_i)$が存在する.
- 最後に,$\phi'(\alpha_i)\ge0$と仮定する.$\phi'(\alpha_{i-1})<0$より,同様の議論から強いWolfe条件を満たす$\alpha$が区間$(\alpha_{i-1},\alpha_i)$が存在する.
- 以上より,補題の1--3のいずれの条件を満たせば,区間$(\alpha_{i-1},\alpha_i)$は強いWolfe条件を満たすステップ幅を含む.
- \end{proof}
- 強いWolfe条件を満たすステップ幅を含む区間$(\alpha_{i-1},\alpha_i)$について,$\alpha_{\mathrm{lo}},\alpha_{\mathrm{hi}}\in\{\alpha_i,\alpha_{i-1}\}$を,次の条件を満たすようにとる.
- \begin{enumerate}[\bf 条件1]
- \item $\alpha_{\mathrm{lo}}, \alpha_{\mathrm{hi}}$を端点とする区間に強いWolfe条件を満たすステップ幅を含む.
- \item $\alpha_{\mathrm{lo}}$は,これまで生成された$\alpha$の点の中で最も小さい関数値を与える.
- \item $\alpha_{\mathrm{hi}}$は,$\phi'(\alpha_{\mathrm{lo}})(\alpha_{\mathrm{hi}}-\alpha_{\mathrm{lo}})<0$を満たす.
- \end{enumerate}
- 強いWolfe条件を満たすステップ幅を含む区間が見つかったら,この条件1--3を満たすように,$\alpha_{\mathrm{lo}}$, $\alpha_{\mathrm{hi}}$を更新することで,強いWolfe条件を満たすステップ幅を含む区間を絞り込む方法が考えられる.
- これら条件1--3は\textbf{zoom}関数と呼ばれるアルゴリズムで用いるため,本稿では\textbf{zoom}関数における条件と呼ぶこととする.
- 強いWolfe条件を満たすステップ幅の探索方法としては,次の方法が考えられる.
- まず,ステップ幅の候補の初期値$\alpha_0=0$, $0<\alpha_1<\alpha_{\mathrm{max}}$をとり,区間$(\alpha_{i-1},\alpha_i)$が強いWolfe条件を満たすステップ幅を含む区間となるまで,$\alpha_0<\alpha_1<\alpha_2<\dots<\alpha_i$となるように$\alpha_j$ ($j=2,3,\dots,i$) をとる.
- 次に,$\alpha_{i-1},\alpha_i$から$\alpha_{\mathrm{lo}}$, $\alpha_{\mathrm{hi}}$を定める.
- $\alpha_j\in(\min\{\alpha_{\mathrm{lo}},\alpha_{\mathrm{hi}}\},\max\{\alpha_{\mathrm{hi}},\alpha_{\mathrm{lo}}\})$をとり,
- \textbf{zoom}関数における条件を満たすように$\alpha_{\mathrm{lo}}$または$\alpha_{\mathrm{hi}}$のいずれかと置き換える操作を繰り返し,強いWolfe条件を満たすステップ幅が存在する区間を狭める.
- その操作の中で$\alpha_j$が強いWolfe条件を満たせば,それをその反復におけるステップ幅として採用する.
- 以上をまとめると,強いWolfe条件を満たすステップ幅を求めるアルゴリズムは,アルゴリズム\ref{algo:line_search}, \ref{algo:zoom} とまとめられる.
- 特にアルゴリズム\ref{algo:zoom} を\textbf{zoom}関数と呼ぶ.
- 各アルゴリズムにおいて,ある区間から新しいステップ幅候補を選ぶ方法に,前節の多項式補間による方法が利用できる点に注意されたい.
- なお,アルゴリズム\ref{algo:zoom} の第12行目は,\cite{Nocedal1}では$\phi'_j\cdot(\alpha_{\mathrm{hi}}-\alpha_{\mathrm{lo}})$となっているが,説明を自然にするため,括弧の中を$\alpha_{\mathrm{hi}}-\alpha_j$に置き換えた.
- $\alpha_j\in(\min\{\alpha_{\mathrm{lo}},\alpha_{\mathrm{hi}}\},\max\{\alpha_{\mathrm{hi}},\alpha_{\mathrm{lo}}\})$なので,$\phi'_j\cdot(\alpha_{\mathrm{hi}}-\alpha_{\mathrm{lo}})\ge0$と$\phi'_j\cdot(\alpha_{\mathrm{hi}}-\alpha_j)\ge0$は同値であり,どちらでも同じ処理となる.
- \begin{algorithm}[!t]
- \caption{強いWolfe条件を満たすステップ幅を求める直線探索アルゴリズム.}
- \label{algo:line_search}
- \begin{algorithmic}[1]
- \STATE $\alpha_0:=0$, choose $\alpha_1>0$ and $\alpha_{\mathrm{max}}$
- \STATE $\phi_0:=\phi(0)$, $\phi'_0:=\phi'(0)$
- \STATE $i:=1$
- \LOOP
- \STATE $\phi_i:=\phi(\alpha_i)$
- \IF{$\phi_i>\phi_0+c_1\alpha_i\phi'_0$ or ($\phi_i\ge\phi_{i-1}$ and $i>1$)}
- \RETURN $\alpha_*:=\mathbf{zoom}(\alpha_{i-1},\alpha_i)$
- \ENDIF
- \STATE $\phi'_i:=\phi'(\alpha_i)$
- \IF{$|\phi'_i|\le-c_2\phi'_0$}
- \RETURN $\alpha_*:=\alpha_i$
- \ENDIF
- \IF{$\phi'_i\ge0$}
- \RETURN $\alpha_*:=\mathbf{zoom}(\alpha_i,\alpha_{i-1})$
- \ENDIF
- \STATE Choose $\alpha_{i+1}\in(\alpha_i,\alpha_{\mathrm{max}})$
- \STATE $i:=i+1$
- \ENDLOOP
- \end{algorithmic}
- \end{algorithm}
- \begin{algorithm}[!t]
- \caption{zoom関数.引数は$\alpha_{\mathrm{lo}}$, $\alpha_{\mathrm{hi}}$の順に与えられるとする.}
- \label{algo:zoom}
- \begin{algorithmic}[1]
- \STATE $\phi_0:=\phi(0)$, $\phi'_0:=\phi'(0)$
- \LOOP
- \STATE Choose $\alpha_j\in(\min\{\alpha_{\mathrm{lo}},\alpha_{\mathrm{hi}}\},\max\{\alpha_{\mathrm{lo}},\alpha_{\mathrm{hi}}\})$
- \STATE $\phi_j:=\phi(\alpha_j)$
- \IF{$\phi_j>\phi_0+c_1\alpha_j\phi'_0$ or $\phi_j\ge\phi(\alpha_{\mathrm{lo}})$}
- \STATE $\alpha_{\mathrm{hi}}:=\alpha_j$
- \ELSE
- \STATE $\phi'_i:=\phi'(\alpha_i)$
- \IF{$|\phi'_j|\le-c_2\phi'_0$}
- \RETURN $\alpha_*:=\alpha_j$
- \ENDIF
- \IF{$\phi'_j\cdot(\alpha_{\mathrm{hi}}-\alpha_j)\ge0$}
- \STATE $\alpha_{\mathrm{hi}}:=\alpha_{\mathrm{lo}}$
- \ENDIF
- \STATE $\alpha_{\mathrm{lo}}:=\alpha_j$
- \ENDIF
- \ENDLOOP
- \end{algorithmic}
- \end{algorithm}
- 以下の5.1, 5.2節で,アルゴリズム\ref{algo:line_search}, \ref{algo:zoom} の手続きが妥当であることを確認する.
- \subsection{アルゴリズム\ref{algo:line_search} についての補足}
- 本節では,アルゴリズム\ref{algo:line_search} の手続きが妥当であることを確認する.
- アルゴリズム\ref{algo:line_search} は,補題\ref{lem:strong_wolfe_1}にしたがい,強いWolfe条件を満たす区間$(\alpha_{i-1},\alpha_i)$が見つかるまで$\alpha_1<\alpha_2<\dots$と$\alpha_k$を更新する.
- 第6, 13行目の条件式は,補題\ref{lem:strong_wolfe_1}により,区間$(\alpha_{i-1},\alpha_i)$が強いWolfe条件を満たすステップ幅を含む条件を表す.
- また,第10行目の条件式は,強いWolfe条件を表す.
- 第16行目で区間$(\alpha_i,\alpha_{\mathrm{max}})$から$\alpha_{i+1}$を選ぶことで,$\{\alpha_i\}$が単調増加列で,$\alpha_{\mathrm{max}}$より小さい値をとることが保証できる.
- 第7, 14行目において,\textbf{zoom}関数を呼ぶときに渡す引数が適切であることを確認する.
- \paragraph{第7行目}
- 補題\ref{lem:strong_wolfe_1}より$(\alpha_{i-1},\alpha_i)$は強いWolfe条件を満たすステップ幅を含む区間であり,
- $\phi(\alpha_0)>\phi(\alpha_1)>\dots>\phi(\alpha_{i-1})$であり,$\phi'(\alpha_{i-1})<0$であることから,$\phi'(\alpha_{i-1})(\alpha_i-\alpha_{i-1})<0$となるため,
- $\alpha_{\mathrm{lo}}=\alpha_{i-1}$, $\alpha_{\mathrm{hi}}=\alpha_i$として\textbf{zoom}関数を呼ぶことができる.
- \paragraph{第14行目}
- 補題\ref{lem:strong_wolfe_1}より$(\alpha_{i-1},\alpha_i)$は強いWolfe条件を満たすステップ幅を含む区間であり,
- 第6行目の条件文より$\phi(\alpha_i)<\phi(\alpha_{i-1})$であり,第13行名の条件文より$\phi'(\alpha_i)(\alpha_{i-1}-\alpha_i)<0$となるため,
- $\alpha_{\mathrm{lo}}=\alpha_i$, $\alpha_{\mathrm{hi}}=\alpha_{i-1}$として\textbf{zoom}関数を呼ぶことができる.
- 以上より,アルゴリズム\ref{algo:line_search} において設定される\textbf{zoom}関数の引数$\alpha_{\mathrm{lo}}$, $\alpha_{\mathrm{hi}}$は適切であり,アルゴリズム\ref{algo:line_search} の手続きは妥当であることが確認された.
- \subsection{アルゴリズム\ref{algo:zoom} についての補足}
- 本節では,アルゴリズム\ref{algo:zoom} の手続きが妥当であることを確認する.
- アルゴリズム\ref{algo:zoom} では,既に述べたとおり,
- $\alpha_{\mathrm{lo}}$, $\alpha_{\mathrm{hi}}$が\textbf{zoom}関数における条件1--3を満たすよう,
- $\alpha_{\mathrm{lo}}$, $\alpha_{\mathrm{hi}}$を更新する.
- ただし,選んだ$\alpha_j$が強いWolfe条件を満たせば,それを返して反復を終了する.
- よって,第6, 13, 15行目における更新が\textbf{zoom}関数にける条件1--3を満たすことを確認すればよい.
- \paragraph{第6行目}
- まず,$\alpha_{\mathrm{lo}}<\alpha_{\mathrm{hi}}$とする.
- $\alpha_j>\alpha_{\mathrm{lo}}$かつ$\phi'(\alpha_{\mathrm{lo}})<0$より,$\phi'(\alpha_{\mathrm{lo}})(\alpha_j-\alpha_{\mathrm{lo}})<0$が成り立つ.
- また補題\ref{lem:strong_wolfe_1}より$(\alpha_{\mathrm{lo}},\alpha_j)$は強いWolfe条件を満たすステップ幅を含む.
- したがって,$\alpha_{\mathrm{hi}}:=\alpha_j$としても,$\alpha_{\mathrm{lo}}$, $\alpha_{\mathrm{hi}}$に関する条件は満たされる.
- 次に,$\alpha_{\mathrm{lo}}>\alpha_{\mathrm{hi}}$とする.
- $\alpha_j<\alpha_{\mathrm{lo}}$かつ$\phi'(\alpha_{\mathrm{lo}})>0$より,$\phi'(\alpha_{\mathrm{lo}})(\alpha_j-\alpha_{\mathrm{lo}})<0$が成り立つ.
- $\phi(\alpha_j)\ge\phi(\alpha_{\mathrm{lo}})$ならば,区間$(\alpha_j,\alpha_{\mathrm{lo}})$上$\phi'(\alpha)>0$と仮定すると矛盾するため,
- $\phi'(\alpha)\le0$となる$\alpha\in(\alpha_j,\alpha_{\mathrm{lo}})$が存在する.
- $\phi'$の連続性から区間$(\alpha_j,\alpha_{\mathrm{lo}})$は強いWolfe条件を満たすステップ幅を含む.
- $\phi(\alpha_j)>\phi(\alpha_0)+c_1\alpha_j\phi'(\alpha_0)$とする.
- アルゴリズム\ref{algo:line_search} の第7, 14行目のいずれの場合でも,$\alpha_{\mathrm{lo}}$は十分な降下条件を含む.
- \textbf{zoom}関数内でも$\alpha_{\mathrm{lo}}$は$\alpha_j$が十分な降下条件を満たすときに$\alpha_{\mathrm{lo}}:=\alpha_j$と更新されるため,$\alpha_{\mathrm{lo}}$は常に十分な降下条件を満たす.
- ここで,$\alpha_j$が十分な降下条件を満たさない場合,区間$(\alpha_j,\alpha_{\mathrm{lo}})$において$\phi'(\alpha)>0$と仮定すると矛盾する場合,
- $\phi'(\alpha)<0$を満たす$\alpha\in(\alpha_j,\alpha_{\mathrm{lo}})$が存在する.
- 特に,強いWolfe条件を満たす$\alpha$が区間$(\alpha_j,\alpha_{\mathrm{lo}})$に存在する.
- 以上より,第6行目の更新で,$\alpha_{\mathrm{lo}}$, $\alpha_{\mathrm{hi}}$に関する条件は満たされる.
- \paragraph{第12行目を満たす場合の第13, 15行目}
- $\alpha_{\mathrm{hi}}^{\mathrm{new}}:=\alpha_{\mathrm{lo}}$とし,第15行目より$\alpha_{\mathrm{lo}}^{\mathrm{new}}:=\alpha_j$とすると,$\alpha_{\mathrm{hi}}-\alpha_j$と$\alpha_{\mathrm{lo}}-\alpha_j$は符号が異なるので,
- \[ \phi'(\alpha_{\mathrm{lo}}^{\mathrm{new}})(\alpha_{\mathrm{hi}}^{\mathrm{new}}-\alpha_{\mathrm{lo}}^{\mathrm{new}})=\phi'(\alpha_j)(\alpha_{\mathrm{lo}}-\alpha_j)<0 \]
- が成り立つ.
- $\alpha_{\mathrm{lo}}<\alpha_{\mathrm{hi}}$のとき,第12行目の条件文を満たすならば$\phi'(\alpha_j)>0$であるが,第5行目の条件文より$\phi(\alpha_{\mathrm{lo}})>\phi(\alpha_j)$である.
- よって,区間$(\alpha_{\mathrm{lo}},\alpha_j)$に強いWolfe条件を満たすステップ幅を含む.
- $\alpha_{\mathrm{lo}}>\alpha_{\mathrm{hi}}$のとき,第12行目の条件文を満たすならば$\phi'(\alpha_j)<0$であるが,第5行目の条件文より$\phi(\alpha_j)<\phi(\alpha_{\mathrm{lo}})$である.
- よって,区間$(\alpha_j,\alpha_{\mathrm{lo}})$に強いWolfe条件を満たすステップ幅を含む.
- \paragraph{第12行目を満たさない場合の第15行目}
- $\alpha_{\mathrm{hi}}^{\mathrm{new}}:=\alpha_{\mathrm{hi}}$なので,
- \[ \phi'(\alpha_{\mathrm{lo}}^{\mathrm{new}})(\alpha_{\mathrm{hi}}^{\mathrm{new}}-\alpha_{\mathrm{lo}}^{\mathrm{new}})=\phi'(\alpha_j)(\alpha_{\mathrm{hi}}-\alpha_j)<0 \]
- が保証される.
- また,第5行目の条件文より$\phi(\alpha_j)<\phi(\alpha_{\mathrm{lo}})$である.
- 上記と同様に,$\alpha_{\mathrm{lo}}<\alpha_{\mathrm{hi}}$のとき,$\phi'(\alpha_j)<0$となるため,区間$(\alpha_j,\alpha_{\mathrm{hi}})$は強いWolfe条件を満たすステップ幅を含む.
- $\alpha_{\mathrm{lo}}>\alpha_{\mathrm{hi}}$のとき,$\phi'(\alpha_j)>0$となるため,区間$(\alpha_{\mathrm{hi}},\alpha_j)$は強いWolfe条件を満たすステップ幅を含む.
- したがって,第12行目の更新でも,$\alpha_{\mathrm{lo}}$, $\alpha_{\mathrm{hi}}$に関する条件は満たされる.
- 以上より,アルゴリズム\ref{algo:line_search}, \ref{algo:zoom} の妥当性が確認された.
- \begin{thebibliography}{9}
- \bibitem{Nocedal1} J. Nocedal, S. J. Wright, Numerical Optimization, Springer, New York, 1999.
- \end{thebibliography}
- \newpage
- \appendix
- \AppendixSection{Pythonによる実装例}
- 本節では,本稿で述べたアルゴリズムのPython 3.5による実装例をソースコード\ref{lst:wolfe}に記載する.
- 実装には\verb|numpy|モジュールが必要である.
- \begin{lstlisting}[caption=wolfeモジュール, label=lst:wolfe]
- """強いWolfe条件を満たすステップ幅を求める直線探索を含む
- 最急降下法により目的関数の無制約最適化問題の最適解を求めるためのモジュール.
- [1]を参考に実装した.
- [1] J. Nocedal, S. J. Wright, Numerical Optimization, Springer, New York, 1999.
- """
- import numpy as np
- def optimize(x0, f, df, c1=1.0e-4, c2=0.9, alpha_max=10.0,
- k_max=100000, eps=1.0e-15):
- """最急降下法による無制約最適化問題の最適解を返す.
- Args:
- x0: 初期点
- f: 目的関数
- df: 目的関数の導関数
- c1: 0 < c1 < c2 < 1を満たす定数
- c2: 0 < c1 < c2 < 1を満たす定数
- alpha_max: 降下方向のノルムを1としたときのステップ幅 α の最大値
- k_max: 最大反復回数
- eps: 収束判定条件
- Returns:
- 指定された目的関数の無制約最適化問題の最適解
- """
- x = x0
- f_k = f(x)
- for k in range(k_max):
- if np.linalg.norm(df(x)) < eps:
- # 収束判定条件を満たしたとき,最適解を返す
- return x
- # 降下方向を最急降下方向にとる
- p = -df(x)
- # φ, φ'を定義
- phi = lambda alpha, p=p: f(x + alpha*p)
- dphi = lambda alpha, p=p: np.dot(df(x + alpha*p), p)
- # 目的関数の関数値
- f_k_1, f_k = f_k, f(x)
- # ステップ幅の初期値の計算
- alpha_1 = set_alpha_init(f_k, f_k_1, dphi(0)) if k > 0 else 1.0
- # 勾配ベクトルの大きさが小さい場合でも適切なステップ幅が求まるよう
- # ステップ幅の最大値を勾配ベクトルの大きさで割っておく
- alpha_max_scaled = alpha_max / np.linalg.norm(p)
- # 直線探索で強いWolfe条件を満たすステップ幅を求める
- alpha = line_search(alpha_1, alpha_max_scaled, phi, dphi, c1, c2)
- # 近似解の更新
- x += alpha*p
- raise Exception('Loop maximum exceeded.')
- def line_search(alpha_1, alpha_max, phi, dphi, c1, c2, loop_max=100,
- alpha_when_failure=1.0e-5):
- """直線探索によって強いWolfe条件を満たすステップ幅を返す.
- Args:
- alpha_1: ステップ幅の候補の初期値
- alpha_max: ステップ幅の最大値
- phi: phi(α) = f(x_k + α_kp_k) となる関数
- dphi: phiの導関数
- c1: 0 < c1 < c2 < 1を満たす定数
- c2: 0 < c1 < c2 < 1を満たす定数
- loop_max: 最大反復回数
- alpha_when_failure: 失敗したときに選ぶステップ幅
- Returns:
- 強いWolfe条件を満たすステップ幅
- """
- phi_0, dphi_0 = phi(0), dphi(0)
- alpha_pre, alpha_i = 0.0, alpha_1
- phi_i = phi_0
- for i in range(1, loop_max+1):
- # φの関数値
- phi_pre, phi_i = phi_i, phi(alpha_i)
- if phi_i > phi_0 + c1*alpha_i*dphi_0 or (i > 1 and phi_i >= phi_pre):
- # 区間(alpha_pre, alpha_i)が強いWolfe条件を含む場合
- alpha_lo, alpha_hi = alpha_pre, alpha_i
- return zoom(alpha_lo, alpha_hi, phi, dphi, c1, c2,
- alpha_when_failure=alpha_when_failure)
- # φの導関数値
- dphi_i = dphi(alpha_i)
- if np.abs(dphi_i) <= -c2*dphi_0:
- # 強いWolfe条件を満たす
- return alpha_i
- if dphi_i >= 0:
- # 区間(alpha_pre, alpha_i)が強いWolfe条件を含む場合
- alpha_lo, alpha_hi = alpha_i, alpha_pre
- return zoom(alpha_lo, alpha_hi, phi, dphi, c1, c2,
- alpha_when_failure=alpha_when_failure)
- # (alpha_pre, alpha_i)は強いWolfe条件を含まないので,
- # 区間(alpha_i, alpha_max)から新しいステップ幅の候補を選ぶ.
- alpha_pre, alpha_i = alpha_i, choose_alpha(alpha_i, alpha_max, phi, dphi)
- # 探索に失敗した場合
- return alpha_when_failure
- def zoom(alpha_lo, alpha_hi, phi, dphi, c1, c2, loop_max=100,
- alpha_when_failure=1.0e-5):
- """強いWolfe条件を満たすステップ幅を返す.
- Args:
- alpha_lo: 区間の端点
- alpha_hi: 区間の端点
- phi: phi(α) = f(x_k + α_kp_k) となる関数
- dphi: phiの導関数
- c1: 0 < c1 < c2 < 1を満たす定数
- c2: 0 < c1 < c2 < 1を満たす定数
- loop_max: 最大反復回数
- alpha_when_failure: 失敗したときに選ぶステップ幅
- Returns:
- 強いWolfe条件を満たすステップ幅
- """
- phi_0, dphi_0 = phi(0), dphi(0)
- for _ in range(loop_max):
- # alpha_lo, alpha_hiに挟まれた値から
- # 新しいステップ幅の候補を選ぶ.
- alpha_j = choose_alpha(alpha_lo, alpha_hi, phi, dphi)
- # φの関数値
- phi_j = phi(alpha_j)
- if phi_j > phi_0 + c1*alpha_j*dphi_0 or phi_j >= phi(alpha_lo):
- alpha_hi = alpha_j
- else:
- dphi_j = dphi(alpha_j)
- if np.abs(dphi_j) <= -c2*dphi_0:
- # 強いWolfe条件を満たす
- return alpha_j
- if dphi_j*(alpha_hi - alpha_j) >= 0:
- alpha_hi = alpha_lo
- alpha_lo = alpha_j
- # 探索に失敗した場合
- return alpha_when_failure
- def choose_alpha(alpha_i_1, alpha_i, phi, dphi, eps_alpha=1.0e-5):
- """多項式補間に基づいて,新しいステップ幅の候補を生成して返す.
- Args:
- alpha_i_1: ステップ幅の候補
- alpha_i: ステップ幅の候補
- phi: phi(α) = f(x_k + α_kp_k) となる関数
- dphi: phiの導関数
- eps_alpha: αに関するしきい値
- Returns:
- 新しいステップ幅の候補
- """
- if np.abs(alpha_i - alpha_i_1) < eps_alpha:
- # alpha_i, alpha_i_1 が近すぎる場合は,
- # alpha_i, alpha_i_1 の中点を返す.
- return (alpha_i + alpha_i_1) / 2
- # 2点の関数値と導関数値 φ(α_i), φ(α_{i-1}), φ'(α_i), φ'(α_{i-1})から,
- # Hermite補間によって3次関数 ψ を求め
- # その極小点をもって新しいステップ幅の候補とする.
- phi_i, phi_i_1 = phi(alpha_i), phi(alpha_i_1)
- dphi_i, dphi_i_1 = dphi(alpha_i), dphi(alpha_i_1)
- d1 = dphi_i + dphi_i_1 - 3*(phi_i - phi_i_1)/(alpha_i - alpha_i_1)
- # 補間多項式 ψ の最高次係数
- leading_coefficient = 2*d1 + dphi_i + dphi_i_1
- eps_leading_coeff = 1.0e-15
- if np.abs(leading_coefficient) < eps_leading_coeff:
- # 補間多項式 ψ が2次以下の関数になる場合は,alpha_i, alpha_i_1 の中点を返す.
- return (alpha_i + alpha_i_1) / 2
- # 補間多項式 ψ の導関数 ψ' の判別式
- discriminant = d1*d1 - dphi_i_1*dphi_i
- if discriminant < 0:
- # 補間3次多項式が極値をもたない場合は,
- # alpha_i, alpha_i_1 の中点を返す.
- return (alpha_i + alpha_i_1) / 2
- d2 = np.sqrt(discriminant)
- alpha_new = alpha_i - (alpha_i - alpha_i_1)*(dphi_i + d2 - d1)/(dphi_i - dphi_i_1 + 2*d2)
- if (alpha_i_1 - alpha_new)*(alpha_new - alpha_i) < 0:
- # alpha_new が alpha_i_1 と alpha_iの間にない場合は
- # alpha_i, alpha_i_1 の中点を返す.
- # この評価は alpha_i_1 と alpha_i の大小関係によらない.
- return (alpha_i + alpha_i_1) / 2
- if np.abs(alpha_i - alpha_new) < eps_alpha \
- or np.abs(alpha_i_1 - alpha_new) < eps_alpha \
- or alpha_new < eps_alpha:
- # 新しく生成された alpha_new が
- # alpha_i, alpha_i_1 に近すぎる場合や
- # 0に近すぎる場合は alpha_i, alpha_i_1 の中点を返す.
- return (alpha_i + alpha_i_1) / 2
- # 新しく生成された alpha_new が alpha_i_1 と alpha_i の間にあり,
- # 適切な値と判断できたのでそれを返す.
- return alpha_new
- def set_alpha_init(f_k, f_k_1, dphi_0):
- """ステップ幅の候補の初期値を返す.
- Args:
- f_k: 第k反復の近似解における関数値
- f_k_1: 第(k-1)反復の近似解における関数値
- dphi_0: φ'(0)
- Returns:
- ステップ幅の候補の初期値
- """
- alpha_1 = 2*(f_k - f_k_1) / dphi_0
- alpha_1 *= 1.01
- alpha_1 = 1.0 if alpha_1 > 1.0 else alpha_1
- return alpha_1
- def main():
- """サンプルプログラム
- """
- # 目的関数とその導関数
- f = lambda x: (x[0] - 4.0)**4 + (x[1] - 4.0)**4
- df = lambda x: np.array([4*(x[0] - 4.0)**3, 4*(x[1] - 4.0)**3])
- # 初期点
- x0 = np.array([1.0, 1.0])
- # 最適解を求める
- try:
- x = optimize(x0, f, df)
- print(x)
- except Exception as e:
- print('An error occurred: %s' % str(e))
- if __name__ == '__main__':
- main()
- \end{lstlisting}
- \end{document}
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement