【Ruby】 ObjectSpace.each_objectとは
こんにちは、しきゆらです。
気が付くと、年が明けて2月です。
今回は、先輩に教えてもらった謎のコードを解読していきます。
謎のコードとは下記のもの。
[ruby]
ObjectSpace.each_object(ActiveRecord::Relation).each(&:reset)
GC.start
[/ruby]
いきさつ
AWS上にあるインスタンスでRailsを動かしていました。
その中で、DBのデータにミスがあったので、1.5万件ほどのデータに紐づく諸々の差し替え作業を行っていました。
このときにおこった問題としては「メモリ使い過ぎで怒られる」という状況でした。
コードを書き換えたりループを工夫したりしても解決せず困っていたとこで先輩が下記のようなコードを教えてくれました。
[ruby]
ModelClass.find_in_batches do |objects|
# 差し替える処理
ObjectSpace.each_object(ActiveRecord::Relation).each(&:reset) # ???
GC.start # ???
end
[/ruby]
このコードが入ると、途中で処理を止められることなく走らせることができるようになりました。
その当時は、先輩すげぇ~と思いながら後で調べておこうと思ってメモしておきました。
そのまま放置されていたものを思い出したので、時間のあるうちに調べてみよう、ということで調べてみました。
ObjectSpaceとは
そもそも、見慣れないクラス名です。
調べてみると、Rubyさんの組み込みモジュールでした。
リファレンスでは
全てのオブジェクトを操作するためのモジュール
module ObjectSpace (Ruby 2.7.0 リファレンスマニュアル)
とのこと。
わかるようなわからないような・・・という感じですが、定義されているメソッド類を見てみると
Rubyで定義したオブジェクトたちに対してあれこれしたり、プロファイルを取るときなどに使われるもののようでした。
ObjectSpace#each_object
その中に、ありました「each_object」メソッド。
「ObjectSpace」が何かわかれば、メソッド名で何をするものなのか大方予想が付きますね。
調べてみると、
指定されたクラスとObject#kind_of?の関係にあるすべてのオブジェクトに対して繰り返す
ObjectSpace.#each_object (Ruby 2.7.0 リファレンスマニュアル)
とのこと。
上記のコードでは「ActiveRecord::Relation」クラスのオブジェクトすべてに対する処理を行うということですね。
こいつは、ブロックを渡すとそのブロックを実行し、繰り返し回数を返すようです。
そして、ブロックが渡らない場合はEnumeratorオブジェクトを返すとのこと。
上記のコードでは、eachメソッドをつなげているので後者ですね。
なお、引数を与えなければすべてのオブジェクトに対して繰り返すようです。
また、Fixnumなどは対象外のようです。
つまり、上記コードの1行目はActiveRecord::Relationクラスのすべてのオブジェクト一つ一つに対して「reset」メソッドを呼び出していることになりますね。
ActiveRecord::Retation#reset
では、「ActiveRecord::Retation#reset」は何者でしょうか。
定義を確認してみると、内部で保持しているデータをすべて破棄しているようです。
つまり、上記コードの1行目が実行されたら、「ActiveRecord::Retationのオブジェクト」はすべて空のデータとなるようです。
1行目の内容は把握できました。
2行目を追っていきます。
GC
見たままGCでしょうね。
一応調べてみると、RubyのGCを制御するためのモジュールでした。
正確な情報は持っていませんが、イメージとしては使用していないデータを解放する仕組みという認識です。
メモリ上にあるいらないものを削除してきれいにしてくれる裏方さん。
GC#start
もう、見たままでしょう。
GC.start (Ruby 2.7.0 リファレンスマニュアル)
GCの処理を始めるためのメソッドです。
別メソッドでGCを禁止するようなこともできるようですが、このメソッドで実行した場合はGCを始めるようです。
すべてを見たうえで
[ruby]
ObjectSpace.each_object(ActiveRecord::Relation).each(&:reset)
GC.start
[/ruby]
たった2行のコードですが、知らないことが満載でした。
処理を簡単にまとめると、この処理の前までに作成されたすべてのActiveRecord::Relationオブジェクトを空にしてGCに削除してもらう感じでしょうか。
1.5万件のデータを処理していると、たくさんの不要なオブジェクトがたまっていき途中で利用できるメモリサイズをオーバーしてしまうということで、それを防ぐために一定の処理を終えると不要になったオブジェクトを削除して次に進む、ということを行っているようですね。
find_eachやfind_in_batchesなどである程度の粒度で処理することなどはわかっていましたが、それですら怒られるのでどうすればいいのかわからないところで、まさか自分でGCを動かして削除させることができるとは・・・。
まだまだ知らないことがいっぱいあるということですね。
まぁよく使うことではないとは思いますが、知っていると困ったときに役に立ちそうです。
まとめ
今回は、先輩が教えてくれた謎のコードを調べながら内容を理解してみました。
ActiveRecordなど、Githubで公開されているコードについては中身を読むことができるので、きちんと中身を知っておくことは大事だなと思いました。
今回は、ここまで。
おわり。