「SWE-bench Verified」は2024年8月にOpenAIが公開したベンチマークで、AIのプログラミング能力を測る代表的な指標として広く使われてきました。新たな分析により、SWE-bench Verifiedには2つの重大な問題があり、「もはや最先端モデルの能力を正しく測定するべきベンチマークとして適切ではない」とOpenAIが提言しています。
アルツハイマー病は1906年に正式に記録されてから100年以上研究されてきたのに加え、アメリカ国立衛生研究所(NIH)はアルツハイマー病と認知症の研究に年間約40億ドル(約6379億円)を投じているにも関わらず、認知機能の低下を止めたり元に戻したりす ...
Appleは2026年後半に新型AirPodsを発売予定で、これまでこの新型モデルは「ハイエンドのAirPods Pro」と呼ばれてきました。この「ハイエンドのAirPods Pro」が、「AirPods Ultra」となる可能性が高くなっています。
成熟したオスのタコには、精子の入った精包を受け渡すために特化した「交接腕」が存在します。長崎大学の晴木啓二朗氏らの研究で、マメダコという小型のタコが交接腕の欠損リスクを回避していることが分かりました。
OpenAIがコーディングエージェントのオーケストレーションツール「Symphony」を開発しました。Symphonyは大量のCodexエージェントを自動管理できるツールで、導入によってプルリクエストの件数が5倍に増加したチームもあるとのこと。Sym ...
ブラウザ上やアプリから使えるオンラインビジュアルツールキットの「Canva」で、「パレスチナ」という単語が自動で別の表現に書き換えられてしまうという問題が発生していたことが明らかになりました。 Canva apologizes after its ...
GIGAZINEの記事を電子化した書籍を対象に、「2026年第1四半期で最もたくさん読まれた記事トップ100」がわかるランキングを作ってみました。Google検索の影響が大きい普段のアクセス解析記事と違い、Amazonならではのランキングとなっていま ...
1930年時点までのテキストだけで訓練された「ビンテージ言語モデル」として、130億パラメータの「talkie-1930」が登場しました。talkie-1930は現代の知識を一切持たず、過去の文献のみを学習している点が特徴で、まるで過去の人物と会話し ...
「Amazon Review Distiller」は5億件以上のAmazonレビューを抽出・解析することで「めちゃくちゃなレビュー」をカテゴリごとに選出しています。サイトではAmazonに近いUIで各カテゴリの特にひどいレビューを見ることができるほか ...
もつ鍋の〆(シメ)に楽しむうどんをイメージしたというカップうどん「日清のどん兵衛 ...
WordPress.comが、WordPress向けのエージェント型コーディングツール「Studio ...